DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

1조 파라미터, 그런데 활성은 32B

숫자부터 정리하자. DeepSeek V4는 총 파라미터 1조(1T)지만, 토큰당 실제 활성되는 파라미터는 32~37B다. 전체의 3%. 이게 MoE(Mixture-of-Experts, 전문가 혼합) 아키텍처의 핵심이다. 1조라는 숫자가 눈길을 끌지만, 실제 추론 비용을 결정하는 건 활성 파라미터 수다. 즉 V4는 35B급 밀집(dense) 모델과 비슷한 연산량으로, 1T 모델의 지식 용량을 활용한다.

주의: 2026년 3월 19일 기준 V4는 아직 정식 출시 전이다. "V4 Lite"가 3월 9일 DeepSeek API 엔드포인트에 잠시 노출됐다가 수 시간 만에 비공개로 전환됐고, 정식 출시는 2026년 4월로 예상된다. 아래 벤치마크 수치는 내부 유출 데이터이며, 제3자 검증은 아직 안 됐다.

배경 지식: MoE(전문가 혼합)란 무엇인가?

GPT-4나 Claude 같은 일반적인 트랜스포머 모델에서는 모든 파라미터가 모든 토큰 처리에 참여한다. 70B 파라미터 모델이면 입력 토큰 하나마다 70B 파라미터가 전부 작동한다. 이를 "밀집(dense) 모델"이라 부른다.

MoE는 다른 방식을 취한다. 트랜스포머 레이어마다 하나의 거대한 FFN(Feed-Forward Network, 피드포워드 네트워크) 대신 여러 개의 작은 "전문가(expert)" 네트워크를 둔다. 라우터(게이팅 네트워크라고도 하는 작은 신경망)가 각 토큰을 분석하고, 어떤 전문가가 처리할지 선택한다.

밀집 모델:
토큰 → [전체 파라미터] → 출력

MoE 모델:
토큰 → 라우터 → [전문가 3, 전문가 7, 전문가 15] → 출력
                 (128개 전문가 중 선택)
                 (나머지 전문가는 대기)

MoE가 중요한 이유

장점은 세 가지다:

학습 효율성: 같은 컴퓨팅 예산으로 더 큰 모델을 학습할 수 있다. 매 학습 단계에서 선택된 전문가만 업데이트하면 되니까.
추론 효율성: 활성 파라미터만 연산하면 되므로, 1T MoE 모델이 ~35B 밀집 모델 수준의 속도로 동작한다.
전문화: 서로 다른 전문가가 서로 다른 영역(코드, 수학, 언어 등)을 학습해서, 파라미터당 성능이 더 높다.

단점도 있다. 전체 모델이 메모리에 올라가야 한다(또는 효율적으로 오프로딩/스와핑해야 한다). 라우터가 어떤 전문가를 선택할지 미리 알 수 없으므로, 모든 전문가의 가중치가 접근 가능해야 하기 때문이다. 1T 파라미터 모델을 FP16(16비트 부동소수점)으로 올리려면 가중치만 ~2TB의 VRAM이 필요하다. V4 배포에 멀티 GPU 구성이 필수적인 이유다.

V4의 MoE가 다른 점

V4는 Top-16 라우팅을 쓴다. 토큰당 16개 전문가를 활성화하며, 이는 경쟁 모델들보다 훨씬 많다:

모델	총 파라미터	활성 파라미터	라우팅
GPT-4 (추정)	~1.8T	~280B	레이어당 Top-2
Mixtral 8x22B	176B	39B	Top-2
DeepSeek V3	671B	37B	Top-2/4
DeepSeek V4	~1T	32-37B	Top-16

Top-16은 토큰당 더 많은 전문가를 쓰기 때문에, 연산량은 약간 늘지만 더 다양한 전문 지식을 동시에 활용할 수 있어 품질이 높아진다. 특히 코딩이나 다국어 같은 여러 영역의 지식이 교차하는 작업에서 강점을 보인다.

스펙 테이블

항목	DeepSeek V4	DeepSeek V3	변화
총 파라미터	~1조 (1T)	671B	+49%
활성 파라미터/토큰	32~37B	37B	유사
아키텍처	MoE Top-16	MoE Top-2/4	전문가 수 증가
컨텍스트 윈도우	100만 토큰	128K	7.8배
멀티모달	네이티브 (텍스트+이미지+비디오+오디오)	텍스트 only	신규
핵심 혁신	Engram Memory, DSA, mHC	—	—
학습 하드웨어	화웨이 Ascend	Nvidia A100/H100	변경

아키텍처 3가지 혁신

1. Engram Conditional Memory

2026년 1월 12일 논문 공개. 핵심은 O(1) 지식 조회다.

표준 트랜스포머에서 특정 사실을 떠올리려면 어텐션(attention, 입력 간 관계를 계산하는 메커니즘)이 전체 컨텍스트를 훑어야 한다 -- O(n) 연산이므로 컨텍스트가 길어질수록 비용이 급증한다. Engram은 고정 패턴(엔티티명, 관용구, 상식 지식 등)을 해시 기반 룩업 테이블(lookup table, 키-값 검색 구조)로 GPU VRAM이 아니라 시스템 DRAM에 저장해서, 이런 정보를 O(1)에 조회한다. 논문이 밝힌 Sparsity Allocation Law(희소성 할당 법칙): sparse 파라미터의 20~25%를 메모리에, 나머지를 연산에 할당해야 최적이다.

비유하면, 모델에게 즉시 참조할 수 있는 "레퍼런스 북"을 준 것이다. 매번 컨텍스트 전체를 다시 읽을 필요가 없다.

실용적 의미: 100만 토큰 컨텍스트 비용이 128K 수준으로 떨어진다. Engram이 로컬 의존성을 처리하니까 어텐션은 장거리 구조에만 집중하면 된다.

2. Dynamic Sparse Attention (DSA, 동적 희소 어텐션)

표준 어텐션의 연산 복잡도는 O(n^2)다. 컨텍스트 길이를 2배로 늘리면 연산량이 4배로 뛴다. DSA는 "Lightning Indexer"라는 메커니즘을 도입해, 전체 어텐션을 계산하기 전에 관련 있는 컨텍스트 구간만 먼저 식별한다.

결과적으로 장문 컨텍스트에서 표준 어텐션 대비 연산 비용 ~50% 절감. 검색 성능(retrieval) 벤치마크에서도 품질 저하 없이 이 효율을 달성했다.

개념적으로 Flash Attention(메모리 접근 패턴을 최적화하는 기법)이나 Sparse Attention 같은 기존 효율화 기법과 비슷하지만, DSA는 더 상위 레벨에서 작동한다. 어텐션 연산 자체를 최적화하는 게 아니라, 어떤 컨텍스트 청크(chunk, 구간)에 어텐션을 할지 선택하는 것이다. 즉 Flash Attention과 DSA는 상호 보완적이며 함께 적용할 수 있다.

3. Modified Hopfield Continuum (mHC, 수정 홉필드 연속체)

극단적 장문(50만 토큰 이상)에서는 표준 어텐션이 수치적으로 불안정해진다. softmax 함수에서 어텐션 가중치가 너무 분산(dilute)되면서 모델이 이전 내용을 사실상 "잊어버리는" 현상이 발생한다. mHC는 홉필드 네트워크(Hopfield Network, 연상 기억을 모델링하는 신경망)의 에너지 함수를 연속 공간으로 확장한 것으로, 임의의 컨텍스트 길이에서도 어텐션 안정성을 수학적으로 보장한다.

세 기술의 시너지: 메모리(Engram) + 안정성(mHC) + 연산 효율(DSA) → 장문 트랜스포머의 3대 병목(지식 조회, 수치 안정성, 연산량)을 동시에 해결.

벤치마크 (유출, 미검증)

벤치마크	DeepSeek V4	Claude Opus 4.6	GPT-5.4	측정 내용
HumanEval	~90%	~88%	~85%	코드 생성(Python)
SWE-bench Verified	~78-80%	80.9%	72%	실제 버그 수정
MMLU-Pro	~88%	~87%	~89%	다영역 지식
다국어	1위	—	—	다국어 성능

코딩에서 V4가 앞서고, 실제 버그 수정(SWE-bench)에서는 Claude가 앞선다. 범용 추론(MMLU-Pro)은 GPT-5.4가 근소하게 리드. 어떤 모델도 모든 벤치마크에서 1위를 차지하지 못한다.

이 수치는 신뢰도에 한계가 있다. 유출 데이터이며, LLM 업계에서 벤치마크 게이밍(의도적으로 벤치마크 테스트셋과 유사한 데이터로 학습해 점수를 끌어올리는 행위)은 잘 알려진 현상이다. 정식 출시 후 LMSYS Chatbot Arena(실사용자 블라인드 평가 플랫폼) 같은 독립 평가에서 보다 정확한 그림이 나올 것이다.

가격 — 이게 핵심

V3 기준 추정 (정식 가격 미발표):

구분	DeepSeek V4 (추정)	Claude Opus 4.6	차이
입력 (캐시 히트)	~$0.03/1M토큰	$1.50/1M토큰	~50배 저렴
입력 (캐시 미스)	~$0.30/1M토큰	$15/1M토큰	~50배
출력	~$0.50/1M토큰	$75/1M토큰	~150배

신규 계정 5M 토큰 무료 제공.

왜 이렇게 저렴한가?

여러 요인이 겹친다:

화웨이 Ascend 학습: Nvidia H100 클러스터보다 비용이 현저히 낮다 (중국 정부 보조금, 미국 수출 마진 없음)
MoE 효율성: 토큰당 전체 파라미터의 3%만 연산
중국 인건비: 항저우에 있는 DeepSeek 엔지니어링 팀의 급여 수준이 실리콘밸리보다 낮다
전략적 가격 정책: 시장 점유율과 생태계 고착(lock-in)을 위해 원가 이하 가격을 책정했을 가능성

개발자에게 주는 의미

V4가 벤치마크대로의 성능을 이 가격에 제공한다면, 많은 애플리케이션에서 경제적 계산이 뒤집힌다:

월 1억 토큰 처리하는 챗봇: DeepSeek ~$30 vs Claude ~$1,500
비용에 민감한 애플리케이션(고객 지원, 콘텐츠 검수, 데이터 추출)에서는 DeepSeek이 합리적 선택
정확도가 생명인 분야(의료, 법률, 금융)에서는 기존 모델의 약간의 품질 우위가 프리미엄을 정당화할 수 있다

API 사용법 — OpenAI SDK 호환

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4",  # 정식 출시 시 모델명 확정
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Explain MoE architecture"},
    ],
)
print(response.choices[0].message.content)

기존 OpenAI SDK를 그대로 쓰면 된다. base_url만 바꾸면 끝. 이건 의도적인 전략적 선택이다. 전환 비용이 제로이므로 개발자가 코드 한 줄 안 고치고 DeepSeek을 시험해볼 수 있다.

멀티모달 API

response = client.chat.completions.create(
    model="deepseek-v4",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "이 이미지에 뭐가 있나요?"},
                {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}},
            ],
        }
    ],
)

V4는 네이티브 멀티모달(다중 양식)을 지원한다. 텍스트, 이미지, 비디오, 오디오 입력을 어댑터 레이어나 품질 저하 없이 동일 모델이 처리한다.

라이선스 — 상업적 사용 OK

모델 가중치: DeepSeek Model License (OpenRAIL 기반, 책임 있는 AI 사용 조건 포함)
소스 코드: MIT 라이선스
상업적 사용: 명시적 허용 — 배포, 파인튜닝(fine-tuning, 특정 목적에 맞게 추가 학습), 양자화(quantization, 모델 크기 축소), 증류(distillation, 소형 모델로 지식 전달) 모두 가능
파생 모델 오픈소스 의무: 없음

"오픈웨이트(open-weight)"와 "오픈소스(open-source)"의 차이를 이해해야 한다. V4는 학습된 가중치(모델의 파라미터 값)만 공개하고, 학습 코드, 학습 데이터셋, 학습 인프라 구성은 비공개다. Meta의 Llama도 같은 방식이다. 실질적으로 상업적 사용에 제약은 거의 없지만, 모델을 처음부터 재현(reproduce)하는 것은 불가능하다.

셀프 호스팅: V4를 로컬에서 실행하기

효율적인 양자화(4비트 GGUF)를 적용하면, V4의 활성 파라미터 부분은 소비자용 하드웨어에서도 실행 가능하다:

32B 활성 파라미터 Q4_K_M 양자화: VRAM 약 18GB 필요 (Q4_K_M은 4비트 양자화 중 품질과 크기의 균형이 좋은 형식)
구동 가능 하드웨어: RTX 4090(24GB VRAM), Apple M4 Max(통합 메모리 128GB이면 전체 모델도 가능)
지원 도구: Ollama, llama.cpp, vLLM(MoE 오프로딩 지원 필요)

전체 1T 모델을 4비트 양자화하면 약 500GB로, 멀티 GPU 서버에서는 실행 가능하지만 개인 PC에서는 불가능하다. 다만 활성 파라미터가 32~37B로 작기 때문에, 추론 속도는 비슷한 크기의 밀집(dense) 모델과 경쟁할 수 있다.

오픈소스 AI 생태계에 미치는 영향

V4는 오픈웨이트 모델의 전환점이 될 수 있다:

오픈웨이트 모델이 프론티어(최첨단) 수준에 도달: 오픈 모델과 폐쇄형 모델 사이의 성능 격차가 사실상 사라졌다
API 가격 전면 하락 압력: Anthropic, OpenAI 등 다른 모델 제공업체도 DeepSeek의 가격에 맞추거나, 가격 프리미엄을 정당화할 만큼 확실한 품질 우위를 입증해야 할 것이다
셀프 호스팅의 경제성 개선: 프론티어급 모델을 무료로 다운로드할 수 있으니, 직접 운영하는 것의 ROI(투자 대비 수익)가 크게 올라간다
"해자(moat)" 논쟁의 결론: 중국 스타트업이 GPT-5급 성능을 오픈웨이트로 내놓을 수 있다면, 폐쇄형 모델 업체의 경쟁 우위는 생각보다 좁다

지정학적 신호

V4는 화웨이 Ascend에서 학습됐다. DeepSeek이 Nvidia와 AMD에 사전 접근을 거부하고 화웨이에 독점 얼리 액세스를 부여했다.

이것이 중요한 이유는 세 가지다:

미국의 수출 규제가 중국 AI 발전을 막지 못하고 있다 -- 오히려 자국 칩 대안 개발을 가속화한 측면이 있다
화웨이의 AI 칩 생태계가 성숙 단계에 진입했다 -- V4의 품질이 Ascend 칩으로도 프론티어 모델 학습이 가능함을 증명한다
AI 생태계가 양분되고 있다 -- 미국과 중국의 AI 생태계가 서로 다른 하드웨어와 소프트웨어 스택으로 독립적으로 발전 중이다

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

1조 파라미터, 그런데 활성은 32B

배경 지식: MoE(전문가 혼합)란 무엇인가?

MoE가 중요한 이유

V4의 MoE가 다른 점

스펙 테이블

아키텍처 3가지 혁신

1. Engram Conditional Memory

2. Dynamic Sparse Attention (DSA, 동적 희소 어텐션)

3. Modified Hopfield Continuum (mHC, 수정 홉필드 연속체)

벤치마크 (유출, 미검증)

가격 — 이게 핵심

왜 이렇게 저렴한가?

개발자에게 주는 의미

API 사용법 — OpenAI SDK 호환

멀티모달 API

라이선스 — 상업적 사용 OK

셀프 호스팅: V4를 로컬에서 실행하기

오픈소스 AI 생태계에 미치는 영향

지정학적 신호

관련 배경 지식

MoE 아키텍처의 진화

오픈 vs 클로즈드 모델 전쟁

화웨이 Ascend와 미중 반도체 전쟁

Llama 4와의 비교

텐센트 Hunyuan과의 동시 출시

참고 자료

출처

관련 기사

DeepSeek V4, 1조 파라미터로 오픈소스 AI의 천장을 또 깨부쉈다

Qwen 3.5 Medium, Sonnet 4.5를 벤치마크에서 꺾었다

Meta Llama 4 Scout: 컨텍스트 1000만 토큰, 오픈소스가 GPT-4 수준에 도달했다

1조 파라미터, 그런데 활성은 32B

배경 지식: MoE(전문가 혼합)란 무엇인가?

MoE가 중요한 이유

V4의 MoE가 다른 점

스펙 테이블

아키텍처 3가지 혁신

1. Engram Conditional Memory

2. Dynamic Sparse Attention (DSA, 동적 희소 어텐션)

3. Modified Hopfield Continuum (mHC, 수정 홉필드 연속체)

벤치마크 (유출, 미검증)

가격 — 이게 핵심

왜 이렇게 저렴한가?

개발자에게 주는 의미

API 사용법 — OpenAI SDK 호환

멀티모달 API

라이선스 — 상업적 사용 OK

셀프 호스팅: V4를 로컬에서 실행하기

오픈소스 AI 생태계에 미치는 영향

지정학적 신호

관련 배경 지식

MoE 아키텍처의 진화

오픈 vs 클로즈드 모델 전쟁

화웨이 Ascend와 미중 반도체 전쟁

Llama 4와의 비교

텐센트 Hunyuan과의 동시 출시

참고 자료

출처

관련 기사

DeepSeek V4, 1조 파라미터로 오픈소스 AI의 천장을 또 깨부쉈다

Qwen 3.5 Medium, Sonnet 4.5를 벤치마크에서 꺾었다

Meta Llama 4 Scout: 컨텍스트 1000만 토큰, 오픈소스가 GPT-4 수준에 도달했다

AI 트렌드를 앞서가세요