DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것
아키텍처(MoE Top-16, Engram Memory), 벤치마크(HumanEval 90%), 가격(Claude 대비 50배 저렴), 라이선스, API 사용법까지. 4월 정식 출시 전에 알아야 할 전부.

1조 파라미터, 그런데 활성은 32B
숫자부터 정리하자. DeepSeek V4는 총 파라미터 1조(1T)지만, 토큰당 실제 활성되는 파라미터는 32~37B다. 전체의 3%. 이게 MoE(Mixture-of-Experts, 전문가 혼합) 아키텍처의 핵심이다. 1조라는 숫자가 눈길을 끌지만, 실제 추론 비용을 결정하는 건 활성 파라미터 수다. 즉 V4는 35B급 밀집(dense) 모델과 비슷한 연산량으로, 1T 모델의 지식 용량을 활용한다.
주의: 2026년 3월 19일 기준 V4는 아직 정식 출시 전이다. "V4 Lite"가 3월 9일 DeepSeek API 엔드포인트에 잠시 노출됐다가 수 시간 만에 비공개로 전환됐고, 정식 출시는 2026년 4월로 예상된다. 아래 벤치마크 수치는 내부 유출 데이터이며, 제3자 검증은 아직 안 됐다.
배경 지식: MoE(전문가 혼합)란 무엇인가?
GPT-4나 Claude 같은 일반적인 트랜스포머 모델에서는 모든 파라미터가 모든 토큰 처리에 참여한다. 70B 파라미터 모델이면 입력 토큰 하나마다 70B 파라미터가 전부 작동한다. 이를 "밀집(dense) 모델"이라 부른다.
MoE는 다른 방식을 취한다. 트랜스포머 레이어마다 하나의 거대한 FFN(Feed-Forward Network, 피드포워드 네트워크) 대신 여러 개의 작은 "전문가(expert)" 네트워크를 둔다. 라우터(게이팅 네트워크라고도 하는 작은 신경망)가 각 토큰을 분석하고, 어떤 전문가가 처리할지 선택한다.
밀집 모델:
토큰 → [전체 파라미터] → 출력
MoE 모델:
토큰 → 라우터 → [전문가 3, 전문가 7, 전문가 15] → 출력
(128개 전문가 중 선택)
(나머지 전문가는 대기)
MoE가 중요한 이유
장점은 세 가지다:
- 학습 효율성: 같은 컴퓨팅 예산으로 더 큰 모델을 학습할 수 있다. 매 학습 단계에서 선택된 전문가만 업데이트하면 되니까.
- 추론 효율성: 활성 파라미터만 연산하면 되므로, 1T MoE 모델이 ~35B 밀집 모델 수준의 속도로 동작한다.
- 전문화: 서로 다른 전문가가 서로 다른 영역(코드, 수학, 언어 등)을 학습해서, 파라미터당 성능이 더 높다.
단점도 있다. 전체 모델이 메모리에 올라가야 한다(또는 효율적으로 오프로딩/스와핑해야 한다). 라우터가 어떤 전문가를 선택할지 미리 알 수 없으므로, 모든 전문가의 가중치가 접근 가능해야 하기 때문이다. 1T 파라미터 모델을 FP16(16비트 부동소수점)으로 올리려면 가중치만 ~2TB의 VRAM이 필요하다. V4 배포에 멀티 GPU 구성이 필수적인 이유다.
V4의 MoE가 다른 점
V4는 Top-16 라우팅을 쓴다. 토큰당 16개 전문가를 활성화하며, 이는 경쟁 모델들보다 훨씬 많다:
| 모델 | 총 파라미터 | 활성 파라미터 | 라우팅 |
|---|---|---|---|
| GPT-4 (추정) | ~1.8T | ~280B | 레이어당 Top-2 |
| Mixtral 8x22B | 176B | 39B | Top-2 |
| DeepSeek V3 | 671B | 37B | Top-2/4 |
| DeepSeek V4 | ~1T | 32-37B | Top-16 |
Top-16은 토큰당 더 많은 전문가를 쓰기 때문에, 연산량은 약간 늘지만 더 다양한 전문 지식을 동시에 활용할 수 있어 품질이 높아진다. 특히 코딩이나 다국어 같은 여러 영역의 지식이 교차하는 작업에서 강점을 보인다.
스펙 테이블
| 항목 | DeepSeek V4 | DeepSeek V3 | 변화 |
|---|---|---|---|
| 총 파라미터 | ~1조 (1T) | 671B | +49% |
| 활성 파라미터/토큰 | 32~37B | 37B | 유사 |
| 아키텍처 | MoE Top-16 | MoE Top-2/4 | 전문가 수 증가 |
| 컨텍스트 윈도우 | 100만 토큰 | 128K | 7.8배 |
| 멀티모달 | 네이티브 (텍스트+이미지+비디오+오디오) | 텍스트 only | 신규 |
| 핵심 혁신 | Engram Memory, DSA, mHC | — | — |
| 학습 하드웨어 | 화웨이 Ascend | Nvidia A100/H100 | 변경 |
아키텍처 3가지 혁신
1. Engram Conditional Memory
2026년 1월 12일 논문 공개. 핵심은 O(1) 지식 조회다.
표준 트랜스포머에서 특정 사실을 떠올리려면 어텐션(attention, 입력 간 관계를 계산하는 메커니즘)이 전체 컨텍스트를 훑어야 한다 -- O(n) 연산이므로 컨텍스트가 길어질수록 비용이 급증한다. Engram은 고정 패턴(엔티티명, 관용구, 상식 지식 등)을 해시 기반 룩업 테이블(lookup table, 키-값 검색 구조)로 GPU VRAM이 아니라 시스템 DRAM에 저장해서, 이런 정보를 O(1)에 조회한다. 논문이 밝힌 Sparsity Allocation Law(희소성 할당 법칙): sparse 파라미터의 20~25%를 메모리에, 나머지를 연산에 할당해야 최적이다.
비유하면, 모델에게 즉시 참조할 수 있는 "레퍼런스 북"을 준 것이다. 매번 컨텍스트 전체를 다시 읽을 필요가 없다.
실용적 의미: 100만 토큰 컨텍스트 비용이 128K 수준으로 떨어진다. Engram이 로컬 의존성을 처리하니까 어텐션은 장거리 구조에만 집중하면 된다.
2. Dynamic Sparse Attention (DSA, 동적 희소 어텐션)
표준 어텐션의 연산 복잡도는 O(n^2)다. 컨텍스트 길이를 2배로 늘리면 연산량이 4배로 뛴다. DSA는 "Lightning Indexer"라는 메커니즘을 도입해, 전체 어텐션을 계산하기 전에 관련 있는 컨텍스트 구간만 먼저 식별한다.
결과적으로 장문 컨텍스트에서 표준 어텐션 대비 연산 비용 ~50% 절감. 검색 성능(retrieval) 벤치마크에서도 품질 저하 없이 이 효율을 달성했다.
개념적으로 Flash Attention(메모리 접근 패턴을 최적화하는 기법)이나 Sparse Attention 같은 기존 효율화 기법과 비슷하지만, DSA는 더 상위 레벨에서 작동한다. 어텐션 연산 자체를 최적화하는 게 아니라, 어떤 컨텍스트 청크(chunk, 구간)에 어텐션을 할지 선택하는 것이다. 즉 Flash Attention과 DSA는 상호 보완적이며 함께 적용할 수 있다.
3. Modified Hopfield Continuum (mHC, 수정 홉필드 연속체)
극단적 장문(50만 토큰 이상)에서는 표준 어텐션이 수치적으로 불안정해진다. softmax 함수에서 어텐션 가중치가 너무 분산(dilute)되면서 모델이 이전 내용을 사실상 "잊어버리는" 현상이 발생한다. mHC는 홉필드 네트워크(Hopfield Network, 연상 기억을 모델링하는 신경망)의 에너지 함수를 연속 공간으로 확장한 것으로, 임의의 컨텍스트 길이에서도 어텐션 안정성을 수학적으로 보장한다.
세 기술의 시너지: 메모리(Engram) + 안정성(mHC) + 연산 효율(DSA) → 장문 트랜스포머의 3대 병목(지식 조회, 수치 안정성, 연산량)을 동시에 해결.
벤치마크 (유출, 미검증)
| 벤치마크 | DeepSeek V4 | Claude Opus 4.6 | GPT-5.4 | 측정 내용 |
|---|---|---|---|---|
| HumanEval | ~90% | ~88% | ~85% | 코드 생성(Python) |
| SWE-bench Verified | ~78-80% | 80.9% | 72% | 실제 버그 수정 |
| MMLU-Pro | ~88% | ~87% | ~89% | 다영역 지식 |
| 다국어 | 1위 | — | — | 다국어 성능 |
코딩에서 V4가 앞서고, 실제 버그 수정(SWE-bench)에서는 Claude가 앞선다. 범용 추론(MMLU-Pro)은 GPT-5.4가 근소하게 리드. 어떤 모델도 모든 벤치마크에서 1위를 차지하지 못한다.
이 수치는 신뢰도에 한계가 있다. 유출 데이터이며, LLM 업계에서 벤치마크 게이밍(의도적으로 벤치마크 테스트셋과 유사한 데이터로 학습해 점수를 끌어올리는 행위)은 잘 알려진 현상이다. 정식 출시 후 LMSYS Chatbot Arena(실사용자 블라인드 평가 플랫폼) 같은 독립 평가에서 보다 정확한 그림이 나올 것이다.
가격 — 이게 핵심
V3 기준 추정 (정식 가격 미발표):
| 구분 | DeepSeek V4 (추정) | Claude Opus 4.6 | 차이 |
|---|---|---|---|
| 입력 (캐시 히트) | ~$0.03/1M토큰 | $1.50/1M토큰 | ~50배 저렴 |
| 입력 (캐시 미스) | ~$0.30/1M토큰 | $15/1M토큰 | ~50배 |
| 출력 | ~$0.50/1M토큰 | $75/1M토큰 | ~150배 |
신규 계정 5M 토큰 무료 제공.
왜 이렇게 저렴한가?
여러 요인이 겹친다:
- 화웨이 Ascend 학습: Nvidia H100 클러스터보다 비용이 현저히 낮다 (중국 정부 보조금, 미국 수출 마진 없음)
- MoE 효율성: 토큰당 전체 파라미터의 3%만 연산
- 중국 인건비: 항저우에 있는 DeepSeek 엔지니어링 팀의 급여 수준이 실리콘밸리보다 낮다
- 전략적 가격 정책: 시장 점유율과 생태계 고착(lock-in)을 위해 원가 이하 가격을 책정했을 가능성
개발자에게 주는 의미
V4가 벤치마크대로의 성능을 이 가격에 제공한다면, 많은 애플리케이션에서 경제적 계산이 뒤집힌다:
- 월 1억 토큰 처리하는 챗봇: DeepSeek ~$30 vs Claude ~$1,500
- 비용에 민감한 애플리케이션(고객 지원, 콘텐츠 검수, 데이터 추출)에서는 DeepSeek이 합리적 선택
- 정확도가 생명인 분야(의료, 법률, 금융)에서는 기존 모델의 약간의 품질 우위가 프리미엄을 정당화할 수 있다
API 사용법 — OpenAI SDK 호환
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4", # 정식 출시 시 모델명 확정
messages=[
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Explain MoE architecture"},
],
)
print(response.choices[0].message.content)
기존 OpenAI SDK를 그대로 쓰면 된다. base_url만 바꾸면 끝. 이건 의도적인 전략적 선택이다. 전환 비용이 제로이므로 개발자가 코드 한 줄 안 고치고 DeepSeek을 시험해볼 수 있다.
멀티모달 API
response = client.chat.completions.create(
model="deepseek-v4",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "이 이미지에 뭐가 있나요?"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}},
],
}
],
)
V4는 네이티브 멀티모달(다중 양식)을 지원한다. 텍스트, 이미지, 비디오, 오디오 입력을 어댑터 레이어나 품질 저하 없이 동일 모델이 처리한다.
라이선스 — 상업적 사용 OK
- 모델 가중치: DeepSeek Model License (OpenRAIL 기반, 책임 있는 AI 사용 조건 포함)
- 소스 코드: MIT 라이선스
- 상업적 사용: 명시적 허용 — 배포, 파인튜닝(fine-tuning, 특정 목적에 맞게 추가 학습), 양자화(quantization, 모델 크기 축소), 증류(distillation, 소형 모델로 지식 전달) 모두 가능
- 파생 모델 오픈소스 의무: 없음
"오픈웨이트(open-weight)"와 "오픈소스(open-source)"의 차이를 이해해야 한다. V4는 학습된 가중치(모델의 파라미터 값)만 공개하고, 학습 코드, 학습 데이터셋, 학습 인프라 구성은 비공개다. Meta의 Llama도 같은 방식이다. 실질적으로 상업적 사용에 제약은 거의 없지만, 모델을 처음부터 재현(reproduce)하는 것은 불가능하다.
셀프 호스팅: V4를 로컬에서 실행하기
효율적인 양자화(4비트 GGUF)를 적용하면, V4의 활성 파라미터 부분은 소비자용 하드웨어에서도 실행 가능하다:
- 32B 활성 파라미터 Q4_K_M 양자화: VRAM 약 18GB 필요 (Q4_K_M은 4비트 양자화 중 품질과 크기의 균형이 좋은 형식)
- 구동 가능 하드웨어: RTX 4090(24GB VRAM), Apple M4 Max(통합 메모리 128GB이면 전체 모델도 가능)
- 지원 도구: Ollama, llama.cpp, vLLM(MoE 오프로딩 지원 필요)
전체 1T 모델을 4비트 양자화하면 약 500GB로, 멀티 GPU 서버에서는 실행 가능하지만 개인 PC에서는 불가능하다. 다만 활성 파라미터가 32~37B로 작기 때문에, 추론 속도는 비슷한 크기의 밀집(dense) 모델과 경쟁할 수 있다.
오픈소스 AI 생태계에 미치는 영향
V4는 오픈웨이트 모델의 전환점이 될 수 있다:
- 오픈웨이트 모델이 프론티어(최첨단) 수준에 도달: 오픈 모델과 폐쇄형 모델 사이의 성능 격차가 사실상 사라졌다
- API 가격 전면 하락 압력: Anthropic, OpenAI 등 다른 모델 제공업체도 DeepSeek의 가격에 맞추거나, 가격 프리미엄을 정당화할 만큼 확실한 품질 우위를 입증해야 할 것이다
- 셀프 호스팅의 경제성 개선: 프론티어급 모델을 무료로 다운로드할 수 있으니, 직접 운영하는 것의 ROI(투자 대비 수익)가 크게 올라간다
- "해자(moat)" 논쟁의 결론: 중국 스타트업이 GPT-5급 성능을 오픈웨이트로 내놓을 수 있다면, 폐쇄형 모델 업체의 경쟁 우위는 생각보다 좁다
지정학적 신호
V4는 화웨이 Ascend에서 학습됐다. DeepSeek이 Nvidia와 AMD에 사전 접근을 거부하고 화웨이에 독점 얼리 액세스를 부여했다.
이것이 중요한 이유는 세 가지다:
- 미국의 수출 규제가 중국 AI 발전을 막지 못하고 있다 -- 오히려 자국 칩 대안 개발을 가속화한 측면이 있다
- 화웨이의 AI 칩 생태계가 성숙 단계에 진입했다 -- V4의 품질이 Ascend 칩으로도 프론티어 모델 학습이 가능함을 증명한다
- AI 생태계가 양분되고 있다 -- 미국과 중국의 AI 생태계가 서로 다른 하드웨어와 소프트웨어 스택으로 독립적으로 발전 중이다
관련 배경 지식
MoE 아키텍처의 진화
MoE는 새로운 개념이 아니다. 1991년 Jacobs et al.이 처음 제안했고, 2017년 Google의 Shazeer가 LSTM에 적용한 "Outrageously Large Neural Networks" 논문으로 부활했다. 이후 Switch Transformer(2021), GShard, Mixtral 8x7B(2023)를 거쳐 DeepSeek V3/V4에 이르렀다. 핵심 트렌드는 활성 파라미터 비율을 줄이면서 전체 용량을 키우는 것이다.
오픈 vs 클로즈드 모델 전쟁
2024년 Llama 3 출시 이후 오픈웨이트 모델의 경쟁력이 클로즈드 모델에 급격히 접근했다. DeepSeek V4가 Claude/GPT와 대등하면서 50~150배 저렴하다면, 기업들의 선택은 자명하다. 이는 OpenAI, Anthropic의 비즈니스 모델에 직접적 압력이 된다. 실제로 a16z의 2026년 AI 시장 리포트에 따르면, 스타트업의 67%가 "1년 내에 오픈웨이트 모델로 전환하겠다"고 응답했다.
화웨이 Ascend와 미중 반도체 전쟁
DeepSeek V4가 화웨이 Ascend에서 학습됐다는 건 기술적 선택 이상의 의미가 있다. 미국의 AI 칩 수출 규제(2022년 10월 이후 지속 강화) 이후, 중국 AI 기업들은 Nvidia 의존도를 줄이기 위해 화웨이 Ascend 910B/C로 전환하고 있다. DeepSeek이 Nvidia 접근을 "거부"한 건, 중국 반도체 생태계의 자립을 상징적으로 보여주는 사건이다. TSMC가 아닌 SMIC 7nm 공정으로 제조된 Ascend 칩에서 1조 파라미터 모델을 학습했다는 건, 수출 규제의 효과에 의문을 제기한다.
Llama 4와의 비교
Meta는 2026년 2월 Llama 4를 공개했다. Scout(17B 활성)과 Maverick(17B 활성)이 먼저 나왔고, Behemoth(288B 활성)는 학습 중이다. DeepSeek V4와 Llama 4는 모두 MoE 아키텍처를 쓰지만, 접근 방식이 다르다. Llama 4는 16개 전문가 중 1개만 활성화하는 극단적 sparse 전략을, V4는 16개를 활성화하는 방식이다. 어느 쪽이 더 효율적인지는 4월 V4 정식 출시 후 벤치마크 비교에서 판가름날 것이다.
텐센트 Hunyuan과의 동시 출시
Dataconomy 보도에 따르면, 텐센트의 Hunyuan 신규 모델도 2026년 4월 출시 예정이다. 중국의 양대 AI 모델이 같은 시기에 나오는 셈으로, 중국 AI 생태계의 경쟁 강도를 보여주는 신호다.
참고 자료
관련 기사

DeepSeek V4, 1조 파라미터로 오픈소스 AI의 천장을 또 깨부쉈다
DeepSeek V4가 1조 파라미터 MoE 아키텍처와 100만+ 토큰 컨텍스트로 등장했다. 화웨이 Ascend 칩 최적화, 코딩 벤치마크에서 GPT·Claude 위협. 오픈소스 AI의 새 기준.

Qwen 3.5 Medium, Sonnet 4.5를 벤치마크에서 꺾었다
알리바바 Qwen 3.5 Medium 시리즈가 Apache 2.0으로 공개. 35B 모델이 Claude Sonnet 4.5를 MMLU에서 앞서고, 122B는 GPT-5 mini 대비 에이전트 작업에서 30% 우위.

Meta Llama 4 Scout: 컨텍스트 1000만 토큰, 오픈소스가 GPT-4 수준에 도달했다
Meta가 17B 활성 파라미터의 MoE 모델로 업계 최장 1000만 토큰 컨텍스트 윈도우를 달성했다. 단일 H100에서 실행 가능하고, 주요 벤치마크에서 Gemma 3와 Gemini 2.0 Flash를 앞선다.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
