aispoonai
TOPDeepSeekOpen SourceLLM

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

·3min read·NxCode·EN

1조 파라미터, 그런데 활성은 32B

숫자부터 정리하자. DeepSeek V4는 총 파라미터 1조(1T)지만, 토큰당 실제 활성되는 파라미터는 32~37B다. 전체의 3%. 이게 MoE(Mixture-of-Experts) 아키텍처의 핵심이다.

주의: 2026년 3월 19일 기준 V4는 아직 정식 출시 전이다. "V4 Lite"가 3월 9일 잠깐 노출됐고, 정식 출시는 2026년 4월로 예상된다. 아래 벤치마크 수치는 내부 유출 데이터이며, 제3자 검증은 아직 안 됐다.

스펙 테이블

| 항목 | DeepSeek V4 | DeepSeek V3 | |------|------------|------------| | 총 파라미터 | ~1조 (1T) | 671B | | 활성 파라미터/토큰 | 32~37B | 37B | | 아키텍처 | MoE Top-16 | MoE Top-2/4 | | 컨텍스트 윈도우 | 100만 토큰 | 128K | | 멀티모달 | 네이티브 (텍스트+이미지+비디오+오디오) | 텍스트 only | | 핵심 혁신 | Engram Memory, DSA, mHC | — |

아키텍처 3가지 혁신

1. Engram Conditional Memory

2026년 1월 12일 논문 공개. 핵심은 O(1) 지식 조회다.

고정 패턴(엔티티명, 관용구 등)을 해시 기반 룩업 테이블로 GPU VRAM이 아니라 시스템 DRAM에 저장한다. 논문이 밝힌 Sparsity Allocation Law: sparse 파라미터의 20~25%를 메모리에, 나머지를 연산에 할당해야 최적이다.

실용적 의미: 100만 토큰 컨텍스트 비용이 128K 수준으로 떨어진다. Engram이 로컬 의존성을 처리하니까 어텐션은 장거리 구조에만 집중하면 된다.

2. Dynamic Sparse Attention (DSA)

"Lightning Indexer"가 컨텍스트에서 관련 부분만 골라서 연산. 표준 어텐션 대비 연산 비용 50% 절감.

3. Modified Hopfield Continuum (mHC)

100만 토큰 같은 극단적 장문에서 어텐션이 불안정해지는 문제를 해결한다. 일반 트랜스포머가 장문에서 성능이 떨어지는 걸 mHC로 잡았다.

세 기술의 조합: 메모리(Engram) + 안정성(mHC) + 연산 효율(DSA) → 장문 트랜스포머의 3대 병목을 동시에 해결.

벤치마크 (유출, 미검증)

| 벤치마크 | DeepSeek V4 | Claude Opus 4.6 | GPT-5.4 | |---------|------------|----------------|---------| | HumanEval | ~90% | ~88% | ~85% | | SWE-bench Verified | ~78-80% | 80.9% | 72% | | 다국어 | 1위 | — | — |

코딩에서 V4가 앞서고, 실제 버그 수정(SWE-bench)에서는 Claude가 앞선다. 범용 추론은 GPT-5.4가 리드.

가격 — 이게 핵심

V3 기준 추정 (정식 가격 미발표):

| 구분 | DeepSeek V4 (추정) | Claude Opus 4.6 | 차이 | |------|-------------------|----------------|------| | 입력 (캐시 히트) | ~$0.03/1M토큰 | $1.50/1M토큰 | ~50배 저렴 | | 입력 (캐시 미스) | ~$0.30/1M토큰 | $15/1M토큰 | ~50배 | | 출력 | ~$0.50/1M토큰 | $75/1M토큰 | ~150배 |

신규 계정 5M 토큰 무료 제공.

API 사용법 — OpenAI SDK 호환

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4",  # 정식 출시 시 모델명 확정
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Explain MoE architecture"},
    ],
)
print(response.choices[0].message.content)

기존 OpenAI SDK를 그대로 쓰면 된다. base_url만 바꾸면 끝.

라이선스 — 상업적 사용 OK

  • 모델 가중치: DeepSeek Model License (OpenRAIL 기반)
  • 소스 코드: MIT 라이선스
  • 상업적 사용: 명시적 허용 — 배포, 파인튜닝, 양자화, 증류 모두 가능
  • 파생 모델 오픈소스 의무: 없음

"오픈웨이트"지 "오픈소스"는 아니다. 하지만 상업적으로 쓰는 데 제약은 거의 없다.

지정학적 신호

V4는 화웨이 Ascend에서 학습됐다. DeepSeek이 Nvidia와 AMD에 사전 접근을 거부하고 화웨이에 독점 얼리 액세스를 부여했다.

참고 자료

Related Stories

Free Newsletter

Stay ahead of AI

Top stories, curated daily. No spam, no noise. Unsubscribe anytime.