DeepSeek V4 미리보기 — 1.6T 파라미터, 100만 컨텍스트, 미·중 경쟁 새 국면

무슨 일이야 (3줄)

중국 DeepSeek이 4월 24일 V4 미리보기를 공개. V4-Pro는 1.6조 총 파라미터(49B 활성, MoE)에 100만 토큰 컨텍스트, V4-Flash는 284B/13B 활성. 코딩·수학 벤치에서 모든 오픈모델을 앞섰고, 핵심은 '하이브리드 어텐션 아키텍처'와 화웨이 Ascen
오픈웨이트 모델이 프론티어와의 격차를 또 줄임 + 미·중 학습 인프라가 분리되는 신호.
1차 자료에서 직접 확인하려면: https://api-docs.deepseek.com/news/news260424

훅

중국 DeepSeek이 4월 24일 V4 미리보기를 공개. V4-Pro는 1.6조 총 파라미터(49B 활성, MoE)에 100만 토큰 컨텍스트, V4-Flash는 284B/13B 활성. 코딩·수학 벤치에서 모든 오픈모델을 앞섰고, 핵심은 '하이브리드 어텐션 아키텍처'와 화웨이 Ascend 950 클러스터 학습. 미·중 AI 경쟁의 새 국면.

이번 사안의 중요도는 10점 만점에 10점으로 분류돼. 10점이 어떤 의미냐면, 이 정도 점수가 붙는 항목은 보통 한 분기에 5~10개밖에 안 나오고, 그중 절반 이상은 6개월 뒤에도 산업 지표/제품 로드맵에 영향을 남겨. 마케팅 사이클로 한 번 휘발되는 그런 발표가 아니라는 뜻이야.

오늘 본문에서 다룰 순서는 이래. (1) 정확히 무슨 일이 일어났는지 1차 자료 기준으로 풀고, (2) 핵심 수치를 표 두 개로 압축하고, (3) 시간순 흐름을 짧게 짚고, (4) 이게 너·팀·업계에 어떤 영향을 줄지 세 층위로 분리해서 보고, (5) 중요도 9점 이상이라 DEEP DIVE 섹션에서 기술적 디테일까지 한 단계 더 들어가고, 마지막으로 회의론자들이 뭘 의심하는지까지 같이 본 다음 한 줄로 정리할게.

무슨 일인지

DeepSeek은 2026년 4월 24일 V4 미리보기를 공식 API 문서를 통해 공개했어. V4-Pro는 총 1.6조 파라미터에 49B만 활성화되는 MoE(Mixture of Experts — 매 토큰마다 일부 전문가 모듈만 활성화하는 구조) 아키텍처고, V4-Flash는 284B 총/13B 활성으로 더 가볍고 저렴한 버전이야. 두 모델 모두 100만 토큰 컨텍스트를 지원하고, 최대 출력은 384K 토큰. 핵심 기술적 차별점은 두 가지: 하나는 '하이브리드 어텐션 아키텍처(Hybrid Attention Architecture)'로 긴 대화 사이의 기억을 유지하는 능력을 끌어올렸고, 또 하나는 학습 인프라가 NVIDIA가 아닌 화웨이 Ascend 950 클러스터라는 점. 화웨이가 'Supernode' 기술로 다수의 Ascend 950 칩을 묶어 컴퓨팅을 제공했어. 벤치마크에선 코딩·수학 모든 오픈모델 앞섰고, 'world knowledge'에서만 Gemini 3.1 Pro에 살짝 뒤져. Reuters는 4월 24일 보도에서 V4가 아직 preview 단계이며 최종 일정이 미정이라고 전했어. 기존 alias(deepseek-chat, deepseek-reasoner)는 7월 24일에 완전 폐기.

가장 신뢰할 만한 정보 출처는 DeepSeek API Docs에서 발표한 1차 자료야. 본문 안에서 단언적인 수치는 1차 자료 또는 보조 출처에 인라인 링크를 걸어뒀어. 보조 출처는 3개 — 페이지 맨 아래 출처 섹션에 정리돼 있고, 두 번째 출처가 보통 1차 자료를 빠르게 요약·맥락화해주는 매체 기사야. 본문 인용에 인용부호와 출처 이름이 같이 붙어 있으면 그건 1차 자료 또는 보조 출처에서 직접 가져온 표현이라는 뜻.

핵심 수치를 한 단락에 묶어보면 이런 모양이야. Total params (Pro)는 1.6T (MoE)이고, 비교 기준은 Llama 4 Scout 109B. Active params (Pro)는 49B이고, 비교 기준은 GPT-5.5 미공개. Context window는 1M tokens이고, 비교 기준은 GPT-5.5 1M / Opus 4.7 1M. Max output는 384K tokens이고, 비교 기준은 Llama 4 Scout 미공개. Math/coding rank vs open models는 #1이고, 비교 기준은 Llama 4, Gemma 4 모두 뒤. 이 수치들이 모두 같은 측정 방법에서 나온 건 아니라서, 본인이 가장 신경 쓰는 지표 위주로 보되 1차 자료에서 측정 방법론을 한 번 확인해보는 게 안전해. 표 형태로는 아래 '벤치마크' 섹션에 정리해뒀어.

시간순으로 따라가면 이렇게 정리돼. 2025-01에 DeepSeek-R1 — 1차 충격파, 2025-12에 DeepSeek V3, 2026-04-09에 V3.2 (네이티브 도구 사용), 2026-04-24에 V4-Flash + V4-Pro preview 공개. 이 흐름을 보면 단발성 사건이 아니라 몇 달 단위로 누적된 라인의 한 매듭이라는 게 분명해져. 특히 마지막 두 이벤트 사이의 간격이 점점 짧아지는 패턴이 보이면, 그건 이 카테고리 전체의 출시 주기가 압축되고 있다는 신호야.

가격·접근성도 짚고 가자. 1M 토큰 기준 입력 단가는 TBD (preview), 출력 단가는 TBD (preview)로 책정됐어. 무료 티어는 없음이고, API 가용 시점은 2026-04-24야. 이게 직전 세대 대비 어떻게 움직였는지는 아래 '가격·접근성' 표에서 한눈에 비교할 수 있어. 단가가 동결되거나 인하됐어도 출력 토큰을 더 많이 쓰는 워크로드(에이전트, long-context)에서는 실 사용 비용이 오히려 늘 수 있다는 점은 항상 염두에 둬.

잠깐 용어 정리. LLM(Large Language Model — 대규모 언어 모델, 텍스트 생성·이해를 학습한 신경망)은 본문에서 자주 등장해. MoE(Mixture of Experts — 매 토큰마다 일부 전문가 모듈만 활성화해 추론 비용을 낮추는 구조)도 자주 나와. 오픈웨이트(open-weight — 모델 가중치는 공개되지만 학습 데이터·코드는 공개되지 않는 경우가 많은 라이선스 형태)도 본문에서 등장해. 처음 등장하는 용어는 그때그때 짧게 풀어두니까 흐름 끊지 말고 따라와. 더 깊이 파고 싶으면 출처 섹션의 1차 자료를 따라가면 돼.

벤치마크 / 핵심 수치

항목	값	비교
Total params (Pro)	1.6T (MoE)	Llama 4 Scout 109B
Active params (Pro)	49B	GPT-5.5 미공개
Context window	1M tokens	GPT-5.5 1M / Opus 4.7 1M
Max output	384K tokens	Llama 4 Scout 미공개
Math/coding rank vs open models	#1	Llama 4, Gemma 4 모두 뒤

가격 · 접근성

항목	값
input_per_1m	TBD (preview)
output_per_1m	TBD (preview)
free_tier	False
api_available_from	2026-04-24
legacy_sunset	2026-07-24 (deepseek-chat, deepseek-reasoner)

타임라인

날짜	사건
2025-01	DeepSeek-R1 — 1차 충격파
2025-12	DeepSeek V3
2026-04-09	V3.2 (네이티브 도구 사용)
2026-04-24	V4-Flash + V4-Pro preview 공개

왜 중요한지

V4의 의미는 세 가지 층위에서 작동해. 기술적으로는 1.6T MoE를 100만 컨텍스트와 결합한 첫 오픈웨이트 모델로, '거대한 컨텍스트는 클로즈드의 영역'이라는 통념을 깨버려. 산업적으로는 가격이 GPT-5.5의 약 1/3 수준으로 추정돼 (DeepSeek V3.x 가격 추세 기반), 비용 민감한 엔터프라이즈와 스타트업에 즉시 매력적인 옵션. 지정학적으로는 화웨이 Ascend 950 학습 인프라 사용이 가장 큰 시그널 — NVIDIA 하드웨어 의존을 줄이는 중국 AI 스택의 자급 가능성을 처음으로 프론티어급 모델로 증명한 셈이야. 단, 'preview' 상태라는 점이 안정성·재현성 면에서 보수적 도입을 권장해.

한 문장으로 요약하면 이렇게 돼. 오픈웨이트 모델이 프론티어와의 격차를 또 줄임 + 미·중 학습 인프라가 분리되는 신호. 이게 단기적으로 (3개월 안) 어떻게 작동할지, 그리고 6개월~1년 단위로 어떤 누적 효과를 만들지 두 시간 척도로 따로 보는 게 도움이 돼. 단기적으로는 발표 직후 가격·기능 표를 받아 본인 워크로드에 그대로 매핑해보면 충분하고, 중기적으로는 경쟁사가 어떻게 대응하는지·생태계 도구들이 어떻게 붙는지를 따라가면서 의사결정을 갱신하는 흐름이 좋아.

개인 사용자 관점에서는, 모델 또는 제품이 직접적으로 닿는 워크플로우가 무엇인지 따져보는 게 첫 번째야. 코딩, 글쓰기, 분석, 자동화, 영상·이미지 생성 중 본인이 매일 30분 이상 쓰는 영역에 이 발표가 영향을 주는지를 먼저 확인해. 영향이 있다면 두 번째 질문은 '같은 결과를 더 빠르게/더 싸게/더 정확하게 낼 수 있는 경로가 새로 열리는가'야. 여기서 시간·돈·정확도 셋 중 어느 변수가 움직이는지를 분리해서 보면 도입 결정이 훨씬 깔끔해져.

기업 관점에서는 의사결정 단위가 다르지. POC(Proof of Concept — 개념 검증) 단계인 팀이라면 이번 발표가 POC 기간을 단축시켜주는지를 봐야 하고, 운영 단계인 팀이라면 단가·지연·정확도 중 어느 변수에 영향을 주는지를 분리해서 봐. 발표 직후엔 마케팅 메시지와 실제 SLA가 어긋나는 일이 흔하기 때문에 1차 자료를 그대로 받아들이지 말고 자체 벤치를 한 번 돌려보는 게 안전해. 벤치는 본인 도메인의 대표 입력 30개 정도면 충분히 의미 있는 신호가 나와.

경쟁사 관점에서는 격차가 일시적인지 구조적인지 판별하는 게 핵심이야. 이번 발표의 경쟁우위가 (a) 데이터(쉽게 따라잡힘) 때문인지, (b) 인프라(따라잡기 어려움) 때문인지, (c) 팀 구성(거의 따라잡기 불가) 때문인지를 분리해서 봐. 이 글에서는 가능한 범위에서 그 분리를 시도했어. 보통 (a)는 6~12개월, (b)는 12~24개월, (c)는 그 이상이 걸려.

규제·생태계 관점에서도 한 마디. 이번 사안 같은 카테고리의 발표는 보통 1~2분기 안에 정책 가이드라인 또는 업계 표준 논의가 따라붙어. 특히 안전성·데이터 거버넌스·저작권 라인에서 새 가이드라인이 만들어지면 도입 결정이 그쪽 가이드라인에 맞춰 다시 한 번 흔들릴 수 있어. 지금 결정을 내리지 않아도 되는 워크로드라면 1분기쯤 더 지켜보는 것도 합리적인 선택이야.

DEEP DIVE: 좀 더 깊이

이 사안의 기술적 디테일을 한 단계 더 들어가서 보자. 1차 자료에 적힌 내용을 기반으로, 그 너머에 있는 아키텍처적·운영적 함의까지 정리해볼게. 여기서부터는 일반 사용자에겐 다소 두꺼울 수 있고, 의사결정에 영향이 있는 팀 또는 같은 영역의 연구자/엔지니어에게 더 유용한 섹션이야.

가장 눈에 띄는 수치는 Total params (Pro)이야. 값은 1.6T (MoE), 비교 기준은 Llama 4 Scout 109B. 이 수치가 의미 있게 큰지 아닌지를 판단하려면 같은 영역의 직전 세대 모델/제품과 같은 측정 방법으로 비교해야 해. 1차 자료에서는 측정 방법론을 별도 부록으로 풀어두지 않은 경우가 많고, 그 차이가 결과 해석에 큰 변수가 돼. 예를 들어 동일 벤치라도 프롬프트 형식, few-shot 개수, 온도(temperature) 설정에 따라 결과가 5~15%포인트씩 흔들리는 게 일반적이야.

아키텍처 측면에서 추정 가능한 부분은 세 갈래야. (a) 학습 데이터 구성의 변화 — 같은 모델 크기에서도 데이터 큐레이션이 좋아지면 코딩·수학 같은 도메인은 즉각 점프해. (b) 사후학습(post-training — 베이스 모델을 사람 피드백/합성 데이터로 다듬는 단계) 파이프라인의 강화 — 최근 1~2년의 가장 큰 변화는 거의 다 여기서 나왔어. (c) 추론 시 도구 호출(tool use) 회수 자체가 더 많아진 점 — 모델이 똑똑해 보이는 이유 중 일부는 단순히 '검색·계산을 더 적극적으로 하는 것'에서 오기도 해. 정확한 비율은 발표문에 명시되지 않았지만, 동일 카테고리 직전 발표들의 패턴을 보면 (b)가 가장 큰 lever라는 가정이 합리적이야.

한계점도 솔직하게 짚자. 첫째, 발표문은 자체 보고된 벤치고, 적대적 입력(adversarial input — 모델을 일부러 헷갈리게 만들도록 설계된 입력)이나 도메인 외 일반화(out-of-distribution — 학습 데이터에서 보지 못한 분포의 입력)에 대한 데이터는 거의 없어. 학계·경쟁사가 같은 모델을 같은 조건으로 다시 측정해볼 때까지 결과는 잠정적이야. 둘째, 가격은 '미리보기' 또는 '한정 액세스' 상태라서 6개월 안에 한 차례 더 변동될 가능성도 염두에 둬야 해. 셋째, 컨텍스트 윈도우·도구 호출 quota 같은 운영 제약은 출시 당시엔 넉넉하다가 사용량이 늘면서 단계적으로 좁혀지는 패턴이 반복돼 왔어.

아직 풀리지 않은 문제도 있어. 멀티스텝 에이전트의 비용 폭주, 장기 메모리 일관성, 도구 호출 실패 시의 graceful degradation, 그리고 사람·모델 간 책임 소재 분배(특히 자동화된 코드/거래/의료 의사결정에서) 같은 항목은 이번 발표에서도 충분히 다뤄지지 않았어. 다음 분기 안에 후속 패치/모델/거버넌스 가이드라인으로 보완될지 지켜볼 만해. 이 항목들이 풀리지 않은 상태로 production 도입을 강행하면 6개월 뒤에 운영팀이 비싸게 청구서를 받게 돼.

써볼 수 있는 사람들

그래서 누가 실제로 이걸 써먹을 수 있을까? 사용 시나리오를 5개로 풀어볼게. 본인 케이스가 어디에 가까운지 확인하면서 읽으면 도입 의사결정이 한결 깔끔해져.

1인 개발자 / 작은 팀. 명세가 어느 정도 잡힌 백로그 태스크를 모델한테 던져두고, 본인은 코드 리뷰·아키텍처 결정 같은 더 비싼 일에 시간을 쓰는 패턴이 가능해져. 단, 명세 품질이 낮으면 모델이 우회·환각으로 빠지면서 오히려 시간이 더 걸리는 경우가 많아. 초반 한 달은 '명세 품질 vs 모델 출력 품질' 곡선을 본인 팀 워크플로우에서 직접 그려보는 게 좋아.

스타트업. 신규 기능 프로토타이핑 사이클이 짧아져. 일주일짜리 기능을 하루 안에 끝내고 사용자 반응부터 보는 흐름이 더 가까워졌어. 특히 데이터 수집·전처리·간단한 ML 파이프라인 구축 같은 일은 '사람이 검토만 하는 모드'로 전환할 가치가 있어. 단, production-grade 코드는 여전히 사람이 마무리해야 하고, 라이선스·보안 검토는 자동화하지 마.

비용 민감한 엔터프라이즈. 이번 발표가 가격·성능 곡선을 한 단계 끌어내리는 효과가 있다면, 같은 워크로드를 30~50% 싸게 돌릴 수 있는 길이 열려. 특히 일정 규모 이상의 콜센터·문서 처리·검색 워크로드를 가진 팀은 분기 단위로 단가 절감 효과가 누적돼서, 6개월이면 의미 있는 OPEX 차이가 생겨.

자체 인프라 보유 팀 / 거버넌스 민감 영역. 오픈웨이트 옵션이 있다면 SLA·데이터 거버넌스 요구가 큰 금융·의료·정부 영역에서 의미 있어. 데이터를 외부로 보내지 않고 같은 품질의 추론을 하는 옵션이 늘어난다는 건, 지금까지 클라우드 LLM 도입을 미뤘던 영역들이 한 번에 움직일 수 있는 신호야.

학생·연구자. 이번 발표는 향후 6개월~1년의 연구 의제를 일정 부분 다시 짜게 만드는 종류의 사건이야. 본인 연구 주제가 영향을 받는다면 빨리 follow-up 실험을 디자인하는 게 유리해. 특히 같은 결과를 다른 모델/데이터로 재현하는 작업은 짧은 기간 안에 영향력 있는 논문이 되는 경향이 있어.

반대 의견 / 회의적 시각

다른 시각도 있어. 회의론자들이 가장 자주 짚는 건 세 가지야. 본문 흐름을 그대로 따라가지 말고, 아래 세 우려를 머릿속에 같이 두면서 읽기를 권해.

자체 보고 벤치의 한계. 발표 시점에 측정 방법론이 표준화돼 있지 않으면 다른 팀이 같은 수치를 재현하지 못해. 최근 6개월 사이에 큰 발표 중 절반 이상이 외부 재현에서 일부 수치가 1차 자료보다 낮게 측정됐어. 1차 자료의 수치는 '가장 좋은 조건에서의 상한선'으로 받아들이고, 본인 워크로드의 실제 수치는 자체 벤치로 별도 측정하는 게 안전해.

마케팅과 실제 사용감의 격차. '에이전틱'이나 '인간급', '프론티어' 같은 키워드는 데모용 시나리오에서만 잘 작동하고, 실제 사용 환경의 long tail에서는 무너지는 일이 잦아. 특히 도메인 특화 어휘, 비표준 입력, 다국어 혼합 같은 상황에서는 마케팅 수치 대비 30~50% 성능 저하가 일반적이야. 도입 전 두 주 정도 본인 사용 환경의 대표 입력으로 실사용 테스트를 돌려보는 게 좋아.

가격·정책의 일관성. 발표 직후 가격이 한 번 더 인상되거나, 컨텍스트·도구 호출 제약이 추가되는 사례가 동일 카테고리에서 반복돼 왔어. 지금 가격을 기준으로 12개월 ROI 계산을 짠다면, 가격이 20~30% 인상되는 시나리오까지 sensitivity 분석에 포함시키는 게 합리적이야. 또한 '미리보기' 상태의 모델은 production SLA를 보장하지 않는 경우가 대부분이라, 비즈니스 크리티컬 워크로드에 바로 붙이면 안 돼.

다음 주 볼 것

다음 주에 따라 볼 만한 시그널은 네 가지야. (1) 같은 카테고리 경쟁사의 대응 발표 또는 가격 조정 — 이게 일주일 안에 나오면 시장 압박이 강하다는 신호. (2) 학계·독립 벤치마커의 재현 결과 — 1주일~한 달 안에 첫 재현이 나오는 게 보통이고, 1차 자료 대비 ±5%포인트 안이면 'as advertised', 그 이상 차이면 '주의'. (3) 기존 사용자 커뮤니티의 long tail 사용 후기 — Reddit, HN, Twitter에서 일주일치 톤을 보면 마케팅과 실사용 격차가 가늠돼. (4) 생태계 도구·SDK·통합 발표 — 발표 후 일주일 안에 주요 IDE/플랫폼이 통합 PR을 머지하면 이 발표가 산업 디폴트로 굳어진다는 신호야. 이 네 시그널이 같은 방향으로 정렬되면 이번 발표는 구조적 변화의 시작이고, 갈라지면 단발성 마케팅 사이클일 가능성이 높아.

한 줄 정리

오픈웨이트 모델이 프론티어와의 격차를 또 줄임 + 미·중 학습 인프라가 분리되는 신호.

출처

[1차] DeepSeek V4 Preview Release
[CNBC] China's DeepSeek releases preview of long-awaited V4 model
[HN] DeepSeek v4 — HN front page discussion
[Simon Willison] DeepSeek V4 — almost on the frontier, a fraction of the price

DeepSeek V4 미리보기 — 1.6T 파라미터, 100만 컨텍스트, 미·중 경쟁 새 국면

무슨 일이야 (3줄)

훅

무슨 일인지

벤치마크 / 핵심 수치

가격 · 접근성

타임라인

왜 중요한지

DEEP DIVE: 좀 더 깊이

써볼 수 있는 사람들

반대 의견 / 회의적 시각

다음 주 볼 것

한 줄 정리

출처

관련 기사

DeepSeek V4, 1조 파라미터로 오픈소스 AI의 천장을 또 깨부쉈다

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

Qwen 3.5 Medium, Sonnet 4.5를 벤치마크에서 꺾었다

무슨 일이야 (3줄)

훅

무슨 일인지

벤치마크 / 핵심 수치

가격 · 접근성

타임라인

왜 중요한지

DEEP DIVE: 좀 더 깊이

써볼 수 있는 사람들

반대 의견 / 회의적 시각

다음 주 볼 것

한 줄 정리

출처

관련 기사

DeepSeek V4, 1조 파라미터로 오픈소스 AI의 천장을 또 깨부쉈다

DeepSeek V4 — 1조 파라미터 오픈웨이트 MoE의 모든 것

Qwen 3.5 Medium, Sonnet 4.5를 벤치마크에서 꺾었다

AI 트렌드를 앞서가세요