spoonai
TOPDeepSeekpricingopen-source

DeepSeek, V4-Pro 75% 할인 폭탄 — 입력 토큰 100만 개에 4센트 시대

DeepSeek가 4월 27일 V4-Pro에 75% 프로모션을 걸었어. 5월 5일까지 입력 100만 토큰 0.036달러, 캐시 히트 가격은 전 라인업에서 영구 1/10. GPT-5.5 대비 6-7배 싼 가격으로 추론 비용 곡선을 한 단계 더 끌어내렸어.

·7분 소요·DeepSeek API Docs
공유
AI 모델 추론 비용 경쟁을 상징하는 디지털 데이터 시각화
출처: Unsplash

$0.036

100만 토큰 입력 가격이야. DeepSeek V4-Pro가 75% 프로모션을 걸면서 도달한 숫자야. GPT-5.5의 입력 가격이 5달러/100만 토큰인데, 그 140분의 1이야. 이건 단순한 가격 인하가 아니라 '추론 비용 곡선'을 통째로 한 단계 끌어내린 사건이야.

4월 27일, DeepSeek는 두 가지를 동시에 발표했어. 하나는 V4-Pro에 5월 5일까지 75% 프로모션 할인. 다른 하나는 전체 API 라인업의 캐시 히트(cache hit — 동일 프롬프트 반복 호출 시 적용되는 할인) 입력 가격을 즉시 1/10로 영구 인하.

프론티어급 성능을 가격으로 굽히는 중국 모델 전략이 본격화됐어.

이걸 이해하려면

DeepSeek V4는 4월 24일에 프리뷰로 나왔어. V4-Pro와 V4-Flash 두 모델이야. V4-Pro는 1.6T(1조 6천억) 파라미터 MoE(Mixture of Experts — 전체 파라미터 중 일부만 활성화하는 구조)에 활성 파라미터는 49B(490억)야. 컨텍스트 윈도우(한 번에 처리할 수 있는 텍스트 길이)는 100만 토큰.

성능은 DeepSeek 자체 보고 기준으로 MMLU-Pro에서 GPT-5.4급이야. 외부 독립 벤치마크는 아직 제한적이지만, LMArena에서는 "프론티어 근접"이라는 평가를 받고 있어.

정상가도 이미 싸. V4-Pro 정상 입력 0.145달러/100만, 출력 3.48달러/100만. GPT-5.5(입력 5달러, 출력 30달러)나 Claude Opus 4.7(입력 5달러, 출력 25달러)의 1/6-1/7 수준이야.

디지털 코드와 회로 패턴을 보여주는 기술 이미지 — AI 추론 인프라를 상징 출처: unsplash.com · Unsplash License

여기에 75% 프로모션까지 걸리면서 입력은 사실상 0.036달러까지 내려왔어. 출력은 할인이 없어서 3.48달러 그대로인데, 이것도 GPT-5.5 출력(30달러)의 1/8.6이야.

가격 비교표 — 프론티어급 모델 추론 비용

모델 입력 $/1M 토큰 출력 $/1M 토큰 컨텍스트 아키텍처
DeepSeek V4-Pro (프로모) $0.036 $3.48 1M 1.6T MoE, 49B active
DeepSeek V4-Pro (정상가) $0.145 $3.48 1M 1.6T MoE, 49B active
DeepSeek V4-Flash $0.14 $0.28 1M 284B MoE, 13B active
GPT-5.5 $5.00 $30.00 256K 비공개
Claude Opus 4.7 $5.00 $25.00 200K 비공개
Gemini 2.5 Pro $2.50 $15.00 2M 비공개
Llama 4 Scout (자체 호스팅) 인프라 비용만 인프라 비용만 10M 109B, 17B active

이 표에서 주목할 건 V4-Flash야. 출력 0.28달러/100만 토큰은 GPT-5.5 출력의 107분의 1이야. 에이전트 워크플로에서 "빠르고 싼 모델로 초안 → 비싼 모델로 검증"하는 듀얼 라우팅 패턴이 표준이 되고 있는데, V4-Flash가 그 '싼 모델' 자리를 가져가려는 포지셔닝이야.

핵심 내용 해부

캐시 히트 1/10 인하가 왜 더 중요해

75% 프로모션은 5월 5일에 끝나. 하지만 캐시 히트 가격 1/10 인하는 영구적이야. 이게 왜 중요하냐면, 지금 AI 업계에서 가장 빠르게 성장하는 워크로드가 전부 "같은 프롬프트를 반복 호출하는" 패턴이거든.

RAG(Retrieval-Augmented Generation — 외부 문서를 검색해서 답변에 활용하는 방식), 코드 어시스턴트, 멀티스텝 에이전트. 이 셋의 공통점은 시스템 프롬프트와 컨텍스트의 상당 부분이 매 호출마다 동일하다는 거야. 캐시 히트 비율이 60-80%인 워크로드에서 입력 비용이 1/10으로 떨어지면, 전체 추론 비용이 50-70% 줄어.

중국 가격 전쟁의 구조

DeepSeek의 가격 공세는 단독 행동이 아니야. 같은 주에 Alibaba Cloud와 Tencent Cloud가 DeepSeek 모델을 자사 클라우드에 올리기 위한 협상을 진행 중이라는 보도가 나왔어. 중국 내에서 "DeepSeek 모델을 최저가로 제공하는 클라우드가 AI 시대의 디폴트가 된다"는 경쟁이 벌어지고 있는 거야.

배경에는 미중 AI 갈등이 있어. 트럼프 행정부는 중국 기업들이 미국 AI 모델을 "산업 규모로 디스틸링(distilling — 대형 모델의 출력으로 소형 모델을 학습시키는 기법)"하고 있다고 비난했어. DeepSeek의 대응은 "우리 자체 모델이 프론티어급이고, 가격도 더 싸다"는 걸 증명하는 거야.

관련 지식 크로스 레퍼런스

이 가격 전쟁은 AI 추론 비용의 역사적 하락 곡선 위에 있어.

2023년 3월, GPT-4 출시 당시 입력 가격은 30달러/100만 토큰이었어. 3년 만에 GPT-5.5가 5달러로 내려왔고, DeepSeek V4-Pro 프로모는 0.036달러야. 3년간 830배 하락이야. 이건 무어의 법칙(반도체 집적도가 2년마다 2배 증가)보다 훨씬 가파른 곡선이야.

데이터 매트릭스와 코드를 보여주는 기술 이미지 — AI 추론 비용 하락 트렌드 벤치마크 차트 출처: unsplash.com · Unsplash License

이 하락의 동력은 세 가지야. 첫째, MoE 아키텍처 확산. 1.6T 파라미터 중 49B만 활성화하면 GPU 메모리와 연산을 크게 절약할 수 있어. 둘째, 추론 전용 하드웨어 최적화. DeepSeek는 V4를 Huawei Ascend 칩에서도 돌릴 수 있다고 발표했는데, 이건 미국 GPU 수출 규제를 우회하는 동시에 칩 비용을 낮추는 전략이야. 셋째, KV 캐시 압축 기술. DeepSeek는 MLA(Multi-head Latent Attention)이라는 자체 어텐션 메커니즘으로 KV 캐시 크기를 기존 대비 93% 이상 줄였다고 발표했어. 이게 캐시 히트 가격을 1/10까지 떨어뜨릴 수 있는 기술적 배경이야.

미국 모델 업체들의 대응은 "가격이 아니라 가치"로 가는 거야. Anthropic은 사이버 보안 검증 라이선스(Cyber Verification)라는 새 수익원을 만들고 있고, OpenAI는 Workspace Agents라는 엔터프라이즈 번들을 준비 중이야. Google은 Gemini Enterprise로 Vertex AI를 통합하면서 "모델 + 인프라 + 보안"을 패키지로 파는 전략을 취하고 있어.

왜 중요한지

개발자에게: 에이전트 워크플로 운영비가 5월부터 다시 큰 폭으로 떨어져. 특히 RAG이나 코드 어시스턴트처럼 캐시 히트율이 높은 워크로드는 V4-Pro/Flash로 전환하면 비용이 1/10까지 줄 수 있어. 단, 벤치마크를 직접 돌려서 자기 워크로드에서의 성능을 확인한 뒤 전환해야 해.

스타트업/PM에게: 가격 우위의 V4를 '기본 모델'로, 미국 빅3(GPT-5.5, Opus 4.7, Gemini 2.5 Pro)를 '하이엔드'로 듀얼 라우팅하는 게 사실상 표준이 될 거야. 비용 민감한 호출은 V4, 정확도 중요한 호출은 Opus/GPT로 나누는 거야.

투자자에게: 추론 비용 곡선이 이 속도로 떨어지면, "API 과금 마진"으로 먹고사는 모델 회사의 장기 수익성에 의문부호가 붙어. OpenAI의 2025년 적자가 50억 달러였는데, 가격 경쟁이 이 속도로 진행되면 흑자 전환 시점이 더 늦어질 수 있어.

일반 사용자에게: AI 서비스 가격이 전반적으로 내려갈 가능성이 높아. ChatGPT Plus 가격이 내려가진 않겠지만, AI 기반 서비스를 만드는 스타트업들의 비용이 줄면 최종 소비자 가격에도 영향이 올 수 있어.

DEEP DIVE: Huawei Ascend와 GPU 독립

이번 가격 공세에서 숨겨진 카드는 하드웨어야. DeepSeek는 V4-Pro와 V4-Flash가 Huawei Ascend 910B에서도 돌아간다고 발표했어. 미국의 AI 칩 수출 규제(2022년 10월 이후 강화)로 중국 기업은 최신 NVIDIA GPU를 공식적으로 구매할 수 없어.

DeepSeek의 대응은 두 트랙이야. 하나는 기존에 확보한 NVIDIA A100/H100 재고로 학습을 계속하는 것. 다른 하나는 Huawei Ascend에서 추론을 돌려서 운영 비용을 낮추는 거야. Ascend 910B의 성능은 NVIDIA H100의 약 70%로 알려져 있지만, 가격은 절반 이하야.

이 전략이 성공하면, "NVIDIA GPU 없이도 프론티어급 모델을 운영할 수 있다"는 증명이 돼. 이건 NVIDIA의 AI 칩 독점에 구조적 위협이야. Jensen Huang(NVIDIA CEO)이 최근 "중국의 AI 칩 자립은 아직 멀었다"고 발언했지만, DeepSeek의 V4 가격을 보면 그 거리가 생각보다 가까울 수 있어.

스테이크

  • Wins: DeepSeek — 프론티어급 성능 + 최저가로 글로벌 API 시장 점유율 확대. 중국 내 알리바바·텐센트 클라우드 채택 협상도 진행 중
  • Wins: 에이전트/RAG 스타트업 — 추론 비용이 한 자릿수 더 떨어지면서 에이전트 기반 SaaS의 마진이 개선됨
  • Loses: OpenAI·Anthropic — API 가격만으로는 경쟁 불가. 에이전트 품질·보안·생태계로 정당화해야 함
  • Loses: Together AI·Fireworks 같은 추론 호스팅 업체 — DeepSeek가 직접 API를 제공하면서 중간 레이어 가치 압축
  • Watching: NVIDIA — Huawei Ascend에서 프론티어 모델이 돌아가면 AI 칩 독점에 구조적 균열
  • Watching: 미국 상무부 — 중국 AI 모델 가격 공세가 국가 안보 이슈로 확대될 가능성

반대 의견 / 회의적 시각

Jack Clark (전 Anthropic 공동창업자, Import AI 뉴스레터): "가격 자체가 낮다고 좋은 게 아니야. DeepSeek의 가격은 지속 가능한 사업 모델이 아니라 시장 점유 전략이야. 프로모션이 끝나면 가격이 오를 수 있고, 중국 정부 보조금이 뒤에 있을 가능성을 배제할 수 없어."

Simon Willison (AI 개발자, 블로거): "벤치마크가 DeepSeek 자체 보고라는 점을 잊으면 안 돼. 외부 독립 평가에서 GPT-5.5와 동등하다는 결과가 나오기 전까지는 '1/6 가격에 같은 성능'이라는 주장을 액면 그대로 받아들이기 어려워."

내일 아침에 할 것

  • 개발자: DeepSeek V4 API 문서 확인하고, 자기 워크로드로 V4-Pro vs GPT-5.5 A/B 테스트 설계해봐. 프로모션은 5월 5일까지니까 서둘러
  • PM/스타트업: 현재 LLM API 비용 구조를 스프레드시트로 정리하고, V4-Pro/Flash를 "기본 라우팅 모델"로 쓸 때의 비용 절감 시뮬레이션을 돌려봐. 캐시 히트율이 60%+ 워크로드에서 효과가 가장 클 거야
  • 투자자: DeepSeek의 다음 행보를 모니터링해야 해. 5월 5일 프로모션 종료 후 정상가 유지 여부, 알리바바·텐센트 클라우드 채택 공식 발표(5월 중 예상)를 확인해

한 줄 정리

프론티어급 모델 추론 비용이 또 한 자릿수 떨어졌어. 가격 경쟁의 바닥은 아직 안 보여.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지