spoonai
TOPGoogleGeminiLLM

Gemini 3.1 Flash-Lite 등장, LLM 가격 전쟁 새 국면 — 1년 만에 80% 폭락한 AI 모델 가격

Google이 Gemini 3.1 Flash-Lite를 입력 100만 토큰당 $0.25에 내놓았다. 2025년 대비 80% 하락한 LLM API 가격의 의미와 개발자에게 미치는 영향을 분석한다.

·5분 소요·Google AI Blog
Google Gemini 3.1 Flash-Lite 모델 소개
출처: Google

100만 토큰당 0.25달러. Google이 Gemini 3.1 Flash-Lite에 붙인 입력 가격이다.

1년 전 같은 성능 수준의 모델을 쓰려면 이 가격의 4배 이상을 내야 했다. 2026년 3월 기준, LLM API 가격은 전년 대비 평균 80% 하락했다. Anthropic은 Claude Opus 4.5 가격을 67% 인하했고, DeepSeek V3.2는 입출력 통합 가격 $0.28/$0.42로 중국발 가격 압박을 이어가고 있다. Google의 Flash-Lite는 이 가격 전쟁에 새로운 바닥을 제시한 셈이다.

AI 모델 시장이 "누가 더 똑똑한가"에서 "누가 더 싸게 줄 수 있는가"로 전환하고 있다.

이걸 이해하려면: LLM 가격은 왜 이렇게 빠르게 떨어지나

하드웨어, 알고리즘, 경쟁의 삼중 압박

LLM API 가격 하락에는 세 가지 구조적 요인이 작용한다.

첫 번째는 하드웨어 효율성 개선이다. NVIDIA의 Blackwell 아키텍처, AMD의 MI350, Google의 TPU v6 등 추론 전용 칩의 성능이 매년 2배 이상 올라가고 있다. 같은 전력으로 더 많은 토큰을 처리할 수 있으니 단가가 내려간다.

두 번째는 알고리즘 최적화다. MoE(Mixture of Experts, 전문가 혼합) 아키텍처가 표준이 되면서, 전체 파라미터 중 일부만 활성화해 추론 비용을 극적으로 줄일 수 있게 됐다. Gemini 3.1 Flash-Lite도 이 구조를 채택한 것으로 알려져 있다. 여기에 프롬프트 캐싱(prompt caching)이 더해지면 입력 토큰 비용을 최대 90%까지 절감할 수 있다.

세 번째는 경쟁이다. DeepSeek, Alibaba Qwen, Mistral 같은 오픈소스 및 저가 모델들이 벤치마크에서 GPT-4급 성능을 보여주면서, 프리미엄 가격을 유지하던 OpenAI와 Anthropic도 가격을 내릴 수밖에 없게 됐다.

요인 영향 가격 하락 기여도
추론 칩 성능 향상 와트당 처리 토큰 수 증가 약 30%
MoE + 캐싱 최적화 활성 파라미터 감소, 반복 입력 절감 약 30%
오픈소스/중국 모델 경쟁 가격 기준점 자체를 끌어내림 약 40%

핵심 내용 해부: Gemini 3.1 Flash-Lite가 바꾸는 것

스펙 비교: 2026년 3월 주요 LLM 가격표

3월 기준 주요 모델의 API 가격을 정리하면, 가격 스펙트럼이 얼마나 넓어졌는지 한눈에 보인다.

모델 입력 ($/1M 토큰) 출력 ($/1M 토큰) 컨텍스트 윈도우 특징
Gemini 3.1 Flash-Lite $0.25 $1.50 100만 토큰 최저가 대형 모델
Gemini 2.0 Flash-Lite $0.075 $0.30 100만 토큰 구세대 초저가
DeepSeek V3.2 $0.28 $0.42 128K 통합 추론+채팅
GPT-5 $1.25 $10.00 100만 토큰 프리미엄
Claude Opus 4.5 $15.00 $75.00 200K 최고 성능 (67% 인하 후)
Mistral Nemo $0.02 $0.02 128K 최저가 소형

Gemini 3.1 Flash-Lite의 포지션은 명확하다. GPT-5의 5분의 1 가격으로, 100만 토큰 컨텍스트 윈도우를 제공하면서 번역, 콘텐츠 검수, UI 생성, 시뮬레이션 같은 대량 처리 작업에 최적화됐다. Google이 Gemini 3 Pro 대비 8분의 1 가격으로 책정했다는 점에서, 자사 모델 라인업 내에서도 극단적인 가격 분화 전략을 쓰고 있다.

성능은 얼마나 되나

Flash-Lite는 이름 그대로 "빠르고 가벼운" 모델이다. Google에 따르면 2.5 Flash 대비 첫 토큰 응답 시간(TTFT, Time to First Token)이 2.5배 빨라졌고, 출력 속도는 45% 향상됐다. 멀티모달(텍스트, 이미지, 오디오, 비디오) 입력을 지원하며, 최대 64,000 토큰의 텍스트를 생성할 수 있다.

다만 복잡한 추론, 코딩, 수학 문제에서는 Gemini 3 Pro나 GPT-5에 미치지 못한다. 이 모델의 설계 의도 자체가 "최고 성능"이 아니라 "대량 처리에서의 비용 효율"이기 때문이다.

Flash-Lite는 "가장 똑똑한 모델"이 아니다. "가장 많이 굴릴 수 있는 모델"이다. 그리고 2026년의 AI 시장에서는 후자가 더 중요해지고 있다.

더 넓은 그림: AI 가격 전쟁의 승자와 패자

개발자에게는 축복, AI 기업에게는 압박

LLM 가격의 급락은 AI 응용 개발자들에게는 분명한 호재다. 1년 전만 해도 월 수천 달러가 들던 AI API 비용이 이제 수백 달러 수준으로 떨어졌다. 스타트업들이 AI 기능을 제품에 탑재하는 진입 장벽이 극적으로 낮아졌다.

반대로 AI 모델 회사들의 수익 구조는 압박받고 있다. 가격을 내려도 사용량이 비례해서 늘어나지 않으면 매출이 줄어든다. OpenAI가 연환산 매출 250억 달러를 넘겼지만, 가격 인하 압력이 지속되면 마진 유지가 어려워진다. 이 구조에서 살아남으려면 두 가지 중 하나가 필요하다. 압도적인 사용량 확보(Google의 전략)이거나, 프리미엄 성능으로 고가 시장 유지(OpenAI, Anthropic의 전략)다.

프롬프트 캐싱이 만드는 진짜 가격 혁명

가격표보다 더 큰 변화는 프롬프트 캐싱(prompt caching)의 보편화다. 반복되는 시스템 프롬프트나 컨텍스트를 캐싱하면 입력 토큰 비용을 90% 절감할 수 있다. 여기에 배치(batch) 처리를 조합하면 최대 95%까지 총비용을 줄일 수 있다.

3월 한 달만 해도 추적 대상 496개 모델 중 116개가 가격 변동을 겪었다. 분기 단위가 아니라 주 단위로 가격이 바뀌는 시장이 된 것이다.

그래서 뭐가 달라지는데

개발자와 프로덕트 팀에게 실질적으로 달라지는 점은 세 가지다.

첫째, 모델 선택 전략이 "최고 성능 하나"에서 "용도별 최적 조합"으로 바뀐다. 복잡한 추론은 GPT-5나 Claude Opus를, 대량 처리는 Flash-Lite나 DeepSeek V3.2를 쓰는 멀티모델 아키텍처가 표준이 되고 있다. 라우터(router) 패턴이라고 부르는 이 접근법은 비용을 60-80% 절감하면서도 품질 저하를 최소화한다.

둘째, AI 기능의 "기본 탑재"가 가속된다. API 비용이 이렇게 낮아지면, AI 기능 없는 SaaS 제품이 오히려 경쟁력을 잃는 시대가 온다. 번역, 요약, 분류 같은 기본 AI 기능은 거의 무료에 가까운 비용으로 구현할 수 있게 됐다.

셋째, 가격 추적이 실무 역량이 된다. 116개 모델이 한 달 만에 가격을 바꿀 정도로 시장이 유동적이다. pricepertoken.com 같은 비교 사이트를 정기적으로 확인하는 것이 인프라 비용 관리의 기본이 됐다.


참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.