spoonai
TOPGoogleGeminiMultimodal

Gemini 3.1 Ultra가 200만 토큰을 들었어 — 코드까지 직접 돌려

Google이 200만 토큰 컨텍스트의 Gemini 3.1 Ultra를 발표. 텍스트·이미지·오디오·비디오를 한 컨텍스트에 담고 코드 실행 샌드박스를 기본 탑재했어.

·5분 소요·blog.mean.ceoblog.mean.ceo
공유
Gemini 3.1 Ultra 200만 토큰 컨텍스트 + 코드 실행 다이어그램
출처: Google DeepMind

2,000,000

200만 토큰. 이게 Gemini 3.1 Ultra의 컨텍스트 한도야. 텍스트·이미지·오디오·비디오를 함께 담아도 그 길이를 유지한다고 발표했어. 그런데 발표의 진짜 충격은 컨텍스트가 아니라 거기에 같이 들어간 두 번째 카드 — 모델이 대화 안에서 코드를 직접 작성·실행·테스트하는 샌드박스가 기본 탑재된 거야.

OpenAI의 GPT-5.4가 어제 100만 토큰 + 멀티스텝 자율 실행을 발표했어 (별도 기사). 하루 사이에 Google이 두 배 컨텍스트 + 코드 실행으로 답을 던진 셈이야.

각 주체 — Google DeepMind와 Google Cloud

Google DeepMindDemis Hassabis가 이끄는 단일 AI 연구·제품 조직이야. 2023년 Brain과 DeepMind 합병 이후 Gemini 라인을 단일 트랙으로 굴리고 있어. 2024년 Gemini 1.5에서 100만 토큰을 먼저 깔았고, 2.5에서 멀티모달 정렬을 강화, 그리고 3.1에서 두 배 + 코드 실행으로 점프했어.

Google Cloud Vertex AI는 이걸 직접 매출로 가져갈 채널이야. AWS Bedrock·Azure OpenAI와 정면 경쟁하는데, 200만 토큰은 "전체 코드베이스를 한 번의 호출로 분석"이 가능해지면서 Vertex의 차별점이 강해졌어.

[IMG#1]

핵심 내용 — 무엇이 새로운가

스펙 Gemini 3.1 Ultra Gemini 2.5 Pro (직전) GPT-5.4 (경쟁) Claude 4.5 Opus (경쟁)
컨텍스트 2,000,000 1,000,000 1,000,000 500,000
멀티모달 text/image/audio/video text/image/audio/video text/image text/image
코드 실행 내장 샌드박스 외부 도구 코드 인터프리터 외부 도구
입력 가격 ($/1M) $1.25 $1.25 $5.00 $15.00
출력 가격 ($/1M) $5.00 $5.00 $15.00 $75.00

가격이 가장 큰 신호야. Pro와 같은 단가를 유지하면서 컨텍스트만 두 배가 됐어. 즉 Google은 "프론티어 가격을 안 올리는 길"을 택했어 — 토큰 단가를 인플레이션 시키는 OpenAI·Anthropic과 정반대 전략이지.

코드 실행 샌드박스 — 진짜 차별점

Code Execution Tool이라는 이름으로 발표됐어. 핵심은 두 가지. (1) 모델이 코드를 작성하면 gVisor 기반 격리 환경에서 즉시 실행하고 결과를 다시 컨텍스트로 회수해. (2) 200만 토큰 안에 코드 + 실행 결과 + 데이터까지 동시에 담을 수 있어서, 한 번의 대화로 "코드베이스 분석 → 패치 → 테스트 → PR 초안" 전체 사이클이 가능해.

비슷한 시도는 OpenAI의 Code Interpreter가 먼저 했지만 컨텍스트가 짧아서 큰 코드베이스에는 못 썼어. 이제 Google이 그 한계를 깼어.

각자의 이득

Google에게 — Vertex AI가 처음으로 프론티어 측에서 "가격×성능" 양쪽 모두 1번 자리를 동시에 가져갔어. 작년까지 GPT-5가 점유하던 자리야. AdSense·Workspace·Cloud 매출의 AI 인접 카테고리가 다음 분기 가속될 시나리오.

개발자에게 — 200만 토큰 + 코드 실행은 "전체 monorepo 한 컨텍스트"를 가능하게 해. Cursor·Cline·Aider 같은 코드 에이전트가 Gemini 어댑터를 디폴트로 깔 가능성이 커.

Anthropic에게는 — 단기 압박. Claude 4.5 Opus가 50만 토큰에 입력 단가 $15인데, Gemini는 200만 토큰에 $1.25야. 코드 길이로 가는 사용처는 Claude를 떠나 Gemini로 갈 압력이 강해.

[IMG#2]

과거 유사 사례 — 컨텍스트 경쟁

컨텍스트 경쟁의 첫 라운드는 2023년이었어. Anthropic이 Claude 100K를 깔았고, OpenAI가 GPT-4 Turbo 128K로 응답. 두 번째 라운드는 2024년 Gemini 1.5의 100만 토큰. Anthropic이 200K, OpenAI가 128K → 256K로 따라왔어.

이번이 세 번째 라운드야. Google이 다시 두 배로 점프했고, 이번에는 가격 인플레이션 없이 했어. 패턴은 분명해 — 컨텍스트 길이는 1차 차별점이 되기 어렵고, "동일 가격에 두 배"가 진짜 무기야.

경쟁자 카운터 플레이

OpenAI는 이미 GPT-5.4의 카운터를 내놨어 — 멀티스텝 자율 실행. 컨텍스트 대신 "여러 도구를 자율적으로 넘나드는 능력"으로 차별화. OSWorld-V 75%로 측정 가능한 형태로 박았지.

Anthropic은 Claude Sonnet 4.6에서 "에이전틱 작업의 정확도"를 내세우고 있어. 컨텍스트 길이 경쟁을 안 따라가고 코딩·도구 사용 정확도로 우회하는 전략이야.

Meta는 Llama 5 발표에서 "오픈 가중치 + 100만 토큰"을 띄울 가능성이 회자돼. 가격이 아니라 "자체 호스팅" 카드로 답할 거야.

스테이크

  • Wins: Google — Vertex AI 매출, 코드 에이전트 채널, AI 클라우드 점유율.
  • Wins: 개발자 — 가격 동결 + 컨텍스트 두 배 = 큰 리포 분석이 실용 영역.
  • Loses: Anthropic — 단기 코딩 워크로드 점유 일부 이탈 가능. MCP 표준으로 보전.
  • Watching: OpenAI — 다음 분기 GPT-5.5에서 200만 토큰 매칭 + 가격 결정.
  • Watching: 클라우드 빅3 — Vertex 점유 가속 시 AWS/Azure가 가격 카운터.

반대 의견

Simon Willison: "200만 토큰 광고 숫자와 실제 정확도는 다르다 — 컨텍스트 끝에 둔 정보를 모델이 제대로 회수하는지 long-context retrieval 벤치로 검증해야 한다."

또 다른 비판은 Yann LeCun (Meta AI 수석): "토큰 길이보다 추론 능력이 다음 도약의 본질"이라는 입장. 컨텍스트만 키우는 건 실질 능력 향상에 한계가 있다는 거야.

그래서 뭐가 달라지는데

개발자에게는 — Vertex AI 가격이 매력적이야. 코딩 에이전트를 빌드한다면 Gemini 3.1을 디폴트로 두고 Claude/GPT를 폴백으로 두는 구조가 가성비 1번. 200만 토큰 분량을 처음으로 시도해본다면 Long Context cookbook을 참고.

창업자에게는 — "긴 컨텍스트가 필수"인 도메인(법률·의료·소프트웨어)에서 Vertex 단독으로 이기는 시나리오가 가능. 단, 1년 후 가격 모드가 바뀌면 마진이 휘청일 수 있어 — 멀티-LLM 추상화 레이어를 처음부터 만들어둬.

투자자에게는 — Alphabet(GOOG) Q2 결과에서 Cloud 부문 성장률이 핵심 시그널. AWS·Azure 대비 Cloud의 AI 매출 비중이 가장 빠르게 올라가고 있어.

일반 사용자에게는 — Google AI Studio·Gemini 앱에서 무료로 일부 200만 토큰 기능 시도 가능. 긴 PDF·영상을 통째로 던져보는 게 가장 큰 변화.

3줄 요약

  • Gemini 3.1 Ultra가 200만 토큰 컨텍스트 + 코드 실행 샌드박스를 기본 탑재.
  • 가격은 직전 Pro와 동일 — Google이 "프론티어 가격 동결" 전략을 채택.
  • OpenAI·Anthropic의 카운터 시계가 줄어들고, 코드 에이전트 시장의 디폴트가 흔들림.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지