spoonai
TOPGoogleGeminiMultimodal

Google Gemini 3.1 Ultra, 200만 토큰 컨텍스트로 AI 전쟁의 판을 뒤집다

Google이 Gemini 3.1 Ultra를 공개했다. 200만 토큰 컨텍스트 윈도우, 텍스트-이미지-오디오-비디오 네이티브 멀티모달 추론, 그리고 AI Overviews 직접 통합까지.

공유
Google Gemini 3.1 Ultra 로고와 모델 아키텍처 다이어그램
출처: Google DeepMind

7억 5천만 명이 쓰는 AI가 한 번 더 진화했다

200만 토큰. 책으로 치면 약 1,500페이지 분량의 텍스트를 한 번에 읽고 이해할 수 있는 양이야. Google이 Gemini 3.1 Ultra를 공개하면서 내건 숫자인데, 이건 단순히 "긴 문서를 읽는다"는 수준을 넘어서.

Gemini 3.1 Ultra는 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 네이티브 멀티모달(여러 형태의 데이터를 하나의 모델에서 통합 처리하는 것) 추론을 지원해. 기존 모델들이 텍스트를 처리한 뒤 이미지를 별도로 분석하는 방식이었다면, Gemini 3.1 Ultra는 훈련 단계부터 모든 모달리티를 동시에 학습해서 진짜 "멀티모달 사고"를 한다는 게 핵심이야.

Google에 따르면 Gemini 앱 월간 사용자는 7억 5천만 명을 돌파했어. 이 거대한 사용자 기반 위에 3.1 Ultra가 올라가는 거야.


이걸 이해하려면: 컨텍스트 윈도우 전쟁의 역사

AI 모델의 컨텍스트 윈도우(한 번에 처리할 수 있는 텍스트 길이)는 지난 2년간 폭발적으로 성장해왔어.

시기 모델 컨텍스트 윈도우
2024년 초 GPT-4 Turbo 128K 토큰
2024년 중 Claude 3 200K 토큰
2025년 초 Gemini 2.0 1M 토큰
2025년 말 GPT-5.4 1M 토큰
2026년 4월 Gemini 3.1 Ultra 2M 토큰

2년 만에 128K에서 2M으로, 약 16배가 늘었어. 하지만 중요한 건 숫자 자체가 아니야. 컨텍스트가 길어질수록 AI가 할 수 있는 일의 종류가 달라진다는 거야.

128K 토큰으로는 긴 보고서 하나를 요약할 수 있었어. 1M 토큰으로는 책 한 권을 분석할 수 있었지. 2M 토큰이면? 전체 코드베이스를 한 번에 읽고 리팩토링하거나, 수백 시간 분량의 회의 녹화를 통째로 분석해서 핵심 의사결정 포인트를 뽑아낼 수 있어.

Google이 이 경쟁에서 한 발 앞선 건 인프라 덕분이야. 자체 TPU(Tensor Processing Unit) 칩을 설계하고 운영하니까 거대한 컨텍스트를 효율적으로 처리하는 데 비용 우위가 있어. OpenAI와 Anthropic이 Nvidia GPU에 의존하는 것과 대조적이지.


핵심 내용 해부: 3.1 Ultra는 뭐가 다른가

네이티브 멀티모달 추론

기존 AI 모델 대부분은 "언어 모델에 비전을 붙인" 구조야. 텍스트를 주로 학습하고, 이미지나 비디오는 별도의 인코더를 통해 변환한 뒤 처리하지. Gemini 3.1 Ultra는 다른 접근을 취했어. 훈련 초기부터 텍스트, 이미지, 오디오, 비디오 토큰을 하나의 통합 백본(backbone)에서 함께 학습했어.

이게 실질적으로 뭘 의미하냐면, 예를 들어 2시간짜리 회의 영상을 올리면 발표자의 슬라이드(비전), 발언 내용(오디오), 그리고 채팅창 텍스트를 동시에 이해하면서 "이 시점에서 참석자 A가 반대 의견을 냈고, 슬라이드 37번의 수치와 모순된다"는 식의 크로스모달 추론이 가능하다는 거야.

벤치마크 경쟁: 3강 구도

Gemini 3.1 라인업은 Pro와 Ultra 두 개로 나뉘어. Pro는 이미 글로벌 롤아웃이 시작됐고, Ultra는 Google AI Ultra 구독자 대상으로 제공돼.

벤치마크 Gemini 3.1 Pro GPT-5.4 Claude Opus 4.6
MMLU 94.1% 91.4% 90.5%
GPQA Diamond 94.3% 94.4% 약 95.7%
AI Intelligence Index 동점 동점 미포함
API 비용 (1M 입력) $12.50 $30+ $15

Artificial Analysis Intelligence Index에서 Gemini 3.1 Pro가 GPT-5.4 Pro와 동점을 기록했는데, API 비용은 3분의 1 수준이야. 월간 1억 토큰을 처리하는 개발자 기준으로 Gemini를 쓰면 약 $625, GPT-5.4를 쓰면 약 $1,750이야. 연간으로 계산하면 $13,500 차이가 나.

벤치마크에서 동점이고 가격은 3분의 1이라면, 개발자 입장에서 Gemini를 안 고려할 이유가 없어.

AI Overviews와 Deep Think 통합

Google만이 할 수 있는 무기가 하나 더 있어. AI Overviews(Google 검색 결과 상단에 AI가 생성하는 요약)에 Gemini 3.1 Ultra가 직접 연결돼. 검색 쿼리에 대한 답변 품질이 모델 업그레이드와 함께 올라간다는 뜻이야.

또한 Gemini 3 Deep Think 모드가 대폭 업그레이드돼 Google AI Ultra 구독자에게 제공돼. 깊은 과학적 지식과 일상적 엔지니어링 유틸리티를 결합해서 실용적 응용을 지원하는 모드야.


더 넓은 그림: 프론티어 모델 3강 구도의 변화

2026년 4월 기준, 프론티어 AI 모델 시장은 명확한 3강 구도야. Google의 Gemini, OpenAI의 GPT, Anthropic의 Claude.

각각의 포지셔닝이 점점 뚜렷해지고 있어. OpenAI는 GPT-5.4로 에이전트(AI가 스스로 판단하고 행동하는 것) 실행에 집중하고, Anthropic은 코딩과 사이버보안에서 차별화하고, Google은 멀티모달과 가격 경쟁력으로 승부해.

Google의 진짜 강점은 "배포"야. 7억 5천만 명의 Gemini 사용자, 20억 대의 안드로이드 기기, Gmail, Google Docs, YouTube 등 기존 제품군에 AI를 바로 탑재할 수 있어. OpenAI나 Anthropic이 "좋은 모델을 만들고 사용자를 끌어오는" 전략이라면, Google은 "이미 있는 사용자에게 더 좋은 모델을 넣어주는" 전략이야.


그래서 뭐가 달라지는데

일반 사용자라면 Google AI Ultra 구독($249.99/월)으로 가장 먼저 체감할 수 있어. Gemini 앱에서 2M 토큰 컨텍스트와 Deep Think를 바로 쓸 수 있지. 무료 사용자도 3.1 Pro가 순차 적용되면서 검색 품질 향상을 체감하게 될 거야.

개발자라면 가격 대비 성능 비교를 다시 해볼 필요가 있어. 특히 멀티모달 처리가 필요한 프로젝트에서 Gemini 3.1이 비용 효율 면에서 가장 합리적인 선택일 수 있어. 월 1억 토큰 기준 연간 $13,500 절약은 스타트업에게 적지 않은 차이야.

컨텍스트 윈도우 경쟁은 아직 끝나지 않았어. 하지만 200만 토큰이라는 숫자는 "AI가 책 한 권을 읽는" 단계에서 "AI가 전체 프로젝트를 이해하는" 단계로 넘어가는 분기점이야.


참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.