구글 Gemini 3.5 Pro, 6월 안에 정식 출시 임박 — 200만 토큰 컨텍스트 + 'Deep Think' 추론
구글이 Gemini 3.5 Pro의 일반 공개(GA)를 6월 안에 진행할 것으로 보여. 핵심 무기는 200만 토큰 컨텍스트 윈도우와 복잡한 다단계 문제를 위한 'Deep Think' 추론 모드. 5월 I/O에서 공개됐고 현재는 제한 프리뷰 상태인데, 정식 출시가 임박했어.
"책 스무 권을 한 번에 읽는 AI"가 곧 정식 출시된다
자, 핵심 숫자부터. 200만 토큰. 구글이 곧 정식 출시할 Gemini 3.5 Pro의 컨텍스트 윈도우야. '컨텍스트 윈도우'는 AI가 한 번에 머릿속에 담아두고 처리할 수 있는 정보의 양인데, 200만 토큰이면 대략 두꺼운 책 여러 권, 혹은 거대한 코드베이스 전체를 한꺼번에 던져 넣고 "이거 다 보고 답해"라고 시킬 수 있는 규모야. 지금 시중에 풀린 최상급 모델 중에서도 손에 꼽게 큰 용량이지.
상황을 정리하면 이래. Gemini 3.5 Pro는 지난 5월 구글 I/O에서 공개됐고, 6월 초까지는 내부 사용과 제한적 프리뷰 단계였어. 그런데 여러 보도가 6월 안에 일반 공개(GA)가 임박했다고 가리키고 있어. 즉 곧 일반 개발자와 기업이 실제로 갖다 쓸 수 있게 된다는 거지.
200만 토큰만큼 중요한 두 번째 무기는 'Deep Think'라는 추론 모드야. 복잡하고 여러 단계를 거쳐야 풀리는 문제에서, 모델이 더 오래·더 깊이 생각하게 만드는 모드라고 보면 돼. 빠르게 툭 답하는 게 아니라, 어려운 문제 앞에서 단계를 밟아가며 신중하게 푸는 능력에 방점을 찍은 거지. 거대한 컨텍스트(많이 읽기) + 깊은 추론(잘 생각하기), 이 두 축이 Gemini 3.5 Pro의 정체성이야.
그래서 오늘 풀 이야기는 이거야. 200만 토큰 컨텍스트가 실제로 뭘 가능하게 하는지, 'Deep Think'가 기존 모델과 뭐가 다른지, 그리고 이 출시가 치열한 최상급 모델 경쟁에서 어떤 의미인지. 개념 두 개만 잡으면 그림이 보여.
등장인물 — 구글, 그리고 두 개의 무기
먼저 구글. Gemini는 구글이 OpenAI·앤트로픽과 최상급 AI 자리를 놓고 다투기 위해 미는 핵심 모델 라인이야. 구글의 강점은 압도적인 인프라(자체 칩 TPU, 거대한 데이터센터)와 검색·워크스페이스 같은 방대한 유통망이지. 모델 하나 잘 만드는 걸 넘어, 그걸 수십억 명이 쓰는 자사 제품에 곧장 꽂아 넣을 수 있다는 게 구글의 무서운 점이야.
다음 주인공은 사람이 아니라 무기인데, 첫 번째가 200만 토큰 컨텍스트 윈도우야. 쉽게 말해 'AI의 단기 기억 용량'이라고 보면 돼. 컨텍스트가 작으면 긴 문서를 토막 내서 따로 처리해야 하고, 그러다 앞뒤 맥락을 놓치기 쉬워. 반면 200만 토큰이면 거대한 법률 문서 뭉치, 회사 전체 코드, 긴 회의록 수십 개를 통째로 넣고 "이 안에서 모순 찾아줘" 같은 일을 시킬 수 있어. '쪼개지 않고 통째로 본다'는 게 핵심 가치야.
두 번째 무기는 'Deep Think' 추론 모드야. 컨텍스트가 '얼마나 많이 읽느냐'라면, Deep Think는 '얼마나 잘 생각하느냐'에 해당해. 복잡한 수학, 다단계 추론, 까다로운 코딩 문제처럼 한 번에 툭 답하면 틀리기 쉬운 문제에서, 모델이 시간을 더 들여 단계를 밟아 신중하게 푸는 모드지. 빠른 답보다 '믿을 만한 답'에 방점을 둔 기능이야.
이 셋의 관계를 한 문장으로 묶으면 이래. 거대 인프라와 유통망을 쥔 구글이, '많이 읽는 능력(200만 토큰)'과 '깊이 생각하는 능력(Deep Think)'을 한 모델에 묶어 최상급 경쟁에 던진다. 이게 이야기의 뼈대야.
핵심 내용 — 무엇이 공개됐나
말로 풀면 흩어지니까, 확인된·예상된 정보를 표로 보자.
| 항목 | 내용 |
|---|---|
| 모델 | Google Gemini 3.5 Pro |
| 최초 공개 | 2026년 5월 구글 I/O |
| 현재 상태 | 제한적 프리뷰 / 내부 사용 (6월 초 기준) |
| GA 목표 | 6월 안 일반 공개 임박 |
| 컨텍스트 윈도우 | 200만 토큰 (Flash의 약 2배) |
| 추론 기능 | 'Deep Think' — 복잡한 다단계 문제용 심화 추론 모드 |
| 강점 영역 | 초장문 컨텍스트, 복잡 추론, 프런티어급 멀티모달 |
| 가격 (예상) | 1M 토큰당 약 $15 / $60 수준으로 전해짐 |
표를 한 줄씩 보자. 우선 **'Flash의 약 2배'**라는 비교가 의미 있어. 구글은 빠르고 싼 'Flash'와 강력한 'Pro'를 나눠 파는데, Pro의 200만 토큰은 같은 라인업의 경량 모델보다 훨씬 큰 용량이야. 즉 "정말 방대한 자료를 통째로 다뤄야 하는 무거운 작업"은 Pro로, 가볍고 빠른 작업은 Flash로 가르는 구조인 거지.
두 번째로 **'현재 제한 프리뷰'**라는 점이 중요해. 6월 초 기준으로는 아직 모두가 쓸 수 있는 상태가 아니었고, 여러 보도가 '6월 안 GA 임박'을 가리키는 단계야. 즉 이 글을 보는 시점에 따라 이미 풀렸을 수도, 막 풀리는 중일 수도 있어. '곧 나온다'는 단계라는 걸 감안하고 봐야 해.
세 번째로 가격이 1M 토큰당 약 $15/$60 수준으로 전해진다는 점. 이건 최상급 모델 시장의 경쟁 가격대에 들어오는 수준이야. 단순히 성능만 자랑하는 게 아니라, '비싸지 않게 쓸 수 있는 강력한 모델'로 포지셔닝하려는 거지. 다만 이 가격은 아직 확정 발표가 아니라 전해지는 수치라, GA 시점에 바뀔 수 있다는 점은 기억해 둬.
각자의 이득 — 누가 뭘 얻나
구글의 이득부터 보자. 첫째, 최상급 경쟁에서의 존재감이야. AI 모델 경쟁에서 OpenAI·앤트로픽에 밀린다는 인상이 있었는데, '200만 토큰 + Deep Think'라는 또렷한 차별점으로 "우리도 프런티어다"를 보여줄 수 있어. 둘째, 유통의 힘. 구글은 검색·워크스페이스·안드로이드라는 거대한 채널을 가졌으니, Gemini 3.5 Pro를 수십억 사용자 앞에 곧장 들이밀 수 있어. 모델 성능 × 유통망의 곱셈이 구글의 진짜 무기지.
개발자·기업의 이득도 직접적이야. 200만 토큰 덕분에, 지금까지 '쪼개서 처리하던' 거대 작업을 통째로 맡길 수 있게 돼. 예를 들어 회사 전체 코드베이스를 한 번에 넣고 "이 변경이 어디에 영향 주는지 다 찾아줘"라거나, 긴 계약서 수십 건을 한꺼번에 넣고 "충돌하는 조항 골라줘" 같은 작업 말이야. 자료를 토막 내고 다시 꿰매는 번거로운 엔지니어링이 줄어드는 거지. Deep Think는 복잡한 분석·코딩에서 오답을 줄여주고.
그리고 의외의 수혜자는 소비자 전체야. 구글이 Gemini를 자사 제품에 깊이 녹이는 흐름을 생각하면, 검색·문서·메일 같은 일상 도구가 더 똑똑한 추론과 긴 맥락 이해 능력을 갖추게 될 가능성이 커. 우리가 따로 'AI 도구'를 켜지 않아도, 매일 쓰는 도구 안에서 자연스럽게 더 강한 AI를 만나게 되는 거지.
종합하면, 구글은 경쟁 존재감과 유통 시너지를, 개발자는 거대 작업 처리력을, 소비자는 일상 도구의 향상을 얻어. 다만 이 모든 게 '약속된 사양'이 진짜 성능으로 이어지느냐에 달려 있어서, GA 이후 실사용 후기가 나와봐야 진가를 알 수 있어.
과거 유사 사례 — 성공과 실패
'컨텍스트 윈도우 키우기' 경쟁, 이번이 처음이 아니야. 지난 몇 년간 주요 모델들은 컨텍스트를 수천 → 수십만 → 100만 토큰으로 계속 늘려왔어. 성공 측면에서 보면, 긴 컨텍스트는 분명 새로운 활용을 열었어. 거대 문서 분석, 긴 코드 이해 같은 건 컨텍스트가 작던 시절엔 아예 불가능했거든. 200만 토큰은 그 흐름의 다음 단계인 셈이야.
근데 실패·한계 사례도 똑똑히 봐야 공정해. '컨텍스트가 크다'와 '그 큰 컨텍스트를 잘 쓴다'는 다른 문제거든. 과거에도 "100만 토큰 넣을 수 있다"고 자랑했지만, 막상 그 안의 중간쯤 정보는 모델이 잘 놓치는 'lost in the middle' 현상이 보고됐어. 그러니까 200만 토큰도 "넣을 수 있다"가 곧 "그 안의 모든 걸 정확히 활용한다"를 뜻하진 않아. 진짜 실력은 '유효 컨텍스트', 즉 실제로 끝까지 잘 써먹는 길이로 봐야 해.
'추론 모드'도 비슷해. Deep Think처럼 '더 오래 생각하는' 기능은 복잡한 문제 정확도를 올려주지만, 동시에 응답이 느려지고 비용도 더 들 수 있어. 모든 질문에 깊이 생각하는 게 늘 좋은 건 아니라, 빠른 답이 필요한 일상 질의엔 오히려 과해. 그래서 잘 만든 시스템은 '언제 깊이 생각하고 언제 빨리 답할지'를 잘 가르는 게 관건이야.
그래서 균형 잡힌 시각은 이래. 사양은 인상적이고 방향도 맞지만, '200만 토큰'과 'Deep Think'가 실전에서 약속만큼 작동하는지는 GA 이후 실사용으로 검증돼야 한다. 과거 사례가 알려주는 건, 큰 숫자 자체보다 '그 숫자를 끝까지 잘 쓰느냐'가 진짜 경쟁력이라는 것 하나야.
경쟁자 카운터 플레이
구글이 이렇게 나오면 경쟁자들이 가만히 있을까? 첫 번째 반격은 OpenAI·앤트로픽의 신모델 맞불이야. 최상급 모델 경쟁은 몇 달 단위로 출렁이는 동네라, 구글이 200만 토큰을 들고나오면 경쟁사도 컨텍스트·추론·가격에서 곧 새 카드를 꺼낼 거야. 사실상 '누가 더 길게 읽고, 더 깊이 생각하고, 더 싸게 파느냐'의 끝없는 릴레이가 이어지는 거지.
두 번째는 '추론 모드' 차별화 경쟁이야. Deep Think 같은 심화 추론은 이미 여러 회사가 비슷한 기능을 내놓고 있어. 그러니 단순히 "우리도 깊이 생각한다"가 아니라, '얼마나 똑똑하게, 얼마나 효율적으로(느리거나 비싸지 않게) 추론하느냐'가 차별점이 될 거야. 깊은 생각과 빠른 응답 사이의 균형을 가장 잘 잡는 쪽이 이겨.
세 번째는 가격·생태계 압박이야. 기업 고객은 결국 '성능 대비 비용'과 '이미 쓰는 도구와의 연결'에 민감해. 구글은 자체 칩(TPU)으로 비용을 낮추고 워크스페이스·클라우드 생태계에 깊이 통합하는 강점이 있지만, 경쟁사도 자기 생태계(예: 거대 클라우드, 코딩 도구)로 맞서. 모델 성능만의 싸움이 아니라 '어디에 이미 깔려 있느냐'의 싸움이기도 하지.
그리고 잊지 말 변수, 유효성 검증. 출시 직후엔 누구나 좋은 벤치마크 숫자를 들고나오지만, 진짜 평가는 개발자들이 실제 일에 써보고 나서 나와. "200만 토큰인데 중간 정보를 잘 놓친다"거나 "Deep Think가 너무 느리다" 같은 현장 후기가 쌓이면 분위기가 또 바뀔 수 있어. 그러니 이번 출시는 경쟁의 끝이 아니라, 최상급 모델 다음 라운드의 시작 신호로 보는 게 맞아.
그래서 뭐가 달라지는데 — 입장별로
개발자·엔지니어라면. 200만 토큰은 '컨텍스트 관리 노동'을 줄여줄 잠재력이 커. 지금까지 긴 문서·코드를 다룰 때 토막 내고(chunking) 검색으로 꿰매는(RAG) 작업에 공을 들였는데, 통째로 넣을 수 있으면 그 파이프라인이 단순해질 수 있어. 다만 'lost in the middle' 같은 한계가 있으니, GA 후엔 "정말 끝까지 잘 활용하는지"를 직접 작은 테스트로 확인하고 도입하는 게 안전해.
기업 의사결정자라면. 핵심은 '모델 선택의 기준이 다양해진다'는 거야. 이제 단순히 "어느 모델이 제일 똑똑해?"가 아니라, "초장문을 통째로 봐야 하는 작업이 많은가? 깊은 추론이 필요한가? 빠른 응답이 우선인가? 가격은?"을 일별로 따져 모델을 고르는 시대야. 한 모델에 다 걸기보다, 작업 성격에 맞춰 여러 모델을 섞어 쓰는 멀티 모델 전략이 점점 합리적이지.
일반 관찰자라면. 이 출시의 의미는 'AI 경쟁이 단순 성능에서 두 갈래로 갈라지고 있다'는 거야. 한쪽은 '얼마나 많이 한 번에 다루느냐(컨텍스트)', 다른 쪽은 '얼마나 깊이 생각하느냐(추론)'. 앞으로 새 모델 뉴스를 볼 때 이 두 축을 기준으로 보면, 각 회사가 어디에 베팅하는지가 또렷이 보일 거야.
세 입장을 관통하는 한 줄은 이거야. AI의 다음 경쟁은 '더 많이 읽기'와 '더 깊이 생각하기'라는 두 축에서 갈리고, 진짜 실력은 큰 숫자가 아니라 그걸 끝까지 잘 쓰느냐에서 드러난다. Gemini 3.5 Pro가 그 시험대에 곧 오르는데, 결과는 GA 후 실사용이 말해줄 거야.
🥄 남은 궁금증 세 가지
— 200만 토큰이면 뭐가 그렇게 좋아? '쪼개지 않고 통째로 볼 수 있다'는 게 핵심이야. 지금까진 긴 문서나 큰 코드를 토막 내서 따로 처리하느라 앞뒤 맥락을 놓치기 쉬웠는데, 200만 토큰이면 거대 자료를 한 번에 넣고 그 안의 연결·모순까지 보게 할 수 있어. 다만 '넣을 수 있다'와 '그 안을 다 정확히 쓴다'는 다른 문제라, 실사용 검증이 필요해.
— 'Deep Think'는 다른 추론 모델이랑 뭐가 달라? 사실 '더 오래 생각해서 복잡한 문제를 푼다'는 컨셉 자체는 여러 회사가 비슷하게 하고 있어. 그러니 Deep Think만의 절대 우위라고 단정하긴 일러. 관건은 '깊이 생각하는 정확도'와 '느려지고 비싸지는 비용' 사이의 균형을 얼마나 잘 잡느냐인데, 그건 실제로 써봐야 평가할 수 있어.
— 그래서 지금 이걸 바로 쓸 수 있어? 시점에 따라 달라. 6월 초 기준으론 제한 프리뷰였고 여러 보도가 '6월 안 GA 임박'을 가리켰어. 이 글을 보는 때에 이미 풀렸을 수도, 막 풀리는 중일 수도 있다는 뜻. 가격도 전해지는 수치라 GA 시점에 바뀔 수 있으니, 실제 도입 전엔 구글의 공식 발표를 한 번 확인하는 게 안전해.
참고 자료
- Google Gemini 3.5 Pro Nears June Launch With 2 Million Token Context And Deep Think Reasoning — TechTimes
- Gemini 3.5 Pro: 2M Tokens, Deep Think Coming Soon — Enterprise DNA
- Gemini 3.5 Pro Eyes June GA With 2M Context and Deep Think — AI Weekly
- Gemini 3.5 Pro API: Access, Pricing, and What to Do Now — byteiota
- Google Gemini Context Window: Token Limits and Model Comparison — DataStudios
수치는 발표 시점 기준이라 바뀔 수 있어.
출처
- Google Gemini 3.5 Pro Nears June Launch With 2 Million Token Context And Deep Think Reasoning — TechTimes
- Gemini 3.5 Pro: 2M Tokens, Deep Think Coming Soon — Enterprise DNA
- Gemini 3.5 Pro Eyes June GA With 2M Context and Deep Think — AI Weekly
- Gemini 3.5 Pro API: Access, Pricing, and What to Do Now — byteiota
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.


