spoonai
TOPGoogleGemini 3.5 ProLLM

Google가 Gemini 3.5 Pro를 7월로 미뤘어 — 토큰 효율·코딩·장기 추론이 아직 부족해서

Google가 Gemini 3.5 Pro 출시를 6월에서 7월로 미뤘어. 기업 테스터 피드백에서 토큰 효율성·코딩 성능·장기 멀티스텝 추론이 플래그십 기준에 못 미친 게 이유래. Flash는 이미 나왔고, 7월 중순엔 GPT-5.6·Claude랑 정면충돌 예상이야.

·12분 소요
공유
AI 데이터센터 GPU 서버랙
Unsplash

빅랩이 출시를 미룰 땐, 이유가 있어

솔직히 말할게. AI 세계에서 "출시 연기"라는 단어는 두 가지로 읽혀. 하나는 "아, 얘네 뭔가 삐끗했나 보다"는 부정적 신호. 다른 하나는 "이 정도 규모의 회사가 굳이 날짜를 미룬다는 건, 지금 내보내면 진짜 큰일 난다고 판단했다는 뜻"이라는 긍정적 신호. 그리고 이번 Google의 Gemini 3.5 Pro 연기는 후자에 훨씬 가까워.

Google이 원래 6월에 내놓기로 했던 Gemini 3.5 Pro를 7월로 미뤘어. 한 달. 별거 아닌 것처럼 보이지만, 이게 얼마나 큰 결정인지 감이 안 올 수 있어. 지금은 2026년 여름이고, OpenAI랑 Anthropic이 몇 주 단위로 신모델을 쏟아내는 시기거든. 이런 상황에서 플래그십 모델의 출시를 한 달 늦춘다는 건, 그 한 달 동안 경쟁사한테 헤드라인을 통째로 넘겨준다는 얘기야. 그걸 감수하고도 미뤘다는 게 포인트야.

이유는 의외로 담백해. Google이 초기 기업(enterprise) 테스터들한테 미리 모델을 돌려보게 했는데, 거기서 나온 피드백이 "이거 플래그십이라 부르기엔 아직 부족한데?"였던 거야. 구체적으로 세 군데 — 토큰 효율성, 코딩 성능, 그리고 장기(long-horizon) 멀티스텝 추론. 이 세 개가 Google이 스스로 정한 "Pro" 등급 기준에 못 미쳤다는 게 핵심이야.

재밌는 건, 같은 3.5 세대의 동생 격인 Gemini 3.5 Flash는 이미 5월 19일에 정식 출시(GA)됐다는 거야. Search, 각종 앱, 에이전트 전반에 기본 모델로 깔렸어. 그러니까 Google이 3.5 세대 자체를 못 만드는 게 아니야. 빠르고 가벼운 Flash는 잘 나왔어. 문제는 "가장 무겁고 가장 똑똑해야 하는" Pro가 아직 완성 단계에 도달하지 못했다는 거지. 이 대비가 이번 뉴스의 진짜 이야기야.

자, 그럼 지금부터 하나씩 뜯어보자. 뭐가 부족했고, 이 연기가 누구한테 득이 되고, 과거에 비슷한 선택을 한 애들은 어떻게 됐고, 7월에 무슨 일이 벌어질지까지. 커피 한 잔 챙겨와. 좀 길어.

등장인물 — Google, Gemini 3.5 Pro, 그리고 기업 테스터들

이 드라마의 주연은 셋이야. 먼저 Google. 정확히는 Sundar Pichai가 이끄는 Google이고, 그 뒤에는 Gemini를 만드는 조직 전체가 있어. Google은 지난 몇 년간 "우리도 프론티어 랩이다"라는 걸 증명하느라 진짜 고생 많이 했어. 초기엔 데모 하나 잘못 내놨다가 크게 웃음거리가 되기도 했고, 그 트라우마가 지금 이 회사의 의사결정에 은근히 깔려 있어. 그러니까 이번 연기는 그냥 즉흥적인 결정이 아니라, "우린 다시는 준비 안 된 걸 내보내지 않는다"는 학습된 신중함의 결과로 보는 게 맞아.

두 번째 주연은 당연히 Gemini 3.5 Pro 그 자체야. 얘는 Google 라인업에서 "가장 크고, 가장 비싸고, 가장 똑똑해야 하는" 자리에 앉을 예정이던 모델이야. 개발자들이 복잡한 코드 리팩터링을 맡기고, 기업들이 긴 문서 수십 개를 한꺼번에 물려서 분석시키고, 에이전트가 열 몇 단계짜리 작업을 알아서 끝까지 밀고 가는 — 그런 무거운 일들을 감당하라고 만든 모델이지. 기대치가 높은 만큼, 기준 미달이면 그냥 못 내보내는 거야. 애매하게 내놨다가 "GPT-5.6보다 못하네"라는 소리 한 번 들으면 브랜드 전체가 흔들리거든.

세 번째 주연이 사실 이 뉴스의 숨은 핵심이야. 바로 기업(enterprise) 테스터들. Google이 정식 출시 전에 제한된 기업 미리보기(preview) 형태로 이 모델을 큰 고객들한테 먼저 돌려보게 했어. 그리고 이 사람들이 "우리가 실제 업무에 넣어봤는데, 이 부분이랑 이 부분이 아직 별로다"라고 솔직하게 말해준 거야. 이게 왜 중요하냐면, 벤치마크 점수랑 실사용 경험은 완전히 다른 세계거든. 리더보드에서 1등 찍어도 실무자가 써보면 답답한 경우가 수두룩해. Google은 그 실무 피드백을 진지하게 받아들여서 출시를 미룬 거고, 이건 오히려 성숙한 프로세스의 신호야.

여기서 잠깐 짚고 넘어갈 게 있어. Gemini 3.5 Flash는 이미 5월 19일 I/O 2026에서 발표되고 정식 출시까지 됐어. 그리고 그때만 해도 3.5 Pro는 "6월 출시 예정"이라고 예고돼 있었단 말이지. 그러니까 이번 7월 연기는 계획이 통째로 뒤집힌 게 아니라, 원래 로드맵에서 한 칸 밀린 거야. Flash가 문을 열어두고 형을 기다리는 그림인 거지.

정리하면 이래. 신중해진 대기업, 완벽을 요구받는 플래그십, 그리고 솔직하게 쓴소리를 해준 실사용 고객들. 이 셋의 조합이 "한 달 연기"라는 결론을 만들어낸 거야. 그리고 그 안엔 사실 꽤 건강한 이야기가 숨어 있어.

핵심 내용 — 뭐가 부족했나

자, 본론이야. Google이 "아직 안 돼"라고 판단한 지점이 정확히 어디였는지 보자. 크게 세 가지야. 그리고 이 셋은 우연히 고른 게 아니라, 사실 플래그십 모델이 진짜로 어려워하는 영역만 콕콕 짚은 거야.

첫 번째, 토큰 효율성. 쉽게 말하면 "같은 답을 내는 데 얼마나 적은 연산과 비용을 쓰느냐"야. 모델이 똑똑해도 답 하나 만드는 데 토큰을 펑펑 태우면, 기업 입장에선 API 비용이 감당이 안 돼. 특히 대규모로 굴리는 회사들은 토큰 1%의 효율 차이가 월 청구서에서 어마어마한 금액으로 돌아와. Google이 여기서 "아직 우리 기준엔 낭비가 많다"고 본 거야.

두 번째, 코딩 성능. 이건 지금 LLM 경쟁에서 가장 뜨거운 격전지야. 개발자들이 모델을 고르는 1순위 기준이 사실상 코딩이거든. Claude 계열이 이 분야에서 워낙 강한 평판을 쌓아놔서, Google 입장에선 "코딩에서 밀리는 Pro"는 시장에 내놓는 순간 바로 비교당하고 깨져. 그래서 여기가 기준 미달이면 절대 못 내보내는 거야.

세 번째, 장기 멀티스텝 추론(long-horizon reasoning). 이게 제일 어려운 거야. 열 몇 단계, 스무 단계짜리 작업을 중간에 길을 잃지 않고 끝까지 논리적으로 밀고 가는 능력이거든. 에이전트 시대의 핵심 역량이 바로 이거야. 짧은 질문 하나 잘 답하는 건 이제 다들 하는데, "복잡한 목표를 스스로 쪼개서 여러 단계를 거쳐 완수하기"는 여전히 최상위 모델들도 삐끗하는 영역이야. Google이 여기서 안정성이 부족하다고 본 거지.

아래 표로 정리하면 이래.

구분 내용
지적된 약점 ① 토큰 효율성 — 같은 결과에 비용·연산이 과다
지적된 약점 ② 코딩 성능 — 개발자 최대 격전지에서 기준 미달
지적된 약점 ③ 장기 멀티스텝 추론 — 여러 단계 작업의 안정성 부족
Flash (동생) 이미 정식 출시(2026-05-19 GA), Search·앱·에이전트 기본 모델
Pro (본체) 내부 테스트 + 제한된 기업 미리보기 단계에 머무름
예상 정식 출시 2026년 7월 중순

이 세 가지를 한 문장으로 묶으면 이래. "비용 효율, 개발자 실력, 자율 작업 능력" — 딱 지금 시장이 플래그십한테 요구하는 세 축이야. Google은 이 세 축 모두에서 "우리 이름값을 할 만큼"이 아니면 안 내보내겠다고 선을 그은 거고, 그게 이번 연기의 실체야. 벤치마크 몇 점 더 올리려는 게 아니라, 실무에서 진짜 쓸 만한지를 본 거지.

각자의 이득 — 누가 웃나

연기 뉴스인데 웃는 사람이 있다고? 있어. 그것도 여러 명.

제일 먼저 웃는 건 아이러니하게도 Google 자신이야. 왜냐면 준비 안 된 플래그십을 내보내는 것보다, 한 달 미루고 제대로 된 걸 내보내는 게 장기적으로 훨씬 이득이거든. AI 모델은 첫인상이 거의 전부야. 출시 첫 주에 "코딩 별로네", "토큰 낭비 심하네"라는 리뷰가 도배되면, 나중에 아무리 고쳐도 그 낙인이 안 지워져. 반대로 처음부터 "오 이거 진짜 잘 만들었다"는 반응을 받으면 그 모멘텀이 몇 달을 가. Google은 그 계산을 한 거야. 짧은 창피 대신 긴 신뢰를 택한 거지.

두 번째로 웃는 건 Gemini 3.5 Flash야. 형이 미뤄진 덕분에 한 달 더 스포트라이트를 독차지하게 됐거든. 5월 19일에 이미 정식 출시돼서 Search, 앱, 에이전트 전반에 깔려 있는 Flash는, Pro가 없는 이 공백기 동안 "지금 당장 쓸 수 있는 최신 Gemini"라는 위치를 확실히 굳힐 수 있어. 가볍고 빠른 모델이 실사용에서 존재감을 키우는 시간을 번 셈이야.

세 번째로 웃는 건 기업 고객들, 특히 이번에 미리보기로 참여했던 테스터들이야. 자기들이 낸 피드백이 실제로 출시 연기로 이어졌잖아. 이건 "Google이 우리 말을 진짜로 듣는다"는 강력한 신호야. 앞으로 이 관계가 더 끈끈해질 거고, 최종 출시되는 Pro는 이 사람들 요구사항이 반영된 버전일 테니 실무 적합도가 훨씬 높아질 거야. 결국 고객이 이득이지.

네 번째, 좀 냉정하게 말하면 경쟁사들도 웃어. OpenAI랑 Anthropic 입장에선 최강 라이벌의 플래그십이 한 달 늦게 오는 거니까, 그 한 달 동안 시장을 더 먹을 시간을 번 거야. 다만 이건 양날의 검이야. 7월에 다 같이 붙으면 오히려 Google이 "가장 최근에, 가장 다듬어서" 나온 카드가 될 수도 있거든. 이 얘긴 뒤에 경쟁 파트에서 더 할게.

마지막으로, 조금 크게 보면 업계 전체도 이득이야. "빅랩이 벤치마크 숫자에 눈멀지 않고, 실사용 품질 때문에 출시를 미룰 수 있다"는 선례가 하나 더 쌓인 거잖아. 무조건 빨리, 무조건 먼저가 아니라 "제대로"를 택하는 문화가 자리 잡으면 결국 그 혜택은 우리 사용자들한테 돌아와. 그런 의미에서 이번 연기는 꽤 건강한 뉴스야.

과거 유사 사례 — 성공과 실패

이런 "미룰까 말까"의 갈림길은 IT 역사에서 수도 없이 반복됐어. 그리고 결과는 극과 극으로 갈렸지. 몇 가지 패턴을 보면 이번 Google의 선택이 어느 쪽에 걸었는지가 보여.

먼저 "미뤄서 성공한" 쪽. 클래식한 예가 게임 업계야. 오랫동안 개발이 지연됐지만 결국 완성도 있게 나와서 대박 난 타이틀들, 다들 하나쯤 떠올릴 수 있잖아. 반대로 발매일 맞추려고 버그 범벅으로 내놨다가 환불 사태 나고 브랜드가 박살난 케이스도 있고. 소프트웨어도 똑같아. Apple이 어떤 기능을 몇 번씩 미루면서 "우린 준비되면 낸다"는 태도를 고수하는 것도 이 철학이야. 늦게 나와도 "역시 완성도가 다르네" 소리를 들으면 그 지연은 다 잊혀져.

이제 반대편, "서둘렀다 망신당한" 쪽. AI 데모 사고는 이 바닥의 단골 소재야. 화려한 발표 무대에서 라이브 데모를 돌렸는데 모델이 사실과 다른 답을 뱉거나, 홍보 영상이 실제보다 과장됐다는 게 들통나거나. 이런 사건들은 하나같이 "아직 안 된 걸 무대에 올린" 결과였어. 주가가 출렁이고, 신뢰가 깎이고, 몇 달간 "그때 그 사고"로 기억되지. Google도 사실 이런 종류의 쓴맛을 예전에 본 적이 있고, 그 경험이 지금의 신중함으로 이어졌다고 보는 게 자연스러워.

핵심 교훈은 이거야. AI 모델은 특히나 "돌이킬 수 없는 첫인상"의 지배를 받는 제품이야. 자동차나 앱은 업데이트로 이미지를 서서히 바꿀 수 있지만, AI는 출시 직후 며칠간 쏟아지는 실사용 후기와 벤치마크 비교가 그 모델의 운명을 거의 결정해버려. 첫 주에 "코딩 약하다"는 평이 굳으면, 3개월 뒤 조용히 성능을 올려도 개발자들은 이미 다른 모델로 갈아탄 뒤야. 이 비대칭성 때문에 "완성도 미달이면 미룬다"는 선택이 합리적인 거지.

물론 미루는 게 항상 정답은 아니야. 너무 오래 끌면 "얘네 뭔가 못 하는 거 아냐?"라는 의심이 커지고, 경쟁사한테 시장을 통째로 내줄 수도 있어. 완벽주의로 계속 미루다가 타이밍을 놓쳐서 사라진 제품도 많아. 그래서 관건은 "얼마나 미루느냐"야. 이번 Google은 한 달이라는 짧고 구체적인 창을 제시했어. 이건 "완성이 코앞이다, 조금만 다듬으면 된다"는 자신감의 표현이지, "언제 나올지 모른다"는 무기한 연기가 아니야. 그 점에서 이번 선택은 성공 사례 쪽에 훨씬 가까워 보여.

경쟁자 카운터 플레이 — 7월, 타이밍 전쟁

여기가 진짜 흥미진진한 부분이야. Google이 Pro를 7월 중순으로 미뤘는데, 하필 그 시기에 OpenAI의 GPT-5.6랑 Anthropic의 Claude Opus 4.7도 나올 걸로 예상돼. 즉, 3사의 플래그십이 같은 창(window)에서 정면충돌하는 그림이 만들어진 거야. 이건 그냥 우연이 아니라, 지금 프론티어 랩들이 서로의 일정을 눈치 보며 움직인다는 방증이기도 해.

먼저 생각해볼 건 "선공 vs 후공"의 문제야. 원래 6월에 나왔으면 Google이 선공을 날리는 입장이었어. 근데 7월로 미루면서 경쟁사들과 같은 링에 서게 됐지. 후공에는 장점도 있어. 상대 카드를 보고 나서 "우린 코딩에서 이깁니다", "우린 토큰 효율이 압도적입니다" 같은 메시지를 조준해서 던질 수 있거든. 근데 위험도 커. 만약 GPT-5.6나 Claude Opus 4.7이 먼저 나와서 시장을 압도해버리면, Gemini 3.5 Pro는 "늦게 나온 데다 딱히 특별할 것도 없는" 모델로 묻혀버릴 수도 있어.

Anthropic의 Claude Opus 4.7은 특히 코딩에서 무섭게 강할 거야. Claude 계열이 원래 개발자들 사이에서 코딩 명가 취급을 받잖아. 그런데 Google이 이번에 미룬 이유 중 하나가 바로 "코딩 성능 미달"이었단 말이지. 그러니까 7월에 붙으면 이 지점이 정확히 격전지가 될 거야. Google이 그 한 달 동안 코딩을 얼마나 끌어올리느냐가 승부의 핵심이 되겠지. 애매하게 올려서 나오면 바로 Claude랑 비교당해서 깨질 거고.

OpenAI의 GPT-5.6은 또 다른 결로 위협적이야. OpenAI는 "종합 성능 + 브랜드 파워"로 밀어붙이는 스타일이거든. 일반 사용자 인지도에서 아직 OpenAI가 앞서는 부분이 있고, GPT라는 이름 자체가 하나의 대명사처럼 쓰이니까. Google 입장에선 성능으로 이겨도 인지도 싸움에선 힘든 경기를 해야 해. 그래서 Google은 아마 자기 강점인 생태계 — Search, Workspace, Android, 클라우드 — 에 Gemini를 촘촘히 심는 전략으로 맞불을 놓을 거야. 순수 모델 성능 대결이 아니라 "이미 네가 쓰는 모든 곳에 Gemini가 있다"는 편의성 카드로 승부하는 거지.

결국 7월은 "누가 가장 세냐"가 아니라 "누가 가장 잘 다듬어서, 가장 좋은 타이밍에, 가장 설득력 있는 메시지로 나오느냐"의 싸움이 될 거야. Google이 한 달을 더 쓴다는 건 그 한 달 동안 세 약점을 메우고, 경쟁사 카드를 관찰하고, 자기 메시지를 벼릴 시간을 벌었다는 뜻이야. 잘 쓰면 역전의 발판이고, 못 쓰면 그냥 늦은 지각생이 되는 거지. 이 도박의 결과는 7월 중순에 판가름 나. 팝콘 준비해.

그래서 뭐가 달라지는데

자, 이제 "그래서 나한테 뭔 상관인데?"에 답할 차례야. 너가 어떤 사람이냐에 따라 이 뉴스의 의미가 완전히 달라져.

개발자·AI 빌더라면. 좋은 소식은 "코딩 성능이 기준 미달이라 미뤘다"는 거야. 이 말은 곧 7월에 나올 Pro는 코딩이 확실히 강화된 버전일 가능성이 높다는 뜻이거든. 그러니까 지금 당장 코딩 워크플로에 Gemini Pro를 급하게 붙이지 말고, 7월 정식판을 기다렸다가 Claude Opus 4.7, GPT-5.6랑 나란히 놓고 실제 코드 태스크로 벤치를 돌려보는 게 현명해. 지금은 Flash가 나와 있으니 가벼운 작업은 그걸로 커버하면서 관망하는 게 최선이야.

기업 도입 담당이라면. 이게 사실 제일 마음 편한 뉴스야. Google이 토큰 효율성 때문에 미뤘다는 건, 최종 출시판이 비용 측면에서 더 다듬어져서 나온다는 뜻이거든. 대규모로 굴릴 계획이면 토큰 효율 1%가 곧 돈이니까, 오히려 한 달 기다리는 게 이득일 수 있어. 지금 할 일은 파일럿 계획을 7월 이후로 잡아두고, 가능하면 기업 미리보기 프로그램에 접근할 수 있는지 Google 쪽에 문의해두는 거야. 남들보다 먼저 실사용 데이터를 쌓으면 도입 결정이 훨씬 쉬워져.

일반 사용자라면. 솔직히 당장은 별 차이 없어. 왜냐면 너가 매일 쓰는 Search나 Google 앱들엔 이미 5월에 나온 Gemini 3.5 Flash가 깔려 있거든. Pro가 미뤄졌다고 해서 지금 쓰는 경험이 나빠지는 건 전혀 아니야. 오히려 7월에 Pro가 붙으면 더 복잡한 질문, 더 긴 문서 분석, 더 정교한 답변에서 체감 품질이 올라갈 거야. 그러니까 "좋은 게 조금 늦게 온다" 정도로 받아들이면 돼.

투자자라면. 여기가 좀 미묘해. 단기적으로는 "경쟁사 대비 출시 지연"이라는 헤드라인이 부정적으로 읽힐 수 있어. 근데 조금만 깊이 보면 이건 "품질 관리가 작동하는 회사"라는 긍정 신호이기도 해. 준비 안 된 걸 밀어붙여 첫인상을 망치는 것보다, 한 달 미뤄 완성도를 챙기는 게 장기 브랜드 가치엔 훨씬 유리하거든. 봐야 할 건 딱 하나야. 7월에 진짜로 나오느냐, 그리고 나왔을 때 세 약점(토큰·코딩·추론)이 실제로 메워졌느냐. 그게 확인되면 이번 연기는 "성숙함의 증거"로 재평가될 거고, 또 미뤄지면 그땐 진짜 걱정해야 하는 신호야.

정리하면, 이 뉴스는 누구한테도 나쁜 소식이 아니야. 급한 사람한테만 조금 답답한 소식일 뿐이지. 대부분은 "조금만 기다리면 더 좋은 게 온다"는 쪽에 가까워.

🥄 남은 궁금증 세 가지

이 얘기 들으면 자연스럽게 떠오르는 질문 몇 개가 있을 거야. 솔직하게 답해볼게.

"7월 중순이라는데, 진짜 그때 나올까?" 단정하긴 일러. 지금까지 나온 건 "7월 중순 예상"이지 Google이 못 박은 확정 날짜가 아니야. 한 달이라는 짧고 구체적인 창을 제시했다는 건 자신감의 표현이긴 한데, 이미 한 번 미룬 전력이 있으니 또 밀릴 가능성을 완전히 배제할 순 없어. 나온 다음에 "나왔다"고 말하는 게 정확해. 7월 중순쯤 다시 뉴스 체크하는 걸 추천할게.

"그래서 최종 Pro는 진짜 세 약점을 다 고쳐서 나올까?" 이것도 아직 몰라. Google이 "이 세 개가 미달이라 미룬다"고 밝힌 것까진 사실이지만, 한 달 만에 셋 다 플래그십 수준으로 끌어올린다는 보장은 없어. 어쩌면 두 개만 확실히 잡고 하나는 "충분히 개선됨" 수준으로 타협해서 나올 수도 있고. 실제 성능은 출시 후 벤치마크랑 개발자 후기가 쌓여야 판단할 수 있어. 지금은 "Google이 신경 쓰고 있다"까지만 확실해.

"그럼 지금 Gemini 대신 GPT나 Claude로 갈아타야 하나?" 그렇게까지 서두를 필요는 없어. 7월에 세 모델이 거의 동시에 붙을 예정이니까, 지금 급하게 갈아타기보다 그때 셋을 나란히 놓고 너 작업에 맞는 걸 고르는 게 훨씬 합리적이야. 코딩 위주면 그때 코딩 벤치를, 비용 민감하면 토큰 효율을 직접 비교해봐. 어차피 한 달이야. 결론 내리기엔 아직 일러.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지