4초 만에 이미지 뽑고, 그걸 바로 영상으로 — 구글이 가격표를 뒤엎었어

6월 30일, 구글이 조용히 두 개를 던졌어. 근데 그 두 개가 묶이니까 얘기가 완전히 달라지더라고. 하나는 이미지 모델인데 4초 만에 결과물이 나오고, 1000장 생성하는 데 34센트밖에 안 해. 커피 한 잔 값도 안 되는 돈으로 이미지 몇백 장을 뽑을 수 있다는 거야. 다른 하나는 영상 모델인데, 이건 처음으로 개발자한테 API로 열렸어. 초당 10센트, 그러니까 10초짜리 영상 하나에 1달러야.

근데 진짜 포인트는 가격이 아니야. 이 두 모델이 파이프라인으로 이어진다는 거거든. 이미지를 싸고 빠르게 만들고, 그 이미지를 그대로 영상 모델에 넘겨서 움직이게 만드는 거지. 예전엔 이미지 생성 따로, 영상 생성 따로, 그 사이에 사람이 껴서 이것저것 손봐야 했어. 이제는 그 이음새가 API 호출 몇 번으로 끝나버려.

이름부터가 재밌어. "Nano Banana"라는 이름을 처음 들으면 장난감 이름 같잖아. 근데 이게 벌써 패밀리를 이룰 정도로 커졌어. 이번에 나온 건 그 패밀리의 막내격인 "Lite" 버전이고, 이름처럼 가볍고 빠른 게 특징이야. 무거운 작업은 형님 격인 Pro가 맡고, Lite는 속도와 물량으로 승부하는 구조지.

이 발표, 구글 블로그 "The Keyword"에 올라왔는데 글쓴이가 프로덕트 매니저 두 명이야. Alisa Fortin이랑 Anish Nangia. 이런 실무 발표는 보통 화려한 수식어보다 "우리가 뭘 만들었고 왜 만들었는지"를 담담하게 설명하는 톤이거든. 근데 그 담담한 설명 안에 숨은 숫자들이 꽤 도발적이야. 4초, 34센트, 초당 10센트. 이 숫자들이 뭘 의미하는지 하나씩 풀어볼게.

등장인물

일단 주인공부터 소개해야겠지. 첫 번째는 Nano Banana 2 Lite. 모델 아이디는 gemini-3.1-flash-lite-image야. 구글이 직접 "가장 빠르고 가장 비용 효율적인 Gemini Image 모델"이라고 못 박았어. 텍스트를 넣으면 이미지가 나오는 데 약 4초 걸리고, 1000장 생성하는 데 0.034달러야. 이게 어느 정도냐면, 예전 세대인 레거시 Nano Banana(gemini-2.5-flash-image)를 대체하는 걸로 구글이 추천하고 있어. 즉 "이제 이거 쓰세요"라는 공식 후계자인 거지.

두 번째 주인공은 Gemini Omni Flash. 모델 아이디는 gemini-omni-flash-preview고, 지금은 퍼블릭 프리뷰 상태야. 고품질 영상 생성에다 대화형 편집 기능까지 붙어 있어. 이게 처음으로 개발자한테 API로 열린 거고, 가격은 영상 1초당 0.10달러야. 참고로 이 가격은 기존에 있던 Veo 3.1 Fast랑 똑같아. 지금은 10초짜리 영상까지 만들 수 있고, 더 긴 것도 나올 예정이라고 해. 원래 이 모델은 Google I/O에서 처음 소개됐던 녀석이야.

이 발표를 실은 곳이 구글 공식 블로그 "The Keyword"고, 글쓴이는 프로덕트 매니저인 Alisa Fortin과 Anish Nangia야. PM이 직접 쓴 발표문이라는 건 이게 마케팅용 티저가 아니라 "지금 바로 쓸 수 있는 제품 설명서"에 가깝다는 뜻이지. 실제로 이 모델들은 Google AI Studio, Gemini API, Gemini Enterprise Agent Platform에서 바로 접근 가능해.

그리고 숨은 주인공이 하나 더 있어. 바로 SynthID. 두 모델 다 SynthID 워터마킹을 적용해서 만들어진 콘텐츠가 AI 생성물이라는 걸 표시해. 요즘 이미지·영상 생성 모델이 쏟아지면서 "이게 진짜야 가짜야"를 구분하는 게 점점 중요해지고 있잖아. 구글은 이 부분을 처음부터 인프라에 박아 넣은 거야.

마지막으로 등장하는 건 소비자 서비스들이야. Nano Banana 2 Lite는 개발자 API에만 머무르지 않고 AI Mode in Search, Gemini 앱, NotebookLM, Google Photos, Stitch, Google Flow, Google Ads까지 이미 붙어 있어. 개발자용 모델 하나가 나왔는데, 구글 생태계 전체에 동시다발적으로 스며든 셈이지.

핵심 내용

Nano Banana 2 Lite를 한 문장으로 요약하면 "속도를 최우선에 뒀지만 품질은 포기 안 한 모델"이야. 텍스트 입력하면 4초 안에 이미지 나오고, 프롬프트를 얼마나 잘 따라가는지(prompt adherence), 캐릭터를 얼마나 일관되게 유지하는지(character consistency), 이미지 안에 들어간 텍스트가 얼마나 잘 읽히는지(legible in-image text)까지 신경 썼다고 구글이 밝혔어. 보통 속도를 올리면 품질이 깎이는 트레이드오프가 있는데, 그 균형을 잡으려고 애쓴 흔적이 스펙에 다 드러나 있는 거야.

가격 얘기를 좀 더 해보자. 1000장에 0.034달러라는 건, 한 장당 계산하면 0.000034달러야. 거의 공짜 수준이지. 이게 왜 중요하냐면, 예전에는 이미지 생성 비용이 서비스 설계할 때 큰 변수였거든. "몇 장까지 무료로 줄까", "유저가 재생성 버튼을 몇 번까지 누르게 할까" 같은 고민들이 다 비용 때문에 생기는 건데, 이 정도 가격이면 그 고민 자체가 많이 가벼워져.

Gemini Omni Flash는 조금 다른 성격이야. 이건 속도보다 "대화형"이라는 키워드가 더 중요해. 자연어로 영상을 다시 편집할 수 있다는 게(conversational video editing) 핵심 기능이고, 이미지·텍스트·영상을 섞어서 참조할 수 있는 멀티모달 레퍼런싱도 지원해. 실제 세계 지식(real-world knowledge)을 반영하고, 텍스트와 액션의 싱크(text/action synchronization)도 맞춘다고 구글이 설명했어. Interactions API를 통해서 최대 3번까지 순차적으로 편집을 이어갈 수 있는 멀티턴 기능도 붙어 있고.

여기서 구글의 라인업 전체를 정리해볼 필요가 있어. Nano Banana라는 이름 아래 지금 네 가지 모델이 있거든. 아래 표로 정리해봤어.

모델 정식 명칭 포지셔닝
Nano Banana 2 Lite Gemini 3.1 Flash Lite Image 속도 최우선, 4초·1000장당 0.034달러
Nano Banana 2 Gemini 3.1 Flash Image 범용 워크호스, 속도와 품질의 최적 균형
Nano Banana Pro Gemini 3 Pro Image 전문가용, 가장 세밀한 컨트롤과 고급 추론
Nano Banana (레거시) Gemini 2.5 Flash Image 구세대, Lite로 대체 권장

이 표를 보면 구글의 전략이 명확해져. 하나의 모델로 모든 걸 해결하려던 시대는 끝났고, 이제는 "쓰임새별로 골라 쓰라"는 방식이야. 속도가 급하면 Lite, 범용적으로 쓰려면 2, 정밀함이 필요하면 Pro. 이 세분화 자체가 이번 발표의 핵심 메시지 중 하나야.

각자의 이득

구글 입장에서 이 발표가 주는 이득부터 보자. 우선 개발자들을 자기 생태계 안에 더 오래 묶어두는 효과가 있어. 이미지 생성해서 그걸 영상으로 바꾸는 작업, 예전에는 여러 회사 서비스를 조합해서 써야 했거든. 근데 이제 구글 API 안에서 이미지→영상이 한 번에 끝나니까, 개발자가 굳이 다른 데를 기웃거릴 이유가 줄어들어. "락인(lock-in)"이라는 단어가 딱 들어맞는 상황이지.

그리고 가격을 이렇게 낮게 책정하는 건 시장 점유율 게임에서 흔히 쓰는 수법이야. 1000장에 34센트라는 가격은 경쟁사가 비슷한 스펙으로 대응하려면 상당히 부담스러운 숫자거든. 구글은 검색, 클라우드, 안드로이드에서 이미 규모의 경제를 갖고 있어서 이런 가격 후려치기를 상대적으로 오래 버틸 수 있어. 이건 스타트업들이 따라 하기 힘든 체력전이야.

개발자 입장에서 얻는 이득도 명확해. 우선 비용 구조가 완전히 바뀌어. 이미지 생성 기능을 서비스에 넣고 싶었지만 단가 때문에 망설였던 팀들이 이제는 훨씬 가볍게 시도해볼 수 있어. 4초라는 속도는 사용자 경험에도 직결돼. 로딩 스피너를 오래 보여주지 않아도 되니까 이탈률 자체가 줄어들 가능성이 커.

기업(엔터프라이즈) 입장에서는 또 다른 계산이 있어. Gemini Enterprise Agent Platform에 이 모델들이 들어갔다는 건, 광고 소재나 마케팅 콘텐츠를 대량으로 자동 생성하는 워크플로우를 구축하기가 훨씬 쉬워졌다는 뜻이야. 실제로 Google Ads에도 이미 연결돼 있어서, 광고주가 별도 툴 없이 바로 소재를 뽑아낼 길이 열린 거지.

마지막으로 일반 소비자들도 간접적으로 이득을 봐. Search의 AI Mode, Gemini 앱, Google Photos 같은 데 이 모델이 이미 붙어 있으니까, 유저는 "새로운 모델을 쓴다"는 자각조차 없이 더 빠르고 자연스러운 결과물을 받아보게 돼. 기술이 뒤에서 조용히 업그레이드되는 방식이야.

과거 유사 사례 — 성공과 실패

이런 "속도·비용 최적화 버전"을 내놓는 전략, 사실 AI 업계에서 낯선 패턴이 아니야. 대표적으로 성공한 케이스가 바로 구글 자신의 Gemini Flash 라인업이었어. 원래 Pro 모델이 무겁고 비쌌는데, Flash라는 경량화 버전을 내놓으면서 개발자들이 훨씬 부담 없이 실험하고 프로덕션에 붙이기 시작했거든. "가벼운 버전으로 저변을 넓히고, 무거운 버전으로 고급 수요를 잡는다"는 이 투트랙 전략이 결과적으로 잘 먹혔던 사례야.

반대로 실패까진 아니어도 삐걱댔던 사례들도 있어. 여러 이미지·영상 생성 스타트업들이 "빠르고 싸다"는 것만 앞세워서 모델을 내놨다가, 실제로는 결과물 품질이 들쭉날쭉해서 신뢰를 잃은 경우가 꽤 있었어. 속도에 집중하다 보면 캐릭터 일관성이 깨지거나, 텍스트가 이미지 안에서 깨져서 나오거나 하는 문제가 흔히 터졌거든. 그래서 이번 Nano Banana 2 Lite가 "속도를 우선하면서도 프롬프트 준수와 캐릭터 일관성, 텍스트 가독성을 지켰다"고 굳이 강조한 것도, 이 실패 사례들을 의식한 설계로 보여.

영상 쪽에서도 참고할 사례가 있어. Veo 시리즈가 처음 나왔을 때는 접근성이 제한적이었고, 개발자들이 API로 자유롭게 실험하기까지 시간이 걸렸어. 그 학습 곡선을 거치면서 구글이 얻은 교훈이, 이번 Gemini Omni Flash를 "처음부터 개발자 API로 공개"하는 결정에 반영된 것으로 보여. 처음부터 문을 넓게 열어서 생태계가 빨리 성장하도록 유도하는 거지.

가격 전쟁이라는 관점에서도 과거 사례가 있어. 클라우드 컴퓨팅 초창기에 아마존, 마이크로소프트, 구글이 벌였던 가격 인하 경쟁이 결국 시장 전체 파이를 키웠던 전례가 있거든. 다만 그 경쟁에서 살아남은 건 체력이 있는 대형 플레이어들뿐이었고, 중소 클라우드 업체들은 상당수가 시장에서 밀려났어. 이번 이미지·영상 생성 모델 가격 인하도 비슷한 궤적을 그릴 가능성이 있다는 우려가 나오는 이유야.

경쟁자 카운터 플레이

이 발표를 본 경쟁사들은 지금쯤 계산기를 두드리고 있을 거야. 가장 직접적인 타깃은 영상 생성 쪽에서 비슷한 초당 과금 모델을 쓰는 업체들이야. 구글이 명시적으로 "초당 0.10달러, Veo 3.1 Fast랑 같은 가격"이라고 밝힌 것부터가, 자기들 내부 라인업뿐 아니라 시장 전체의 가격 기준선을 다시 그리겠다는 신호야. 경쟁사들이 이 가격보다 비싸게 포지셔닝하면 "왜 더 비싼데?"라는 질문을 피하기 어려워져.

이미지 생성 쪽도 마찬가지야. 1000장에 34센트라는 가격은 경쟁 모델들이 비슷한 속도·품질을 유지하면서 대응하기엔 상당히 낮은 바야. 이 지점에서 경쟁사들이 택할 수 있는 카드는 크게 두 가지야. 하나는 정면으로 가격을 맞추는 것, 다른 하나는 "우리는 가격이 아니라 품질·컨트롤에서 차별화한다"고 포지셔닝을 바꾸는 것. 실제로 Nano Banana Pro가 이미 그 "고급형" 자리를 구글 스스로 채워놨기 때문에, 경쟁사들이 품질 차별화로 도망갈 공간도 점점 좁아지고 있어.

오픈소스 진영에서도 반응이 나올 가능성이 커. 커뮤니티 기반 이미지·영상 생성 모델들은 원래 "무료"라는 무기가 있었는데, 구글이 이 정도로 가격을 낮추면 "무료 대신 관리 부담을 감수할 가치가 있나"라는 계산이 달라져. 오픈소스 쪽은 대신 커스터마이징 자유도나 온프레미스 배포 같은 지점에서 차별화를 더 강하게 밀어붙일 가능성이 있어.

플랫폼 경쟁이라는 관점도 빼놓을 수 없어. 이미지→영상 파이프라인을 한 회사 API 안에서 끝낼 수 있다는 건, 여러 서비스를 조합해서 쓰던 개발자들에게 "이제 하나로 충분하다"는 메시지를 던지는 거야. 이 부분에서 경쟁사들도 자기들만의 엔드투엔드 파이프라인을 서둘러 완성해야 하는 압박을 받게 될 거야. 조각난 툴셋으로는 이 번들링 전략을 이기기 어렵거든.

그래서 뭐가 달라지는데

1인 개발자나 사이드 프로젝트 하는 사람 입장에서 보면, 이건 그냥 "재밌는 장난감"이 하나 더 생긴 게 아니야. 이미지 생성 비용이 사실상 거의 사라진 수준이라, 예전 같으면 엄두도 못 냈던 아이디어들—예를 들어 유저가 입력할 때마다 실시간으로 썸네일을 만들어주는 기능 같은 것들—을 가볍게 시도해볼 수 있게 됐어. 4초라는 속도도 무시 못 해. 프로토타입을 만들 때 "결과 기다리는 시간" 자체가 개발 속도를 갉아먹거든.

콘텐츠 크리에이터나 마케터 입장에서는 워크플로우 자체가 바뀔 가능성이 커. 예전엔 이미지를 만들고, 그걸 다른 툴에 옮기고, 거기서 다시 영상으로 바꾸는 과정에서 파일 포맷 안 맞는 문제나 스타일이 어긋나는 문제가 자주 생겼어. 이제는 그 흐름이 한 회사 API 안에서 이어지니까, "만든 이미지 그대로의 느낌"을 유지한 채로 영상까지 뽑아낼 수 있어. 광고 소재를 대량으로 뽑아야 하는 팀한테는 특히 체감이 클 거야.

기업 의사결정자 입장에서는 예산 계획을 다시 짜야 할 수도 있어. 이미지·영상 생성에 들어가는 비용이 예전 견적의 극히 일부로 줄어드니까, "이 기능을 넣을까 말까"의 저울질 자체가 가벼워지는 거지. 다만 동시에 SynthID 워터마킹처럼 AI 생성 콘텐츠임을 표시하는 정책들이 계속 따라붙고 있다는 것도 염두에 둬야 해. 대량 생성이 쉬워질수록 콘텐츠의 출처를 관리하는 문제도 같이 커지거든.

일반 사용자 입장에서는 눈에 보이는 변화가 크지 않을 수도 있어. Search나 Photos, Gemini 앱에서 이미 이 모델들이 조용히 돌아가고 있으니까, "새로운 걸 쓴다"는 느낌보다는 "어? 이전보다 빠르고 자연스럽네" 정도로 체감할 가능성이 커. 근데 그 뒤에서 벌어지는 가격 경쟁과 기술 경쟁은 결국 소비자용 서비스 품질에도 누적되어서 나타날 거야.

개발자 생태계 전체로 보면, 이번 발표는 "이미지와 영상 생성이 이제 별개의 기술 스택이 아니다"라는 걸 보여주는 신호이기도 해. 앞으로 나올 제품이나 스타트업 아이디어들은 이 둘을 따로 다루기보다 하나의 파이프라인으로 설계하는 쪽이 기본값이 될 가능성이 커. 이 변화에 먼저 올라탄 팀들이 속도 면에서 유리한 고지를 차지하게 될 거야.

🥄 남은 궁금증 세 가지

— Nano Banana Pro는 이제 필요 없어지는 거 아니야? 그렇진 않을 것 같아. Lite는 속도와 물량에 최적화된 거고, Pro는 세밀한 컨트롤과 고급 추론이 필요한 작업—예를 들어 복잡한 합성이나 정밀한 디테일 조정—에서 여전히 강점이 있어. 오히려 "빠른 초안은 Lite로, 최종본은 Pro로" 같은 조합이 표준 워크플로우가 될 가능성이 더 커 보여.

— 초당 0.10달러 영상 가격, 10초 넘는 영상도 곧 나온다는데 그때 가격은 그대로일까? 이건 단정하긴 일러. 구글이 "더 긴 영상이 곧 나온다(longer coming)"고만 밝혔지 그때의 과금 방식까지 확정해서 말한 건 아니거든. 초당 과금 구조를 유지할지, 아니면 길이 구간별로 다른 요금제를 만들지는 좀 더 지켜봐야 할 것 같아.

— 이 정도로 가격을 낮추면 구글이 손해 보는 장사 아니야? 당장의 모델 운영 단가만 보면 마진이 얇아 보일 수 있어. 근데 구글은 이미지·영상 생성을 검색, 광고, 클라우드 같은 훨씬 큰 사업들과 묶어서 보고 있을 가능성이 높아. 개발자들을 자기 생태계에 묶어두는 효과까지 고려하면, 이건 단기 마진보다 장기 점유율에 베팅한 가격 전략으로 보는 게 맞을 것 같아.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.