Gemma 4 나왔어, 드디어 Apache 2.0으로
구글이 Gemma 4를 2B·4B·26B·31B 네 사이즈로 풀었어. 140개 언어, 256k 컨텍스트, Apache 2.0. 라이선스 족쇄가 빠진 첫 Gemma 세대야.

256,000 토큰
Gemma 4 최상위 모델(31B)이 받는 한 번의 입력 길이야. 책 한 권을 통째로 넣고 질문해도 맥락을 놓치지 않는다는 뜻이지. 그런데 진짜 뉴스는 숫자가 아니야.
구글이 4월 2일 공개한 Gemma 4는 Apache 2.0 라이선스로 풀렸어. 첫 Gemma부터 3세대까지 묶여 있던 "Gemma 전용 사용 조건(Gemma Terms of Use)"이 사라졌다는 뜻이야. 상업 배포, 수정, 재배포, 파인튜닝한 모델의 상업 판매까지 전부 가능해. 오픈소스 진영의 오랜 요구가 드디어 통한 날이야.
이걸 이해하려면
Gemma 시리즈는 처음부터 이상한 위치에 있었어. "오픈 웨이트(open weight)" 라고 부르기는 하는데, 라이선스를 뜯어보면 제약이 많았어. "Gemma Prohibited Use Policy"를 어기면 구글이 사용권을 회수할 수 있다는 조항도 있었고, Gemma에서 파생한 모델이면 그 모델에도 같은 제약이 따라붙었어.
그래서 개발자 커뮤니티는 두 진영으로 갈렸어. 한쪽은 Llama 계열(메타 커뮤니티 라이선스, 월 활성 사용자 7억 초과 기업 제외). 다른 한쪽은 진짜 Apache 2.0인 Mistral, Qwen, DeepSeek 라인. Gemma는 중간 어디쯤에서 어정쩡하게 떠 있었지.
| 세대 | 출시 | 최대 사이즈 | 컨텍스트 | 라이선스 |
|---|---|---|---|---|
| Gemma 1 | 2024년 2월 | 7B | 8k | Gemma Terms |
| Gemma 2 | 2024년 6월 | 27B | 8k | Gemma Terms |
| Gemma 3 | 2025년 3월 | 27B | 128k | Gemma Terms |
| Gemma 4 | 2026년 4월 | 31B | 256k | Apache 2.0 |
4세대에서 드디어 라이선스 허들이 사라졌어. 이게 왜 중요한지 모르겠다면 상상해봐. 스타트업이 Gemma로 파인튜닝한 커스텀 모델을 상업 제품에 넣으려 할 때마다 법무팀이 "Gemma 약관 다시 읽어보자" 하고 브레이크를 걸던 시대가 끝난 거야.
핵심 내용 해부
네 개 사이즈, 하나의 아키텍처
Gemma 4는 2B(20억), 4B(40억), 26B(260억), 31B(310억) 네 사이즈로 나왔어. 재밌는 건 중간에 "9B" 같은 중간 사이즈가 없다는 점이야. 구글 엔지니어링 블로그는 이렇게 설명했어.
같은 아키텍처와 학습 데이터를 공유하면, 개발자는 로컬에서 2B로 프로토타입을 만들고 프로덕션에서 31B로 올릴 때 성능 프로파일을 예측할 수 있다.
2B는 라즈베리 파이나 M1 MacBook Air에서도 돌아가. 4B는 모바일 디바이스 타겟. 26B와 31B는 단일 H100/H200 GPU에서 풀 파라미터로 서빙 가능해. 사이즈 간격을 일부러 넓게 벌려놓은 건 "니가 가진 하드웨어에 맞춰 골라"라는 메시지야.
140개 언어, 한국어 포함
Gemma 3까지는 영어 위주에 40여 개 언어를 "지원"하는 수준이었어. 4세대는 140개 언어로 학습 데이터 다양성을 크게 늘렸어. 구글 공식 문서에 따르면 한국어·일본어·베트남어·아랍어·스와힐리어 같은 비영어권 언어의 MMLU 점수가 3세대 대비 평균 18% 올랐어.
비영어권 개발자에겐 실질적인 변화야. 한국어 RAG(검색 증강 생성) 파이프라인을 돌릴 때 Gemma 3는 토큰 효율이 떨어져서 같은 문서가 영어 대비 1.6배 많은 토큰을 먹었어. Gemma 4는 이걸 1.2배까지 줄였다고 구글이 주장해. 이 비용 차이는 월간 토큰 청구서에 바로 찍혀.
256k 컨텍스트 — 작은 모델도 전부
컨텍스트 윈도우는 일반적으로 작은 모델일수록 제한이 심해. GPT-4o mini가 128k인데 Gemma 4의 2B가 "작은 모델 한정 128k"라는 건 예상 범위야. 하지만 26B와 31B는 256k까지 간다. OpenAI gpt-oss-120b(128k), Llama 4 Scout(10M 홍보지만 실효 100k~), Qwen 3.5(131k) 사이에서 중간 사이즈 오픈 웨이트로는 가장 긴 축에 들어.
| 모델 | 파라미터 | 컨텍스트 | 라이선스 |
|---|---|---|---|
| Gemma 4 31B | 31B | 256k | Apache 2.0 |
| Qwen 3.6 Plus | 72B | 131k | Apache 2.0 |
| Llama 4 Scout | 17B×16 MoE | 실효 100k | Meta Community |
| gpt-oss-120b | 120B | 128k | Apache 2.0 |
| Mistral Small 4 | 22B | 128k | Apache 2.0 |
더 넓은 그림
2026년 4월, 오픈 웨이트 LLM 경쟁은 6파전이 됐어. 구글(Gemma 4), 알리바바(Qwen 3.6 Plus), 메타(Llama 4), Mistral(Small 4), OpenAI(gpt-oss-120b), 그리고 Zhipu AI(GLM-5). 이 중 Apache 2.0/MIT 같은 완전 개방 라이선스는 Gemma 4, gpt-oss-120b, Qwen, Mistral, GLM-5 다섯 개. Llama만 자기네 커뮤니티 라이선스를 고수 중이야.
그런데 왜 지금 구글이 라이선스 족쇄를 풀었을까. 세 가지 흐름이 겹쳤어.
첫째, Qwen의 압박이야. 알리바바의 Qwen 시리즈는 0.8B부터 397B까지 사이즈 폭이 가장 넓고 Apache 2.0이야. 코딩 벤치마크 LiveCodeBench, SWE-bench에서 가장 자주 이기는 오픈 웨이트 모델이지. 구글은 Gemma 3가 코딩에서 밀린다는 걸 알고 있었고, 4세대에선 아예 라이선스까지 맞춰서 진입 장벽을 없앴어.
둘째, OpenAI의 gpt-oss 전환이야. OpenAI가 작년에 gpt-oss-120b를 Apache 2.0으로 풀면서 업계 전체에 "폐쇄 소스 회사도 오픈 웨이트 브랜치를 가진다"는 기준을 만들었어. 구글은 Gemini가 폐쇄이고 Gemma가 오픈인 구조였는데, 오픈 쪽 라이선스가 덜 개방적이라는 건 명분이 약했지.
셋째, 엔터프라이즈 수요야. AWS Bedrock, Vertex AI, Azure AI Foundry가 전부 오픈 웨이트 모델을 호스팅하기 시작했어. 클라우드 벤더들은 "법적으로 깨끗한" 모델을 선호해. Apache 2.0은 법무팀이 리뷰할 필요조차 없는 사실상 업계 표준이야.
그래서 뭐가 달라지는데
개발자 입장에서 바로 바뀌는 건 세 가지야.
첫째, 파인튜닝한 Gemma 4 기반 모델을 그대로 상업 제품에 넣을 수 있어. 허깅페이스에 업로드할 때 라이선스 창 고민 끝. API 서빙, 스타트업 SaaS 백엔드, 온프렘 배포 전부 같은 규칙이야.
둘째, 한국어·일본어 RAG 성능이 체감할 만큼 좋아져. 문서 임베딩, 청크 크기 설정, 프롬프트 길이 관리 전반이 덜 빡빡해지는 거지. 엔지니어 시간이 제일 비싼 자원이니까 이 "덜 빡빡함"이 실제 개발 속도를 끌어올려.
셋째, 로컬 에이전트 시나리오가 진지해져. 2B는 엣지 디바이스에서, 31B는 단일 워크스테이션 GPU에서, 256k 컨텍스트로 긴 대화·문서·코드베이스 전체를 받아. API 호출 없이 돌아가는 에이전트 워크플로가 실용 영역에 들어온 거야.
Gemma 4가 Gemini 3.1 Pro 같은 프런티어 모델을 이기진 못해. 하지만 그게 요점이 아니야. "법적으로 안전한 오픈 웨이트 중에 가장 좋은 거" 자리를 잡겠다는 거고, 그 자리의 가치는 벤치마크 숫자보다 훨씬 커. 관련 기사로 Qwen 3.6 Plus의 Agentic 업데이트도 같이 보면 흐름이 잡혀.
참고 자료
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



