TOPOpen SourceGLMGemma

오픈소스가 frontier를 따라잡은 일주일: Gemma 4 + GLM-5.1

Q: 이 기사에 관련된 주요 기업이나 기관은?

이 기사에서 다루는 주요 기업/기관은 Open Source, GLM, Gemma, SWE-Bench, Zhipu, Google, LLM 등입니다.

Q: 이 기사는 언제 발행되었나?

이 기사는 2026-04-11에 spoonai에서 발행되었습니다.

Q: 이 기사에서 다루는 주요 주제는?

이 기사는 다음 주제를 다룹니다: 58.4. 오픈소스가 처음으로 코딩 벤치마크 세계 1위를 찍은 점수야., 이걸 이해하려면: SWE-Bench Pro가 뭔지부터, 핵심 내용 해부: GLM-5.1이 뭐가 다른가, 더 넓은 그림: 왜 지금, 오픈소스가 따라잡히는가, 그래서 뭐가 달라지는데.

이번 주 Google Gemma 4가 Apache 2.0 라이선스로, Z.ai의 GLM-5.1이 MIT 라이선스로 공개됐고, GLM-5.1은 SWE-Bench Pro에서 58.4로 Claude Opus 4.6과 GPT-5.4를 꺾고 1위를 찍었어. 오픈소스와 frontier의 격차가 드디어 붙는 순간이야.

2026년 4월 11일 (토)·5분 소요·

오픈소스 코드와 터미널 이미지 — GLM-5.1과 Gemma 4의 오픈소스 공개를 상징 — 출처: Unsplash / Markus Spiske

58.4. 오픈소스가 처음으로 코딩 벤치마크 세계 1위를 찍은 점수야.

4월 7일, 중국 스타트업 Z.ai(구 Zhipu AI)가 GLM-5.1을 오픈소스로 공개했어. SWE-Bench Pro 점수는 58.4. 바로 아래 GPT-5.4가 57.7, 그다음 Claude Opus 4.6이 57.3이야.

차이가 크진 않아. 그런데 이 순간이 왜 중요하냐면, 대형 코딩 벤치마크에서 오픈소스가 1등을 찍은 건 이번이 처음이기 때문이야.

며칠 전인 4월 5일, Google은 Gemma 4를 Apache 2.0 라이선스로 공개했어. 상업적 제약 없이 미세조정·재배포·파생 가능한 완전 개방 모델이야. 같은 주에 "frontier급 성능"과 "완전 오픈소스"가 동시에 터진 거야.

이건 단독 사건이 아니라 흐름이야. 지난 6개월 동안 조용히 쌓여온 오픈소스 역습이 이번 주에 정점을 찍은 거야.

이걸 이해하려면: SWE-Bench Pro가 뭔지부터

SWE-Bench(Software Engineering Benchmark)는 2023년 프린스턴대에서 만든 코딩 벤치마크야. GitHub 이슈를 주고 "이거 고쳐봐" 하면 모델이 실제 PR을 만들어서 통과시키는지를 본다. 그냥 코드 스니펫 작성이 아니라 실제 리포지토리 이슈를 다루기 때문에 실무 코딩 능력에 가장 가까운 지표로 평가받아.

SWE-Bench Pro는 그 상위 버전이야. 더 어려운 이슈, 더 큰 코드베이스, 더 긴 컨텍스트를 다뤄. 업계에서는 "진짜 실력을 재는 버전"으로 통해.

여기서 점수가 역대로 어떻게 움직였는지 보면 그림이 선명해져.

시점	1위 모델	SWE-Bench Pro 점수	유형
2025-06	GPT-5.0	38.5	클로즈드
2025-10	Claude Opus 4.5	49.1	클로즈드
2026-01	GPT-5.4 Thinking	55.2	클로즈드
2026-03	Claude Opus 4.6	57.3	클로즈드
2026-04	GLM-5.1	58.4	오픈소스 (MIT)

1년 만에 점수가 20점 가까이 뛰었고, 그 최신 기록을 오픈소스가 들고 있어.

핵심 내용 해부: GLM-5.1이 뭐가 다른가

1) 754B 파라미터, MoE 아키텍처

GLM-5.1은 총 754B 파라미터의 MoE(Mixture of Experts) 모델이야. MoE가 뭐냐면, 한 번에 모든 파라미터를 쓰지 않고 입력마다 일부 "전문가(expert)" 서브네트워크만 활성화하는 구조야. 효율적이라는 뜻이야.

활성 파라미터는 약 62B 수준으로, 실제 추론 비용은 GPT-5.4의 3분의 1 이하라고 Z.ai는 주장했어. HuggingFace에 올라온 공식 벤치마크 리포트를 보면 추론 속도는 GPT-5.4 대비 약 2.1배 빠르다고 나와.

2) MIT 라이선스의 의미

여기가 진짜 중요한 포인트야. GLM-5.1은 MIT 라이선스로 풀렸어. MIT는 사실상 가장 느슨한 오픈소스 라이선스야. 다운로드해서 쓰고, 수정하고, 판매까지 자유야. 상업적 제약이 없어.

참고로 Meta의 Llama는 "Llama Community License"라는 자체 라이선스라서 월간 활성 사용자 7억 명 넘는 서비스는 못 써. Google의 Gemma는 "Gemma Terms of Use"라는 별도 조건이 있었는데, 이번 Gemma 4에서 Apache 2.0으로 전환했어. GLM-5.1의 MIT는 여기서 한 발짝 더 열린 쪽이야.

모델	파라미터	라이선스	상업적 제약
Llama 4	500B MoE	Llama Community	7억 MAU 제한
Gemma 4	135B dense	Apache 2.0	없음
GLM-5.1	754B MoE	MIT	없음
DeepSeek V4	671B MoE	DeepSeek License	제한적

3) Gemma 4 — Google의 "따라올 테면 따라와" 카드

4월 5일 Gemma 4 공개는 덜 주목받았지만 구조적으로는 큰 사건이야. Google이 "우리 frontier 모델은 Gemini로 가고, 개방 생태계는 Gemma로 간다"는 이중 전략을 공식화한 거야.

Gemma 4는 4가지 크기로 나왔어: 2B, 9B, 27B, 135B. 27B 버전은 로컬에서 돌리기 적당하고, 135B 버전은 클러스터가 있어야 돌아가. 135B는 MATH Lvl 5(수학 추론 벤치마크) 기준 GPT-5.0과 유사한 수준으로 보고됐어.

이게 왜 중요하냐면, 지금까지 Google은 오픈소스에 소극적이라는 평이 많았어. Gemma 시리즈는 있었지만 성능이 애매했거든. Gemma 4는 "실제로 써볼 만한" 첫 오픈 모델이야.

더 넓은 그림: 왜 지금, 오픈소스가 따라잡히는가

1년 전만 해도 업계 컨센서스는 "오픈소스는 1-2년 뒤처져 있다"였어. 그런데 그 격차가 이번 주에 사실상 사라졌어. 이유가 뭘까.

첫째, 훈련 레시피 공개가 가속됐어. DeepSeek이 2024년 말 MoE 훈련 노하우를 논문으로 풀었고, Meta가 Llama 4 훈련 인프라 문서를 공개했어. 그 레시피가 중국·유럽 랩들로 빠르게 확산되면서 "우리도 할 수 있다"는 분위기가 만들어졌어.

둘째, 컴퓨트 비용이 내려왔어. 2024년 $100M 수준이었던 frontier 모델 훈련 비용이 2026년 $20M 수준까지 떨어졌어. Anthropic이 "OpenAI보다 4배 적게 쓴다"는 건 이 트렌드의 연장선이야.

셋째, 시장 구조가 뒤집히고 있어. Anthropic의 $30B 시대 글에서 다룬 것처럼 frontier 랩들은 엔터프라이즈 매출에 집중하면서 가격을 계속 올리고 있어. 그 틈을 오픈소스가 파고드는 거야.

경쟁 지도를 다시 그려보면 이래.

포지션	대표 모델	강점	약점
클로즈드 frontier	GPT-5.4, Claude Opus 4.6	전체 벤치마크 평균 1위	가격, 종속성
오픈 frontier	GLM-5.1, Gemma 4 135B	특정 벤치마크 1위, 완전 자유	인프라 운영 부담
로컬 최적	Gemma 4 27B, Qwen 3 32B	단일 GPU에서 돌아감	벤치마크 한계
엣지	Phi-4, Gemma 4 2B	모바일/임베디드	추론 능력 제한

오픈 frontier라는 카테고리가 처음으로 실체를 갖게 됐어. GLM-5.1은 "실력으론 GPT-5.4·Claude Opus와 싸울 수 있고, 가격은 사실상 공짜"야.

이제 AI 회사는 "우리 모델이 최고야"만으론 못 버텨. "우리 플랫폼이 최고야"를 증명해야 해.

이번 주 사건들이 이 방향을 가리키고 있어.

그래서 뭐가 달라지는데

개발자 입장에서 가장 먼저 바뀌는 건 프로토타입 비용이야. Claude Opus나 GPT-5.4 API를 쓰면 월 $300~500씩 나가던 사이드 프로젝트를, GLM-5.1이나 Gemma 4 27B로 돌리면 월 $20~50 수준으로 낮출 수 있어. 로컬 GPU가 있으면 사실상 0원이야.

실제로 r/LocalLLaMA에서는 이번 주 내내 GLM-5.1 quantization(양자화) 버전 공유가 폭주했어. 4-bit로 양자화하면 RTX 5090 한 장으로도 돌릴 수 있다는 보고가 여러 건 올라왔어.

스타트업 입장에서는 전략 재검토가 필요해졌어. "Claude API 래퍼"로 성장하던 회사들은 차별화 포인트가 흔들려. 반대로 "오픈소스 파인튜닝 + 자체 데이터"로 가는 팀에는 기회야. 특정 도메인(법률, 헬스케어, 금융)에서 Claude보다 정확한 커스텀 모델을 만들 수 있는 재료가 공짜로 깔리는 셈이야.

기업 IT 담당자에게는 "벤더 록인(vendor lock-in)" 우회 경로가 생겼어. 지금까지 Claude/GPT에 의존하던 워크플로우를 오픈소스로 옮길 때 가장 큰 벽이 성능이었어. 그 벽이 이번 주에 낮아졌어. 정책적으로 "특정 외국 회사 API에 데이터 넣지 말라"는 규제를 받는 한국·유럽·중동 기업들에게는 결정적인 변화야.

한편 경쟁은 더 치열해질 거야. Meta는 Alexandr Wang 체제에서 첫 오픈소스 모델을 곧 내놓을 예정이고, DeepSeek도 V5를 준비 중이라는 루머가 돌고 있어. 5월에는 또 다른 오픈 frontier 모델이 나올 가능성이 커.

한 줄 요약하면 이거야.

오픈소스와 클로즈드의 성능 격차가 사라졌고, 이제 경쟁은 "누가 더 잘 배포하느냐"로 이동했어.

오픈소스가 frontier를 따라잡은 일주일: Gemma 4 + GLM-5.1

58.4. 오픈소스가 처음으로 코딩 벤치마크 세계 1위를 찍은 점수야.

이걸 이해하려면: SWE-Bench Pro가 뭔지부터