GLM-5.1이 SWE-Bench Pro 1위를 찍었다 – 오픈소스가 폐쇄형을 이긴 날

오픈소스 모델이 코딩 벤치마크 1위를 찍었다

58.4점. SWE-Bench Pro (소프트웨어 엔지니어링 벤치마크) 역대 최고 점수이고, 이 점수를 찍은 건 수천억 달러짜리 빅테크 기업이 아니라 중국 베이징에 있는 Z.ai(구 Zhipu AI)라는 회사야.

4월 7일, Z.ai가 공개한 GLM-5.1은 SWE-Bench Pro에서 OpenAI의 GPT-5.4(57.7점)와 Anthropic의 Claude Opus 4.6(57.3점)을 모두 넘어섰어. 더 놀라운 건 이 모델이 MIT 라이선스로 완전 오픈소스라는 거야. 누구나 다운로드해서 상업적으로 쓸 수 있다는 뜻이지.

오픈소스가 폐쇄형 최강 모델들을 코딩 벤치마크에서 이긴 건 이번이 사실상 처음이야.

이걸 이해하려면 – Z.ai는 어디서 왔나

Z.ai의 전신은 Zhipu AI야. 2019년 칭화대학교(Tsinghua University) 연구실에서 출발한 스타트업이었어. 중국의 "AI 국가대표"를 만들겠다는 목표로 시작했는데, 초기에는 GLM(General Language Model) 시리즈로 중국어 특화 모델을 만들어왔어.

전환점은 2024년이었어. GLM-4가 나오면서 글로벌 벤치마크에서 GPT-4 수준에 근접했고, 투자자들이 몰리기 시작했지. 그리고 2026년 1월 8일, 홍콩 증권거래소에 상장하면서 역사를 썼어.

이게 왜 중요하냐면, Zhipu AI는 세계 최초로 상장한 파운데이션 모델 회사가 됐거든.

항목	수치
IPO 일자	2026년 1월 8일 (홍콩)
IPO 조달 금액	HKD 43.5억 (약 $5.58억)
시가총액	약 $313억
설립	2019년 (칭화대학교 스핀오프)
본사	베이징, 중국

IPO로 확보한 자금은 곧바로 GLM-5 시리즈 개발에 투입됐고, 그 결과물이 3개월 만에 나온 GLM-5.1이야.

핵심 내용 해부 – GLM-5.1의 스펙

아키텍처: 744B MoE, 40B 활성

GLM-5.1은 744억(744B) 파라미터의 MoE(Mixture-of-Experts, 전문가 혼합) 아키텍처를 사용해. MoE가 뭐냐면, 모델 안에 수십 개의 "전문가 네트워크"가 있고, 각 입력마다 가장 적합한 전문가만 골라서 활성화하는 방식이야.

전체 파라미터는 744B이지만, 실제로 추론할 때 활성화되는 건 400억(40B)뿐이야. 이 구조 덕분에 거대한 모델의 지식은 유지하면서 실행 비용은 훨씬 낮출 수 있어.

스펙	GLM-5.1	Claude Opus 4.6	GPT-5.4
총 파라미터	744B (MoE)	비공개	비공개
활성 파라미터	40B	비공개	비공개
컨텍스트 윈도우	200K 토큰	200K 토큰	1M 토큰
최대 출력 길이	131,072 토큰	비공개	비공개
SWE-Bench Pro	58.4	57.3	57.7
라이선스	MIT (완전 오픈)	폐쇄형	폐쇄형

8시간 자율 코딩

GLM-5.1의 가장 독특한 기능은 "에이전틱 엔지니어링"이야. 하나의 코딩 작업을 맡기면, 최대 8시간 동안 자율적으로 작업해. 계획을 세우고, 코드를 작성하고, 테스트를 실행하고, 실패하면 스스로 수정하는 과정을 반복하는 거야.

이건 단순히 "코드를 생성하는" 수준이 아니야. 소프트웨어 엔지니어가 하루 일과 동안 하는 작업 사이클 전체를 모방하는 거지. VentureBeat은 이걸 "AI가 8시간 근무제에 합류했다"라고 표현했어.

SWE-Bench Pro가 뭔데?

SWE-Bench Pro는 AI 모델에게 실제 오픈소스 프로젝트의 버그를 고치라고 시키는 벤치마크야. 단순히 코드 한 줄 완성하는 게 아니라, 이슈를 읽고, 코드베이스를 탐색하고, 여러 파일을 수정하고, 테스트를 통과시켜야 해. 실무에 가장 가까운 코딩 벤치마크로 평가받고 있어.

기존까지 이 벤치마크의 상위권은 폐쇄형 모델들이 독점하고 있었어. 오픈소스 모델이 1위를 찍은 건 GLM-5.1이 처음이야.

더 넓은 그림 – 오픈소스 vs 폐쇄형, 판이 바뀌고 있다

2026년 4월의 AI 지형을 보면, 오픈소스 모델들의 약진이 눈에 띄어.

4월 2일에는 Google이 Gemma 4를 Apache 2.0 라이선스로 공개했어. 4개 사이즈(E2B, E4B, 26B MoE, 31B Dense)로, 스마트폰부터 데스크탑까지 커버하는 구조야. 같은 주에 Z.ai의 GLM-5.1이 MIT 라이선스로 코딩 벤치마크 1위를 차지했고.

이 흐름의 배경에는 DeepSeek-V3의 성공이 있어. 2025년 말 공개된 DeepSeek-V3가 오픈 웨이트 모델도 최정상급 성능을 낼 수 있다는 걸 증명한 뒤, 오픈소스 진영의 자신감이 폭발적으로 커졌거든.

이제 스타트업이나 개발자 입장에서는 진짜 선택지가 생긴 거야. API 비용을 내면서 폐쇄형 모델을 쓸 것인가, 아니면 직접 호스팅하면서 비용과 데이터 주권을 모두 잡을 것인가.

그래서 뭐가 달라지는데

개발자에게 GLM-5.1의 등장은 세 가지 의미가 있어.

첫째, 코딩 에이전트의 비용 구조가 바뀔 수 있어. 지금까지 최고 성능의 코딩 에이전트를 쓰려면 Claude나 GPT 같은 유료 API에 의존해야 했어. GLM-5.1은 MIT 라이선스니까 직접 호스팅하면 추론 비용을 극적으로 낮출 수 있지.

둘째, 자사 코드에 민감한 기업들에게 대안이 생겼어. 코드가 외부 API를 거치는 게 불편했던 기업들이 사내 서버에 GLM-5.1을 올릴 수 있게 됐거든.

셋째, 경쟁 자체가 건강해진다는 거야. OpenAI와 Anthropic이 독점하던 코딩 AI 시장에 강력한 오픈소스 경쟁자가 등장했으니, 가격 인하와 성능 개선이 더 빨라질 수밖에 없어.

물론 SWE-Bench Pro 1위가 "GLM-5.1이 모든 면에서 최고"라는 뜻은 아니야. 다른 벤치마크, 특히 일반 대화나 창의적 작업에서는 Claude와 GPT가 여전히 앞설 수 있어. 하지만 코딩이라는 가장 실용적인 영역에서 오픈소스가 정상을 찍었다는 상징성은 크다.

GLM-5.1이 SWE-Bench Pro 1위를 찍었다 – 오픈소스가 폐쇄형을 이긴 날

오픈소스 모델이 코딩 벤치마크 1위를 찍었다

이걸 이해하려면 – Z.ai는 어디서 왔나