spoonai
TOPGLM5.2ZhipuAI사이버보안AI

중국 GLM 5.2가 Semgrep 보안 벤치마크서 Claude를 제쳤어 — 수출통제 논쟁이 다시 불붙은 이유

오픈웨이트 모델 GLM 5.2가 IDOR 취약점 탐지에서 F1 39%로 Claude Code(32%)를 7%p 앞섰어. 취약점당 0.17달러로 더 싸기까지 해. 미국이 보안 역량을 이유로 프런티어 모델을 제재하는 와중에, 중국이 공짜로 비슷한 걸 풀어버린 거야.

·8분 소요
공유
AI 데이터센터 GPU 서버랙
Unsplash

공짜로 풀린 중국 모델이, 제재당한 미국 모델만큼 해킹을 잘 찾았어

자, 핵심부터 말할게. 코드 보안 회사 Semgrep이 자기네 사이버보안 벤치마크를 돌렸더니, 중국 Zhipu AI(智谱)의 오픈웨이트 모델 GLM 5.2가 Anthropic의 Claude Code를 이겼어. IDOR이라는 취약점을 찾아내는 테스트에서 GLM 5.2는 F1 스코어 39%, Claude Code는 32%. 7%p 차이야. 게다가 비용도 취약점 하나 찾는 데 약 0.17달러로 Claude보다 훨씬 쌌어.

이게 그냥 "벤치마크 하나 이겼네" 수준이면 톱뉴스까진 아니었을 거야. 진짜 폭발한 이유는 따로 있어. GLM 5.2는 MIT 라이선스로 가중치까지 공개된 오픈웨이트 모델이거든. 누구나 다운로드해서 자기 서버에 올려 돌릴 수 있어. 그런데 미국 정부는 바로 그 '사이버보안 역량'을 명분으로 프런티어 모델 수출을 조이고 있던 참이었어. 통제하려던 능력을, 통제 대상 밖의 중국 모델이 무료로 풀어버린 셈이지.

그래서 Semgrep이 이 글에 붙인 제목이 절묘했어 — "We Have Mythos at Home(집에도 Mythos 있어)". 부모가 사주는 비싼 브랜드 대신 똑같이 생긴 저가 제품을 가리키는 인터넷 밈을 비튼 거야. 6월 28일 이 글은 해커뉴스 1위(1,056포인트, 댓글 494개)에 올랐고, 댓글창은 "수출통제가 의미가 있긴 하냐"는 논쟁으로 가득 찼어. TechTimes는 아예 "AI 수출통제, 첫 실전 테스트에서 실패"라는 제목을 달았고.

오늘 풀 이야기는 이거야. GLM 5.2가 정확히 뭘 했는지, Semgrep은 왜 이 테스트를 했는지, 이게 왜 정책 논쟁으로 번졌는지, 그리고 보안 담당자·개발자·정책 입안자한테 각각 뭐가 달라지는지. 등장인물은 셋이야 — 모델을 만든 Zhipu AI, 벤치마크를 돌린 Semgrep, 그리고 이 결과에 가장 신경 쓰일 Anthropic.

등장인물 — Zhipu, Semgrep, 그리고 비교당한 Claude

먼저 Zhipu AI(智谱AI). 칭화대 계열에서 출발한 중국의 대표 LLM 스타트업이야. GLM 시리즈로 알려져 있고, 미국의 DeepSeek·Alibaba Qwen과 함께 '중국 오픈웨이트 3강'으로 묶이곤 해. 이번 GLM 5.2는 6월 13일 유료 'GLM Coding Plan' 멤버에게 먼저 풀렸고, 3일 뒤인 6월 16일 가중치가 일반 공개됐어. 구조를 보면 전체 파라미터 약 7,500억 개의 Mixture-of-Experts(MoE)인데, 토큰 하나당 실제로 켜지는 건 약 400억 개뿐이야. 덩치는 크지만 추론 비용은 낮게 잡는 설계지. 컨텍스트도 기존 20만 토큰에서 100만 토큰까지 늘렸어.

다음은 Semgrep. 코드를 정적으로 분석해서 보안 취약점을 잡아주는 회사야. 개발자 사이에선 꽤 유명하고, 최근엔 LLM을 보안 분석에 얼마나 쓸 수 있는지 자체 벤치마크를 만들어 프런티어 모델들을 줄세우는 콘텐츠를 꾸준히 내고 있어. 중요한 건 Semgrep은 모델을 파는 회사가 아니라는 거야. 그러니까 "중국 모델이 좋다"고 말할 동기가 딱히 없어. 오히려 자기네 멀티모달 파이프라인(F1 53~61%)이 단일 모델보다 낫다는 걸 보여주려는 쪽이지. 이 중립성이 이번 결과에 무게를 더했어.

세 번째는 Anthropic의 Claude. 비교 대상으로 등장했고, 이 테스트에선 진 쪽이야. 다만 오해는 말자 — IDOR이라는 아주 좁은 한 종류의 취약점 탐지에서, 그것도 Semgrep이 짠 특정 프롬프트·하네스 안에서 나온 결과야. Claude가 코딩이나 보안 전반에서 GLM에 밀린다는 얘기가 결코 아니야. 그런데도 이 한 줄이 화제가 된 건, 미국이 '바로 이 능력' 때문에 수출을 막고 있었기 때문이야. 상징성이 숫자보다 컸던 거지.

이 셋을 한 문장으로 묶으면 이래. 중국 스타트업이 공짜로 푼 오픈웨이트 모델이, 중립적인 보안 회사의 테스트에서, 미국이 가장 통제하고 싶어 하던 능력으로 미국 프런티어 모델을 이겼다. 이게 뼈대야.

핵심 내용 — 숫자로 보면 이래

IDOR(Insecure Direct Object Reference)부터 짚자. 쉽게 말해 "내 주문서 URL의 번호만 1 올렸더니 남의 주문서가 보이더라" 같은 권한 우회 취약점이야. 코드만 봐선 잡기 까다로워. 어떤 사용자가 어떤 자원에 접근할 권한이 있는지를 '맥락'으로 이해해야 하거든. 그래서 정적 분석 도구가 가장 약한 영역 중 하나고, LLM이 사람처럼 코드 흐름을 읽어줄 수 있느냐가 관건이야.

항목 GLM 5.2 Claude Code Semgrep 멀티모달 파이프라인
IDOR F1 스코어 39% 32% 53~61%
취약점당 비용 약 $0.17 더 높음 별도 하네스
가중치 공개 오픈(MIT) 비공개 해당 없음
컨텍스트 창 최대 100만 토큰 모델별 상이 해당 없음

표에서 두 가지가 눈에 띄어. 첫째, 단일 모델만 놓고 보면 GLM이 Claude를 앞섰다. 둘째, 그럼에도 Semgrep의 전용 파이프라인(53~61%)에는 둘 다 한참 못 미친다. 즉 "LLM 하나만 던져주면 보안 자동화 끝"은 아니라는 거야. 잘 설계된 하네스가 여전히 더 잘해. Semgrep이 이 글로 진짜 하고 싶었던 말은 어쩌면 이쪽일 수도 있어 — "모델은 점점 좋아지지만, 우리 같은 전용 파이프라인은 아직 가치가 있다."

그래도 헤드라인을 가져간 건 GLM이야. 이유는 단순해. F1 39% vs 32%는 작아 보여도, '공짜 오픈 모델 ≥ 비공개 프런티어 모델'이라는 구도가 처음으로 보안이라는 민감한 영역에서 확인됐기 때문이야. 게다가 비용 우위(취약점당 0.17달러)까지 겹치면, 대량으로 코드를 훑어야 하는 보안 자동화 현장에선 경제성이 곧 채택으로 이어져. 성능이 같거나 살짝 낮아도 10배 싸면 그걸 쓰게 되는 거지.

각자의 이득 — 누가 웃고 누가 곤란한가

Zhipu AI가 가장 크게 웃었어. 마케팅으로 100억을 써도 못 살 신뢰를, 중립적인 보안 회사의 벤치마크 한 방으로 얻었거든. "중국 오픈 모델은 벤치마크용으로 부풀린 거 아니냐"는 의심을 정면으로 받아쳤고, 특히 보안이라는 보수적인 시장에서 "써볼 만하다"는 레퍼런스를 확보했어. 오픈웨이트라 기업이 자기 서버에 올려 데이터를 밖으로 안 내보내고 쓸 수 있다는 점도 보안팀엔 매력적이야.

Semgrep도 손해는 아니야. 모델을 안 파니까 누가 이기든 상관없고, 오히려 "우리는 모델 경쟁을 객관적으로 중계하는 심판"이라는 포지션을 강화했어. 동시에 자기 파이프라인이 단일 모델보다 우수하다는 데이터도 같이 보여줬으니, 콘텐츠 하나로 신뢰와 영업을 둘 다 챙긴 셈이지.

곤란해진 쪽은 Anthropic미국의 수출통제 정책이야. Anthropic 입장에선 좁은 테스트의 한 줄이지만, 하필 보안이라는 자기 강점 서사와 부딪쳤어. 그리고 정책 쪽은 더 아파. 통제의 논리가 "위험한 능력이 적대국에 흘러가는 걸 막는다"인데, 그 능력을 적대국이 스스로 무료 공개해버리면 통제의 전제 자체가 흔들리거든. "막아봤자 옆문으로 다 나간다"는 비판에 반박하기 어려워진 거야.

과거 유사 사례 — 성공과 실패

비슷한 장면을 우리는 이미 봤어. DeepSeek이 대표적이야. 2025년 초 중국의 오픈 모델이 훨씬 적은 비용으로 미국 프런티어급 추론 성능을 냈다고 알려지면서 시장이 출렁였잖아. 그때도 "수출통제로 첨단 칩을 막아도, 효율로 따라잡으면 그만"이라는 서사가 퍼졌어. GLM 5.2의 이번 건은 그 서사가 '추론'에서 '보안'으로 영역을 넓힌 거라고 볼 수 있어.

성공한 통제 사례도 물론 있어. 최첨단 EUV 노광장비 같은 '물리적 병목'은 통제가 꽤 작동했어. 기계 한 대가 수천억이고 만들 수 있는 회사가 손에 꼽히니까, 길목을 막으면 효과가 나거든. 반면 소프트웨어와 모델 가중치는 본질이 달라. 한번 인터넷에 풀리면 복제 비용이 사실상 0이야. 막을 '길목'이 없는 거지. 이게 하드웨어 통제와 소프트웨어 통제의 결정적 차이야.

실패의 교훈도 분명해. 암호화 기술 수출통제 역사가 그래. 1990년대 미국은 강한 암호를 '무기'로 분류해 수출을 막았지만, 코드가 책·티셔츠·해외 서버로 퍼지면서 통제는 사실상 무력화됐고, 결국 정책이 완화됐어. 디지털로 복제되는 능력을 국경에서 막는 게 얼마나 어려운지를 보여준 고전 사례지. GLM 사건은 이 역사의 AI 버전처럼 읽혀.

경쟁자 카운터 플레이 — 다음 수는

Anthropic과 OpenAI 같은 프런티어 랩의 카운터는 '벤치마크 한 줄'이 아니라 '시스템 전체'로 싸우는 거야. 단일 모델 점수는 따라잡힐 수 있어도, 안전장치·에이전트 하네스·엔터프라이즈 통합·책임 소재 같은 패키지는 오픈 가중치만으론 복제가 어렵거든. Semgrep이 자기 파이프라인이 더 낫다고 보여준 것처럼, "모델은 부품일 뿐 시스템이 가치"라는 프레임으로 옮겨가는 게 자연스러운 대응이야.

미국 정책 입안자의 선택지는 갈려. 한쪽은 "통제를 더 촘촘히"인데, 모델 가중치는 막을 길목이 없어서 실효가 의심돼. 다른 한쪽은 "통제 대신 우위로"인데, 더 빨리 더 좋은 걸 만들어 시장과 표준을 선점하자는 거지. 이번 사건은 후자 진영의 논거를 키웠어. "막는 데 쓸 에너지를 앞서가는 데 쓰자"는 주장 말이야.

**다른 중국 랩들(Alibaba Qwen, DeepSeek 등)**은 이 흐름에 올라탈 거야. 오픈웨이트 공개가 곧 글로벌 신뢰와 채택으로 이어진다는 게 다시 한번 증명됐으니까. 특히 보안·코딩처럼 기업이 '내 서버에서 돌리고 싶어 하는' 영역에서 오픈 모델의 매력은 커. 비공개 프런티어 진영은 성능뿐 아니라 '왜 우리한테 돈을 내야 하는가'를 더 또렷하게 답해야 하는 상황으로 몰리고 있어.

그래서 뭐가 달라지는데

보안 담당자라면 — 선택지가 늘었어. 코드 대량 스캔처럼 비용이 깡패인 작업에서 오픈웨이트 모델이 현실적인 카드가 됐거든. 다만 명심할 건, IDOR F1 39%는 "절반 넘게 놓친다"는 뜻이기도 해. 어떤 모델이든 단독으로는 부족하고, Semgrep 데이터가 말하듯 전용 파이프라인 안에 넣어 써야 제값을 해. 모델 교체보다 '하네스 설계'가 더 중요하다는 게 이번의 실무 교훈이야.

개발자라면 — 오픈웨이트 모델을 자기 환경에 올려 쓰는 게 점점 합리적인 선택이 되고 있어. 데이터를 외부로 안 보내고, 비용을 통제하고, 파인튜닝까지 가능하니까. GLM 5.2의 100만 토큰 컨텍스트는 큰 코드베이스를 한 번에 읽히는 데도 쓸모가 있고. 물론 라이선스(MIT)와 실제 운영 비용, 한국어/도메인 성능은 직접 검증해봐야 해.

정책에 관심 있다면 — 이번 사건은 'AI 수출통제의 한계'를 보여주는 교과서 사례로 한동안 인용될 거야. 핵심 질문은 이거야 — 소프트웨어처럼 복제 비용이 0인 능력을, 국경에서 막는 게 가능한가? 하드웨어(칩·장비)는 길목이 있어 통제가 먹히지만, 모델 가중치는 그렇지 않아. 앞으로 정책 논쟁은 "무엇을 어떻게 통제할 것인가"에서 "통제가 가능한 영역과 불가능한 영역을 어떻게 구분할 것인가"로 옮겨갈 가능성이 커.

🥄 남은 궁금증 세 가지

— 그래서 Claude가 GLM보다 못한 모델이야? 아니야, 그렇게 읽으면 안 돼. 이건 IDOR이라는 한 종류 취약점을, Semgrep이 짠 특정 테스트 안에서 비교한 결과야. 코딩·추론·안전성 전반의 우열을 말하는 게 전혀 아니야. 한 좁은 트랙의 한 경기라고 보는 게 맞아.

— 그럼 이제 보안은 GLM 5.2 깔면 끝이야? 단정하긴 일러. F1 39%는 절반 이상을 놓친다는 뜻이고, Semgrep 자체 파이프라인(53~61%)이 여전히 더 나았어. 모델 단독보다 '잘 설계된 시스템 안의 모델'이 중요하다는 게 이 데이터의 진짜 메시지야.

— 수출통제는 이제 의미 없는 거야? 하드웨어는 여전히 유효해. 칩·장비처럼 만들기 어렵고 길목이 분명한 건 통제가 먹혀. 다만 모델 가중치처럼 복제 비용이 0인 건 막기가 구조적으로 어렵다는 게 이번에 드러난 거야. "전부 무의미"가 아니라 "영역마다 다르다"가 정확한 표현이야.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지