Anthropic '프로젝트 글래스윙' 공개 – Mythos 모델이 실전 환경에서 제로데이 7개를 찾아냈다
Anthropic이 공개한 Project Glasswing은 방어용 사이버보안 AI 프로그램이다. 내부 모델 Mythos가 레드팀 테스트에서 제로데이 7건을 발굴하며 AI 보안의 판이 뒤집혔다.

인트로 훅
4월 22일, Anthropic이 'Project Glasswing'이라는 방어용 사이버보안 프로그램을 공식 공개했다. 핵심은 두 가지다. 내부 전용으로 학습된 보안 특화 모델 'Mythos'가 있고, 그 모델이 지난 3개월의 레드팀 테스트 기간 중 실제 오픈소스 프로젝트에서 제로데이 취약점 7건을 발굴했다는 것.
7건 중 4건은 CVSS 9.0 이상의 Critical 등급이고, 그중 한 건은 전 세계 설치량 약 8억 대에 달하는 인프라 라이브러리의 RCE(원격 코드 실행) 취약점이다. Anthropic은 해당 벤더에 90일 공개 유예를 주고 패치가 배포된 4월 20일에야 Glasswing을 발표했다. 논문이 아니라 패치 타임라인으로 "진짜다"를 증명한 첫 케이스다.
이걸 이해하려면
원래 'AI로 취약점 찾기'는 2023년부터 연구 분야에서 꾸준히 뜨거운 주제였다. Google Project Naptime, DARPA AIxCC, Microsoft Security Copilot 등 시도는 많았지만 공통적으로 "재현 가능한 제로데이"를 내놓지는 못했다. 모델이 그럴듯한 버그 후보를 만들어도 실제로 착취 가능한 버그인지 검증하는 단계에서 막혔다.
Anthropic의 접근은 이 병목을 세 층으로 풀었다. ①사전학습 시점에 CVE 데이터베이스와 Exploit-DB 전체, 그리고 수집한 취약점 분석 리포트 40만 건을 통합 학습했다. ②강화학습 단계에서 퍼저(fuzzer) + 디버거를 도구로 붙여, 모델이 후보 버그를 만들 때마다 실제 샌드박스에서 PoC를 실행하도록 했다. ③마지막으로 휴먼 레드팀과 모델이 페어링해서 '모델이 먼저 가설을 내고, 사람이 분류하고, 모델이 다시 좁히는' 루프를 만들었다.
Project Naptime과 결정적으로 다른 지점이 바로 이 두 번째 층이다. 모델이 '혼자 코드를 읽고 취약점을 추측'하는 게 아니라, 실제 바이너리를 실행해보면서 학습한다. 취약점 연구자들이 오랫동안 해온 작업 흐름을 그대로 훈련 신호로 만든 셈이다.
핵심 내용 해부
Mythos는 공개된 Claude 라인업과는 별개의 파인튜닝 분기다. 베이스는 Claude Sonnet 4.6이지만, 수학/코딩 능력은 오히려 약간 낮고, 대신 보안 관련 벤치마크에서 큰 격차로 앞선다.
| 벤치마크 | Mythos | Claude Opus 4.6 | GPT-5 |
|---|---|---|---|
| CyberSecEval 3 | 84.1% | 71.0% | 68.3% |
| SecBench Exploit | 62.4% | 38.1% | 33.9% |
| DARPA AIxCC Final | 8/10 | 4/10 | 3/10 |
| Human Red Team Overlap | 73% | 41% | 35% |
Human Red Team Overlap은 Anthropic이 자체 정의한 지표로, "숙련된 보안 연구자가 찾을 법한 취약점 중 모델이 독립적으로 찾아낸 비율"이다. 73%라는 숫자는 연구자 1명을 모델이 거의 대체 가능한 수준이라는 뜻이다.
실제 찾아낸 제로데이 7건의 분포는 이렇다.
- 네트워크 라이브러리 RCE 1건 (Critical)
- 리눅스 커널 LPE 1건 (Critical)
- 웹 프레임워크 SSRF→RCE 체인 1건 (Critical)
- 컨테이너 런타임 escape 1건 (Critical)
- 파서 계열 heap overflow 2건 (High)
- 인증 우회 1건 (High)
이 중 네트워크 라이브러리 RCE는 Anthropic이 Glasswing 프로그램을 외부 기업에 확대하려는 주된 근거로 쓰고 있다. 일반적인 침투 테스트 업체가 3개월간 5~6명을 투입해도 이 한 건을 찾는 건 쉽지 않다.
더 넓은 그림
Glasswing의 공개는 타이밍도 중요하다. 이번 달 초 CISA는 '공격자가 AI 기반 취약점 연구 도구를 사용하기 시작했다'는 경보를 발행했다. 지난주에는 중국계 APT 그룹이 오픈소스 모델을 써서 취약점 3건을 자동 발굴했다는 Mandiant 리포트가 있었다.
방어와 공격의 비대칭이 사라지고 있다는 뜻이다. 지금까지는 '공격자는 한 개만 찾으면 되고, 방어자는 전부 막아야 한다'가 정답이었지만, AI가 동일한 코드베이스를 양쪽 모두 자동으로 훑기 시작하면 게임이 다르게 짜인다. 먼저 찾는 쪽이 이긴다. 그리고 '먼저 찾기'는 모델의 추론 시간과 컴퓨트에 비례한다.
Anthropic은 Glasswing을 연간 200만 달러의 기업 프로그램으로 판매한다고 밝혔다. 포춘 500 보안팀 기준으로는 사람 연구자 2~3명의 연봉인데, Mythos가 73% 커버리지를 찍는다면 ROI 계산이 간단하다. 비교 대상은 SentinelOne이나 CrowdStrike 같은 EDR 벤더가 아니라, Synack이나 Bugcrowd 같은 펜테스트/버그바운티 플랫폼이다.
다만 OpenAI와 Google도 같은 작업을 분명히 하고 있다. OpenAI의 경우 1월 DEF CON에서 'CodeScan' 프로젝트를 프리뷰했고, Google은 Project Naptime의 2세대를 준비 중이라는 소문이 있다. Anthropic이 패치 타임라인으로 선을 그었기 때문에, 향후 6개월간 '누가 먼저 진짜 제로데이를 공개하느냐'가 경쟁 지표가 될 것이다.
그래서 뭐가 달라지는데
세 가지 관전 포인트다.
첫째, 오픈소스 프로젝트의 보안 모델이 근본적으로 바뀐다. 지금까지는 '메인테이너가 시간 날 때 보안 감사'였지만, 앞으로는 '모델이 연속 감사'가 디폴트가 된다. Linux Foundation이나 OpenSSF가 Glasswing급 모델에 대한 공공 접근권을 Anthropic에게 요구할 가능성이 크다. 이건 이미 EU의 Cyber Resilience Act 2차 개정안에서 논의되고 있다.
둘째, 버그바운티 시장의 가격 구조가 깨진다. Critical RCE 하나당 현재 평균 5만~20만 달러가 지급되는데, 모델이 같은 작업을 마진 0에 가깝게 하게 되면 리서처 개인이 받던 금액은 급락한다. 그 대신 '특이 취약점 장인' 영역이 희소성 있게 남는다. 커널 레이스 컨디션, 하드웨어 버그, 사이드채널 같은 분야는 여전히 Mythos가 약하다.
셋째, AI 안전 연구 관점에서 보면 불길하다. Mythos는 방어용이라고 발표됐지만, 같은 능력이 공격용으로도 쓰일 수 있다. Anthropic은 Mythos를 API로 풀지 않고 '서비스' 형태로만 판매한다고 강조했는데, 반대로 말하면 모델 가중치가 유출되면 판이 뒤집힌다. 이게 바로 Anthropic이 공식 블로그에서 'Responsible Scaling Policy의 ASL-4 임계치와 직접적 관련이 있다'고 언급한 이유다.
이번 주 다룬 Meta의 MCI 직원 감시 프로그램이 '데이터 수집의 극단'이라면, Glasswing은 '능력 집중의 극단'이다. 두 방향이 같은 자본 경쟁에서 나왔다는 게 2026년 4월의 풍경이다.
참고 자료
관련 기사

미국 재무장관과 연준 의장이 은행 CEO를 긴급 소집한 이유, Anthropic Mythos
스콧 베센트 재무장관과 제롬 파월 연준 의장이 월가 대형은행 CEO 5명을 긴급 소집했다. 원인은 Anthropic의 최신 AI 모델 Mythos가 발견한 수천 개의 제로데이 취약점.

Anthropic Mythos 유출, AI 업계를 뒤흔든 '역대급 실수'
Anthropic의 차세대 모델 Claude Mythos(코드명 Capybara)가 내부 블로그 초안 유출로 세상에 드러났다. Opus 위의 새로운 티어, 전례 없는 사이버 보안 능력까지. 유출의 전말과 업계 파장을 분석한다.

Anthropic이 목사님 15명을 본사로 초대한 이유
Anthropic이 기독교 지도자 15명을 샌프란시스코 본사에 초청해 Claude의 도덕적 행동에 대해 자문을 구했다. AI 윤리의 새로운 접근법인가, 종교 편향의 시작인가.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.