Anthropic의 비밀 모델 Mythos가 유출됐다 — AI 사이버보안의 판이 바뀐다

AI 회사가 가장 두려워하는 시나리오가 현실이 됐다

Anthropic이 만든 차세대 AI 모델의 존재가, 다름 아닌 Anthropic 스스로의 실수로 세상에 알려졌다. 3월 26일, Fortune이 단독 보도한 내용에 따르면, Anthropic의 CMS(콘텐츠 관리 시스템)에서 공개 접근 가능한 데이터 캐시에 미공개 모델의 상세 정보가 노출된 거야. 모델 이름은 Claude Mythos, 내부 코드명은 Capybara.

Anthropic은 이를 "human error"로 인한 설정 실수라고 인정했어. 하지만 유출된 내용이 문제야. Anthropic 스스로가 작성한 초안 블로그 포스트에 이런 문장이 있었거든.

"이 모델은 사이버 역량에서 다른 어떤 AI 모델보다 훨씬 앞서 있으며, 방어자의 노력을 압도하는 방식으로 취약점을 익스플로잇할 수 있는 모델의 물결을 촉발할 수 있다."

이건 외부 비평가의 경고가 아니야. Anthropic 자체의 평가라는 게 핵심이야.

이걸 이해하려면 — Anthropic의 안전 우선 전략이 왜 역설적이 됐나

Anthropic은 AI 안전을 핵심 가치로 내건 회사야. 2021년 OpenAI에서 나온 다리오 아모데이(Dario Amodei)와 다니엘라 아모데이(Daniela Amodei) 남매가 설립했고, "AI 안전 연구를 하려면 최전선 모델을 직접 만들어야 한다"는 철학이 근간이었어.

이 전략은 실제로 작동했어. Claude 시리즈는 코딩, 추론, 안전성 벤치마크에서 꾸준히 상위권을 유지했고, 2025년 말에는 연간 매출 추정치가 $19B에 근접하면서 OpenAI를 바짝 추격하는 위치까지 올라왔어.

항목	Claude Opus 4.6 (현재)	Claude Mythos (유출)
세대	현행 플래그십	차세대 ("step change")
코딩	상위권	"dramatically higher"
학술 추론	상위권	"dramatically higher"
사이버보안	높음	"far ahead of any other AI model"
자기 수정	제한적	recursive self-fixing

문제는 이 안전 우선 회사가 만든 모델이, 바로 그 안전 리스크 때문에 세상에 알려지게 됐다는 역설이야. "가장 책임감 있는 AI 회사"가 "가장 위험한 AI 모델"을 만들었다는 프레이밍은, 의도하지 않았더라도, 업계 전체에 파장을 만들어.

핵심 내용 해부 — Mythos가 정확히 뭘 할 수 있나

Recursive Self-Fixing이라는 개념

유출된 문서에서 가장 주목받는 역량은 "recursive self-fixing"이야. 쉽게 말하면 AI가 자기 코드의 취약점을 스스로 찾고, 스스로 패치하는 거야.

기존 AI 코딩 도구들도 버그를 찾아주긴 했어. GitHub Copilot이나 Claude 자체도 "이 코드에 SQL 인젝션 취약점이 있어요"라고 알려줄 수 있었지. 하지만 Mythos가 다른 건, 이걸 자율적으로, 반복적으로, 코드베이스 전체를 대상으로 한다는 점이야.

사이버보안 벤치마크에서의 성능

Anthropic의 내부 평가에 따르면 Mythos는 소프트웨어 코딩, 학술 추론, 사이버보안 테스트에서 이전 최고 모델 Claude Opus 4.6을 "극적으로(dramatically)" 뛰어넘는다고 해.

구체적인 벤치마크 수치는 유출 문서에 포함되지 않았어. 하지만 Anthropic이 자체적으로 "unprecedented cybersecurity risks"라는 표현을 쓴 건, 단순한 성능 개선이 아니라 질적 전환을 의미해.

시장 반응 — 사이버보안 주가 급락

유출 소식 직후 사이버보안 관련 주식이 급락했어. 시장이 두려워하는 건 단순해. AI가 취약점을 방어자보다 빠르게 찾고 익스플로잇할 수 있다면, 기존 사이버보안 산업의 전제가 흔들리는 거야.

비트코인도 함께 하락했어. 소프트웨어 기반 보안에 대한 신뢰가 전반적으로 흔들리면서 디지털 자산 전체에 불안감이 퍼진 거야.

더 넓은 그림 — AI 사이버 무기 경쟁의 서막

Mythos 유출이 단독 사건이 아닌 이유가 있어.

첫째, AI 모델의 사이버 역량은 이미 빠르게 발전하고 있었어. OpenAI의 GPT-5.4는 100만 토큰 컨텍스트와 자율 워크플로우 실행 능력을 갖추고 OSWorld-V 벤치마크에서 75%를 달성했어. 코드 이해력과 실행력이 동시에 올라가는 추세인 거야.

둘째, 오픈소스 진영도 빠르게 따라오고 있어. NVIDIA Nemotron 3 Super는 SWE-Bench Verified에서 60.47%로 오픈 웨이트 1위를 기록했고, Alibaba의 Qwen 3.5 Small은 0.8B부터 9B까지 다양한 사이즈의 멀티모달 모델을 오픈소스로 풀었어.

이런 맥락에서 Mythos의 등장은 "최고 성능 AI는 동시에 최고의 사이버 무기"라는 불편한 진실을 수면 위로 끌어올린 거야.

모델	사이버보안 역량	공개 여부
Claude Mythos	자율 취약점 발견 + 패치	미공개 (유출)
GPT-5.4	자율 워크플로우, 100만 토큰	공개
Nemotron 3 Super	SWE-Bench 60.47%	오픈 웨이트
Claude Opus 4.6	코딩 상위권	공개

그래서 뭐가 달라지는데

개발자와 보안 전문가에게 이건 몇 가지를 의미해.

하나. AI 기반 보안 도구의 수요가 급증할 거야. 공격자가 AI를 쓴다면 방어자도 AI를 써야 해. "AI vs AI" 보안 시대가 열리고 있어.

둘. 코드 리뷰의 기준이 바뀌어. AI가 자율적으로 취약점을 찾아낸다면, 인간만의 코드 리뷰는 한계에 부딪혀. CI/CD 파이프라인에 AI 보안 검증이 필수가 되는 건 시간 문제야.

셋. AI 안전 연구의 투명성 문제가 재부상해. Anthropic은 안전 연구를 위해 최전선 모델을 만든다고 했지만, 그 모델이 CMS 설정 실수 하나로 유출됐어. 이건 기술적 문제가 아니라 거버넌스 문제야.

마지막으로 규제 논의가 가속될 거야. EU AI Act는 이미 시행 중이지만, 사이버 역량이 이 수준까지 올라온 모델에 대한 규제 프레임워크는 아직 없어. Mythos 유출은 이 빈 공간을 드러낸 사건이야.

Anthropic의 비밀 모델 Mythos가 유출됐다 — AI 사이버보안의 판이 바뀐다

AI 회사가 가장 두려워하는 시나리오가 현실이 됐다

이걸 이해하려면 — Anthropic의 안전 우선 전략이 왜 역설적이 됐나