구글이 AI가 직접 만든 첫 제로데이를 잡아냈어 — '대규모 공격' 직전 조용히 패치 깔아 막은 이야기
5월 11일 구글 GTIG가 범죄 그룹이 AI로 자동 발견·무기화한 제로데이를 처음으로 공개했어. 오픈소스 시스템 관리 도구의 2단계 인증을 우회하는 취약점이었고, 캠페인이 본격화되기 전에 벤더와 협력해 패치 배포로 무력화했어. AI 사이버 공격이 가설에서 실제 사건으로 넘어가는 변곡점.

"AI가 만든 첫 제로데이"가 결국 실제 캠페인으로 나타났어
5월 11일 구글 위협인텔리전스그룹(GTIG)은 한 번도 본 적 없는 종류의 보고서를 냈어. 핵심은 한 줄. 범죄 행위자가 AI 모델로 직접 제로데이 취약점을 발견하고, 그 자리에서 익스플로잇 코드까지 자동 생성해 실제 공격 캠페인을 준비한 사례를 처음으로 잡아냈다는 거야. 표적은 널리 쓰이는 오픈소스 웹 기반 시스템 관리 도구의 파이썬 스크립트였고, 우회된 건 2단계 인증(2FA). GTIG는 해당 벤더와 즉시 협력해 패치를 조용히 배포했고, '대규모 익스플로잇 이벤트(mass exploitation event)'라고 표현된 본격 캠페인 직전에 작전을 무력화한 것으로 보여.
업계가 그동안 '시간 문제'라고 말해오던 'AI 무기화 사이버 공격'이 이번에 처음으로 'before' 단계에서 'after' 단계로 넘어간 거야. GTIG의 수석 분석가 존 헐트퀴스트(John Hultquist)는 "추적 가능한 AI 기반 제로데이 한 건 뒤에는 더 많은 사례가 있을 것이며, 위협 행위자들이 AI로 공격의 속도·규모·정교함을 끌어올리고 있다"고 말했어. 한 마디로 — 이번 한 건은 빙산의 일각이라는 경고야.
흥미로운 디테일 하나. 구글은 자사 Gemini나 Anthropic의 Mythos 같은 빅랩 모델은 관여하지 않았다고 명시했어. 대신 보고서는 'OpenClaw'로 알려진 모델이 활용된 것으로 추정한다고 표현했고, 익스플로잇 코드 자체에서 '기계가 만든 듯한 흔적(machine-authored artifacts)'이 발견됐다고 덧붙였어. 즉 — 안전성 가드레일이 잘 깔린 미국·유럽 빅랩 모델이 아니라, 가드레일이 약하거나 없는 외부 모델이 사이버 공격에 동원되기 시작했다는 게 이번 사건의 진짜 메시지야.
등장 인물 — GTIG, 익명의 범죄 그룹, OpenClaw, 그리고 패치한 벤더
Google Threat Intelligence Group (GTIG). 2024년 구글이 Mandiant 인수와 자체 위협 인텔리전스 조직을 통합하면서 만든 그룹이야. 글로벌 위협 행위자(APT, 사이버 범죄 그룹, 핵티비스트)를 추적하고, 구글 클라우드·VirusTotal·Chronicle·Mandiant 데이터를 묶어 분석해. 2026년 기준 전 세계에서 가장 많은 telemetric 데이터를 가진 위협 인텔리전스 조직 중 하나로 평가받고 있어. 이번 보고서를 낸 책임자가 수석 분석가 존 헐트퀴스트인데, 그는 NATO·미 국방부 사이버 자문 경력을 가진 업계 톱 분석가야.
범죄 행위자(Criminal Actor). GTIG는 구체적인 그룹 이름을 공개하지 않았어. 다만 보고서는 (1) 금전 동기(financially motivated), (2) 동유럽·러시아권으로 추정되는 인프라, (3) 과거 ransomware-as-a-service 캠페인과 연관된 TTP(전술·기법·절차) 시그니처를 공유한다고 적었어. 즉, 국가 수준 APT가 아니라 사이버 범죄 그룹 — 그러니까 진입 장벽이 더 낮은 행위자가 AI를 쓰기 시작했다는 게 더 큰 충격 포인트야. 국가 행위자가 AI를 쓰는 건 어느 정도 예측됐지만, 비국가 사이버 범죄가 같은 도구를 손에 쥐기 시작했다는 건 위협 표면이 한순간에 수십 배로 늘어났다는 뜻이야.
OpenClaw (추정 모델). 정식 발표가 없는 모델로, 보안 커뮤니티에서 추적해온 'lightly-aligned, weights-released'(가벼운 정렬, 가중치 공개) 계열 LLM으로 추정돼. Llama·Mistral·Qwen 가중치 공개 모델을 fine-tune해서 사이버 보안 작업에 특화시킨 변종이라는 분석이 다수. 보고서는 직접적인 attribution은 피했지만, "코드 생성 패턴, 주석 스타일, 변수 명명 규칙 등에서 OpenClaw 계열 출력과 일치한다"고 표현했어.
패치를 배포한 벤더. GTIG는 책임 공개(responsible disclosure) 원칙에 따라 구체적인 도구 이름을 즉시 공개하지 않았어. 다만 보고서는 "오픈소스 웹 기반 시스템 관리 도구"라는 카테고리만 명시했고, 업계 분석가들은 phpMyAdmin·Webmin·CockpitProject 같은 인기 도구 중 하나로 추정 중. 패치는 5월 11일 이전에 조용히 배포됐고, 사용자 공지는 일반적인 보안 패치 형식으로 진행됐어.
Anthropic·Google·OpenAI (방관자). GTIG는 "Gemini와 Anthropic Mythos는 사용되지 않았다"고 명시했어. 즉, 빅랩 안전성 가드레일은 이번 사건에서 작동했다는 함의야. 다만 그 안전성이 모델 가중치 공개 생태계 전체를 보호하지 못한다는 게 새로 드러난 구조적 문제야.
핵심 내용 — 무엇이 새로운가, 무엇이 똑같은가
무엇이 새로운가. 첫째, 취약점 발견과 익스플로잇 작성이 한 사람(혹은 한 모델)에서 동시에 일어났다는 점. 전통적으로 제로데이는 (1) 취약점 리서처가 먼저 발견하고, (2) 별도 익스플로잇 작성 단계가 있고, (3) 무기화·배포 단계로 분리돼 있었어. 이번에는 LLM이 코드 분석·취약점 후보 추출·익스플로잇 PoC 생성을 한 파이프라인으로 묶었어. 시간 단축이 핵심 — 아마추어 수준 행위자가 며칠 만에 익스플로잇을 손에 쥘 수 있게 된 거야.
둘째, **"기계가 만든 듯한 흔적"**이라는 새로운 forensic 신호. 익스플로잇 코드에 LLM 특유의 변수명 패턴, 주석 스타일, 불필요한 정형구가 남아있어서 GTIG가 'AI 출력'으로 판정할 수 있었어. 이건 향후 보안 업계 attribution에서 매우 중요한 지표가 될 거야 — 범죄 그룹이 forensic을 피하려면 LLM 출력을 후가공해서 'human-in-the-loop' 흔적을 더 많이 만들어야 해. 그게 비용을 다시 올려.
셋째, 2단계 인증(2FA) 우회가 표적이었다는 점. 2FA는 지난 10년간 가장 효과적인 일반 사용자 방어 수단이었어. 그게 자동화된 LLM 분석으로 시스템 관리 도구에서 우회 가능했다는 건 — 일반 SaaS·기업 SSO 도구에서도 비슷한 LLM 자동 분석 공격이 가능하다는 함의야.
무엇이 똑같은가. 한편 보고서는 너무 과하게 해석하지 말라고도 명시했어. 첫째, 이번 익스플로잇이 사용한 패턴 자체는 '새로운 종'이 아니야 — 권한 우회 + Python 코드 인젝션 조합. 인간 보안 리서처도 충분히 발견할 수 있는 수준. 둘째, AI가 '0에서 1로' 만든 게 아니라 '1에서 100으로'의 가속이라는 평가. 즉 인간이 발견할 수 있는 것을 더 빠르게, 더 많이 발견하게 만드는 도구 — '천재 해커'를 만든 게 아니라 '양산형 익스플로잇 공장'을 만든 거야.
| 항목 | 수치 / 설명 |
|---|---|
| 보고일 | 2026-05-11 |
| 영향 도구 카테고리 | 오픈소스 웹 시스템 관리 도구 |
| 우회된 보호 장치 | 2단계 인증(2FA) |
| 추정 사용 모델 | OpenClaw 계열 (가중치 공개 LLM) |
| 추정 행위자 | 동유럽권 사이버 범죄 그룹 |
| 패치 상태 | 조용히 배포 완료 (5/11 이전) |
| 캠페인 영향 | 본격화 전 차단 |
| 공식 모델 (Gemini/Mythos) 사용 | 미사용 확인 |
각자의 이득 — 누가 무엇을 얻고 잃었나
Google. 이득이 분명해. 첫째, 위협 인텔리전스 차별화. GTIG가 빅랩 보안 그룹 중 가장 빨리 'AI 무기화' 케이스를 잡아낸 거야. 클라우드 보안 매출 기여, Mandiant 브랜드 강화, 그리고 미·EU 사이버 보안 정책 라운드에서의 발언권이 한층 더 올라가. 둘째, Gemini 차별화. "우리 모델은 안 쓰였다"는 사실이 향후 6-12개월 동안 빅랩 모델 안전성 비교 표에서 빠짐없이 인용될 카드야. 셋째, 사이버 보안 매출. 구글 클라우드 보안 부문이 2026년 매출 $12B 가이던스인데, 이번 케이스는 보안 매출 성장의 가장 강력한 마케팅 자료가 돼.
Anthropic. "Mythos 사용 안 됨"이라는 한 줄 명시는 사실상 Anthropic에 대한 긍정적 시그널이야. Anthropic의 사이버 보안 특화 모델 Mythos는 4월 출시됐고, 강력한 이중 가드레일(취약점 발견 가능하지만 익스플로잇 코드 생성은 거부)을 차별화 포인트로 내세웠어. 이번 보고서가 그 차별화를 사실상 외부에서 검증해준 셈. 다만 Anthropic 입장에서 더 큰 이슈는 — 가중치 공개 모델 생태계가 어떻게 정렬되지 않은 채 확산되는지를 어떻게 통제할 거냐는 정책 문제야.
오픈소스 LLM 진영 (Llama·Mistral·Qwen). 이번 사건의 가장 큰 정치적 손해 측. Meta·Mistral·Alibaba는 가중치 공개를 적극 추진해왔는데, 이번 'OpenClaw' 케이스가 향후 미·EU 규제 라운드에서 '가중치 공개 모델 = 사이버 무기 확산'이라는 프레임의 가장 강력한 증거로 쓰일 가능성이 커. 특히 EU AI Act는 2026년 8월 집행 권한 발동을 앞두고 있어 — 이 사건이 'GPAI(범용 AI) 모델' 정의와 의무 범위 조정에 직접 영향을 줄 수 있어.
기업 보안팀 (CISO). 이득과 손해가 동시. 이득은 — '실제 사례'가 생겼으니 보안 예산을 더 강하게 받을 수 있어. 손해는 — 패치 사이클이 더 짧아져야 한다는 압박. 종전에는 CVE 공개 후 30일 패치 적용이 표준이었는데, AI 자동화로 익스플로잇 작성 시간이 시간/일 단위로 줄어든다면 패치 윈도우도 같이 줄여야 해. 자동화된 SBOM·컴포넌트 추적·zero-touch 패치 시스템 수요가 폭증할 거야.
보안 벤더 (CrowdStrike·Wiz·Snyk·Mandiant). 매출 기회. AI 익스플로잇 탐지 = 패턴 기반 탐지가 잘 안 통하는 영역이라 행동 분석·LLM 기반 탐지 솔루션이 새 카테고리를 만들어. 특히 '익스플로잇 코드 forensic'을 LLM으로 분석해 attribution을 자동화하는 도구가 신상품 라인. CrowdStrike가 5월 13일 컨퍼런스 콜에서 이 문제를 어떻게 다룰지가 관전 포인트.
일반 사용자. 단기 영향은 제한적이지만, 장기적으로 SaaS·기업 도구의 'security-by-default' 수준이 빠르게 올라갈 거야. 2FA만으로 안전하다는 가정이 깨졌으니 passkey·하드웨어 키·연속 위험 평가(continuous risk assessment) 도입이 가속.
과거 유사 사례 — 성공과 실패
유사 사례 1: 2021년 Log4Shell (Log4j) 사건. 단일 오픈소스 라이브러리의 취약점이 전 세계 웹 인프라의 약 30%를 한 번에 노출시킨 케이스. 발견된 시점부터 익스플로잇 자동화 도구가 며칠 만에 인터넷에 돌아다녔어. 다른 점 — Log4Shell은 인간 리서처가 먼저 발견했고 코드 공개 후 자동화가 따라왔지. 이번 OpenClaw 케이스는 인간이 보지 못한 상태에서 LLM이 직접 패턴을 발견했다는 게 핵심 차이야. 같은 점 — 한 번 알려진 후의 확산 속도. 만약 GTIG가 사전에 차단하지 못했다면 Log4Shell 수준의 글로벌 인시던트로 번질 수 있었어.
유사 사례 2: 2024년 XZ Utils 백도어. 2년에 걸친 사회공학적 침투로 오픈소스 메인테이너 권한을 얻고 백도어를 심은 사건. 인간의 인내가 핵심이었어. 이번 케이스는 그 정반대 — 인내 대신 자동화 속도로 같은 결과를 얻었어. 두 사건을 합치면 — '느린 사회공학 + 빠른 자동 익스플로잇' 두 축에서 동시에 압박이 들어오고 있어.
성공 사례: Project Zero의 자체 AI 도입 (2024). 구글 Project Zero가 2024년 자체 AI 모델로 SQLite·LibreOffice·Chrome 코드베이스에서 0-day를 사전 발견한 케이스. 방어 측 AI가 공격 측 AI보다 먼저 가는 모델이 가능하다는 증명이야. 다만 Project Zero는 빅랩 수준 자원과 안전성 가드레일을 가진 그룹 — 일반 오픈소스 메인테이너에게 같은 도구를 배포하는 게 향후 18개월 핵심 과제.
실패 사례: 2017년 EternalBlue → WannaCry. NSA가 보유하던 Windows SMB 취약점이 유출되고 한 달 만에 WannaCry 랜섬웨어로 전 세계 30만 대 컴퓨터를 감염시킨 사건. 패치는 이미 4월에 배포됐었어. 즉, 패치 자체로는 부족하고 사용자 적용이 핵심이라는 교훈. 이번 OpenClaw 케이스도 GTIG가 빠르게 패치를 배포했지만, 동일 도구의 미패치 인스턴스가 인터넷에 얼마나 남아있느냐가 향후 수개월 더 중요해.
경쟁자 카운터 플레이 — 빅랩과 보안 벤더의 다음 수
Anthropic. Mythos의 '발견은 가능, 익스플로잇 코드 생성은 거부' 정책을 더 공격적으로 마케팅할 거야. 또 'Constitutional Classifier'를 사이버 보안 시나리오에 추가 적용해 fine-tune·jailbreak 저항성을 높이는 연구가 가속. 5월 7일 발표한 SpaceX Colossus 1 컴퓨트 계약과 함께 Mythos의 컴퓨트 capacity도 더 늘려서 EU·미 사이버 보안 기관에 우선 제공할 가능성.
OpenAI. 'GPT-5.5-Cyber'를 EU에 우선 제공한다고 5월 11일 발표한 게 이번 사건과 같은 날이야. 우연이 아니야 — OpenAI가 사이버 보안 시장에서 Anthropic Mythos에 뒤지지 않으려는 포지셔닝. EU·미·UK 정부 채널을 빠르게 잡아서 'big lab cyber model' 시장의 표준 사업자가 되겠다는 전략. 다만 OpenAI는 이번 사건에 대한 직접 코멘트는 자제하는 중.
Google DeepMind. 자체 사이버 보안 모델은 아직 별도 SKU로 분리하지 않았지만, Gemini for Security가 5월 19일 Google I/O 2026에서 발표될 가능성. GTIG의 데이터 advantage + Gemini 모델 = 차별화 카드. 클라우드 매출 입장에서도 보안 SKU 별도 분리가 시간 문제.
오픈소스 LLM 진영 (Meta·Mistral·Alibaba·Qwen). 가장 어려운 위치. (1) 가중치 공개를 유지하되 더 강한 fine-tune-resistant 가드레일을 연구해야 함, (2) 사이버 보안 시나리오 평가에서 '안전' 점수를 적극 광고해야 함, (3) 규제 라운드에서 '오픈소스 = 학술·연구·중소기업의 생명줄'이라는 내러티브를 유지해야 함. 5월 13일 시점에서 Meta는 "우리는 OpenClaw 모델과 무관하다"는 짧은 코멘트만 냈고, Mistral·Alibaba는 침묵.
보안 벤더 카운터. CrowdStrike Falcon은 LLM 익스플로잇 패턴 탐지를 별도 모듈로 분리, Wiz는 클라우드 워크로드용 'AI-built exploit signature' 데이터베이스 출시 예고, Snyk은 의존성 스캐닝에 LLM 변종 탐지를 추가. 보안 시장의 새 카테고리 — **'AI 위협 탐지(AI-Threat Detection)'**가 12개월 내 별도 분야로 자리잡을 가능성.
그래서 뭐가 달라지는데 — 페르소나별
CISO·보안 책임자. 첫째, 패치 윈도우를 7-14일로 단축하라는 권고가 표준이 될 거야. 둘째, passkey + 하드웨어 키로 2FA를 대체하는 마이그레이션 가속. 셋째, 자체 코드베이스를 LLM 코드 리뷰 도구로 사전 스캔하는 '레드 팀 자동화' 예산 추가. 2026년 보안 예산에서 'AI 위협 탐지' 라인이 별도 항목으로 분리될 가능성.
오픈소스 메인테이너. 단일 메인테이너 프로젝트가 가장 위험. (1) GitHub의 자동 SBOM·CVE 알림 강화 적극 활용, (2) 메인테이너용 LLM 코드 감사 도구(SonarQube·CodeQL의 AI 변형) 무료 라이선스 신청, (3) Sigstore·SLSA 같은 supply chain 보안 표준 도입.
기업 개발팀. AI 코딩 도우미가 만든 코드의 보안성을 더 강하게 검증해야 해. 특히 OWASP Top 10 + LLM-Top-10 (LLM 특화 보안 위협 표) 검증을 PR 단계에서 필수화. 또 의존성에 사용되는 오픈소스 도구의 패치 사이클을 자동화 — Dependabot·Renovate의 'auto-merge security patch' 옵션 활성화.
창업자·스타트업. SaaS 제품이라면 '사이버 보안 인증'이 마케팅의 핵심 자산이 될 거야. SOC2 Type II + ISO 27001 + 'AI Threat Resilience'(아직 표준 없지만 향후 12개월 내 등장 예상) 인증을 일찍 잡으면 엔터프라이즈 영업에서 차별화. 또 — 자체 코드베이스에 가중치 공개 LLM을 그대로 쓰지 말고, 정렬된 빅랩 모델 + 자체 가드레일 조합으로 가는 게 안전.
투자자. 사이버 보안 섹터의 멀티플 재평가. CrowdStrike·Wiz·Snyk·Palo Alto Networks 같은 기존 강자들의 'AI 위협 탐지' 매출 기여를 향후 4분기 컨퍼런스 콜에서 확인. 또 'AI 위협 인텔리전스' 신생 스타트업(예: Ox Security, Apex Security, Lakera) 투자 활성화 예상.
규제 당국. EU AI Act 8월 집행을 앞두고, 가중치 공개 모델에 대한 GPAI 의무를 어떻게 강화할지가 핵심 의사결정. 미국 CISA·NIST는 'AI 위협 탐지 표준'을 12개월 내에 발표할 가능성. 한국 과기정통부·KISA도 'AI 사이버 보안 가이드라인' 1차 안을 2026년 하반기 발표할 것으로 예상.
일반 사용자. 즉각적인 행동 변화는 (1) 비밀번호 관리자 + passkey 활성화, (2) 모든 SaaS 계정 패스키 마이그레이션, (3) 가능한 모든 서비스에서 하드웨어 키(YubiKey 등) 도입. 그리고 — 의심스러운 SaaS 도구 사용 자제. 오픈소스라고 해서 자동으로 안전한 시대는 끝났어.
참고 자료
- CNBC: Google thwarts effort by hacker group to use AI for 'mass exploitation event'
- TechCrier: Google Uncovers First AI-Generated Zero-Day Exploit
- The Register: Google says criminals used AI-built zero-day in planned mass hack spree
- Google Cloud Threat Intelligence Group resources
- spoonai 2026-04-23: Anthropic Glasswing Mythos zero-days
출처
관련 기사

미국 재무장관과 연준 의장이 은행 CEO를 긴급 소집한 이유, Anthropic Mythos

Anthropic '프로젝트 글래스윙' 공개 – Mythos 모델이 실전 환경에서 제로데이 7개를 찾아냈다

Gemini가 Google Workspace를 완전히 재정의했어 — Docs, Sheets, Slides, Drive 통합 총정리
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
