spoonai
TOPAnthropicAI SafetyJailbreak

Anthropic이 '탈옥 심각도' 공통 채점표를 제안했어 — Fable 5 복귀와 함께

Anthropic이 Amazon·Microsoft·Google과 손잡고 AI 탈옥의 심각도를 4가지 축으로 채점하는 공통 프레임워크를 내놨어. 소프트웨어 취약점의 CVSS처럼 표준화하는 게 목표야. 마침 7월 1일엔 오프라인이던 Claude Fable 5가 새 사이버보안 분류기를 달고 글로벌 복귀했어.

·12분 소요
공유
AI 데이터센터 GPU 서버랙
Unsplash

탈옥에도 이제 '점수'가 매겨진다 — 헤드라인 신호의 시대는 끝났어

솔직히 말해서, 지금까지 "AI 모델이 탈옥됐다"는 뉴스를 볼 때마다 우리는 다들 조금씩 답답했어. 어떤 연구자가 트위터에 "내가 Claude를 뚫었다"고 올리면 헤드라인이 뜨는데, 정작 그게 얼마나 심각한 일인지는 아무도 정확히 말을 못 해. 그냥 위험해 보인다는 분위기, 딱 그 정도의 신호만 떠돌았지. 기업이 수십억 원짜리 AI 도입 결정을 내려야 하는데 근거가 "느낌"이라니, 이게 말이 되나 싶었던 거야.

그런데 2026년 7월, Anthropic이 이 답답함을 정면으로 건드리는 제안을 내놨어. AI 탈옥의 심각도를 4가지 축으로 채점하는 업계 공통 프레임워크를 만들자는 거야. 그것도 혼자가 아니라 Amazon, Microsoft, Google, 그리고 Glasswing 쪽 파트너들과 함께. 목표는 명확해. 소프트웨어 보안 세계에 이미 있는 CVSS 점수처럼, 탈옥에도 모두가 같은 잣대로 얘기할 수 있는 공통 척도를 만들자는 거지.

그리고 타이밍이 절묘해. 바로 같은 시기에 Anthropic의 가장 강력한 모델인 Claude Fable 5가 약 18일간의 오프라인 상태를 끝내고 7월 1일 글로벌 복귀를 했거든. 미국 정부의 요청으로 잠시 내려갔던 모델이, 수출 통제가 풀리면서 다시 돌아온 거야. 그것도 탈옥을 차단하고 더 많은 코드를 플래그하는 새 사이버보안 분류기를 새로 달고서 말이지. 채점표 제안과 모델 복귀, 이 둘은 우연이 아니라 하나의 이야기로 묶여 있어.

그러니까 이건 단순히 "새 안전 도구가 나왔다"는 뉴스가 아니야. AI 업계가 안전을 어떻게 측정하고, 누가 그 기준을 쥐고, 정부와 기업은 그걸 어떻게 받아들일지에 대한 판이 새로 짜이는 순간이야. 오늘은 이 채점표가 뭔지, 누구한테 이득인지, 그리고 Fable 5 복귀라는 민감한 뒷이야기까지 차근차근 풀어볼게.

등장인물 — Anthropic, 공동 제안한 빅테크들, 그리고 기업 구매자

먼저 주인공은 당연히 Anthropic이야. Claude를 만드는 회사이자, AI 안전을 회사 정체성의 핵심으로 내세워 온 곳이지. CEO인 Dario Amodei는 예전부터 "능력이 빠르게 오르는 만큼 안전 측정도 같이 정교해져야 한다"는 얘기를 꾸준히 해왔어. 이번 채점표 제안도 그 연장선에 있어. Anthropic 입장에선 "우리가 제일 안전하다"는 주장을 감(感)이 아니라 숫자로 증명할 수 있는 판을 깔고 싶은 거야. 그리고 그 판의 규칙을 자기가 먼저 제안한다는 건, 그 자체로 유리한 위치를 잡는 일이기도 하고.

그런데 재밌는 건, 이번엔 Anthropic 혼자가 아니라는 점이야. Amazon, Microsoft, Google이 공동 제안자로 이름을 올렸어. 이 세 회사는 각자 클라우드 플랫폼(AWS, Azure, Google Cloud)을 통해 수많은 기업 고객에게 AI 모델을 팔고 있잖아. 이들에게 "탈옥 심각도를 재는 공통 잣대"는 남의 일이 아니야. 자기 플랫폼에서 돌아가는 모델의 위험을 고객에게 설명할 언어가 생기는 거니까. 여기에 Glasswing 쪽 파트너들까지 붙었다는 건, 이게 한 회사의 마케팅이 아니라 여러 이해관계자가 얽힌 진짜 '표준화 시도'라는 뜻이야.

그리고 이 모든 이야기의 진짜 주인공은 사실 따로 있어. 바로 기업 구매자, 특히 CISO(최고정보보안책임자)들이야. 이 사람들은 지금 매일 아침 "우리 회사가 쓰는 AI가 뚫렸다는데 이게 얼마나 심각한 거냐"는 질문을 임원들한테 받고 있어. 그런데 대답할 근거가 없어. "심각도 3.2점, 무기화 용이성 낮음" 같은 공통 언어가 없으니까, 매번 처음부터 위험을 설명하고 설득해야 하는 거지. 이 채점표는 사실상 이 사람들을 위해 만들어지는 거야.

정리하면 이 무대엔 세 부류가 있어. 규칙을 제안하는 AI 랩(Anthropic), 그 규칙으로 신뢰를 팔고 싶은 클라우드·투자 파트너들(Amazon·Microsoft·Google·Glasswing), 그리고 그 규칙 덕에 드디어 위험을 숫자로 말할 수 있게 될 구매자들이야. 이 셋의 이해관계가 어떻게 맞물리는지를 알면, 왜 이 제안이 지금 이 타이밍에 나왔는지가 훨씬 선명하게 보여.

핵심 내용 — 4축 채점표가 뭔데

자, 이제 본론이야. 이 프레임워크의 심장은 탈옥의 심각도를 4개의 축으로 나눠서 본다는 거야. 지금까지는 "뚫렸다 / 안 뚫렸다"라는 이분법밖에 없었는데, 이걸 다차원으로 쪼갠 거지. 하나의 탈옥이 얼마나 위험한지는 사실 여러 요소의 조합이거든. 어떤 탈옥은 이론적으론 무섭지만 실제로 써먹기가 거의 불가능하고, 어떤 탈옥은 별거 아닌 것 같아도 누구나 쉽게 따라 할 수 있어서 진짜 위험해. 이 차이를 잡아내려는 게 4축의 핵심이야.

뭘 재는가 왜 중요한가
① 능력 이득 (capability gain) 공격자가 이미 가진 도구를 넘어서, 이 탈옥으로 '추가로' 얻는 능력의 크기 이미 구글링으로 알 수 있는 걸 뱉어냈다면 위험이 낮고, 없던 능력을 새로 준다면 위험이 큼
② 영향 범위 (breadth of impact) 이 탈옥이 하나의 좁은 과제에만 통하는지, 아니면 여러 공격 과제에 두루 통하는지 범용적으로 통할수록 방어가 어렵고 파급력이 큼
③ 무기화 용이성 (ease of weaponization) 이 기법을 실제 공격으로 바꾸기가 얼마나 쉬운가 재현이 쉬울수록, 전문 지식이 덜 필요할수록 실제 피해로 이어지기 쉬움
④ 독립적 발견 가능성 (independent discoverability) 그 기법이 이미 얼마나 널리 알려져 있거나 남들이 스스로 찾아낼 수 있는가 이미 공공연히 알려진 거라면 새로 막아도 이득이 적고, 아무도 모르던 거라면 신중히 다뤄야 함

각 축을 조금 더 풀어볼게. ①번 '능력 이득'은 가장 직관적이야. 공격자가 이 탈옥으로 뭘 새로 할 수 있게 되느냐는 거지. 핵심은 '증분(delta)'이야. 이미 인터넷에 널린 정보를 모델이 다시 정리해준 수준이면 이득이 작고, 반대로 전문가만 알던 위험한 노하우를 처음부터 끝까지 떠먹여 준다면 이득이 크지. 그래서 같은 답변이라도 "이걸 다른 데서 얼마나 쉽게 구할 수 있었나"가 점수를 크게 가른다는 거야.

②번 '영향 범위'와 ③번 '무기화 용이성'은 짝으로 보면 이해가 빨라. 범위는 "이 구멍이 얼마나 넓게 뚫리느냐"고, 무기화 용이성은 "그 구멍으로 실제 총알이 얼마나 쉽게 나가느냐"야. 아무리 넓게 뚫려도 무기화가 극도로 어려우면 실제 위험은 낮을 수 있고, 반대로 좁은 구멍이라도 초등학생도 따라 할 만큼 쉬우면 위험은 확 올라가. 이 둘을 따로 재야 진짜 위험이 보인다는 게 이 프레임워크의 통찰이야.

④번 '독립적 발견 가능성'은 좀 미묘하지만 중요해. 어떤 탈옥 기법이 이미 온라인에 다 퍼져 있다면, 그걸 새로 막는다고 얻는 안전 이득은 상대적으로 작아. 반대로 아직 아무도 모르는 새로운 기법이라면, 이걸 어떻게 공개하고 다룰지 훨씬 신중해야 하지. 이 축은 "이미 알려진 위험"과 "새로 열린 위험"을 구분해서, 자원을 어디에 먼저 쏟아야 할지 판단하게 도와줘.

그리고 이 채점표가 그냥 종이 위 이론에 머물지 않는다는 신호도 있어. Anthropic은 가장 심각한 부류 — 즉 중요 인프라에 실제 피해를 줄 수 있는 탈옥 — 에 대해서는 심각도가 확인되는 즉시 완화책을 배포하겠다고 했어. 게다가 탈옥 제보 채널을 24시간 모니터링하는 팀까지 새로 만들었지. 채점만 하고 끝내는 게 아니라, 높은 점수엔 실제 대응이 붙는 구조를 짜겠다는 거야. 이게 CVSS와 다른 지점이기도 해 — 단순 점수 부여를 넘어 운영 대응까지 묶으려는 시도거든.

각자의 이득 — 누가 웃나

이런 제안이 나오면 항상 물어봐야 할 게 있어. "그래서 누가 이득을 보나?" 표준을 만드는 건 공익처럼 보이지만, 사실 표준의 규칙을 먼저 쓰는 쪽은 언제나 유리한 위치를 잡거든. 이번 채점표도 마찬가지야. 이 판에서 웃는 사람들을 하나씩 짚어보자.

가장 먼저 웃는 건 당연히 Anthropic이야. 자기가 안전 기준을 제안하고, 그 기준으로 자기 모델의 안전성을 증명하는 구조를 만들었으니까. "우리는 이 4축에서 이만큼 점수가 좋다"고 말할 수 있는 언어를 스스로 정의한 거지. 안전을 브랜드로 삼아 온 회사한테 이건 마케팅 그 이상이야. 경쟁의 룰 자체를 자기가 잘하는 종목으로 끌고 오는 거니까. 물론 이게 나쁜 의도라는 건 아니야 — 실제로 표준이 필요한 영역이고, 먼저 나서는 데 리스크도 있어. 다만 이득이 확실하다는 건 짚어야지.

두 번째로 웃는 건 클라우드 삼대장, Amazon·Microsoft·Google이야. 이들은 자기 플랫폼에서 남의 모델까지 포함해 온갖 AI를 팔아. 그런데 고객이 "이거 안전해요?"라고 물으면 지금까진 마땅한 답이 없었어. 공통 채점표가 생기면 이들은 "이 모델은 심각도 기준으로 이 정도입니다"라고 표준 언어로 답할 수 있어. 판매 마찰이 줄고, 기업 고객의 도입 결정이 빨라지지. 즉, 이들에게 표준화는 곧 매출 가속 장치야.

세 번째는 기업 구매자와 CISO야. 이들은 드디어 위험을 숫자로 말할 수 있게 돼. 임원 회의에서 "이 탈옥은 능력 이득이 낮고 이미 널리 알려진 거라 실제 위험은 제한적입니다"라고 말할 수 있으면, 공포에 휘둘려 프로젝트를 통째로 엎는 일이 줄어들어. 반대로 진짜 심각한 건 근거를 들어 강하게 막을 수도 있고. 의사결정의 질이 올라가는 거지.

그럼 안 웃는 사람은? 근거 없이 공포 마케팅을 하던 일부 '탈옥 헌터'들, 그리고 표준화에 참여하지 않고 버티는 랩들이 애매해질 수 있어. 공통 잣대가 생기면 "일단 뚫었으니 대박"이라는 식의 과장이 통하기 어려워지고, 표준 밖에 있는 모델은 "왜 공통 기준으로 검증 안 하냐"는 질문을 받게 되니까. 표준은 참여하는 쪽엔 우산이지만, 밖에 있는 쪽엔 압박이 되는 법이야.

과거 유사 사례 — 성공과 실패

이런 시도가 처음은 아니야. 보안 역사엔 "위험을 공통 점수로 만들자"는 시도가 여러 번 있었고, 결과는 엇갈렸어. 이 채점표가 어느 길을 갈지 가늠하려면 과거를 봐야 해. 먼저 성공 사례부터.

가장 대표적인 성공은 CVSS(Common Vulnerability Scoring System)야. 소프트웨어 취약점에 0부터 10까지 점수를 매기는 이 표준은, 지금은 보안 업계의 공용어가 됐어. 어떤 취약점이 "CVSS 9.8"이라고 하면 전 세계 보안팀이 별도 설명 없이도 "아, 이건 지금 당장 패치해야 하는 초긴급"이라고 이해해. 이게 왜 성공했냐면, 벤더 중립적인 방식으로 여러 요소(공격 난이도, 영향 범위 등)를 조합해 하나의 숫자로 만들었고, 커뮤니티가 그걸 실제 업무에 쓰기 시작했기 때문이야. Anthropic이 대놓고 CVSS를 롤모델로 언급한 건 우연이 아니야. 4축을 조합해 심각도를 낸다는 발상 자체가 CVSS의 구조를 빼닮았거든.

또 다른 성공의 밑거름은 CVE 같은 공통 식별 체계와, 책임 있는 취약점 공개(responsible disclosure) 문화야. 취약점을 발견하면 무작정 공개하는 게 아니라, 벤더에게 먼저 알리고 패치할 시간을 준 뒤 공개하는 관행이지. Anthropic이 24시간 제보 모니터링 팀을 두고, 심각도 확인 즉시 완화책을 배포하겠다고 한 건 바로 이 문화를 AI 탈옥에 이식하려는 시도로 보여. 발견-보고-대응의 파이프라인을 표준화하려는 거지.

그런데 실패 사례도 많아. 업계 자율 규제, 특히 특정 회사가 주도한 '자발적 안전 기준'들은 종종 흐지부지됐어. 참여가 강제되지 않으니 경쟁이 치열해지면 슬그머니 기준을 낮추거나 아예 발을 빼는 일이 반복됐거든. 소셜 미디어의 콘텐츠 모더레이션 자율 기준, 초기 IoT 보안 가이드라인 같은 게 대표적이야. 좋은 취지로 시작했지만, 강제력과 검증 체계가 없으니 "지키는 회사만 손해 보는" 구조가 되어 버렸지.

그럼 이 채점표는 어느 쪽일까? 판단은 아직 일러. 성공 요인(빅테크 다수 참여, CVSS라는 검증된 모델, 실제 대응 팀)도 있지만, 실패 요인(자율 표준의 구속력 부재, 경쟁 압력)도 그대로 남아 있어. 결국 관건은 두 가지야. OpenAI 같은 주요 경쟁자가 참여하느냐, 그리고 점수를 매기는 기준이 회사마다 제각각 해석되지 않도록 중립적 검증 체계가 붙느냐. 이 둘이 안 되면 아무리 좋은 4축도 "Anthropic이 만든 Anthropic용 점수"에 그칠 위험이 있어.

경쟁자 카운터 플레이

이제 진짜 흥미로운 질문. OpenAI를 비롯한 다른 랩들은 이 공통 기준에 올라탈까, 아니면 독자 노선을 갈까? 표준화 게임의 승부는 사실 여기서 갈려. 왜냐하면 표준은 참여자가 많아질수록 힘이 세지고, 반대로 핵심 플레이어가 빠지면 반쪽짜리가 되거든.

시나리오 하나. OpenAI가 참여하는 경우야. 그러면 이 채점표는 진짜 업계 표준이 될 가능성이 커져. 두 최대 랩이 같은 잣대를 쓰면 클라우드 벤더도, 기업 고객도, 규제 당국도 자연스럽게 그 기준을 따르게 되니까. 다만 OpenAI 입장에선 "Anthropic이 먼저 규칙을 쓴 판"에 뒤늦게 들어가는 게 자존심 상하는 일일 수 있어. 그래서 참여하더라도 "우리도 함께 만든다"는 형태로, 즉 공동 거버넌스를 요구하며 들어올 가능성이 높아. 순순히 남의 기준을 받아들이기보다는 지분을 요구하는 거지.

시나리오 둘. 독자 노선을 가는 경우야. OpenAI나 다른 랩이 "우리는 우리만의 안전 평가 체계가 있다"며 별도 기준을 밀 수도 있어. 실제로 각 랩은 이미 자체 레드팀과 평가 프레임워크를 갖고 있거든. 이렇게 되면 시장엔 경쟁하는 표준이 두세 개 생기고, 결국 기업 구매자들이 "그래서 어느 점수를 믿어야 하냐"며 다시 혼란에 빠질 수 있어. 표준 전쟁이 벌어지는 거지. 역사적으로 이런 전쟁은 대개 소모적이고, 승자가 나올 때까지 시장 전체가 손해를 봐.

시나리오 셋, 가장 현실적인 그림일 수도 있어. 중립적인 제3자 기구 — 예를 들어 NIST 같은 정부 표준 기관이나 독립 컨소시엄 — 가 개입해서 여러 랩의 안을 하나로 수렴시키는 경우야. CVSS도 결국 특정 회사 것이 아니라 중립 기구(FIRST)가 관리하면서 표준이 됐거든. Anthropic의 4축이 좋은 출발점이 되되, 최종 표준은 중립 기구의 손을 거쳐 다듬어지는 그림. 이게 성사되면 "누가 규칙을 썼냐"는 정치적 부담도 덜 수 있어.

결국 Anthropic의 진짜 도전은 기술이 아니라 정치야. 4축 자체는 합리적으로 보이거든. 문제는 이걸 "우리 것"이 아니라 "우리 모두의 것"으로 만들 수 있느냐지. 경쟁자를 적으로 두지 않고 공동 저자로 끌어들이는 외교력, 그리고 중립 기구에 주도권을 넘길 줄 아는 절제. 이 두 가지가 이 채점표의 운명을 결정할 거야.

그래서 뭐가 달라지는데

이 소식이 각자에게 실제로 뭘 의미하는지 페르소나별로 정리해볼게. 뉴스는 결국 "그래서 내가 뭘 해야 하나"로 이어질 때 쓸모 있으니까.

AI 도입 기업 CISO / 구매자에게. 이건 반가운 소식이야. 앞으로 벤더 평가서에 "이 모델의 탈옥 심각도 프로필"을 요구할 수 있는 근거가 생기거든. 지금 당장 할 일은, 쓰고 있는 AI 벤더에게 "이 4축(능력 이득·영향 범위·무기화 용이성·발견 가능성) 관점에서 우리 모델은 어떻게 평가되냐"고 물어보는 거야. 답을 못 하는 벤더라면 그 자체가 신호지. 다만 아직 표준이 확정된 게 아니니, 이 점수를 계약서에 못 박기보다는 참고 지표로 쓰면서 표준화 추이를 지켜보는 게 현명해.

보안 연구자에게. 게임의 규칙이 바뀔 수 있어. 앞으로 탈옥을 발견하면 그냥 "뚫었다"고 자랑하는 것보다, 4축으로 심각도를 정량화해서 제보하는 쪽이 더 인정받게 될 가능성이 커. Anthropic이 24시간 제보 채널과 대응 팀을 만들었으니, 책임 있는 공개 경로도 열린 셈이고. 다만 어떤 발견은 독립적 발견 가능성이 낮은, 즉 진짜 새로운 위험일 수 있는데, 그런 건 공개 방식과 시점을 더 신중히 다뤄야 해.

일반 Claude 사용자에게. 당장 눈에 보이는 변화는 크지 않을 수 있어. 다만 Fable 5 복귀와 함께 새 사이버보안 분류기가 붙었다는 건, 코드나 보안 관련 요청에서 예전보다 더 많은 걸 플래그하거나 거절할 수 있다는 뜻이야. 정상적인 개발 작업을 하다가 "이건 못 도와줘요"를 더 자주 만날 수도 있다는 거지. 안전과 편의 사이의 균형이 살짝 안전 쪽으로 기운 셈이니, 막힐 때는 요청을 더 구체적이고 합법적인 맥락으로 다시 써보는 게 도움이 될 거야.

규제 당국에게. 이건 양날의 검이야. 한편으론 업계가 스스로 측정 가능한 안전 기준을 만들어주니 규제의 근거가 생겨서 좋아. CVSS가 그랬듯, 정부 조달 기준이나 규제 요건에 이 점수를 참조할 수도 있고. 다른 한편으론, 민간 기업들이 만든 자율 기준을 그대로 받아들이면 "규제 포획(regulatory capture)" 우려도 있어. 그래서 당국이 취할 만한 현명한 길은, 이 4축을 무시하지도 통째로 수용하지도 않고, 중립적 검증 체계를 함께 요구하며 표준화 과정에 적극 개입하는 거야.

🥄 남은 궁금증 세 가지

이 4축 점수, 회사마다 다르게 매기면 결국 무의미해지는 거 아냐? 맞아, 그게 최대 약점이야. 같은 탈옥을 두고 A랩은 "능력 이득 낮음", B랩은 "높음"이라고 하면 점수는 신뢰를 잃어. CVSS가 그나마 통한 건 중립 기구가 채점 기준을 문서로 못 박고 커뮤니티가 검증했기 때문이야. 이 채점표도 결국 중립적 검증 체계와 명확한 채점 가이드가 붙느냐에 성패가 달렸다고 봐. 지금은 좋은 출발점이지, 완성된 표준은 아니야.

Fable 5가 미 정부 요청으로 18일간 내려갔다는 게 좀 무섭게 들려. 이거 국가안보 문제였던 거야? 솔직히 이 부분은 단정하기 조심스러워. 확인된 사실은 이래 — Fable 5가 약 18일간 오프라인이었고, 미국의 수출 통제 조치와 연결돼 있었으며, 통제가 풀리면서 7월 1일 복귀했다는 것. Fortune은 이걸 "미 정부와의 필요한 휴전"이라고 표현했어. 다만 그 이면에 정확히 어떤 안보 판단이 있었는지는 공개된 게 제한적이야. 그러니 "위험해서 껐다"는 식의 단정보다는, 강력한 AI 모델과 국가 정책이 처음으로 정면으로 맞물린 사례라고 보는 게 지금으로선 더 정확해.

새 사이버보안 분류기가 붙으면 내 정상적인 코딩 작업도 막히는 거 아냐? 가능성은 있어. 보도에 따르면 이 분류기는 탈옥을 차단하고 '더 많은 코드를 플래그'하도록 설계됐거든. 방어를 강하게 하면 정상 요청이 걸리는 오탐(false positive)이 늘 수밖에 없어. 다만 이건 대개 시간이 지나며 조정되는 부분이라, 초기에 좀 답답하더라도 점차 정교해질 가능성이 커. 막히면 요청의 맥락을 더 분명히 적어주는 게 지금 할 수 있는 최선이야.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지