전세사기·독도까지 평가한다 — KT·고려대가 만든 한국형 AI 안전성 벤치마크 'KSAFE-MM'
KT와 고려대가 한국 문화·사회 맥락을 반영한 멀티모달 AI 안전성 벤치마크 'KSAFE-MM'을 공개했어. 전세사기·독도 분쟁 같은 한국 고유 이슈까지 1만4135개 샘플로 평가하고, Gemma·HyperCLOVA X 등 글로벌 모델 12종을 검증했어. 같은 방식을 일본어에도 적용해 어느 문화권이든 확장 가능하다는 걸 보여줬지.

글로벌 AI가 '독도'를 물으면 뭐라고 답할까 — 그걸 채점하는 잣대가 나왔어
해외에서 만든 거대 AI 모델은 한국 사정을 얼마나 알까? 전세사기가 뭔지, 독도 문제를 어떻게 다뤄야 하는지, 한국 사회의 민감한 맥락을 제대로 이해하고 안전하게 답할까? 이 질문을 체계적으로 채점하는 자(尺)가 나왔어. **KT와 고려대학교가 6월 16일 공개한 멀티모달 AI 안전성 벤치마크 'KSAFE-MM'**이야.
핵심은 '한국 문화·사회 맥락'을 정면으로 반영했다는 거야. 대부분의 글로벌 AI 안전성 평가는 영어권 기준으로 만들어져서, 한국 고유의 이슈 앞에선 헐거워지기 쉬워. KSAFE-MM은 전세사기, 독도 분쟁 같은 '한국에서만 통하는' 민감 주제까지 평가 항목에 넣었고, 텍스트뿐 아니라 이미지까지 함께 보는 멀티모달 방식이야. 무슨 일인지, 왜 의미 있는지 풀어볼게.
누가·무엇을 만들었나 — KT, 고려대, 그리고 12개 글로벌 모델
KT는 이 프로젝트의 산업 파트너야. 통신사를 넘어 'AICT(AI+ICT) 기업'을 표방하며 자체 AI 역량을 키워온 KT에게, '한국형 AI 안전성 기준'을 선점하는 건 기술 리더십과 공공성을 동시에 잡는 카드야. 단순히 모델을 잘 만드는 걸 넘어, '한국 사회에 안전한 AI'를 평가하는 잣대를 직접 쥐겠다는 거지.
고려대학교는 학술 파트너로서 평가 방법론의 엄밀함을 담당해. 벤치마크는 '얼마나 잘 설계됐느냐'가 신뢰성을 좌우하는데, 대학 연구진의 참여는 KSAFE-MM이 마케팅용 지표가 아니라 검증 가능한 연구 결과물이라는 무게를 더해줘. 산학 협력이 이 프로젝트의 신뢰성을 받치는 기둥이야.
평가 대상은 글로벌 멀티모달 대형언어모델(MLLM) 12종이야. 구글의 Gemma, 네이버의 HyperCLOVA X 등이 포함됐어. 즉 KSAFE-MM은 특정 모델을 띄우려는 게 아니라, 여러 모델을 같은 잣대로 줄 세워 '한국 맥락에서 누가 더 안전한가'를 객관적으로 비교하는 도구야. 이게 벤치마크의 본질이지.
핵심 내용 — KSAFE-MM은 어떻게 구성됐나
KSAFE-MM의 설계를 뜯어보면 '한국 특화'와 '글로벌 호환'을 영리하게 나눠놨어. 두 갈래 구성과 규모를 표로 정리하면 이래.
| 구성 | 내용 |
|---|---|
| KSAFE-MM-G | 글로벌 공통 리스크를 한국 문화 맥락으로 변환 |
| KSAFE-MM-C | 전세사기·독도 분쟁 등 한국 고유 이슈 반영 |
| 규모 | 총 1만4135개 평가 샘플(국내 최대 규모) |
| 검증 모델 | Gemma·HyperCLOVA X 등 글로벌 MLLM 12종 |
| 제작 방식 | 4단계 자동화 파이프라인 |
| 확장성 | 일본어 파일럿(JSAFE-MM-C)로 타 문화권 즉시 적용 실증 |
가장 영리한 부분은 'G'와 'C'의 분리야. KSAFE-MM-G는 전 세계 공통의 위험(혐오·폭력·차별 등)을 한국 문화 맥락으로 번역한 거고, KSAFE-MM-C는 전세사기·독도처럼 한국에서만 작동하는 고유 이슈를 다뤄. 이렇게 나누면 '보편적 안전성'과 '지역적 안전성'을 따로 측정할 수 있어서, 글로벌 모델이 정확히 어디서 한국 맥락을 놓치는지 짚어낼 수 있어.
제작 방식도 주목할 만해. 현지 커뮤니티 기반의 민감 주제 수집 → 템플릿 기반 쿼리 생성 → 합성 이미지 생성 → 안전장치를 우회하도록 변형한 '탈옥(jailbreak) 쿼리' 생성까지, 4단계 자동화 파이프라인으로 1만4135개 샘플을 만들었어. 특히 탈옥 쿼리까지 포함했다는 건, 평소엔 안전하게 답하던 모델이 '교묘하게 비틀어 물으면' 위험한 답을 내놓는지까지 본다는 뜻이야. 안전성 평가의 난이도를 한 단계 높인 거지.
각자의 이득 — 왜 지금 한국형 벤치마크인가
KT의 이득은 'AI 안전성 표준의 선점'이야. AI 규제와 안전성 검증이 전 세계적으로 강화되는 흐름에서, '한국 사회에 맞는 안전 기준'을 먼저 만든 회사는 정책·공공 영역에서 발언권을 갖게 돼. 한국이 'AI 기본법'을 시행하며 기업의 안전성 책임을 강조하는 지금, KSAFE-MM 같은 도구는 규제 대응의 실질적 인프라가 될 수 있어.
국내 AI 생태계의 이득은 '평가 인프라의 확충'이야. 좋은 모델을 만들려면 '잘 만들었는지 채점하는 잣대'가 먼저 있어야 해. 그동안 한국어·한국 문화 맥락을 제대로 평가하는 공개 멀티모달 벤치마크가 부족했는데, 국내 최대 규모의 KSAFE-MM이 그 공백을 메워. 국산 모델 개발자들이 '우리 모델이 한국 맥락에서 안전한가'를 객관적으로 점검할 도구가 생긴 거야.
글로벌 AI 기업의 이득도 있어. 역설적이지만, 글로벌 모델이 한국 시장에 진출하려면 한국 맥락의 안전성을 입증해야 하는데, KSAFE-MM이 그 통과 기준을 명확히 해줘. '한국에서 안전한 AI'의 정의가 분명해질수록, 글로벌 기업도 무엇을 맞춰야 하는지 알게 돼. 모두에게 '게임의 규칙'을 보여주는 셈이야.
과거 유사 사례 — 성공과 실패
벤치마크가 산업을 끌어올린 사례는 많아. 이미지 인식 분야의 ImageNet이 대표적이야. '잘 정리된 평가 데이터셋과 경쟁 무대'가 생기자, 전 세계 연구자들이 그 잣대를 향해 달리면서 딥러닝 혁명이 폭발했지. 좋은 벤치마크는 단순한 측정 도구가 아니라 '연구의 방향을 정하는 나침반' 역할을 해. KSAFE-MM이 한국어 AI 안전성 연구의 그런 구심점이 될 수 있느냐가 관건이야.
다만 벤치마크의 함정도 분명해. 'KSAFE-MM 점수를 잘 받는 것'이 목표가 되어버리면, 모델이 실제 안전성보다 '시험 잘 보는 법'에 최적화되는 굿하트의 법칙(측정이 목표가 되면 측정은 망가진다)에 빠질 수 있어. 벤치마크가 오래 살아남으려면 꾸준히 갱신되고, 새로운 위험 유형을 계속 흡수해야 해.
또 하나, '문화적 안전성'은 정답이 하나가 아니라는 어려움이 있어. 독도 같은 이슈는 '안전한 답'의 기준 자체가 관점에 따라 갈릴 수 있어서, 벤치마크 설계자의 가치판단이 평가에 스며들 수밖에 없어. KSAFE-MM이 신뢰를 얻으려면 평가 기준의 투명성과 합의 과정을 계속 공개하는 게 중요해. 이건 기술 문제이자 사회적 합의의 문제야.
경쟁자 카운터 플레이
국내에서는 네이버가 가장 가까운 비교 대상이야. HyperCLOVA X로 한국어 특화 모델을 앞서 끌어온 네이버는 자체 평가·안전성 데이터셋도 축적해왔어. KT가 '공개 벤치마크'라는 카드로 표준 선점에 나서면, 네이버는 '실제 서비스에 검증된 안전성'이라는 실전 경험으로 맞설 수 있어. 한국어 AI 패권을 두고 평가 기준에서도 경쟁이 붙는 거지.
해외에서는 글로벌 AI 안전성 평가 기관·표준들이 변수야. 영어권 중심의 안전성 벤치마크가 사실상 글로벌 표준 노릇을 해온 상황에서, KSAFE-MM 같은 '지역 특화' 잣대가 늘어나면 '안전성 평가의 다국적화'라는 흐름이 만들어져. 이때 KT의 카운터 플레이는 '한국에서 검증된 방법론을 다른 나라로 수출'하는 거고, 실제로 일본어 파일럿(JSAFE-MM-C)으로 그 가능성을 이미 보여줬어.
이 '확장성' 카드가 KSAFE-MM의 진짜 무기야. 같은 4단계 파이프라인을 일본어에 적용해 통했다는 건, 이론상 어느 문화권에도 즉시 이식 가능하다는 뜻이거든. '한국형'에서 멈추지 않고 '문화 특화 안전성 평가의 글로벌 방법론'으로 키울 수 있다면, KT·고려대는 틈새가 아니라 새 표준의 출발점에 설 수 있어.
그래서 뭐가 달라지는데
국내 AI 개발자·기업이라면 이제 '한국 맥락 안전성'을 객관적으로 점검할 공개 도구가 생겼어. 모델을 출시하거나 도입하기 전에 KSAFE-MM 같은 잣대로 '우리 서비스가 한국 사회의 민감 이슈를 안전하게 다루는가'를 확인하는 게 새로운 체크포인트가 될 수 있어. 규제 대응 측면에서도 실질적 근거가 돼.
정책·공공 담당자라면 이건 'AI 기본법' 시대의 실무 인프라야. 법이 기업에 안전성 책임을 지우는데, 정작 '무엇이 한국에서 안전한가'를 측정할 도구가 없으면 규제는 공허해져. KSAFE-MM 같은 평가 기준은 추상적 규제를 구체적 점검 항목으로 바꿔주는 연결고리야.
일반 사용자라면 직접 체감은 적지만, 결국 '내가 쓰는 AI가 한국 맥락을 얼마나 안전하게 다루는가'의 밑바탕이 돼. 글로벌 모델이 한국 고유 이슈에서 엉뚱하거나 위험한 답을 내놓을 위험을, 이런 벤치마크가 사전에 걸러주는 역할을 하니까. 보이지 않는 곳에서 작동하는 안전망인 셈이야.
🥄 남은 궁금증 세 가지
— 이게 나랑 무슨 상관이야? 직접적인 건 없어. 다만 네가 쓰는 글로벌 AI가 전세사기·독도 같은 한국 이슈에서 안전하게 답하도록 압력을 주는 잣대라, 한국어로 AI를 쓰는 사람이라면 보이지 않는 곳에서 혜택을 받는 셈이야.
— 벤치마크 하나가 그렇게 중요해? 의외로 그래. '잘 채점하는 잣대'가 생기면 개발자들이 그 방향으로 모델을 개선하거든. ImageNet이 이미지 AI를 끌어올린 것처럼, 좋은 안전성 벤치마크는 한국어 AI 전체의 안전 수준을 끌어올리는 나침반이 될 수 있어.
— 독도 같은 민감 이슈를 AI가 채점한다고? 편향 없어? 솔직히 그게 가장 어려운 부분이야. '안전한 답'의 기준이 관점에 따라 갈릴 수 있어서, 설계자의 가치판단이 들어갈 수밖에 없어. 그래서 평가 기준을 얼마나 투명하게 공개하고 합의하느냐가 신뢰의 핵심이라, 단정하긴 일러.
참고 자료
- 파이낸셜뉴스 — 독도 분쟁까지 평가…KT, 한국 특화 AI 벤치마크 'KSAFE-MM' 선봬
- 이투데이 — KT, 한국 문화 특화 AI 벤치마크 공개…고려대와 공동개발
- 뉴스핌 — KT, 한국형 AI 안전성 평가 기준 공개…전세사기·독도 이슈 반영
- 아이티데일리 — KT, 고려대와 한국 문화 특화 'KSAFE-MM' 벤치마크 개발
- 굿모닝경제 — KT, 멀티모달 MLLM 벤치마크 'KSAFE-MM' 공개
수치는 발표 시점 기준이라 바뀔 수 있어.
출처
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.