spoonai
TOPHHSChatGPT메디케이드

미국 보건부가 ChatGPT한테 50개 주 메디케이드 감사를 맡겼어 — 근데 오류율도, 이의신청도, 마감도 없대

미 보건복지부(HHS)가 'AERO'라는 프로그램으로 ChatGPT를 써서 50개 주의 메디케이드 감사 보고서 5년치를 훑고 있어. 연방자금 100만 달러 이상 받는 기관 전부가 대상이고, 노리는 부정수급 규모는 연 100~200억 달러야. 문제는 오류율도, 이의신청 절차도, 마감 기한도 공개되지 않았다는 거지.

·9분 소요
공유
AI 데이터센터 GPU 서버랙
Unsplash

정부 감사관 자리에 ChatGPT가 앉았다

자, 핵심부터. 미국 보건복지부(HHS)가 ChatGPT를 동원해 50개 주의 메디케이드 감사 보고서 5년치를 통째로 훑기 시작했어. 프로그램 이름은 AERO(Audit Enhancement via Rollup Operations). 연방자금을 100만 달러 이상 받는 기관이라면 주 정부든 병원이든 비영리단체든 전부 대상이야. 노리는 건 연 100억~200억 달러로 추정되는 부정수급이고.

여기까진 "AI로 낭비를 잡는다, 좋네"로 들릴 수 있어. 그런데 헬스케어·법조계가 들고일어난 진짜 이유는 따로 있어. 이 AI 감사에는 오류율 공개도, 이의신청 절차도, 처리 마감 기한도 없어. 즉, ChatGPT가 "이 기관 수상한데?"라고 찍어도, 그게 얼마나 자주 틀리는지, 찍힌 기관이 어떻게 항변할 수 있는지, 언제까지 결론이 나는지가 정해져 있지 않다는 거야.

이게 왜 무거운 일이냐. 감사는 단순한 회계 점검이 아니라, 한 기관의 연방자금이 끊기느냐 마느냐가 걸린 절차야. 그런 결정의 1차 선별을 확률적으로 답을 내놓는 언어모델에 맡기면서, 사람이 가진 '틀렸을 때 바로잡을 권리(적법절차)'를 위한 장치는 빼놓은 거지. 효율과 적법절차가 정면으로 부딪치는 자리야.

그래서 오늘 풀 이야기는 이거야. AERO가 정확히 뭘 하는지, HHS는 왜 ChatGPT를 끌어들였는지, 비판자들이 뭘 걱정하는지, 그리고 이게 '정부 업무에 AI를 박아 넣는' 흐름에서 무엇을 의미하는지. 등장인물은 셋이야 — HHS, ChatGPT(OpenAI), 그리고 감사 대상이 된 주·병원·수급기관들.

등장인물 — HHS, ChatGPT, 그리고 감사 대상

먼저 HHS(보건복지부). 메디케이드·메디케어 같은 거대 공공 의료 프로그램에 매년 수조 달러를 쓰는 부처야. 규모가 워낙 커서 부정수급과 낭비가 늘 골칫거리였고, 사람 감사관만으로는 5년치 50개 주 보고서를 다 들여다보는 게 사실상 불가능했어. HHS 입장에선 '안 보던 걸 보게 해주는 도구'로 AI가 매력적인 거야. 발표를 이끈 건 HHS의 Gustav Chiarello로, 5월 21일 제너레이티브 AI 감사 확대를 공식화했어.

다음은 ChatGPT(와 OpenAI). 여기서 ChatGPT는 챗봇이 아니라 '대량 문서를 읽고 이상 징후를 표시하는 분석 엔진'으로 쓰여. 방대한 감사 보고서를 빠르게 요약하고, 패턴이 어긋나는 부분을 골라내는 데는 언어모델이 강해. 문제는 언어모델이 '그럴듯하지만 틀린 답'을 자신 있게 내놓는 환각(hallucination) 경향이 있다는 거야. 회계 감사처럼 사실 정확성이 생명인 영역에서, 이 약점은 치명적일 수 있어.

세 번째는 감사 대상들 — 주 정부, 병원, 비영리 수급기관이야. 이들에게 감사는 생존이 걸린 문제야. 한 번 '의심 기관'으로 분류되면 자금 집행이 멈추고, 평판이 흔들리고, 소명에 막대한 비용이 들어. 그런데 자기를 찍은 게 사람이 아니라 AI인데, 그 AI가 얼마나 정확한지도 모르고, 반박할 공식 창구도 불분명하다면? 대상 기관들이 가장 두려워하는 건 '틀린 의심을 받아도 바로잡을 길이 없는 상황'이야.

이 셋을 한 문장으로 묶으면 이래. 거대 의료 예산의 낭비를 잡아야 하는 부처(HHS)가, 사람이 다 못 보던 5년치 감사 기록을 AI(ChatGPT)에 맡겨 훑게 했는데, 찍히는 쪽(주·병원)을 위한 안전장치는 빠져 있다. 이게 뼈대야.

핵심 내용 — AERO가 실제로 하는 일

말로 풀면 흩어지니까, 확인된 사실을 표로 보자.

항목 내용
프로그램명 AERO (Audit Enhancement via Rollup Operations)
운영 부처 미 보건복지부(HHS)
사용 도구 ChatGPT
검토 대상 50개 주의 메디케이드 단일감사(single-audit) 보고서 5년치
적용 범위 연방자금 100만 달러 이상 수령 기관 전체
운영 방식 정기적(rolling)으로 반복 스캔
목표 연 100억~200억 달러 추정 부정수급 표적
공식화 2026년 5월 21일, HHS Gustav Chiarello
비판 핵심 오류율·이의신청 절차·처리 마감 기한 미공개

표를 한 줄씩 보자. 우선 **'5년치 × 50개 주'**라는 규모가 핵심이야. 이건 사람 감사관 군단으로도 현실적으로 다 못 보던 양이야. AI를 쓰는 명분 자체는 정당해 — '안 보던 걸 보게 한다'는 거지. 문제는 보는 것과 판단하는 건 다르다는 점이야. 훑어서 후보를 추리는 데까진 AI가 유용해도, 그 후보가 진짜 부정인지 판정하는 단계에선 사람의 검증이 반드시 끼어야 해.

두 번째로 **'100만 달러 이상 전부'**라는 범위가 의미하는 건, 사실상 미국의 거의 모든 주요 의료·복지 수급기관이 이 AI 감사망 안에 들어왔다는 거야. 작은 클리닉은 빠질 수 있어도, 병원·주 보건당국·대형 비영리는 거의 다 걸려. 그만큼 잘못된 선별이 미칠 파장도 전국적이야.

세 번째로 **'오류율·이의신청·마감 부재'**가 이 사건의 핵심 모순이야. AI 시스템을 행정 결정에 쓸 때 가장 기본적인 거버넌스가 바로 '얼마나 틀리는지 측정하고(오류율), 틀렸을 때 바로잡고(이의신청), 무한정 끌지 않는(마감)' 세 가지야. 이게 다 빠졌다는 건, 도구의 성능보다 그 도구를 둘러싼 절차의 공백이 더 큰 위험이라는 뜻이야. 같은 ChatGPT라도, 안전장치가 있는 감사와 없는 감사는 전혀 다른 물건이야.

각자의 이득 — 누가 뭘 얻나

HHS의 이득부터 보자. 첫째, 압도적인 처리량이야. 사람으로는 엄두도 못 내던 5년치 전수 스캔을 AI로 돌리면, 그동안 묻혀 있던 낭비·중복·이상 지출이 드러날 수 있어. 둘째, 정치적 성과야. '연 수백억 달러 낭비를 AI로 잡는다'는 건 납세자에게 강력한 메시지고, 예산 절감 실적으로 직결돼. 셋째, 표준화야. 사람마다 들쭉날쭉하던 감사 잣대를, 같은 모델로 일괄 적용하면 일관성이 올라간다는 명분도 있어.

OpenAI(ChatGPT)의 이득도 분명해. 첫째, 정부라는 초대형 레퍼런스야. 연방 부처가 핵심 감사 업무에 ChatGPT를 쓴다는 건, 다른 정부기관·대기업에게 '검증된 도구'라는 신호가 돼. 둘째, 고부가 시장 진입이야. 단순 챗봇을 넘어 '규제·감사·컴플라이언스'라는, 정확성에 큰돈을 지불하는 시장의 문이 열려. 셋째, 데이터·피드백이야. 실제 감사 업무에서 쌓이는 피드백은 모델을 그 영역에 특화시키는 자산이 돼.

반대로 감사 대상 기관들에겐 이득보다 리스크가 커. 정직하게 운영한 기관이라면 AI가 깨끗하게 통과시켜 주는 게 이득이겠지만, 환각으로 엉뚱하게 찍히면 소명 비용과 평판 손실을 고스란히 떠안아. 그리고 그 손실을 회복할 공식 절차가 불분명하니, '이득의 기대'보다 '오판의 공포'가 앞서. 이 비대칭이 바로 의료계가 반발하는 핵심이야 — 효율의 이득은 정부가, 오판의 위험은 대상이 떠안는 구조거든.

과거 유사 사례 — 성공과 실패

행정에 자동화·알고리즘을 도입했다 크게 데인 전례가 있어. 가장 악명 높은 건 미시간주의 MiDAS 사건이야. 미시간은 실업급여 부정수급을 자동으로 잡겠다며 알고리즘 시스템을 도입했는데, 오판율이 엄청나서 수만 명을 부정수급자로 잘못 낙인찍었어. 결국 대규모 소송과 환불로 이어졌지. 교훈은 명확해 — 사람의 생계가 걸린 판정을 자동화하면서 검증·구제 장치를 빼면, 효율이 아니라 대형 사고가 난다는 거야. AERO의 '오류율·이의신청 부재'는 정확히 이 함정을 향해 가고 있어.

또 하나는 세무·금융 사기 탐지의 성공 사례야. IRS나 은행권은 오래전부터 이상거래 탐지 알고리즘을 써왔고, 상당한 성과를 냈어. 차이가 뭐냐고? 그쪽은 AI가 '의심 후보'를 추리면, 반드시 사람 조사관이 추가 검증을 거치고, 대상자에게 소명 기회를 보장하는 절차가 붙어 있어. AI는 깔때기 입구에서 후보를 좁히는 역할만 하고, 최종 판단과 구제는 사람과 제도가 맡는 구조지. 같은 'AI 사기 탐지'라도 이 안전장치 유무가 성패를 갈라.

그래서 핵심은 'AI를 쓰느냐 마느냐'가 아니라 '어떻게 쓰느냐'야. 5년치 50개 주를 훑어 이상 징후를 추리는 데 AI를 쓰는 건 합리적이야. 하지만 그 결과가 자금 중단 같은 실제 처분으로 이어지는 단계에선, 오류율 공개·사람 재검증·이의신청·기한이라는 가드레일이 반드시 따라붙어야 해. 지금 공개된 정보만 보면 AERO는 입구(스캔)는 강력한데 출구(구제)가 비어 있는 모양새라, 비판이 정당해 보여.

경쟁자 카운터 플레이

가장 먼저 움직일 쪽은 법조계와 환자·기관 권익 단체야. 이들은 적법절차(due process) 위반을 고리로 행정·사법 대응에 나설 가능성이 커. "AI가 찍었는데 오류율도 모르고 항변할 창구도 없다면, 이는 헌법적 적법절차 침해"라는 논리지. 과거 MiDAS 소송의 선례가 있어서, 이 카운터는 실제 힘을 가질 수 있어. HHS가 절차를 보강하지 않으면 법정에서 발목이 잡힐 수 있어.

**경쟁 AI 진영(Anthropic·구글 등)**의 카운터는 '거버넌스 차별화'야. 정부 감사처럼 고위험 영역에서는 '환각을 줄이고 근거를 추적할 수 있는 모델', '감사 추적(audit trail)이 내장된 워크플로'가 더 안전하다고 밀 수 있어. 단순히 '우리 모델이 더 똑똑하다'가 아니라 '우리는 틀렸을 때 왜 틀렸는지 보여준다'가 공공 부문 영업의 새 무기가 되는 거지.

주 정부들 자체도 카운터를 둘 수 있어. 연방의 AI 감사에 일방적으로 끌려가는 대신, 자기들도 같은 보고서를 자체 AI로 먼저 점검해 '깨끗함을 증명하는' 선제 대응에 나설 수 있어. 또는 '검증·구제 절차를 명문화하라'고 연방에 요구하며 협상력을 키우는 길도 있어. AI 감사가 일방통행이 아니라, 양쪽이 같은 도구를 쥐고 절차를 다투는 구도로 갈 가능성이 커.

그래서 뭐가 달라지는데

일반 시민·환자라면 직접적인 영향은 거의 없어. AERO는 개인 환자가 아니라 자금을 받는 기관을 감사하는 거니까. 다만 큰 그림에선 의미가 있어 — 내가 내는 세금이 새는 걸 AI로 잡겠다는 시도이자, 동시에 '정부가 AI로 누군가를 판정할 때 그 판정이 공정한가'라는 질문이 본격적으로 열린 거야. 오늘은 병원이 대상이지만, 같은 방식은 복지·세금·이민 등 시민이 직접 닿는 영역으로 번질 수 있어.

의료·복지 기관 실무자라면 이건 당장의 실전 이슈야. AI 감사를 전제로, 평소 감사 보고서의 데이터 일관성을 더 깐깐하게 관리하고, 이상하게 보일 수 있는 항목엔 설명 근거를 미리 붙여두는 게 현실적인 대비야. 또 '우리가 찍히면 어떻게 소명할지'를 미리 시뮬레이션해 두는 것도 필요해. 절차가 불투명할수록, 먼저 준비한 쪽이 덜 다쳐.

정책·거버넌스에 관심 있다면 이건 'AI 행정'의 시금석이야. 핵심 질문은 'AI를 쓰느냐'가 아니라 '오류율 공개, 사람 재검증, 이의신청, 기한이라는 가드레일을 함께 박느냐'야. 이 가드레일 없이 효율만 좇으면 MiDAS 같은 사고가 재현돼. 반대로 가드레일을 제대로 갖춘 AI 감사가 자리 잡으면, 그게 다른 정부기관의 모범 사례가 될 수도 있어. AERO가 어느 쪽으로 갈지가, 미국식 'AI 행정'의 방향을 가늠하는 잣대가 될 거야.

한 걸음 더 — '입구는 AI, 출구는 사람'이라는 원칙

이 사건의 핵심 교훈을 한 줄로 줄이면 이래. AI를 깔때기의 입구에는 써도, 출구에는 사람과 절차를 둬야 한다. 5년치 50개 주를 훑어 의심 후보를 추리는 건 AI의 강점이자 정당한 용도야. 사람으로는 물리적으로 불가능한 일이니까. 문제는 그 후보 리스트가 곧바로 '처분'으로 직결될 때야. 자금 중단처럼 무거운 결정의 최종 판단을 환각 가능성이 있는 모델에 맡기고, 틀렸을 때 바로잡을 통로마저 비워두면, 그건 효율이 아니라 위험의 자동화야.

또 하나 깊이 봐야 할 건 '거증책임의 이동'이야. 전통적인 감사에선 의심을 제기하는 쪽(정부)이 근거를 갖춰야 했어. 그런데 AI가 대량으로 후보를 쏟아내고, 찍힌 기관이 '나는 결백하다'를 스스로 입증해야 하는 구조가 되면, 사실상 거증책임이 대상에게 떠넘겨져. '의심받지 않을 권리'가 '의심을 벗을 의무'로 바뀌는 거지. AI 감사가 무서운 진짜 이유는 성능이 아니라, 이 책임의 무게중심을 조용히 옮긴다는 데 있어.

결국 AERO가 던지는 질문은 ChatGPT가 똑똑하냐 아니냐가 아니야. '강력한 분석 도구를, 사람의 권리를 지키는 절차 안에 어떻게 가둘 것인가'야. 도구는 이미 충분히 강력해. 이제 필요한 건 그 도구를 둘러싼 가드레일이고, HHS가 그 가드레일을 공개하느냐가 이 프로그램의 정당성을 좌우할 거야.

🥄 남은 궁금증 세 가지

— 그래서 나랑 무슨 상관이야? 환자나 일반 시민이라면 직접 영향은 거의 없어. AERO는 자금을 받는 기관을 감사하는 거라, 개인을 찍는 게 아니거든. 다만 '정부가 AI로 판정을 내릴 때 공정한가'라는 질문은, 언젠가 복지·세금 같은 시민 영역으로 번질 수 있어서 남 일은 아니야.

— ChatGPT가 감사하면 더 정확해지는 거 아냐? 속도와 범위는 분명 좋아져. 근데 정확도는 별개야. 언어모델은 그럴듯하게 틀리는 환각 경향이 있어서, 회계처럼 사실 정확성이 생명인 영역에선 사람 검증이 꼭 붙어야 해. 'AI가 추리고 사람이 판정'할 땐 강력하지만, 'AI가 판정까지' 가면 위험해져.

— 잘못 찍히면 어떻게 항변해? 바로 그게 문제의 핵심이야. 현재 공개된 정보엔 이의신청 절차도, 처리 기한도 명시돼 있지 않아. 그래서 비판이 거센 거고. HHS가 구제 절차를 명문화하기 전까진, 찍힌 기관이 어떻게 소명할 수 있을지 단정하긴 어려워.

참고 자료

수치는 발표 시점 기준이라 바뀔 수 있어.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지