ARC-AGI-3 충격, 최고 AI도 0.37% — AGI는 아직 먼 이야기
ARC Prize 재단이 공개한 ARC-AGI-3 벤치마크에서 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 모두 1% 미만을 기록했다. 인간은 100% 푸는 문제를 AI는 왜 못 풀까.

인트로 훅
3월 24일, ARC Prize 재단이 던진 폭탄이 있어. ARC-AGI-3 벤치마크인데, 최신 AI 모델들이 보여준 성적은 충격적이었어. Gemini 3.1 Pro가 0.37%, GPT-5.4가 0.26%, Claude Opus 4.6이 0.25%를 기록했거든. 심지어 Grok-4.20은 0.00%였어.
그런데 더 놀라운 건 이거야. 인간은 이 같은 문제를 100% 풀어낸다는 거. 훈련받지 않은 일반인도 말이야.
이게 무슨 일일까? 최신 AI가 인간보다 100배 이상 못하는 벤치마크가 있다니. 그리고 상금이 $2백만이야. 이 벤치마크가 대체 뭔지, 왜 AI들이 이렇게 처참하게 실패했는지 파헤쳐볼 거야.
이걸 이해하려면
ARC-AGI라는 게 나온 지도 몇 년이 됐어. 2023년에 첫 번째 버전이 공개됐고, 2024년에 두 번째가 나왔어. 근데 이번 세 번째 버전은 완전히 다른 거야.
먼저 이전 버전들과 비교하면서 따라가보자.
| 항목 | ARC-AGI-1 | ARC-AGI-2 | ARC-AGI-3 |
|---|---|---|---|
| 공개 시점 | 2023년 | 2024년 | 2026년 3월 |
| 최고 AI 성적 | 약 85% | 77.1% (Gemini Pro) | 0.37% (Gemini 3.1 Pro) |
| 인간 성적 | 100% | 100% | 100% |
| 벤치마크 유형 | 정적 패턴 인식 | 정적 패턴 인식 | 인터랙티브 추론 |
| 상금 | $1M | - | $2M |
이 표만 봐도 뭔가 이상하지 않아? AI 성적이 뚝 떨어진 게 아니라 거의 수직으로 내려가버렸어. 이건 단순히 문제가 더 어려워진 게 아니라는 뜻이야. 벤치마크 자체가 완전히 다른 걸 측정하고 있다는 뜻이거든.
핵심 내용 해부
ARC-AGI-3는 뭔가 다르게 설계됐어. 이전에는 "보여줄게, 이 패턴 찾아"하는 식이었다면, 이번엔 "낯선 환경에서 노는 동안 규칙을 배우고, 목표를 스스로 찾고, 세상에 적응하는 능력"을 봐.
인터랙티브 추론이란
인터랙티브 추론은 진짜 머리쓰는 AI의 모습이야. 딱 정해진 입력과 출력이 있는 게 아니고, 계속 상호작용하면서 학습하고 응답하는 방식이거든.
예를 들어보자. 예전 벤치마크는 이런 식이었어:
- 입력: 패턴 3개, 결과 3개
- 과제: 4번째 패턴의 결과를 맞혀라
하지만 ARC-AGI-3는 이렇게 달라졌어:
- 입력: 낯선 세상에 들어가
- 과제: 환경을 탐색하면서 규칙을 알아내고, 주어진 목표를 달성하는 방법을 찾아
- 평가: 얼마나 빨리 적응하고, 새로운 상황에 대응하는가
인터랙티브 추론은 단순한 패턴 매칭이 아니야. 이건 진정한 이해와 적응 능력을 측정하는 거야. 인간의 학습 방식에 훨씬 더 가까워.
왜 이렇게 설계했을까? ARC Prize 재단의 목표는 명확해. 진짜 AGI인지를 판단하는 거야. 인간처럼 완전히 낯선 상황에서도 빨리 배우고 대응할 수 있는지 보려는 거지. 단순히 데이터에서 패턴을 찾는 능력은 이미 AI가 충분히 잘하니까.
모델별 성적표
자, 이제 각 모델의 점수를 보자. 상황이 진짜 심각해.
| 모델 | 제공사 | ARC-AGI-3 점수 | 달성률 |
|---|---|---|---|
| Gemini 3.1 Pro | 0.37% | 0.37 out of 100 | |
| GPT-5.4 | OpenAI | 0.26% | 0.26 out of 100 |
| Claude Opus 4.6 | Anthropic | 0.25% | 0.25 out of 100 |
| Grok-4.20 | xAI | 0.00% | 0 out of 100 |
| 인간 (미훈련) | 기준선 | 100% | 100 out of 100 |
이 숫자들이 얼마나 심각한지 알아? Gemini 3.1 Pro는 가장 좋은 성적을 냈는데도 0.37%야. 이건 100문제 중 37개를 푸는 정도가 아니고, 약 270문제 중 1개를 푸는 수준이라고 봐도 된다는 거야.
비교해보면 얼마나 끔찍한지 더 드러나: ARC-AGI-2에서 Gemini Pro는 77.1%를 기록했어. 같은 회사의 더 최신 모델인 Gemini 3.1 Pro가 왜 0.37%일까? 이건 모델이 못해진 게 아니라, 문제의 성격이 완전히 달라졌다는 증거야.
프리뷰 단계(공개 전 테스트 기간)에서는 최고 AI 성적이 12.58%였어. 그것도 엄청 나은 것처럼 보이지만, 인간의 100%와는 여전히 거대한 간격이 있어. 심지어 공개 벤치마크에서는 훨씬 더 떨어지고 말았어.
더 넓은 그림
이제 왜 이게 중요한지 생각해볼 차례야. 이 결과가 던지는 메시지는 뭘까?
AI 업계에는 크게 두 가지 진영이 있어. 첫 번째 진영은 "AI는 이미 거의 AGI에 다 왔다"고 주장해. 최신 모델들의 능력을 보면 진짜 그렇게 느껴져. 코딩, 글쓰기, 분석 – 모든 게 인상적이니까.
하지만 두 번째 진영은 "아니야, 이건 모두 거대한 통계적 패턴 매칭일 뿐"이라고 주장해. 근데 이제 증거가 생겼어. ARC-AGI-3의 결과가 그 증거야.
왜냐면 이전 ARC-AGI 벤치마크에서 AI들이 잘했던 이유가 뭐였을까? 데이터에 의존했을 가능성이 높아. 학습 데이터에서 본 패턴들의 변형이었을 수 있다는 거야. 하지만 완전히 낯선 인터랙티브 환경에서는? AI는 손을 못 쓴다는 거지.
이건 AGI 타이밍 논쟁에 큰 영향을 미칠 거야. 지난해 말, 많은 연구자들이 "2027–2028년쯤 AGI가 올 수 있다"고 주장했어. 근데 ARC-AGI-3는 그 생각에 찬물을 끼얹어. 우리가 "이해"와 "적응"의 본질을 얼마나 못 이해하는지 보여줬으니까.
그래서 뭐가 달라지는데
이건 학문적인 얘기만이 아니야. 실제로 무언가 바뀔 거야.
첫 번째, 벤치마크 선택의 기준이 바뀔 거야. 지금까지 AI 평가는 "더 많은 작업에서 인간 수준을 넘었는가"로 평가했어. 하지만 ARC-AGI-3는 다른 질문을 던져. "정말로 이해하고 있는가? 아니면 단순히 패턴을 외운 건 아닌가?"
두 번째, AI 회사들의 연구 방향이 바뀔 수밖에 없어. 단순히 더 큰 모델, 더 많은 데이터로는 0.37%에서 벗어날 수 없다는 걸 알았으니까. 구조적으로 다른 접근이 필요해. 인터랙티브 러닝, 온디바이스 적응, 이런 새로운 아키텍처에 투자가 몰릴 거야.
세 번째, AGI에 대한 기대치가 현실화될 거야. 지금까지는 "LLM이 점점 좋아지니까 곧 AGI가 나올 거"같은 막연한 낙관론이 있었어. 근데 이제는 명확해. "지금의 스케일링 패러다임만으로는 안 된다"는 게 증명됐거든.
그리고 $2M 상금이 의미하는 바도 있어. 이건 ARC Prize 재단이 "이 문제가 쉽지 않다"고 공식 인정한 거야. 뭔가 혁신적인 새로운 방법론이 필요하다는 신호야.
참고 자료
- ARC Prize Foundation. (2026). "ARC-AGI-3". https://arcprize.org/arc-agi/3
- ARC Prize Leaderboard. https://arcprize.org/leaderboard
- The Decoder. "ARC-AGI-3 offers $2M to any AI that matches untrained humans, yet every frontier model scores below 1%". https://the-decoder.com/arc-agi-3-offers-2m-to-any-ai-that-matches-untrained-humans-yet-every-frontier-model-scores-below-1/
- Fast Company. "ARC-Prize Foundation's New AI Benchmark". https://www.fastcompany.com/91515360/arc-prize-foundation-new-ai-benchmark
이 글이 유용했다면? 더 많은 AI 벤치마크와 AGI 논의를 팔로우하세요.
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.


