TOPAIbenchmarkAGI

ARC-AGI-3 충격, 최고 AI도 0.37% — AGI는 아직 먼 이야기

Q: 이 뉴스가 왜 중요한가?

3월 24일, ARC Prize 재단이 던진 폭탄이 있어. ARC-AGI-3 벤치마크인데, 최신 AI 모델들이 보여준 성적은 충격적이었어. Gemini 3.1 Pro가 0.37%, GPT-5.4가 0.26%, Claude Opus 4.6이 0.25%를 기록했거든. 심지어 Grok-4.20은 0.00%였어.

Q: 이 기사에 관련된 주요 기업이나 기관은?

이 기사에서 다루는 주요 기업/기관은 AI, benchmark, AGI, ARC-AGI 등입니다.

Q: 이 기사는 언제 발행되었나?

이 기사는 2026-03-27에 spoonai에서 발행되었습니다.

Q: 이 기사에서 다루는 주요 주제는?

이 기사는 다음 주제를 다룹니다: 인트로 훅, 이걸 이해하려면, 핵심 내용 해부, 더 넓은 그림, 그래서 뭐가 달라지는데.

ARC Prize 재단이 공개한 ARC-AGI-3 벤치마크에서 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro 모두 1% 미만을 기록했다. 인간은 100% 푸는 문제를 AI는 왜 못 풀까.

2026년 3월 27일 (금)·5분 소요·

ARC-AGI-3 벤치마크 결과 — 출처: ARC Prize Foundation

인트로 훅

3월 24일, ARC Prize 재단이 던진 폭탄이 있어. ARC-AGI-3 벤치마크인데, 최신 AI 모델들이 보여준 성적은 충격적이었어. Gemini 3.1 Pro가 0.37%, GPT-5.4가 0.26%, Claude Opus 4.6이 0.25%를 기록했거든. 심지어 Grok-4.20은 0.00%였어.

그런데 더 놀라운 건 이거야. 인간은 이 같은 문제를 100% 풀어낸다는 거. 훈련받지 않은 일반인도 말이야.

이게 무슨 일일까? 최신 AI가 인간보다 100배 이상 못하는 벤치마크가 있다니. 그리고 상금이 $2백만이야. 이 벤치마크가 대체 뭔지, 왜 AI들이 이렇게 처참하게 실패했는지 파헤쳐볼 거야.

이걸 이해하려면

ARC-AGI라는 게 나온 지도 몇 년이 됐어. 2023년에 첫 번째 버전이 공개됐고, 2024년에 두 번째가 나왔어. 근데 이번 세 번째 버전은 완전히 다른 거야.

먼저 이전 버전들과 비교하면서 따라가보자.

항목	ARC-AGI-1	ARC-AGI-2	ARC-AGI-3
공개 시점	2023년	2024년	2026년 3월
최고 AI 성적	약 85%	77.1% (Gemini Pro)	0.37% (Gemini 3.1 Pro)
인간 성적	100%	100%	100%
벤치마크 유형	정적 패턴 인식	정적 패턴 인식	인터랙티브 추론
상금	$1M	-	$2M

이 표만 봐도 뭔가 이상하지 않아? AI 성적이 뚝 떨어진 게 아니라 거의 수직으로 내려가버렸어. 이건 단순히 문제가 더 어려워진 게 아니라는 뜻이야. 벤치마크 자체가 완전히 다른 걸 측정하고 있다는 뜻이거든.

핵심 내용 해부

ARC-AGI-3는 뭔가 다르게 설계됐어. 이전에는 "보여줄게, 이 패턴 찾아"하는 식이었다면, 이번엔 "낯선 환경에서 노는 동안 규칙을 배우고, 목표를 스스로 찾고, 세상에 적응하는 능력"을 봐.

인터랙티브 추론이란

인터랙티브 추론은 진짜 머리쓰는 AI의 모습이야. 딱 정해진 입력과 출력이 있는 게 아니고, 계속 상호작용하면서 학습하고 응답하는 방식이거든.

예를 들어보자. 예전 벤치마크는 이런 식이었어:

입력: 패턴 3개, 결과 3개
과제: 4번째 패턴의 결과를 맞혀라

하지만 ARC-AGI-3는 이렇게 달라졌어:

입력: 낯선 세상에 들어가
과제: 환경을 탐색하면서 규칙을 알아내고, 주어진 목표를 달성하는 방법을 찾아
평가: 얼마나 빨리 적응하고, 새로운 상황에 대응하는가

인터랙티브 추론은 단순한 패턴 매칭이 아니야. 이건 진정한 이해와 적응 능력을 측정하는 거야. 인간의 학습 방식에 훨씬 더 가까워.

왜 이렇게 설계했을까? ARC Prize 재단의 목표는 명확해. 진짜 AGI인지를 판단하는 거야. 인간처럼 완전히 낯선 상황에서도 빨리 배우고 대응할 수 있는지 보려는 거지. 단순히 데이터에서 패턴을 찾는 능력은 이미 AI가 충분히 잘하니까.

모델별 성적표

자, 이제 각 모델의 점수를 보자. 상황이 진짜 심각해.

모델	제공사	ARC-AGI-3 점수	달성률
Gemini 3.1 Pro	Google	0.37%	0.37 out of 100
GPT-5.4	OpenAI	0.26%	0.26 out of 100
Claude Opus 4.6	Anthropic	0.25%	0.25 out of 100
Grok-4.20	xAI	0.00%	0 out of 100
인간 (미훈련)	기준선	100%	100 out of 100

이 숫자들이 얼마나 심각한지 알아? Gemini 3.1 Pro는 가장 좋은 성적을 냈는데도 0.37%야. 이건 100문제 중 37개를 푸는 정도가 아니고, 약 270문제 중 1개를 푸는 수준이라고 봐도 된다는 거야.

비교해보면 얼마나 끔찍한지 더 드러나: ARC-AGI-2에서 Gemini Pro는 77.1%를 기록했어. 같은 회사의 더 최신 모델인 Gemini 3.1 Pro가 왜 0.37%일까? 이건 모델이 못해진 게 아니라, 문제의 성격이 완전히 달라졌다는 증거야.

프리뷰 단계(공개 전 테스트 기간)에서는 최고 AI 성적이 12.58%였어. 그것도 엄청 나은 것처럼 보이지만, 인간의 100%와는 여전히 거대한 간격이 있어. 심지어 공개 벤치마크에서는 훨씬 더 떨어지고 말았어.

더 넓은 그림

이제 왜 이게 중요한지 생각해볼 차례야. 이 결과가 던지는 메시지는 뭘까?

AI 업계에는 크게 두 가지 진영이 있어. 첫 번째 진영은 "AI는 이미 거의 AGI에 다 왔다"고 주장해. 최신 모델들의 능력을 보면 진짜 그렇게 느껴져. 코딩, 글쓰기, 분석 – 모든 게 인상적이니까.

하지만 두 번째 진영은 "아니야, 이건 모두 거대한 통계적 패턴 매칭일 뿐"이라고 주장해. 근데 이제 증거가 생겼어. ARC-AGI-3의 결과가 그 증거야.

왜냐면 이전 ARC-AGI 벤치마크에서 AI들이 잘했던 이유가 뭐였을까? 데이터에 의존했을 가능성이 높아. 학습 데이터에서 본 패턴들의 변형이었을 수 있다는 거야. 하지만 완전히 낯선 인터랙티브 환경에서는? AI는 손을 못 쓴다는 거지.

이건 AGI 타이밍 논쟁에 큰 영향을 미칠 거야. 지난해 말, 많은 연구자들이 "2027–2028년쯤 AGI가 올 수 있다"고 주장했어. 근데 ARC-AGI-3는 그 생각에 찬물을 끼얹어. 우리가 "이해"와 "적응"의 본질을 얼마나 못 이해하는지 보여줬으니까.

그래서 뭐가 달라지는데

이건 학문적인 얘기만이 아니야. 실제로 무언가 바뀔 거야.

첫 번째, 벤치마크 선택의 기준이 바뀔 거야. 지금까지 AI 평가는 "더 많은 작업에서 인간 수준을 넘었는가"로 평가했어. 하지만 ARC-AGI-3는 다른 질문을 던져. "정말로 이해하고 있는가? 아니면 단순히 패턴을 외운 건 아닌가?"

두 번째, AI 회사들의 연구 방향이 바뀔 수밖에 없어. 단순히 더 큰 모델, 더 많은 데이터로는 0.37%에서 벗어날 수 없다는 걸 알았으니까. 구조적으로 다른 접근이 필요해. 인터랙티브 러닝, 온디바이스 적응, 이런 새로운 아키텍처에 투자가 몰릴 거야.

세 번째, AGI에 대한 기대치가 현실화될 거야. 지금까지는 "LLM이 점점 좋아지니까 곧 AGI가 나올 거"같은 막연한 낙관론이 있었어. 근데 이제는 명확해. "지금의 스케일링 패러다임만으로는 안 된다"는 게 증명됐거든.

그리고 $2M 상금이 의미하는 바도 있어. 이건 ARC Prize 재단이 "이 문제가 쉽지 않다"고 공식 인정한 거야. 뭔가 혁신적인 새로운 방법론이 필요하다는 신호야.

참고 자료

ARC Prize Foundation. (2026). "ARC-AGI-3". https://arcprize.org/arc-agi/3
ARC Prize Leaderboard. https://arcprize.org/leaderboard
The Decoder. "ARC-AGI-3 offers $2M to any AI that matches untrained humans, yet every frontier model scores below 1%". https://the-decoder.com/arc-agi-3-offers-2m-to-any-ai-that-matches-untrained-humans-yet-every-frontier-model-scores-below-1/
Fast Company. "ARC-Prize Foundation's New AI Benchmark". https://www.fastcompany.com/91515360/arc-prize-foundation-new-ai-benchmark

이 글이 유용했다면? 더 많은 AI 벤치마크와 AGI 논의를 팔로우하세요.

ARC-AGI-3 충격, 최고 AI도 0.37% — AGI는 아직 먼 이야기

인트로 훅

이걸 이해하려면

핵심 내용 해부

인터랙티브 추론이란

모델별 성적표

더 넓은 그림

그래서 뭐가 달라지는데

참고 자료

출처

관련 기사

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%

Amazon, 미국 전역에 Health AI 확대 — 2억 Prime 회원에게 무료 의료 상담까지

Atlassian, 직원 1,600명 해고하고 AI에 올인 — 소프트웨어 기업의 생존 방정식이 바뀌고 있다

인트로 훅

이걸 이해하려면

핵심 내용 해부

인터랙티브 추론이란

모델별 성적표

더 넓은 그림

그래서 뭐가 달라지는데

참고 자료

출처

관련 기사

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%

Amazon, 미국 전역에 Health AI 확대 — 2억 Prime 회원에게 무료 의료 상담까지

Atlassian, 직원 1,600명 해고하고 AI에 올인 — 소프트웨어 기업의 생존 방정식이 바뀌고 있다

AI 트렌드를 앞서가세요