TOPARC-AGIBenchmarkAGI

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%

Q: 이 기사에 관련된 주요 기업이나 기관은?

이 기사에서 다루는 주요 기업/기관은 ARC-AGI, Benchmark, AGI, Reasoning 등입니다.

Q: 이 기사는 언제 발행되었나?

이 기사는 2026-03-28에 spoonai에서 발행되었습니다.

Q: 이 기사에서 다루는 주요 주제는?

이 기사는 다음 주제를 다룹니다: 0.37%, 이걸 이해하려면, 핵심 내용 해부, 더 넓은 그림, 그래서 뭐가 달라지는데.

이번 주 가장 충격적인 뉴스. ARC-AGI-3 벤치마크에서 GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 모두 1% 미만을 기록했어. 인간은 여전히 100%. AI가 정말 '지능적'인 걸까?

2026년 3월 28일 (토)·4분 소요·

0.37%

이번 주 AI 업계를 관통한 숫자는 딱 하나야. ARC-AGI-3 벤치마크에서 최고 성적을 받은 AI의 점수. Google의 Gemini 3.1 Pro가 받은 점수가 0.37%야. 같은 문제를 처음 보는 인간에게 풀게 했더니? 100%를 맞췄어.

이게 뭘 의미하냐면, 우리가 "AI가 인간 수준에 도달했다"고 말해왔던 그 모든 벤치마크가 잘못된 걸 측정하고 있었을 수도 있다는 거야.

이걸 이해하려면

ARC-AGI는 프랑수아 숄레(Francois Chollet)가 만든 벤치마크 시리즈야. 숄레는 2019년에 "지능의 측정(On the Measure of Intelligence)"이라는 논문을 쓴 사람이야. 그의 핵심 주장은 간단해. "진짜 지능은 새로운 문제에 적응하는 능력이지, 기존 패턴을 반복하는 능력이 아니다."

ARC-AGI-1은 2019년에 나왔어. 컬러 그리드 퍼즐 형태로, 패턴을 파악하고 변환하는 과제였지. 처음에 AI들은 0%에 가까웠는데, 2024년 말에 OpenAI의 o3가 75.7%를 달성하면서 "드디어 AGI에 가까워졌다"는 헤드라인이 쏟아졌어.

그런데 숄레 팀은 여기서 멈추지 않았어. ARC-AGI-2가 나왔고, 난이도가 올라갔지. 하지만 진짜 게임 체인저는 이번 주 공개된 ARC-AGI-3야.

버전	형식	최고 AI 점수	인간 점수	핵심 차이
ARC-AGI-1 (2019)	정적 그리드 퍼즐	75.7% (o3)	96%	패턴 인식
ARC-AGI-2 (2025)	강화된 정적 퍼즐	30%대	95%+	더 복잡한 추론
ARC-AGI-3 (2026)	인터랙티브 환경	0.37% (Gemini 3.1 Pro)	100%	탐색 + 학습 + 적응

핵심은 ARC-AGI-3가 "정적 퍼즐"에서 "인터랙티브 환경"으로 완전히 바뀌었다는 거야. 이전 버전들은 이미지를 보고 답을 내는 방식이었어. 하지만 ARC-AGI-3는 AI가 환경과 상호작용하면서, 스스로 가설을 세우고, 실험하고, 결과를 보고 전략을 수정해야 해.

쉽게 말하면, 이전 버전이 "객관식 시험"이었다면 ARC-AGI-3는 "처음 가본 실험실에서 실험 설계부터 해야 하는 시험"인 거야.

핵심 내용 해부

프론티어 모델 전멸

이번 결과가 충격적인 이유는 단순히 점수가 낮아서가 아니야. 2026년 3월 기준 최강의 AI 모델들이 전부 1% 미만이라는 거야.

모델	점수	개발사
Gemini 3.1 Pro	0.37%	Google
GPT-5.4	0.26%	OpenAI
Claude Opus 4.6	0.25%	Anthropic
인간 (비전문가)	100%	--

0.37%와 100%의 차이. 이건 "조금 부족하다" 수준이 아니야. 근본적으로 다른 접근법이 필요하다는 신호야.

CNN 기반 에이전트가 LLM을 압도

더 흥미로운 건 프리뷰 단계에서 나온 결과야. 명시적 그래프 탐색(explicit graph search), 상태 추적(state tracking), 체계적 탐색(systematic exploration)을 활용한 CNN 기반 에이전트가 모든 프론티어 LLM을 12 퍼센트포인트 이상 앞섰어. 프리뷰 단계 최고 점수는 12.58%였어.

이건 "더 큰 모델을 만들면 된다"는 스케일링 법칙(scaling law)의 한계를 보여주는 증거야. 문제를 체계적으로 탐색하는 구조적 접근법이, 수조 개의 파라미터를 가진 LLM보다 나았다는 거야.

상금 구조

ARC Prize 2026은 총 200만 달러의 상금을 걸었어. ARC-AGI-3 트랙만 85만 달러. 그중 그랜드 프라이즈는 100점을 받는 첫 번째 에이전트에게 70만 달러를 준다고 해. 아직 아무도 도전하지 못한 금액이야.

더 넓은 그림

이번 주 AI 업계는 묘한 대조를 보여줬어. 한쪽에서는 Reflection AI가 250억 달러 기업가치를 논하고, 다른 쪽에서는 AI의 가장 기본적인 능력인 "새로운 상황에 적응하기"를 측정했더니 0.37%가 나온 거야.

이건 2024년 이후 이어져 온 AI 자금의 흐름과 정면으로 충돌해. 벤처 캐피탈은 AI 스타트업에 수천억 달러를 쏟아붓고 있어. 2026년 2월에만 글로벌 스타트업 펀딩이 1,890억 달러를 기록했는데, 그중 83%가 AI 관련 3개 회사에 집중됐어.

하지만 ARC-AGI-3가 보여주는 건 명확해. 현재의 LLM 패러다임, 즉 더 큰 모델에 더 많은 데이터를 넣는 방식으로는 "진짜 지능"에 도달하기 어렵다는 거야.

얀 르쿤이 AMI Labs를 세우고 10억 달러를 모아 "월드 모델(World Model)"을 만들겠다고 한 게 이 맥락에서 이해가 돼. 그는 처음부터 LLM의 한계를 지적해왔고, JEPA(Joint Embedding Predictive Architecture)라는 대안을 제안했어. ARC-AGI-3 결과는 그의 주장에 강력한 증거를 보태준 셈이야.

그래서 뭐가 달라지는데

개발자라면 이걸 기억해둬야 해.

첫째, LLM은 만능이 아니야. 패턴 매칭, 텍스트 생성, 코드 작성에는 뛰어나지만, "처음 보는 환경에서 스스로 학습하고 적응하기"는 아직 못 해. AI 제품을 설계할 때, 이 한계를 인지하고 설계하는 게 중요해.

둘째, 에이전트(Agent) 설계에 대한 새로운 관점이 필요해. 단순히 LLM에 도구를 연결하는 것만으로는 부족해. 체계적 탐색, 상태 추적, 가설 검증 같은 구조적 접근이 실제로 더 나은 성능을 보여줬어.

셋째, 벤치마크를 볼 때 "무엇을 측정하는지"를 꼭 확인해야 해. MMLU에서 90점을 받았다고 해서 AI가 똑똑한 게 아닐 수 있어. 시험 잘 보는 것과 진짜 똑똑한 건 다르니까.

$200만의 상금이 기다리고 있어. 인간이 100% 푸는 문제를 AI가 풀 수 있게 되는 날이 오면, 그게 진짜 AGI에 한 발 다가선 순간일 거야.

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%

0.37%

이걸 이해하려면