GenericAgent — 222k 토큰으로 100% 완료, 클로드 코드 대비 27.7%만 사용

27.7%

같은 일을 27.7% 토큰으로 끝낸다. GenericAgent의 핵심 결과는 한 줄로 표현돼. Lifelong AgentBench에서 100% 완료율을 Claude Code 대비 27.7% input token, OpenClaw 대비 15.5%만 써서 달성했어. 토큰 비용이 5월 들어 다시 화두가 된 시점에서 가장 강한 한 방.

쉽게 말하면

기존 AI 에이전트는 "더 많은 컨텍스트를 넣으면 더 잘한다"는 가정 위에서 컨텍스트 윈도를 키우는 방향으로 갔어. GenericAgent의 주장은 정반대 — "컨텍스트의 정보 밀도를 최대화하면, 적은 토큰으로 더 잘한다"야. 30k 컨텍스트면 충분한 self-evolving agent를 만들었다는 게 논문의 헤드라인.

연구진 / 출처

저자는 GitHub lsdefine 계정 메인테이너 그룹. arXiv ID는 2604.17091, 4월 21일 공개. 같은 주 Hugging Face Papers에 featured 됐고, AI 에이전트 인플루언서 Mervin Praison이 소개 영상을 게재하면서 학계·실무자 양쪽에 동시에 노출됐어.

기존 한계

지난 1년 self-evolving agent 연구는 두 갈래로 나뉘었어. ① 큰 컨텍스트(100k+) + 풍부한 history → 작업 성공률 ↑ but 토큰 비용 폭증, ② 작은 컨텍스트 + 외부 메모리 호출 → 비용은 절감되지만 latency·일관성 문제. 두 갈래 모두 "컨텍스트 크기"를 1차 변수로 취급했고, 컨텍스트의 정보 밀도(quality)는 부수 변수였어.

방법 / 핵심 아이디어

GenericAgent는 Context Information Density Maximization(CIDM)이라는 단일 원칙 위에 4개 메커니즘을 통합해.

Atomic tools (9개): LLM에게 로컬 시스템 제어 권한을 주는 9개의 작은 도구. 각 도구의 입출력 스펙이 토큰을 거의 안 먹게 설계됐어.
Hierarchical on-demand memory: 모든 history를 항상 컨텍스트에 넣지 않고, 작업 단계에 필요한 부분만 retrieval로 호출.
Self-evolution: task를 풀 때마다 실행 경로를 reusable SOP/code로 결정화(crystallize)해서 자기만의 skill tree를 키워.
Context truncation: 작업이 끝나면 불필요한 history는 sub-agent에 위임된 sub-task로 들어가고, 메인 컨텍스트는 정제됨.

결과 표

모델	Lifelong AgentBench 완료율	Input token	상대 비용
GenericAgent	100%	222k	1.0× (기준)
Claude Code	100%	802k	3.61×
OpenClaw	100%	1,432k	6.45×
GPT-5.4 base agent	87%	540k	2.43×

표가 의미하는 바는 명확해. 같은 100% 완료를 더 적은 토큰으로 만들었다는 게 첫 번째. 두 번째는 더 무거운 함의 — 큰 컨텍스트가 능사가 아니라는 것. 30k 컨텍스트로 충분한 self-evolving agent가 가능하면, 대형 모델 + 거대 컨텍스트라는 비싼 패턴에서 벗어날 수 있는 첫 실증이 생긴 거야.

왜 흥미로운지

산업적 함의 두 가지. 첫째, 토큰 비용이 5월 들어 다시 화두야 — Anthropic Opus 4.7가 Opus 4.6 대비 같은 요청에 +27% 토큰을 쓴다는 HN/Reddit 측정이 화제가 됐어. GenericAgent는 그 반대 방향(같은 결과 -73% 토큰)을 보여줘서 즉시 주목.

둘째, 이론적 함의 — "능력은 컨텍스트 크기가 아니라 정보 밀도가 결정한다"는 가설을 정량적으로 입증한 첫 사례. 이건 RAG·Agent·Tool-use 설계 철학에 영향을 줘. 3년간 "더 큰 모델, 더 큰 컨텍스트"가 디폴트였는데, 이제 "더 정제된 컨텍스트"라는 경쟁 축이 생긴 거야.

반론 / 한계점

Yann LeCun (AMI Labs CEO): "Lifelong AgentBench is one benchmark. Long tail will say more." — 단일 벤치마크에서 우월한 게 실제 long tail 작업에 일반화되는지 추가 검증 필요. 또 다른 한계는 9개 atomic tool 설계가 도메인에 따라 다시 만들어져야 한다는 것 — 일반화된 도구 설계 지침은 논문에서 부분만 다뤄.

또 하나 우려는 self-evolution 보안. 자기 skill tree를 키우는 과정에서 위험한 코드를 결정화할 가능성. sandboxing·검증 메커니즘은 v1에서 약함.

한 줄 정리

토큰 비용 시대의 정답은 "더 큰 컨텍스트"가 아니라 "더 정제된 컨텍스트"일 수 있다 — GenericAgent가 보여준 첫 실증.

GenericAgent — 222k 토큰으로 100% 완료, 클로드 코드 대비 27.7%만 사용

27.7%

쉽게 말하면

연구진 / 출처

기존 한계

방법 / 핵심 아이디어

결과 표

왜 흥미로운지

반론 / 한계점

한 줄 정리

참고 자료

출처

관련 기사

LLM은 글로 추론하지 않는다 -- 진짜 추론은 잠재 상태에서 일어난다

Memory as Metabolism — 에이전트 메모리도 신진대사처럼 5단계로 관리하자

MemPalace 비판 논문: '기억의 궁전' 메타포가 진짜 왜 잘 먹히는지 분석

27.7%

쉽게 말하면

연구진 / 출처

기존 한계

방법 / 핵심 아이디어

결과 표

왜 흥미로운지

반론 / 한계점

한 줄 정리

참고 자료

출처

관련 기사

LLM은 글로 추론하지 않는다 -- 진짜 추론은 잠재 상태에서 일어난다

Memory as Metabolism — 에이전트 메모리도 신진대사처럼 5단계로 관리하자

MemPalace 비판 논문: '기억의 궁전' 메타포가 진짜 왜 잘 먹히는지 분석

AI 트렌드를 앞서가세요