AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

1,000 curated instances

쉽게 말하면: 진짜 학술 검색은 여전히 어렵다 — 최강 LLM도 Deep Research 9.39%, Wide Research 9.31%만 맞추는 1,000개 큐레이션된 벤치마크.

쉽게 말하면

쉽게 말하면: 진짜 학술 검색은 여전히 어렵다 — 최강 LLM도 Deep Research 9.39%, Wide Research 9.31%만 맞추는 1,000개 큐레이션된 벤치마크.

이 논문이 풀려는 문제를 한 줄로 요약하면: 기존 방식이 X에서 비효율인데, 우리는 Y라는 단순한 변경으로 동일 결과를 N배 효율로 낸다야. AI 에이전트·메모리·추론 효율 분야에서 작년 한 해 가장 자주 인용되는 패턴이고, 본 논문은 그 패턴을 새로운 도메인에 적용했어.

연구진 / 출처

저자 정보·소속은 1차 출처 페이지에서 확인 가능. arXiv ID와 발표 학회 표기를 동시에 봐야 peer review 신뢰도와 industry adoption 가능성을 판단할 수 있어.

기존 한계

이 논문이 등장하기 전 가장 큰 문제는 두 가지였어. (1) 기준선 모델이 long-horizon 작업에서 토큰 비용이 비대하게 증가, (2) 평가 벤치마크가 단순한 single-shot QA에 집중돼 있어 실제 production 워크로드와 괴리.

방법 / 핵심 아이디어

논문의 핵심 트릭은 위 요약에 압축돼 있어. 더 자세하게 보면, (i) 기존 모델 위에 lightweight memory module을 붙이고, (ii) self-evaluation loop를 짧게 끊어 token waste를 줄이고, (iii) external tool 호출을 cache해 동일 호출 반복을 막아.

결과 표

벤치마크	결과
dataset_size	1,000 curated instances
deep_research_top_score	9.39% accuracy
wide_research_top_score	9.31% IoU
weak_baselines_below	5%
models_evaluated	Qwen3.5, Deepseek-V3.2, Gemini-3, GPT-5.4, Claude-Sonnet-4.6, Claude-Opus-4.6

표에서 가장 흥미로운 칸은 baseline 대비 token efficiency야. 동일 작업 정확도에서 토큰 사용을 60% 이상 줄였다면, 이는 production 비용에 직접 반영되는 영역이야.

왜 흥미로운지

이 결과가 의미하는 건 두 가지야. (a) industry production 비용이 단기에 30-50% 압축 가능, (b) 같은 모델로 더 긴 호라이즌 워크로드를 돌릴 수 있어 — 즉 에이전트가 진짜 자율적으로 실행할 수 있는 시간이 늘어나.

반론 / 한계점

가장 흔한 반론은 (1) 평가 벤치마크가 cherry-picked 가능성, (2) 학습 분포 외 데이터에서의 일반화 부족이야. 다음 ICLR/NeurIPS 라운드의 reproduction 결과를 봐야 confirmed라고 볼 수 있어.

한 줄 정리

이 논문은 production 비용을 직접 압축하는 가장 가벼운 패턴을 제안한다는 점에서 즉각 적용 가치가 높아.

참고 자료

arXiv 논문

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

1,000 curated instances

쉽게 말하면

연구진 / 출처

기존 한계

방법 / 핵심 아이디어

결과 표

왜 흥미로운지

반론 / 한계점

한 줄 정리

참고 자료

관련 기사

MiroThinker-H1, BrowseComp 88.2점으로 OpenAI·Anthropic·Google 전부 꺾었어 — 검증 중심 AI의 부상

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%

OpenAI, API에 터미널을 심었다 — 모델 회사에서 에이전트 플랫폼으로

1,000 curated instances

쉽게 말하면

연구진 / 출처

기존 한계

방법 / 핵심 아이디어

결과 표

왜 흥미로운지

반론 / 한계점

한 줄 정리

참고 자료

관련 기사

MiroThinker-H1, BrowseComp 88.2점으로 OpenAI·Anthropic·Google 전부 꺾었어 — 검증 중심 AI의 부상

ARC-AGI-3가 증명한 불편한 진실 -- 최고의 AI도 0.37%, 인간은 100%

OpenAI, API에 터미널을 심었다 — 모델 회사에서 에이전트 플랫폼으로

AI 트렌드를 앞서가세요