GPQA 32% -- HuggingFace의 AI 인턴이 10시간 만에 Claude Code를 이겼다

GPQA 32%, 10시간, 사람 개입 0

GPQA(Graduate-Level Google-Proof Q&A)는 대학원 수준의 과학 문제를 LLM이 얼마나 잘 푸는지 측정하는 벤치마크야. 전문가도 쉽게 구글링으로 답을 찾을 수 없는 난이도로 유명해.

HuggingFace가 만든 ml-intern이라는 에이전트가 이 벤치마크에서 32%를 찍었어. Claude Code는 22.99%. 10시간 동안 사람이 한 번도 개입하지 않은 결과야.

중요한 건 점수 자체가 아니야. ml-intern이 한 일의 범위가 핵심이야. 논문을 검색하고, 관련 데이터셋을 찾고, 학습 스크립트를 짜고, 모델을 돌리고, 결과를 평가하고, 부족한 부분을 개선하는 전체 후학습(post-training) 파이프라인을 자동으로 수행한 거야.

ml-intern이 정확히 뭔데

ml-intern 에이전트 아키텍처 ml-intern의 자동 후학습 파이프라인 구조

ML 리서처의 일상 업무를 에이전트로 자동화한 프로젝트야. 이름 그대로 "ML 인턴"이야. 리서처가 "과학적 추론 능력을 개선해줘"라고 지시하면, 에이전트가 다음을 자동으로 수행해:

논문 검색(Literature Scan): arXiv, Semantic Scholar에서 관련 논문을 찾고 핵심 기법을 추출
데이터셋 발굴(Dataset Discovery): HuggingFace Hub에서 관련 학습 데이터를 검색하고 품질을 평가
학습 스크립트 생성(Training Script): TRL(Transformer Reinforcement Learning) 라이브러리를 활용해 파인튜닝 코드를 자동 생성
평가(Evaluation): 학습된 모델을 벤치마크로 평가하고 결과를 분석
반복(Iterate): 결과가 부족하면 위 과정을 반복하며 개선

이걸 사람이 하면 보통 몇 주가 걸려. ml-intern은 10시간 만에 해냈어.

기술 스택

프레임워크: smolagents (HuggingFace의 경량 에이전트 프레임워크)
학습: Transformers, TRL (Transformer Reinforcement Learning)
데이터: Datasets 라이브러리
언어: Python
라이선스: Apache-2.0

smolagents 위에서 돌아간다는 점이 중요해. smolagents는 LangChain과 달리 추상화 계층을 최소화한 프레임워크야. 코드를 직접 생성하고 실행하는 "code agent" 방식을 사용해서, 도구 호출의 유연성이 훨씬 높아.

성능 비교

시스템	GPQA 점수	소요 시간	사람 개입	비용
ml-intern	32%	10시간	없음	GPU 비용만
Claude Code	22.99%	수동	전체	API 비용
인간 ML 리서처	변동	수 주	전체	인건비

32% vs 22.99%. ml-intern이 Claude Code를 약 9%p 앞섰어. 물론 비교 조건이 완전히 동일한 건 아니야. Claude Code는 범용 코딩 에이전트이고, ml-intern은 ML 후학습에 특화된 에이전트야. 그래도 "자동화된 ML 에이전트가 범용 AI 코딩 도구보다 전문 영역에서 더 잘한다"는 점은 의미 있어.

경쟁 프로젝트 비교

프로젝트	스타	초점	자동화 범위	프레임워크
ml-intern	6.8K	ML 후학습 자동화	논문-데이터-학습-평가-반복	smolagents
SWE-agent	15K	코드 버그 수정	이슈-패치-테스트	자체
STORM	9K	논문 작성	리서치-아웃라인-초안	자체

SWE-agent(Princeton NLP)가 코드 수정을 자동화한다면, ml-intern은 모델 학습을 자동화해. STORM(Stanford OVAL)이 논문 작성을 자동화한다면, ml-intern은 실험 자체를 자동화해. 영역이 겹치지 않아.

왜 지금 주목받나

ml-intern GitHub 트렌딩 차트 GitHub 트렌딩에서 260스타/일로 상승 중

하루 260스타는 6,800스타 규모의 프로젝트치고는 굉장히 높은 수치야. 몇 가지 맥락이 있어.

첫째, ML 리서처들의 "반복 노동" 문제를 정확히 겨냥했어. 논문 읽고, 데이터 찾고, 학습 코드 짜고, 하이퍼파라미터 돌리고 -- 이 과정의 80%는 창의적 판단이 아니라 반복 작업이야. ml-intern은 이 반복 부분을 없애줘.

둘째, HuggingFace 생태계와의 긴밀한 통합이야. Transformers, TRL, Datasets, Hub -- HuggingFace의 전체 스택 위에서 자연스럽게 작동해. 이미 HuggingFace를 쓰고 있는 리서처라면 도입 비용이 거의 0이야.

셋째, Product Hunt에서도 4월 23일에 론칭해서 365 업보트를 받았어. 깃허브 오픈소스와 프로덕트 론칭을 동시에 가져간 전략이 잘 먹혔어.

생태계 맥락

ml-intern의 등장은 "AI가 AI를 학습시키는" 시대의 시작이야. Hermes Agent가 에이전트의 자기개선을 다룬다면, ml-intern은 모델 학습 자체의 자동화를 다뤄. 둘 다 "사람이 안 해도 되는 ML 작업"의 범위를 넓히고 있어.

Google의 ADK가 에이전트 배포 인프라에 집중하고, Hermes Agent가 에이전트 자기개선에 집중한다면, ml-intern은 "리서치 자동화"라는 또 다른 축을 개척하고 있어. 2026년의 에이전트 생태계는 이렇게 전문 영역별로 분화되는 추세야.

더 넓게 보면, 이건 ML 리서처의 역할 변화를 예고해. 하이퍼파라미터 튜닝이나 데이터셋 큐레이션 같은 반복 작업 대신, 리서치 방향 설정과 결과 해석에 집중하는 방식으로 바뀔 가능성이 높아.

시작하기

pip install ml-intern
ml-intern run --task "improve scientific reasoning"

이 한 줄이면 에이전트가 알아서 논문을 찾고, 데이터를 모으고, 학습을 돌리고, 평가까지 해. GPU가 필요하고(최소 A100 권장), HuggingFace Hub 토큰이 설정되어 있어야 해.

이런 사람에게는 안 맞아

모델 학습이 아니라 추론(inference)만 필요한 경우
GPU 접근이 없는 환경
학습 과정을 세밀하게 제어하고 싶은 경우 (ml-intern은 자율성이 높아서 중간 개입이 어려워)

다음 마일스톤

ml-intern 로드맵 ml-intern 개발 로드맵

멀티 GPU/멀티 노드 학습 지원
실험 추적(Weights & Biases, MLflow 통합)
자동 논문 초안 작성 기능

ML 후학습의 80%를 자동화하는 에이전트. 이게 "인턴"이면, 시니어 버전은 어떤 모습일까.

References

GPQA 32% -- HuggingFace의 AI 인턴이 10시간 만에 Claude Code를 이겼다

GPQA 32%, 10시간, 사람 개입 0

ml-intern이 정확히 뭔데

기술 스택

성능 비교

경쟁 프로젝트 비교

왜 지금 주목받나

생태계 맥락

시작하기

이런 사람에게는 안 맞아

다음 마일스톤

출처

관련 기사

ML 후학습을 통째로 자동화하는 AI 인턴 -- HuggingFace ml-intern PH 론칭

OpenClaw — 클라우드 없이 돌아가는 개인 AI 비서가 25만 스타를 찍은 이유

7주 만에 95,600스타 -- Nous Research의 자기개선 에이전트 Hermes Agent

GPQA 32%, 10시간, 사람 개입 0

ml-intern이 정확히 뭔데

기술 스택

성능 비교

경쟁 프로젝트 비교

왜 지금 주목받나

생태계 맥락

시작하기

이런 사람에게는 안 맞아

다음 마일스톤

출처

관련 기사

ML 후학습을 통째로 자동화하는 AI 인턴 -- HuggingFace ml-intern PH 론칭

OpenClaw — 클라우드 없이 돌아가는 개인 AI 비서가 25만 스타를 찍은 이유

7주 만에 95,600스타 -- Nous Research의 자기개선 에이전트 Hermes Agent

AI 트렌드를 앞서가세요