GPQA 32% -- HuggingFace의 AI 인턴이 10시간 만에 Claude Code를 이겼다
논문 검색부터 데이터셋 발굴, 학습 스크립트 작성, 평가, 반복까지 LLM 후학습 전 과정을 자동화하는 오픈소스 에이전트. 6,800스타, 하루 260개씩 증가 중.

GPQA 32%, 10시간, 사람 개입 0
GPQA(Graduate-Level Google-Proof Q&A)는 대학원 수준의 과학 문제를 LLM이 얼마나 잘 푸는지 측정하는 벤치마크야. 전문가도 쉽게 구글링으로 답을 찾을 수 없는 난이도로 유명해.
HuggingFace가 만든 ml-intern이라는 에이전트가 이 벤치마크에서 32%를 찍었어. Claude Code는 22.99%. 10시간 동안 사람이 한 번도 개입하지 않은 결과야.
중요한 건 점수 자체가 아니야. ml-intern이 한 일의 범위가 핵심이야. 논문을 검색하고, 관련 데이터셋을 찾고, 학습 스크립트를 짜고, 모델을 돌리고, 결과를 평가하고, 부족한 부분을 개선하는 전체 후학습(post-training) 파이프라인을 자동으로 수행한 거야.
ml-intern이 정확히 뭔데
ml-intern의 자동 후학습 파이프라인 구조
ML 리서처의 일상 업무를 에이전트로 자동화한 프로젝트야. 이름 그대로 "ML 인턴"이야. 리서처가 "과학적 추론 능력을 개선해줘"라고 지시하면, 에이전트가 다음을 자동으로 수행해:
-
논문 검색(Literature Scan): arXiv, Semantic Scholar에서 관련 논문을 찾고 핵심 기법을 추출
-
데이터셋 발굴(Dataset Discovery): HuggingFace Hub에서 관련 학습 데이터를 검색하고 품질을 평가
-
학습 스크립트 생성(Training Script): TRL(Transformer Reinforcement Learning) 라이브러리를 활용해 파인튜닝 코드를 자동 생성
-
평가(Evaluation): 학습된 모델을 벤치마크로 평가하고 결과를 분석
-
반복(Iterate): 결과가 부족하면 위 과정을 반복하며 개선
이걸 사람이 하면 보통 몇 주가 걸려. ml-intern은 10시간 만에 해냈어.
기술 스택
- 프레임워크: smolagents (HuggingFace의 경량 에이전트 프레임워크)
- 학습: Transformers, TRL (Transformer Reinforcement Learning)
- 데이터: Datasets 라이브러리
- 언어: Python
- 라이선스: Apache-2.0
smolagents 위에서 돌아간다는 점이 중요해. smolagents는 LangChain과 달리 추상화 계층을 최소화한 프레임워크야. 코드를 직접 생성하고 실행하는 "code agent" 방식을 사용해서, 도구 호출의 유연성이 훨씬 높아.
성능 비교
| 시스템 | GPQA 점수 | 소요 시간 | 사람 개입 | 비용 |
|---|---|---|---|---|
| ml-intern | 32% | 10시간 | 없음 | GPU 비용만 |
| Claude Code | 22.99% | 수동 | 전체 | API 비용 |
| 인간 ML 리서처 | 변동 | 수 주 | 전체 | 인건비 |
32% vs 22.99%. ml-intern이 Claude Code를 약 9%p 앞섰어. 물론 비교 조건이 완전히 동일한 건 아니야. Claude Code는 범용 코딩 에이전트이고, ml-intern은 ML 후학습에 특화된 에이전트야. 그래도 "자동화된 ML 에이전트가 범용 AI 코딩 도구보다 전문 영역에서 더 잘한다"는 점은 의미 있어.
경쟁 프로젝트 비교
| 프로젝트 | 스타 | 초점 | 자동화 범위 | 프레임워크 |
|---|---|---|---|---|
| ml-intern | 6.8K | ML 후학습 자동화 | 논문-데이터-학습-평가-반복 | smolagents |
| SWE-agent | 15K | 코드 버그 수정 | 이슈-패치-테스트 | 자체 |
| STORM | 9K | 논문 작성 | 리서치-아웃라인-초안 | 자체 |
SWE-agent(Princeton NLP)가 코드 수정을 자동화한다면, ml-intern은 모델 학습을 자동화해. STORM(Stanford OVAL)이 논문 작성을 자동화한다면, ml-intern은 실험 자체를 자동화해. 영역이 겹치지 않아.
왜 지금 주목받나
GitHub 트렌딩에서 260스타/일로 상승 중
하루 260스타는 6,800스타 규모의 프로젝트치고는 굉장히 높은 수치야. 몇 가지 맥락이 있어.
첫째, ML 리서처들의 "반복 노동" 문제를 정확히 겨냥했어. 논문 읽고, 데이터 찾고, 학습 코드 짜고, 하이퍼파라미터 돌리고 -- 이 과정의 80%는 창의적 판단이 아니라 반복 작업이야. ml-intern은 이 반복 부분을 없애줘.
둘째, HuggingFace 생태계와의 긴밀한 통합이야. Transformers, TRL, Datasets, Hub -- HuggingFace의 전체 스택 위에서 자연스럽게 작동해. 이미 HuggingFace를 쓰고 있는 리서처라면 도입 비용이 거의 0이야.
셋째, Product Hunt에서도 4월 23일에 론칭해서 365 업보트를 받았어. 깃허브 오픈소스와 프로덕트 론칭을 동시에 가져간 전략이 잘 먹혔어.
생태계 맥락
ml-intern의 등장은 "AI가 AI를 학습시키는" 시대의 시작이야. Hermes Agent가 에이전트의 자기개선을 다룬다면, ml-intern은 모델 학습 자체의 자동화를 다뤄. 둘 다 "사람이 안 해도 되는 ML 작업"의 범위를 넓히고 있어.
Google의 ADK가 에이전트 배포 인프라에 집중하고, Hermes Agent가 에이전트 자기개선에 집중한다면, ml-intern은 "리서치 자동화"라는 또 다른 축을 개척하고 있어. 2026년의 에이전트 생태계는 이렇게 전문 영역별로 분화되는 추세야.
더 넓게 보면, 이건 ML 리서처의 역할 변화를 예고해. 하이퍼파라미터 튜닝이나 데이터셋 큐레이션 같은 반복 작업 대신, 리서치 방향 설정과 결과 해석에 집중하는 방식으로 바뀔 가능성이 높아.
시작하기
pip install ml-intern
ml-intern run --task "improve scientific reasoning"
이 한 줄이면 에이전트가 알아서 논문을 찾고, 데이터를 모으고, 학습을 돌리고, 평가까지 해. GPU가 필요하고(최소 A100 권장), HuggingFace Hub 토큰이 설정되어 있어야 해.
이런 사람에게는 안 맞아
- 모델 학습이 아니라 추론(inference)만 필요한 경우
- GPU 접근이 없는 환경
- 학습 과정을 세밀하게 제어하고 싶은 경우 (ml-intern은 자율성이 높아서 중간 개입이 어려워)
다음 마일스톤
ml-intern 개발 로드맵
- 멀티 GPU/멀티 노드 학습 지원
- 실험 추적(Weights & Biases, MLflow 통합)
- 자동 논문 초안 작성 기능
ML 후학습의 80%를 자동화하는 에이전트. 이게 "인턴"이면, 시니어 버전은 어떤 모습일까.
References
관련 기사

ML 후학습을 통째로 자동화하는 AI 인턴 -- HuggingFace ml-intern PH 론칭
논문 검색부터 데이터 수집, 학습, 평가까지 LLM 후학습 전 과정을 자동으로 돌리는 오픈소스 에이전트. Product Hunt 365 업보트.

OpenClaw — 클라우드 없이 돌아가는 개인 AI 비서가 25만 스타를 찍은 이유
로컬에서 돌아가고, WhatsApp·Telegram·Slack·iMessage까지 50개 플랫폼을 연결하는 개인 AI 에이전트. 주말 프로젝트가 깃허브 역사상 가장 빠른 성장을 기록했다.

7주 만에 95,600스타 -- Nous Research의 자기개선 에이전트 Hermes Agent
스스로 평가하고, 스스로 개선하는 AI 에이전트 프레임워크가 오픈소스 역사상 가장 빠른 성장 속도 중 하나를 기록했다. 하루 1,500스타씩 올라간 이유를 뜯어본다.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
