7주 만에 95,600스타 -- Nous Research의 자기개선 에이전트 Hermes Agent

"스스로 더 나은 에이전트가 되겠습니다" -- 이 한 줄이 95K 스타를 만들었다

AI 에이전트 프레임워크는 이미 수십 개가 있어. LangChain, smolagents, CrewAI, AutoGen. 그런데 2월 25일에 등장한 Hermes Agent가 7주 만에 95,600스타를 찍었어. 하루 평균 1,500스타. 뭔가 다른 게 있다는 뜻이야.

핵심은 "자기개선(self-improvement)" 루프야. 에이전트가 작업을 수행하고, 자기 결과를 평가하고, 그 평가를 기반으로 스스로 파인튜닝하는 구조. 인간이 개입하지 않아도 돌아가는 완전 자율 개선 사이클을 구현했어.

Nous Research는 누구인가

Nous Research 팀과 Hermes 모델 계보 Nous Research의 Hermes 모델 시리즈 발전 과정

Nous Research는 오픈소스 LLM 커뮤니티에서 꽤 유명한 팀이야. Hermes 시리즈 파인튜닝 모델로 이름을 알렸어. Hermes-2-Mistral, Hermes-3-Llama 등 커뮤니티 기반 파인튜닝 모델들이 Hugging Face에서 꾸준히 상위권을 차지했거든.

이번에 공개한 Hermes Agent는 그 파인튜닝 노하우를 에이전트 프레임워크에 녹인 거야. 단순히 LLM을 감싸는 래퍼(wrapper)가 아니라, 에이전트가 자기 행동 궤적(trace)을 학습 데이터로 재활용하는 구조를 내장한 프레임워크야.

기술 스택

언어: Python
ML 프레임워크: PyTorch
API 서버: FastAPI
패키지 관리: uv (Astral의 초고속 Python 패키지 매니저)
라이선스: Apache-2.0

uv를 기본 패키지 매니저로 채택한 건 꽤 의미 있어. pip 대비 10-100배 빠른 설치 속도를 제공하는 uv를 공식 지원한다는 건, 개발자 경험(DX)을 진지하게 고려했다는 신호야.

핵심 기능 5가지

1. Reflection Loop with Self-Eval (자기평가 반성 루프)

에이전트가 작업을 완료하면 결과를 자기 스스로 평가해. "이 답변이 맞았나?", "더 효율적인 방법이 있었나?"를 자체 LLM 호출로 판단하고, 개선 포인트를 로그에 남겨. 이 로그가 다음 작업의 컨텍스트로 들어가면서 점진적으로 성능이 올라가는 구조야.

2. Trace-Based RL Fine-Tuning (궤적 기반 강화학습 파인튜닝)

여기서 진짜 차별점이 나와. 에이전트의 행동 궤적(어떤 도구를 호출했고, 어떤 순서로 했고, 결과가 어땠는지)을 수집해서 RL(강화학습) 파인튜닝 데이터로 변환해. 성공한 궤적은 positive reward, 실패한 궤적은 negative reward로 자동 라벨링되고, 이걸로 기반 모델을 재학습시킬 수 있어.

3. Tool Registry (도구 레지스트리)

플러그인 방식으로 도구를 등록하고 관리해. MCP(Model Context Protocol)와도 호환돼. 자체 Python 함수를 도구로 등록하거나, 외부 API를 래핑해서 도구화할 수 있어.

4. Multi-LLM Router (멀티 LLM 라우터)

하나의 에이전트가 여러 LLM을 동시에 사용할 수 있어. 간단한 작업은 소형 모델(Mistral, Phi-3)로, 복잡한 추론은 대형 모델(Claude, GPT-5)로 라우팅하는 구조야. 비용 최적화에 직접적인 영향을 줘.

5. Async Task Graphs (비동기 태스크 그래프)

병렬로 실행할 수 있는 하위 작업을 자동으로 식별하고, DAG(방향 비순환 그래프) 형태로 실행 계획을 짜. 10개의 파일을 동시에 분석하거나, 여러 API를 동시에 호출하는 식의 병렬 처리가 기본 내장돼 있어.

경쟁 프레임워크 비교

프레임워크	스타	자기개선	멀티 LLM	RL 파인튜닝	라이선스
Hermes Agent	95.6K	내장	내장 라우터	궤적 기반 자동	Apache-2.0
LangChain	102K	없음	수동 설정	없음	MIT
smolagents	18K	없음	제한적	없음	Apache-2.0
CrewAI	28K	없음	지원	없음	MIT
AutoGen	41K	제한적	지원	없음	MIT

LangChain이 스타 수에서는 아직 앞서지만, 성장 속도가 완전히 다른 차원이야. LangChain은 2년에 걸쳐 102K를 달성했고, Hermes Agent는 7주 만에 95.6K를 찍었어.

왜 이렇게 빨리 퍼졌나

Hermes Agent GitHub 스타 성장 그래프 7주간 스타 성장 추이 -- 일평균 1,500스타의 폭발적 성장

세 가지 요인이 있어.

첫째, 타이밍이야. 2026년 초부터 "에이전트 피로감"이 쌓이고 있었어. 프레임워크는 많은데, 실제로 프로덕션에서 쓸 만한 건 별로 없다는 불만이 커지던 시점이었거든. Hermes Agent는 "자기개선"이라는 차별화 포인트로 이 피로감을 뚫었어.

둘째, Nous Research의 커뮤니티 신뢰도야. Hermes 시리즈 모델로 이미 검증된 팀이라 "또 다른 장난감 프레임워크"가 아니라 "이 팀이 만들었으면 진짜겠네"라는 반응이 나왔어.

셋째, 실제로 작동한다는 거야. DEV Community 리뷰에 따르면, 간단한 이메일 요약 에이전트를 만들어서 3일간 자기개선 루프를 돌렸더니 응답 품질이 눈에 띄게 좋아졌다는 후기가 올라왔어. "데모만 멋진 프레임워크"와 "실제로 쓸 수 있는 프레임워크"의 차이를 보여준 거지.

생태계 맥락에서 보면

Hermes Agent의 등장은 에이전트 프레임워크 시장의 세대교체를 보여줘. 1세대(LangChain, LlamaIndex)는 "LLM에 도구를 연결한다"가 핵심이었어. 2세대(CrewAI, AutoGen)는 "여러 에이전트가 협업한다"가 포인트였고.

Hermes Agent는 3세대라고 볼 수 있어. "에이전트가 자기 자신을 개선한다"는 패러다임이야. 이건 Nous Research가 원래 강점을 가진 파인튜닝 영역과 에이전트 프레임워크를 결합한 결과야.

Google의 ADK(Agent Development Kit)가 엔터프라이즈 배포와 Vertex AI 통합에 집중하고, HuggingFace의 smolagents가 가벼움과 접근성에 집중한다면, Hermes Agent는 "자율 개선"이라는 완전히 다른 축을 잡았어. 이 세 프레임워크가 2026년 하반기 에이전트 생태계의 삼각 구도를 형성할 가능성이 높아.

시작하기

pip install hermes-agent
hermes init my-agent
hermes run --task "summarize my inbox"

세 줄이면 기본 에이전트가 돌아가. hermes init은 프로젝트 스캐폴딩을 만들고, hermes run은 지정한 태스크를 실행해. 자기개선 루프를 활성화하려면 --self-improve 플래그를 추가하면 돼.

자기개선 모드를 켜면 에이전트가 매 작업 후 자체 평가를 실행하고, 개선 로그를 .hermes/traces/ 디렉토리에 저장해. 이 궤적 데이터를 기반으로 hermes finetune 명령어로 기반 모델을 재학습시킬 수 있어.

이런 사람에게는 안 맞아

간단한 RAG 파이프라인만 필요한 경우: LlamaIndex가 더 적합해
엔터프라이즈 배포가 최우선인 경우: Google ADK나 AWS Bedrock Agents가 더 나아
Python이 아닌 언어로 작업하는 경우: 현재 Python만 지원해
GPU 없이 자기개선 루프를 돌리려는 경우: RL 파인튜닝에는 최소 A100 급 GPU가 필요해

다음 마일스톤

Hermes Agent 로드맵 Hermes Agent 2026 로드맵 미리보기

v0.3 (5월): MCP 서버 내장 지원, 메모리 백엔드 플러그인
v0.4 (6월): 분산 에이전트 실행(multi-node), WebSocket 기반 실시간 모니터링
v1.0 (Q3): 프로덕션 안정화, 엔터프라이즈 지원 시작

7주 만에 10만 스타에 근접한 프레임워크. "자기개선 에이전트"가 유행어가 아니라 실제 작동하는 기술이 된 순간이야.

References