spoonai
GitHubAgentSelf-EvolvingComputer Use

GenericAgent — 3.3K 줄 시드에서 스킬 트리를 키우는 자가진화 에이전트

lsdefine이 공개한 미니멀 에이전트. 9개 atomic 도구 + 100줄 Agent Loop만으로 시스템 레벨 제어, 새 태스크는 영구 도구화. arXiv 2604.20710 동반.

·3분 소요·GitHubGitHub
공유
GenericAgent 스킬 트리 다이어그램 — 9 atomic 도구에서 시작해 분기
출처: GitHub (lsdefine)

9 + 100

도구 9개와 Agent Loop 100줄. GenericAgent의 코어는 진짜로 그 정도야. 거기에 LLM의 코딩 능력을 합치면 브라우저·터미널·파일시스템·키보드·마우스·화면 비전·ADB 모바일 제어까지 시스템 레벨로 다 다뤄. 별 8.8K(첫 24시간 320 증가), arXiv 논문(2604.20710) 동반 발표.

이걸로 뭘 할 수 있는지 — 미니멀 시드에서 시작해 풀 LLM 데스크톱 제어 도구를 키우는 거야.

프로젝트 배경 — 자가 진화의 가설

기존 AGI 야망 프레임워크는 도구를 미리 풀세트로 박는 경향이 강했어. SuperAGI·AutoGPT가 그 예. 그런데 도구가 많아질수록 컨텍스트 부담과 도구 선택 오류가 함께 커졌어.

lsdefine의 가설은 거꾸로야 — "atomic 도구는 9개로 충분하고, 새 능력은 LLM이 코드를 작성하면서 자연스럽게 만든다." 한 번 푼 태스크는 자동으로 "스킬"로 결정화돼서 스킬 트리에 쌓여. 다음에 같은 류의 태스크가 들어오면 스킬을 재사용해 토큰 비용이 6배 떨어진다는 게 논문 결과야.

[IMG#1]

핵심 기능 — 6가지

기능 설명
9 atomic 도구 브라우저·터미널·파일·키보드·마우스·비전·ADB·인터페이스·자기변경
Agent Loop ~100줄 미니멀 코어, 가독성 우선
스킬 트리 자가 진화 한 번 푼 태스크는 영구 도구화
Layered Memory 30K 컨텍스트 유지, 토큰 6× 절감
코드 런타임 동적 설치 pip 패키지·외부 API·하드웨어 즉시 추가
5 프론트엔드 Streamlit·QQ·Telegram·Feishu·WeCom·DingTalk

표가 보여주는 점 — 다른 에이전트가 "도구 카탈로그를 늘려가는 방향"이라면, GenericAgent는 "도구는 작게, 스킬은 자라게"라는 거꾸로 방향이야.

기술 스택 + 아키텍처

  • 언어: Python
  • UI: Streamlit (데스크톱), 5개 메신저 봇
  • 외부 통합: ADB(모바일), Selenium/Playwright(브라우저)
  • LLM: OpenAI / Anthropic API

아키텍처는 셋으로 나뉘어 — (1) Agent Loop(100줄), (2) Atomic Tools(9개, 각 ~300줄), (3) Layered Memory(컨텍스트 매니저). 새 스킬은 Layered Memory 안의 "Persistent Skills" 영역에 코드 + 사용 예시로 누적돼.

경쟁 레포 비교

레포 라이선스 포지션
lsdefine/GenericAgent 8.8K Apache-2.0 미니멀 시드 + 자가 진화 스킬 트리
TransformerOptimus/SuperAGI 23K MIT 풀세트 도구 카탈로그
Significant-Gravitas/AutoGPT 168K MIT 초기 자율 에이전트, 도구 풀세트
e2b-dev/awesome-ai-agents 10K MIT 큐레이션 카탈로그 (도구 아님)

비교의 핵심 — GenericAgent는 별 수로는 4번이지만, "스킬 트리 자가 진화"라는 디자인 결정이 분명하게 다른 회사 코어 디자인이야. 별 수 절대치보다 디자인 차별화가 더 흥미로운 카테고리.

[IMG#2]

왜 지금 뜨는가 — 생태계 맥락

세 가지 흐름. 첫째, Computer Use와 OSWorld 같은 데스크톱 자율 벤치가 표준이 되면서 "직접 화면을 보고 누르는 에이전트"가 평가 가능한 카테고리가 됐어. 둘째, 스킬 트리·Voyager류 자가 진화 패러다임이 MineDojo Voyager에서 제안된 후 LLM 에이전트로 옮겨오는 시점. 셋째, arXiv 동반 발표가 학계 사용자를 빠르게 끌어왔어.

시작하기

git clone https://github.com/lsdefine/GenericAgent
cd GenericAgent
cp mykey_template.py mykey.py   # API 키 입력
python launch.pyw

흔한 함정 — mykey.py에 OpenAI/Anthropic 키를 넣지 않으면 첫 실행 직후 멈춰. macOS에서 ADB 사용 시 brew install android-platform-tools 추가 필요.

한계와 전망

지금 한계 — (1) 보안: LLM이 코드 실행권을 갖고 있어서 격리가 약해. 운영망에 직접 띄우는 건 위험. Docker 격리 옵션은 PR 단계. (2) 스킬 트리가 커지면 검색 비용이 다시 증가 — 논문이 토큰 6배 절감을 주장하지만 1,000개 스킬을 넘기면 다시 측정이 필요.

전망 — 다음 6개월에 (a) Docker/gVisor 격리 표준화, (b) 스킬 마켓플레이스(다른 사용자의 스킬 import), (c) MCP 통합으로 스킬을 다른 에이전트가 호출 가능하게 만드는 방향이 자연스러운 진화.

[IMG#3]

3줄 요약

  • 9 atomic 도구 + 100줄 Agent Loop만으로 시스템 레벨 제어, 별 8.8K.
  • 한 번 푼 태스크는 영구 도구화 — 스킬 트리 자가 진화로 토큰 6× 절감 보고.
  • arXiv 2604.20710 논문 동반, "도구는 작게 스킬은 자라게"의 거꾸로 디자인.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지