MiroFish — 수천 개 AI 에이전트를 시뮬레이션해서 미래를 예측하는 엔진

디지털 페트리 접시

박테리아를 배양하는 페트리 접시(petri dish, 실험용 배양 용기)처럼, AI 에이전트 수천 개를 디지털 세계에 풀어놓으면 어떤 일이 벌어질까? MiroFish는 바로 이 질문에서 시작했다. 전통적인 머신러닝이 과거 데이터의 패턴을 학습해서 미래를 예측한다면, MiroFish는 전혀 다른 접근을 취한다. 가상 세계에서 벌어지는 에이전트들의 상호작용 자체를 관찰하고, 거기서 나타나는 창발적 행동(emergent behavior, 개별 요소의 단순한 규칙에서 예상치 못하게 나타나는 복잡한 집단 행동)을 분석해 미래를 내다본다.

학술적 뿌리 — Stanford Generative Agents

MiroFish의 아이디어는 하늘에서 뚝 떨어진 게 아니다. 2023년 Stanford의 Joon Sung Park 연구팀이 발표한 "Generative Agents" 논문이 직접적인 영감이다.

이 논문에서 연구팀은 25개의 AI 에이전트를 작은 가상 마을에 배치했다. 각 에이전트에게 이름, 직업, 성격, 관계를 부여하고 자유롭게 상호작용하게 했다. 놀라운 결과가 나왔다:

에이전트들이 자발적으로 파티를 기획하고 초대장을 돌렸다
관심사가 비슷한 에이전트끼리 자연스럽게 그룹을 형성했다
다른 에이전트에 대한 소문이 퍼지는 과정이 실제 사회학 이론과 일치했다

MiroFish는 이 실험을 25개에서 수천~수만 개 규모로 확장하고, 거기서 나오는 패턴을 예측 도구로 만든 것이다.

작동 방식 — 상세 아키텍처

전통적 ML은 과거 데이터에서 패턴을 학습한다. MiroFish는 다르다. LLM으로 구동되는 에이전트에게 각각 성격, 기억, 행동 패턴을 부여하고, 디지털 환경에서 서로 상호작용하게 한다.

에이전트 구조

각 에이전트는 다음 모듈로 구성된다:

Persona Module(성격 모듈): 성격 특성, 가치관, 의사결정 성향을 정의. Big Five 성격 모델(개방성, 성실성, 외향성, 우호성, 신경성의 5가지 축)을 기반으로 에이전트마다 고유한 행동 패턴을 생성한다
Memory Stream(기억 흐름): 경험을 시간순으로 저장하고, 중요도(importance) x 최신성(recency) x 관련성(relevance)의 가중 점수로 검색 우선순위를 결정. Stanford 논문의 핵심 설계를 그대로 차용했다
Reflection Engine(성찰 엔진): 축적된 경험에서 고수준 인사이트를 자동 추출 (매 50개 기억마다 reflection 실행). 예를 들어 "나는 최근 투자에서 손실을 많이 봤다 → 보수적 전략으로 전환해야겠다"는 추상화가 자동으로 이루어진다
Planning Module(계획 모듈): 장기 목표와 단기 행동 계획을 자동 생성하고 조정
Social Graph(사회 관계망): 다른 에이전트와의 관계 강도와 성격을 동적으로 추적. 신뢰도, 영향력, 상호작용 빈도를 기반으로 관계가 자연스럽게 진화한다

시뮬레이션 프로세스

World Building: 시뮬레이션할 환경과 규칙 정의 (시장, 도시, 조직 등)
Agent Seeding: 각 에이전트에게 초기 특성과 목표 할당
Interaction Loop: 에이전트들이 자유롭게 상호작용 (대화, 거래, 협력, 갈등)
Emergent Pattern Detection: 집단 행동에서 나타나는 패턴을 통계적으로 분석
Prediction Extraction: 패턴을 기반으로 미래 트렌드 예측

비용 최적화

수천 개 에이전트를 LLM으로 구동하면 비용이 천문학적일 수 있다. MiroFish는 이를 해결하기 위해:

Tiered Model Routing(계층별 모델 라우팅): 단순 행동(이동, 일상 대화)은 소형 모델(Phi-3, Gemma 2)로, 복잡한 의사결정(투자 판단, 협상)은 대형 모델(Claude, GPT-4o)로 라우팅. 전체 LLM 호출의 약 70%가 소형 모델로 처리된다
Batch Processing(일괄 처리): 동시 발생하는 에이전트 행동을 배치로 묶어 처리. 네트워크 오버헤드를 줄인다
Cached Personas(성격 캐싱): 반복적인 성격 패턴을 캐싱하여 LLM 호출 최소화. 동일 성격 유형의 에이전트가 유사 상황에서 보이는 반응을 재활용한다
결과적으로 1,000 에이전트 x 100 타임스텝(timestep, 시뮬레이션 시간 단위) 시뮬레이션 비용이 약 $15~30. 같은 규모를 모든 호출에 GPT-4o를 쓰면 $2,000 이상이 든다

실제 활용 사례

1. 금융 시장 시뮬레이션

에이전트에게 투자자 성향(보수적, 공격적, 모멘텀 추종 등)을 부여하고 가상 시장에서 거래하게 한다. 새로운 정책 발표(금리 인상, 규제 변화)를 주입했을 때 시장이 어떻게 반응하는지 시뮬레이션.

한 헤지펀드가 베타 테스트에서 2025년 8월 일본 시장 변동성을 5일 전에 예측했다는 사례가 보고됐다 (비공식).

2. 제품 출시 시뮬레이션

소비자 에이전트에게 다양한 인구통계적 특성과 구매 성향을 부여한 뒤, 새 제품을 출시했을 때의 반응을 시뮬레이션. 가격 탄력성, 채널별 효과, 경쟁 제품 대비 포지셔닝을 사전에 테스트.

3. 정책 시뮬레이션

도시에 새로운 교통 정책을 도입했을 때 시민 에이전트들의 행동 변화를 시뮬레이션. 대중교통 이용률, 교통 체증, 부동산 가격에 미치는 영향을 사전 분석.

4. 소셜 미디어 바이럴 예측

에이전트에게 소셜 미디어 사용자 특성을 부여하고, 특정 콘텐츠가 어떤 경로로 확산되는지 시뮬레이션. 인플루언서 효과, 알고리즘 변화의 영향 분석.

깃허브 성장 데이터

깃허브 트렌딩 1위 (3/7 기준)
28,600 스타 (현재)
24시간 내 +2,782 스타
주요 기여자: 12명 (핵심 3명은 전 Google DeepMind 연구원)
라이선스: Apache 2.0

기존 시뮬레이션 도구와의 비교

도구	접근법	에이전트 규모	LLM 기반	비용
MiroFish	LLM 에이전트 시뮬레이션	수천~수만	O	$15-30/run
NetLogo	규칙 기반 ABM	수만~수백만	X	무료
Mesa (Python)	규칙 기반 ABM	수천~수만	X	무료
HASH	대규모 시뮬레이션	수백만	X	유료

MiroFish의 핵심 차별점: 규칙 기반 ABM(Agent-Based Model)은 에이전트의 행동을 사전에 프로그래밍해야 한다. "가격이 10% 오르면 수요가 5% 줄어든다" 같은 규칙을 사람이 정의한다. MiroFish는 LLM이 상황을 이해하고 자율적으로 행동을 결정하기 때문에, 예상하지 못한 창발적 행동이 나타날 수 있다.

한계와 주의점

Hallucination Risk(환각 위험): LLM 기반이기 때문에 에이전트가 비현실적인 행동을 할 수 있음. 예를 들어 금융 시뮬레이션에서 에이전트가 현실에서는 불가능한 무한 차입(레버리지)을 시도할 수 있다. 이를 방지하려면 환경 규칙(constraint)을 신중하게 설계해야 한다
Validation(검증) 어려움: 시뮬레이션 결과가 현실을 얼마나 반영하는지 검증하는 것이 본질적으로 어려운 문제. 과거 사건을 재현(backtesting)하는 방식으로 일부 검증이 가능하지만, 미래 예측의 정확성은 사후에만 확인할 수 있다
비용: 규칙 기반 ABM 대비 여전히 비쌈. NetLogo로 100만 에이전트 시뮬레이션이 무료인 반면, MiroFish는 1만 에이전트에 $150~300 수준
재현성(reproducibility): LLM의 확률적(stochastic) 특성 때문에 같은 시뮬레이션을 돌려도 매번 다른 결과. 앙상블(ensemble, 여러 번 실행 후 결과를 종합) 접근이 필요하며, MiroFish는 기본적으로 5회 이상 실행을 권장한다

왜 주목하나

에이전트 기반 시뮬레이션은 AI의 다음 프론티어 중 하나다. 단일 모델의 추론이 아니라 다수 에이전트의 집단 행동에서 인사이트를 뽑는다. 금융, 정책, 마케팅, 사회 현상 예측에 잠재력이 크다.

더 흥미로운 건, 이런 시뮬레이션이 민주화되고 있다는 점이다. 과거에는 RAND Corporation이나 대형 컨설팅 펌만 할 수 있던 사회 시뮬레이션을, 이제 개발자 한 명이 노트북에서 돌릴 수 있다. Apache 2.0 라이선스로 공개된 만큼, 누구나 자유롭게 활용하고 수정할 수 있다. 다만 MiroFish의 예측을 실제 의사결정에 활용하려면, 시뮬레이션 설계의 한계를 명확히 인식해야 한다. LLM 에이전트가 보여주는 행동은 결국 학습 데이터에 반영된 인간 행동의 근사치이지, 실제 인간 그 자체가 아니다. 보조 도구로서의 가치는 분명하지만, 맹신은 금물이다.

MiroFish — 수천 개 AI 에이전트를 시뮬레이션해서 미래를 예측하는 엔진

디지털 페트리 접시

학술적 뿌리 — Stanford Generative Agents