MiroThinker-H1, BrowseComp 88.2점으로 OpenAI·Anthropic·Google 전부 꺾었어 — 검증 중심 AI의 부상
레드우드시티의 스타트업 MiroMind가 MiroThinker-H1으로 BrowseComp 1위를 차지했다. 이중 검증 시스템, 벤치마크 비교, 기술 분석 총정리.

작은 회사가 빅테크 전부를 이겼어
3월 16일, 레드우드시티의 스타트업 MiroMind가 MiroThinker-H1을 공개했어. BrowseComp(AI가 웹에서 복잡한 정보를 찾아 추론하는 벤치마크)에서 88.2점을 기록하며 OpenAI, Anthropic, Google DeepMind의 최신 모델을 전부 넘겼어.
이건 단순한 벤치마크 1위가 아니야. AI 연구의 방향성 자체에 대한 질문을 던지는 결과야. "더 크고 더 많이 추론하는" 방식이 아니라 "각 단계가 틀리지 않도록 검증하는" 방식이 이긴 거니까.
BrowseComp 벤치마크 — 상세 비교
BrowseComp는 AI가 웹에서 복잡한 다단계 정보를 검색하고 추론해서 답을 도출하는 능력을 측정해. 단순 검색이 아니라, 여러 소스를 교차 검증하고, 모순을 해결하고, 최종 답변의 정확성을 보장해야 하는 복잡한 벤치마크야.
| 모델 | BrowseComp 점수 | 개발사 |
|---|---|---|
| MiroThinker-H1 | 88.2 | MiroMind |
| Gemini-3.1-Pro | 85.9 | Google DeepMind |
| Claude-4.6-Opus | 84.0 | Anthropic |
| GPT-5.4 | 82.7 | OpenAI |
| MiroThinker-1.7 | 74.0 | MiroMind |
BrowseComp-ZH(중국어 버전)에서도 MiroThinker-H1이 84.4점으로 1위야. Seed-2.0-Pro(82.4), GPT-5(65.0)를 앞섰어. 영어와 중국어 모두에서 1위라는 건 언어 특정 최적화가 아니라 범용적으로 강하다는 뜻이야.
핵심 기술 — 이중 검증 시스템(Dual-Layer Verification)
MiroThinker-H1의 가장 큰 혁신은 추론 과정 자체에 검증을 내장한 거야. 기존 모델들이 "답을 맞추는 것"에 집중한다면, MiroThinker는 **"틀리지 않는 것"**에 집중해.
Local Verifier (로컬 검증기)
추론 중간중간에 실시간으로 작동해. 각 추론 단계, 도구 호출, 가설 업데이트를 감사(audit)하고, 오류가 발견되면 즉시 수정해. 마치 수학 문제를 풀면서 매 줄마다 계산이 맞는지 확인하는 것과 같아.
BrowseComp 하드 서브셋(가장 어려운 문제들)에서 Local Verifier의 효과:
| 측정 항목 | Local Verifier 적용 | 미적용 대비 |
|---|---|---|
| 평균 상호작용 단계 수 | ~82% 감소 | 훨씬 적은 단계로 정답 도달 |
| 정확도 | +26.4점 | — |
82% 적은 단계로 26.4점 더 높은 정확도. 이건 "더 많이 생각하면 더 좋다"는 스케일링 패러다임에 대한 강력한 반례야.
Global Verifier (글로벌 검증기)
최종 답변이 나오면 근거 체인(evidence chain) 전체를 다시 처음부터 검토해. 각 근거가 실제 소스에서 온 건지, 논리적 비약은 없는지, 모순은 없는지 확인하는 2차 검증이야.
이 구조를 비유하자면, Local Verifier는 코딩 중 실시간으로 돌아가는 **린터(linter)**이고, Global Verifier는 코드 리뷰어가 PR 전체를 다시 읽는 코드 리뷰와 같아.
회사 배경 — MiroMind
MiroMind는 레드우드시티(캘리포니아) 소재 스타트업이야. 이전 모델인 MiroThinker-1.5는 30B 파라미터라는 비교적 작은 규모로 1조 파라미터급 성능을 내서 주목받았어. 이 팀의 일관된 철학은 **"파라미터 수를 늘리는 것보다 추론 효율을 높이는 것"**이야.
MiroThinker-1.7(기반 모델)과 MiroThinker-H1(그 위에 검증 시스템을 쌓은 에이전트 시스템) 두 가지가 동시에 공개됐어. 논문도 arXiv에 올라와 있어.
왜 중요한가 — 패러다임의 전환
지금 AI 업계의 주류 접근은 두 가지야:
- 스케일링(Scaling): 모델을 더 크게, 데이터를 더 많이
- 긴 추론 체인(Long Chain-of-Thought): 더 많은 단계를 거쳐 답을 도출
MiroThinker-H1은 세 번째 길을 제시해: 검증 중심(Verification-Centric). 답을 맞추려고 더 많이 생각하는 게 아니라, 틀린 걸 빨리 잡아서 올바른 방향으로 수정하는 거야.
이게 특히 중요한 분야:
- 법률: 하나의 잘못된 인용이 소송 결과를 바꿀 수 있어
- 금융: 잘못된 수치 하나가 수십억 원의 투자 결정에 영향
- 의료: 오진이 생명과 직결
- 감사/회계: 모든 수치에 근거가 필요
이런 분야에서는 "95% 정확한 AI"보다 **"틀린 걸 스스로 잡아내는 AI"**가 훨씬 가치있어.
참고 자료
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

