AI가 스스로 자기 코드를 고친다고? MiniMax M2.7의 자기진화 실험
MiniMax M2.7은 100회 이상의 자율 반복을 통해 스스로 성능을 개선하는 자기진화 LLM이다. SWE-Pro 56.22%, Claude Opus 4.6에 근접하면서 가격은 50분의 1.

56.22%라는 숫자가 왜 무섭냐면
SWE-Pro. 소프트웨어 엔지니어링 분야에서 AI 모델의 실력을 측정하는 가장 까다로운 벤치마크 중 하나야. 실제 GitHub 이슈를 읽고, 코드를 이해하고, 버그를 고치는 능력을 평가하는 시험이라고 보면 돼.
여기서 56.22%를 찍은 모델이 나왔어. MiniMax M2.7.
이 숫자가 놀라운 이유는 단순히 높아서가 아니야. Claude Opus 4.6의 최고 기록(57.3%)에 거의 근접하고, GPT-5.3 Codex와 동등한 수준이거든. 그런데 이 모델을 만든 건 OpenAI도 Anthropic도 아닌 중국 스타트업 MiniMax야.
더 놀라운 건 따로 있어. 이 성능에 도달하는 과정이 기존과 완전히 달랐다는 거야.
이걸 이해하려면 — MiniMax라는 회사의 궤적
MiniMax는 2021년 설립된 중국 AI 스타트업이야. 창업자 옌준치(Yan Junchi)는 전 센스타임(SenseTime) 부사장 출신으로, 초기에는 중국 내 소비자 AI 서비스에 집중했어. 음악 생성 AI, 영상 생성 AI 등을 서비스하면서 중국 시장에서 꽤 인지도를 쌓았지.
하지만 LLM 경쟁이 본격화되면서 MiniMax의 전략이 바뀌기 시작했어. 2025년 말 M2.5 모델을 출시하면서 글로벌 시장을 겨냥하기 시작한 거야. M2.5는 코딩과 에이전트(AI가 스스로 판단하고 행동하는 시스템) 벤치마크에서 예상 외로 좋은 성적을 거뒀어.
그리고 2026년 4월 초, M2.7이 등장했어.
| 모델 | SWE-Pro | PinchBench | 가격 (입력/출력, 100만 토큰당) | 특징 |
|---|---|---|---|---|
| MiniMax M2.7 | 56.22% | 86.2% | $0.30 / $1.20 | 자기진화 |
| Claude Opus 4.6 | 57.3% | 87.4% | $15 / $75 | 범용 최강 |
| GPT-5.3 Codex | 56.22% | 84.1% | $10 / $30 | 코딩 특화 |
| GPT-5.4 | 57.7% | 85.3% | $12 / $60 | 최신 범용 |
가격을 보면 감이 올 거야. M2.7의 입력 토큰 가격은 Claude Opus의 50분의 1이야. 출력 토큰도 60분의 1 수준이고.
핵심 내용 해부 — 자기진화가 뭐길래
"스스로 자기 코드를 고친다"는 게 대체 뭔 소리야
보통 AI 모델을 훈련시키려면 인간 연구자들이 직접 개입해야 해. 데이터를 준비하고, 훈련 코드를 짜고, 결과를 분석하고, 하이퍼파라미터(모델 학습의 세부 설정값)를 조정하고. 이 과정을 수백 번 반복하는 게 일반적인 AI 개발이야.
M2.7은 이 과정의 30–50%를 모델 스스로 처리했어.
구체적으로 이런 루프를 돌렸어:
- 실패한 작업의 로그를 분석한다
- 왜 실패했는지 원인을 파악한다
- 스캐폴드 코드(모델이 작동하는 틀)를 수정한다
- 수정된 버전으로 평가를 실행한다
- 결과를 이전 버전과 비교한다
- 개선됐으면 유지, 아니면 롤백한다
이 사이클을 100회 이상 자율적으로 반복한 거야. 인간이 "이렇게 해봐"라고 지시한 게 아니라, 모델이 자체적으로 디버깅하고, 코드를 고치고, 성능을 측정한 거지.
속도라는 무기
M2.7의 추론 속도는 초당 약 100토큰이야. 이건 Claude Opus 4.6이나 GPT-5 계열보다 체감상 훨씬 빠른 수준이야. 에이전트 워크플로우에서 속도는 곧 비용이거든. 같은 작업을 더 빨리 끝내면 토큰 소비가 줄고, 전체 파이프라인 비용이 내려가.
자기 코드를 스스로 고치는 AI. 그게 아직은 30–50% 수준이지만, 방향 자체가 달라. 인간 연구자의 역할이 점점 "감독"으로 바뀌고 있다는 뜻이야.
에이전트 특화 설계
M2.7은 범용 챗봇이 아니라 에이전트 백엔드로 설계됐어. 서드파티 도구나 하니스(harness)에 연결해서 복잡한 작업을 자율적으로 수행하는 게 핵심 용도야. 그래서 벤치마크도 일반 대화 능력보다 SWE-Pro(코딩), PinchBench(에이전트 능력) 같은 실무 지표에 집중하고 있어.
더 넓은 그림 — 중국 AI 스타트업의 반격
M2.7이 등장한 시점이 흥미로워. 2026년 4월 현재 AI 모델 시장의 판도가 빠르게 재편되고 있거든.
1월에는 중국 Zhipu AI의 GLM-5.1이 SWE-Bench Pro에서 58.4%를 기록하며 글로벌 1위를 차지했어. 오픈소스(MIT 라이선스)로 공개된 744B 파라미터 MoE 모델이 GPT-5.4와 Claude Opus 4.6을 제치고 코딩 벤치마크 정상에 올라선 거야.
이제 MiniMax까지 가세했어. 중국 AI 스타트업들이 단순히 "따라잡기"가 아니라 특정 영역에서 선두를 달리기 시작한 거지. 특히 코딩과 에이전트 분야에서.
이 트렌드의 핵심은 가격이야. M2.7이 Claude Opus의 50분의 1 가격에 비슷한 성능을 제공한다면, 에이전트를 대량 배포하는 기업 입장에서는 선택지가 완전히 달라져. 월 수백만 달러의 API 비용을 수만 달러로 줄일 수 있다는 이야기거든.
그래서 뭐가 달라지는데
개발자라면 주목할 포인트가 두 가지야.
첫째, 에이전트 비용 구조가 바뀔 수 있어. 지금까지 에이전트 시스템을 프로덕션에 올리기 어려웠던 가장 큰 이유가 API 비용이었는데, M2.7 수준의 가격이라면 이야기가 달라져. 100개의 에이전트를 동시에 돌려도 비용이 감당 가능한 수준이 될 수 있어.
둘째, 자기진화 패러다임의 시작이야. 아직은 "스캐폴드 코드 수정" 수준이지만, 이 방향이 계속 발전하면 AI 모델이 자체적으로 자기 학습 파이프라인을 관리하는 시대가 올 수 있어. 인간 연구자는 방향을 설정하고 가드레일을 치는 역할로 바뀌는 거지.
물론 한계도 있어. M2.7은 에이전트와 코딩에 특화된 모델이라 범용 대화나 창의적 글쓰기에서는 Claude나 GPT에 크게 뒤처져. 그리고 "자기진화"라는 표현이 거창하게 들리지만, 현재는 학습 파이프라인의 일부 자동화에 가까워. 진정한 자기진화 — 모델이 자체 아키텍처까지 수정하는 수준 — 은 아직 먼 이야기야.
그래도 방향은 명확해. AI가 AI를 만드는 시대의 아주 초기 징후가 나타나고 있어.
참고 자료
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



