spoonai
TOPMiniMaxMiniMax M3MSA

미니맥스 M3가 나왔어 — 버렸던 희소어텐션을 다시 살려서 1M 컨텍스트에 디코딩 15배 빨라진 오픈웨이트 모델

중국 미니맥스가 6월 1일 차세대 모델 M3를 공개하고 API를 같은 날 켰어. 핵심은 새 희소어텐션 'MSA'야. 100만 토큰 컨텍스트에서 연산량은 M2의 1/20, 디코딩은 15배 이상 빨라졌대. 가중치는 10일 내 공개 예정.

·8분 소요·MiniMax M3 — Research Blog (MiniMax 공식)MiniMax M3 — Research Blog (MiniMax 공식)
공유
미니맥스 M3 — MSA 희소어텐션 기반 오픈웨이트 모델 출시
출처: MarkTechPost

한 번 버렸던 기술을 다시 꺼내서 1등급 모델을 만들었어

AI 모델 경쟁이 요즘 어디로 가고 있는지 한 줄로 보고 싶으면, 6월 1일 중국 미니맥스(MiniMax)가 낸 M3를 보면 돼. 미니맥스는 차세대 대규모 모델 MiniMax M3를 공개하면서 API를 같은 날 바로 켰어. 그런데 진짜 이야깃거리는 성능 숫자가 아니라 어떻게 그 숫자를 냈는지야.

M3의 심장은 새 희소어텐션(sparse attention) 구조인 **MSA(MiniMax Sparse Attention)**야. 재밌는 건, 미니맥스가 바로 직전 세대인 M2에선 희소어텐션을 빼버렸다는 거야. 한 번 "이건 아니다" 하고 버렸던 기술을, M3에서 개선해서 다시 집어넣었어. 그 결과 M3는 100만(1M) 토큰짜리 컨텍스트 윈도를 지원해. 책 여러 권, 코드베이스 전체를 한 번에 넣고 다룰 수 있다는 뜻이야.

효율 숫자가 인상적이야. 회사 발표 기준, 1M 토큰 컨텍스트에서 토큰당 연산량이 이전 세대 M2의 약 1/20 수준으로 줄었고, 프리필(prefill) 단계는 9배 이상, 디코딩(decoding) 단계는 15배 이상 빨라졌대. 미니맥스는 M3를 '프런티어급 코딩 + 1M 컨텍스트 + 네이티브 이미지·비디오 이해'를 한 모델에 묶은 최초의 오픈웨이트 모델이라고 주장해. 다만 일부 매체는 이 벤치마크가 독립 검증된 게 아니라고 선을 그었으니, 거기까지는 감안해야 해.

주인공 소개 — 미니맥스, MSA, 그리고 '오픈웨이트 중국 모델'

먼저 미니맥스. 상하이 기반의 중국 AI 기업으로, 텍스트 모델뿐 아니라 음성·영상 생성까지 손대는 멀티모달 플레이어야. 최근 1년 중국발 오픈모델 러시(콴원·딥시크·미니맥스 등)의 한 축이고, 'M' 시리즈로 대규모 언어·멀티모달 모델을 빠르게 찍어내 왔어. 이번 M3는 그 흐름의 최신판이자, 'M2에서 뺐다 다시 넣은' 기술 실험의 결실이야.

다음은 MSA, 희소어텐션 그 자체. 트랜스포머 모델은 기본적으로 모든 토큰이 다른 모든 토큰을 '본다'(full attention). 그래서 컨텍스트가 길어지면 연산량이 제곱으로 폭증해. 희소어텐션은 '모든 토큰을 다 보지 말고, 중요한 일부만 보자'는 아이디어야. 잘 설계하면 긴 컨텍스트를 훨씬 싸게 처리할 수 있지만, 잘못하면 성능이 깎여. 미니맥스가 M2에서 한 번 뺐던 게 바로 그 'trade-off가 안 맞았던' 흔적일 수 있어. M3에서 다시 넣었다는 건, 그 균형을 풀었다고 자신한다는 뜻이야.

마지막은 '오픈웨이트'라는 포지션. M3는 모델 가중치와 기술 보고서를 출시 후 10일 이내 공개할 예정이야. 즉 누구나 받아서 자기 서버에서 돌릴 수 있게 풀겠다는 거지. OpenAI·앤트로픽의 폐쇄형 프런티어 모델과 정반대 노선이야. '최고 성능'에서 약간 뒤지더라도 '싸고, 빠르고, 열려 있다'로 시장을 파고드는 게 중국 오픈모델 진영의 전략이고, M3는 그걸 또 한 번 밀어붙였어.

핵심 내용 — '1/20'과 '15배'가 뭘 의미하는지

가장 중요한 숫자는 연산량 1/20이야. 1M 토큰 컨텍스트 기준, M3는 토큰당 연산량이 M2의 약 1/20 수준이야. 이게 왜 중요하냐면, 긴 컨텍스트를 다루는 비용이 곧 서비스 가격이거든. 100만 토큰을 넣는 작업을 20분의 1 비용으로 처리할 수 있으면, 그동안 '비싸서 못 하던' 응용(전체 코드베이스 분석, 긴 문서 묶음 질의)이 갑자기 경제성이 생겨.

다음은 속도. 프리필 9배 이상, 디코딩 15배 이상. 프리필은 입력을 한 번에 읽어 들이는 단계, 디코딩은 답을 한 토큰씩 생성하는 단계야. 사용자 체감 속도는 주로 디코딩이 좌우하는데, 그게 15배 빨라졌다는 건 같은 하드웨어로 훨씬 더 빠른 응답, 혹은 같은 속도로 훨씬 많은 동시 사용자를 감당할 수 있다는 뜻이야. 긴 컨텍스트 + 빠른 생성이라는, 보통 서로 상충하는 두 마리 토끼를 동시에 잡으려는 거지.

세 번째는 멀티모달 + 코딩 통합. 미니맥스는 M3를 '프런티어 코딩 능력, 1M 컨텍스트, 네이티브 이미지·비디오 이해를 한 모델에 묶은 최초의 오픈웨이트'라고 포지셔닝했어. 보통 코딩 특화 모델 따로, 멀티모달 모델 따로 가는데, 그걸 하나로 합쳤다는 주장이야.

항목 M3 (발표 기준) 의미
컨텍스트 윈도 1,000,000 토큰 코드베이스·장문 한 번에
토큰당 연산량 M2의 ~1/20 (1M 기준) 긴 컨텍스트 비용 급감
프리필 속도 9배 이상 입력 처리 가속
디코딩 속도 15배 이상 응답 체감 속도
공개 가중치·기술보고서 10일 내 오픈웨이트
주의 일부 벤치마크 미검증 가중치 공개 후 재확인 필요

각자의 이득 — 미니맥스도, 개발자도, 업계도

미니맥스 입장에선 '기술 서사'를 다시 잡았어. M2에서 뺐던 걸 M3에서 개선해 되살렸다는 스토리는, 단순히 모델을 하나 더 낸 게 아니라 '우리가 어텐션 구조 자체를 깊이 안다'는 메시지야. 거기에 오픈웨이트로 풀면 전 세계 개발자·연구자가 무료로 검증하고 써주면서 생태계와 평판이 따라와. 폐쇄형 모델 대비 매출은 약할 수 있지만, '중국발 효율 프런티어'라는 브랜드를 굳히는 데는 효과적이야.

개발자·스타트업 입장에선 'API를 같은 날 켰다 + 가중치 10일 내 공개'가 핵심이야. 클라우드 API로 바로 써볼 수도 있고, 곧 가중치를 받아 자체 인프라에서 돌릴 수도 있어. 1M 컨텍스트를 1/20 비용으로 쓸 수 있다면, 긴 문서·대형 코드베이스를 다루는 제품을 훨씬 싸게 만들 수 있지. 데이터 주권이 중요한 곳은 폐쇄형 API 대신 오픈웨이트를 자체 호스팅하는 선택지가 생겨.

업계 전체 입장에선 프런티어 경쟁의 축이 또 한 번 '효율'로 이동했어. 5월 말 콴원3 코더 넥스트, 미니맥스 M2.x 하이스피드에 이어 M3까지, 중국 진영은 '최고 점수'보다 '긴 컨텍스트를 얼마나 싸고 빠르게 처리하느냐'로 계속 밀어붙이고 있어. 절대 성능 1등이 아니어도, 효율로 가성비 시장을 장악하면 결국 폐쇄형 진영도 가격·속도로 끌려오게 돼.

과거 유사 사례 — 희소어텐션과 오픈모델의 엇갈린 역사

희소어텐션은 새 개념이 아니야. 그 역사를 보면 M3가 왜 '도박'인지 보여.

오래된 아이디어, 반복된 실패. 롱포머·빅버드 같은 초기 희소어텐션 연구는 수년 전부터 있었어. 긴 컨텍스트를 싸게 처리한다는 약속은 매력적이었지만, 실제 대규모 모델에선 'full attention 대비 성능이 미묘하게 깎인다'는 벽에 자주 부딪혔어. 미니맥스가 M2에서 희소어텐션을 뺐던 것도 같은 맥락일 수 있어 — 효율은 좋은데 품질 손해가 컸던 거지. M3에서 다시 넣었다는 건 그 trade-off를 풀었다는 주장인데, 이게 진짜인지는 가중치 공개 후 독립 검증이 말해줄 거야.

오픈모델 추격의 성공 사례. 딥시크가 보여줬듯, 중국 오픈모델은 '효율 + 공개'로 단숨에 글로벌 화제를 만들 수 있어. 가중치를 풀면 전 세계가 뜯어보고, 검증하고, 미세조정해서 써. 그 과정에서 평판과 생태계가 폭발적으로 커졌지. M3도 같은 길을 노려. 다만 딥시크 때처럼 '발표 숫자'와 '실측'이 어긋나면 역풍도 크다는 걸 기억해야 해.

'미검증 벤치마크'라는 경고. TechTimes 같은 매체는 M3의 프런티어 주장이 독립적으로 검증되지 않았다고 명시했어. AI 모델 발표는 자사 유리한 벤치마크만 고르는 일이 흔해. 그래서 1/20, 15배 같은 숫자는 '회사 발표'라는 꼬리표를 달고 봐야 하고, 진짜 가치는 가중치·기술보고서가 풀린 뒤 커뮤니티가 같은 조건에서 돌려봤을 때 드러나. 지금은 '인상적인 주장' 단계지 '검증된 사실' 단계가 아니야.

경쟁자 카운터 플레이 — 폐쇄형 진영과 다른 오픈모델

**폐쇄형 프런티어(OpenAI·앤트로픽·구글)**는 어떻게 받을까. 이들은 '최고 성능 + 안전 + 통합 제품'으로 승부해 왔어. M3 같은 효율 오픈모델이 가성비 시장을 먹으면, 폐쇄형도 결국 가격을 내리거나 긴 컨텍스트를 더 싸게 푸는 쪽으로 끌려와. 실제로 최근 플래시·미니 계열의 가격 인하 흐름이 그 압력의 결과로 읽혀. 절대 성능 격차를 유지하면서도, 저가 구간을 어떻게 방어하느냐가 이들의 숙제야.

**다른 중국·오픈 진영(콴원·딥시크 등)**과는 같은 편이면서 경쟁자야. 모두 '효율 + 오픈'을 외치니, 차별화 포인트는 '누가 더 긴 컨텍스트를, 더 싸게, 더 멀티모달하게 푸느냐'로 좁혀져. M3의 MSA가 진짜로 trade-off를 풀었다면, 경쟁 오픈모델들도 비슷한 희소어텐션 구조로 따라올 가능성이 커. 어텐션 효율 경쟁이 오픈 진영 내부의 새 전선이 되는 거지.

클라우드·추론 인프라 업체도 변수야. 1M 컨텍스트를 1/20 비용으로 돌리는 모델이 표준이 되면, 추론 서비스의 단가 구조가 바뀌어. 같은 GPU로 더 많은 토큰을 처리할 수 있으니, 추론 호스팅·서빙 업체엔 기회이자 가격 압박이야. 효율 좋은 오픈모델을 누가 더 싸게 서빙하느냐가 또 다른 경쟁이 돼.

그래서 뭐가 달라지는데 — 페르소나별로

AI 제품을 만드는 개발자라면, M3는 '긴 컨텍스트가 싸진다'는 신호야. 가중치가 풀리면 자체 호스팅으로 데이터 주권을 지키면서 1M 컨텍스트를 쓸 수 있어. 다만 지금은 발표 숫자 단계니, 실제 도입 전에 가중치 공개 후 같은 조건에서 직접 벤치마크를 돌려보는 게 안전해. '싸고 길다'가 '우리 작업에서도 정확하다'를 보장하진 않거든.

AI 흐름에 투자하거나 전략을 짜는 사람이라면, 핵심은 효율 축의 가속이야. 프런티어 경쟁이 '최고 점수'에서 '토큰당 비용·속도'로 옮겨가면, 승부처는 모델 자랑이 아니라 단가야. 중국 오픈 진영이 이 축을 계속 밀면, 전체 AI 사용 가격이 구조적으로 내려가고, 그건 응용 시장(앱·에이전트)엔 호재, 모델 단독 판매엔 압박이야.

그냥 기술을 지켜보는 사람이라면, 재밌는 교훈이 있어. "버린 기술이 항상 죽는 건 아니다." M2에서 뺐던 희소어텐션을 M3에서 살려낸 건, AI 연구가 직선이 아니라 '됐다 안 됐다'를 반복하며 나아간다는 걸 보여줘. 그리고 그 모든 주장은 가중치가 풀려 누구나 검증할 수 있을 때 비로소 진짜가 돼. M3의 진짜 평가는 며칠 뒤, 커뮤니티의 손에서 시작될 거야.

자주 묻는 질문

1/20 연산량, 15배 디코딩 같은 숫자 믿어도 돼? 아직 '검증된 사실'은 아니야. 가중치랑 기술보고서가 풀리고(출시 후 10일 내) 커뮤니티가 같은 조건에서 돌려봐야 진짜가 돼. 일부 매체는 프런티어 주장이 독립 검증된 게 아니라고 명시했고. 지금은 '인상적인 주장' 단계지 '확정된 결과' 단계가 아니야.

M2에서 뺐던 희소어텐션을 왜 M3에서 다시 넣었어? 희소어텐션은 효율을 얻는 대신 품질 손해 위험이 있어. M2에서 뺀 건 그 trade-off가 안 맞았던 흔적일 수 있고, M3에서 되살린 건 '이젠 효율을 유지하면서 품질 손해를 없앨 만큼 다듬었다'는 주장이야. 진짜인지는 독립 검증이 말해줄 거야.

'오픈웨이트'면 나한테 뭐가 달라져? 데이터 주권이나 비용이 중요하면 많이 달라져. 가중치가 풀리면 폐쇄형 API에 데이터를 안 보내고 자체 인프라에서 돌릴 수 있고, 1M 컨텍스트를 훨씬 싼 비용에 쓸 수 있어. 대신 큰 모델을 직접 서빙하는 운영 부담은 네가 떠안아야 해.

더 큰 흐름은? 프런티어 경쟁이 '최고 점수'에서 '토큰당 비용·속도'로 옮겨가고 있어. 중국 오픈 진영이 이 효율 축을 계속 밀면 AI 사용 가격이 구조적으로 내려가. 앱·에이전트 만드는 쪽엔 호재, 모델 단독 판매엔 압박이지.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지