1초에 60초

마이크로소프트의 새 음성 모델 MAI-Voice-1이 1초 연산으로 60초짜리 오디오를 뱉는다고 해. 실시간보다 60배 빠르다는 얘기야. 이 숫자 자체도 대단한데, 진짜 뉴스는 따로 있어.

마이크로소프트는 지금까지 OpenAI 모델을 가져다 썼어. Copilot도, Azure OpenAI도 근본은 GPT-4 / GPT-5였지. 4월 2일, MS가 Azure Foundry에 처음으로 자체 파운데이션 모델 3종을 올렸어. MAI-Voice-1(음성 생성), MAI-Transcribe-1(음성 인식), 그리고 MAI-Image-1(이미지 생성). "Microsoft AI Internal"의 MAI 라인업이 외부에 공개된 건 이번이 처음이야.

이걸 이해하려면

마이크로소프트와 OpenAI의 관계는 오래전부터 복잡했어. 2019년 $1B 투자로 시작해서, 2023년 $10B 추가 투자와 함께 Azure 독점 배포권을 가져갔지. 한동안은 윈윈 구조였어. OpenAI는 연구에 집중하고, MS는 그 모델을 Copilot, Bing, Word, Outlook, Teams에 꽂아넣었지.

그런데 2025년부터 균열이 보이기 시작했어. Sam Altman 축출·복귀 사태 이후 MS는 "우리는 OpenAI 없이도 살 수 있다"는 포지션을 준비하기 시작했어. Inflection AI의 Mustafa Suleyman과 핵심 팀을 통째로 영입해서 Microsoft AI 조직을 만든 게 2024년 3월. 그 팀이 2년 동안 조용히 돌린 결과물이 이번 MAI 시리즈야.

시점 사건
2019 MS, OpenAI에 $1B 투자
2023 MS, $10B 추가 투자 + Azure 독점 배포권
2024-03 MS, Inflection AI 팀 영입 → Microsoft AI 설립
2024-08 MAI-1 내부 코드네임 첫 루머
2025 Copilot에 MAI-1 일부 라우팅 시작
2026-04 MAI 3종 Foundry 공개

이 맥락을 알아야 이번 발표가 "Azure에 모델 3개 올렸네" 수준이 아니라는 게 보여. 클라우드 세 거인 중에 자체 파운데이션 모델이 없던 건 MS뿐이었어. 구글은 Gemini, 아마존은 Nova. MS는 이제서야 자기 이름표 붙인 모델을 갖게 된 거야.

핵심 내용 해부

MAI-Transcribe-1 — Azure Fast보다 2.5배 빠른 ASR

첫 번째는 다국어 음성 인식(ASR, Automatic Speech Recognition) 모델이야. 25개 언어를 지원하고, 기존 Azure Fast Transcription 대비 2.5배 빠르다는 게 MS의 주장이야. 벤치마크 공개는 제한적이지만, TechCrunch 취재에 따르면 WER(Word Error Rate)은 거의 동일하면서 지연 시간만 줄였다고 해.

이게 왜 중요하냐면, 회의 녹음·콜센터·자막 생성 같은 용례에서 "실시간 처리"와 "후처리 배치"의 경계가 흐려지거든. 1시간짜리 회의 녹음을 2분 안에 전사할 수 있으면, 그건 UX가 바뀌는 수준이야.

MAI-Voice-1 — 커스텀 보이스 클로닝

두 번째는 음성 합성(TTS, Text-to-Speech) 모델. 핵심은 "60초 오디오를 1초에 생성"이 아니라, 사용자가 자기 목소리로 커스텀 보이스를 만들 수 있다는 점이야. OpenAI의 Advanced Voice Mode나 ElevenLabs와 직접 경쟁하는 영역이지.

MAI Playground에서 공개됐는데, 짧은 샘플 녹음만으로 개인화된 TTS 보이스를 만들 수 있어. MS는 "오남용 방지"를 위해 워터마크와 출처 메타데이터를 삽입한다고 밝혔어. Sora나 Veo 영상에 적용되는 C2PA 표준과 비슷한 방식이야.

MAI-Image-1

세 번째 이미지 생성 모델은 디테일이 가장 적게 공개됐어. TechCrunch 기사에서 스펙은 언급되지 않았고, Foundry 페이지에도 "preview" 태그가 붙어 있어. DALL-E 3 이후 OpenAI가 이미지 생성 쪽에서 밀리고 있다는 지적이 있었는데, MS가 그 공백을 자체 모델로 메우려는 시도로 읽혀.

모델 용도 주요 스펙 배포
MAI-Transcribe-1 ASR (25개 언어) Azure Fast 대비 2.5배 ↑ Foundry + MAI Playground
MAI-Voice-1 TTS / 보이스 클로닝 1초 연산 = 60초 오디오 Foundry + MAI Playground
MAI-Image-1 이미지 생성 스펙 미공개 Foundry (preview)

더 넓은 그림

이 발표를 읽는 키는 "OpenAI 의존도 축소"가 아니야. MS는 여전히 OpenAI 최대 투자자고, GPT-5.4를 Copilot 고품질 티어에 쓰고 있어. 달라지는 건 라우팅 전략이야.

간단한 음성 전사, 자막 생성, 기본 TTS는 MAI로 돌려서 비용을 줄이고, 복잡한 추론·코딩·에이전틱 태스크만 GPT-5.4에 넘기는 식이야. 클라우드 경제학에서 이 "저비용 경로"가 마진을 만들어. Copilot 프로 구독이 월 $20인데, 모든 요청을 GPT-5.4로 보내면 수익이 안 나지.

경쟁사 구도를 보면 이 움직임이 왜 지금인지 이해가 돼.

  • 구글: Gemini 3.1 Pro + Gemma 4 투트랙(프런티어 + 오픈)
  • 아마존: Nova + Titan + Anthropic 파트너십
  • 메타: Llama 4 + 내부 MTIA 칩
  • MS: Copilot(GPT-5.4) + MAI 시리즈

4월 2일 기준으로 세 빅 클라우드 모두 "자체 모델 + 파트너 모델" 하이브리드 전략이 완성됐어. 순수하게 OpenAI에만 기대는 회사는 ChatGPT 소비자 서비스를 제외하면 이제 거의 없어.

그래서 뭐가 달라지는데

개발자 관점

Azure OpenAI 서비스와 Azure AI Foundry에 한 번의 API 키로 GPT-5.4와 MAI-Voice-1을 섞어 쓸 수 있어. 하이브리드 에이전트(대화는 GPT, 음성은 MAI)를 만들 때 계약·빌링·리전 분리를 신경 쓸 필요가 없어졌어. 이게 실무자 입장에서 제일 크게 느껴질 변화야.

가격은 아직 미공개인데, MS가 "Azure OpenAI 대비 현저히 낮은 단가"를 시사했어. Azure Fast Transcription이 분당 약 $0.024였던 걸 감안하면 MAI-Transcribe-1은 $0.01 수준으로 떨어질 가능성이 있어.

기업/사용자 관점

Teams 실시간 자막, Outlook 음성 메일 전사, Word 받아쓰기 같은 "눈에 안 보이는" 기능이 먼저 MAI로 전환될 거야. 사용자는 차이를 모를 텐데, MS 입장에선 OpenAI 인보이스에서 월 수백만 달러가 빠지는 거지.

이번 뉴스는 Q1 2026 AI 펀딩 폭증 기사와 같이 읽으면 맥락이 잡혀. OpenAI가 $122B를 받는 동시에, 최대 고객이 "우리도 자체 모델 있어"라고 선언하는 시점이야. 시장이 돈은 붓지만 의존은 분산시키는 국면인 거지.

참고 자료