TOPMicrosoftMAIFoundation Model

Microsoft가 자체 파운데이션 모델 3종 풀었어

Q: 이 기사에 관련된 주요 기업이나 기관은?

이 기사에서 다루는 주요 기업/기관은 Microsoft, MAI, Foundation Model, Voice AI, TTS 등입니다.

Q: 이 기사는 언제 발행되었나?

이 기사는 2026-04-05에 spoonai에서 발행되었습니다.

Q: 이 기사에서 다루는 주요 주제는?

이 기사는 다음 주제를 다룹니다: 1초에 60초, 이걸 이해하려면, 핵심 내용 해부, 더 넓은 그림, 그래서 뭐가 달라지는데.

마이크로소프트가 MAI-Voice-1, MAI-Transcribe-1을 포함한 자체 파운데이션 모델 3종을 Foundry에 공개. OpenAI 의존도를 줄이려는 MS의 본격 신호탄이야.

2026년 4월 5일 (일)·4분 소요·

1초에 60초

마이크로소프트의 새 음성 모델 MAI-Voice-1이 1초 연산으로 60초짜리 오디오를 뱉는다고 해. 실시간보다 60배 빠르다는 얘기야. 이 숫자 자체도 대단한데, 진짜 뉴스는 따로 있어.

마이크로소프트는 지금까지 OpenAI 모델을 가져다 썼어. Copilot도, Azure OpenAI도 근본은 GPT-4 / GPT-5였지. 4월 2일, MS가 Azure Foundry에 처음으로 자체 파운데이션 모델 3종을 올렸어. MAI-Voice-1(음성 생성), MAI-Transcribe-1(음성 인식), 그리고 MAI-Image-1(이미지 생성). "Microsoft AI Internal"의 MAI 라인업이 외부에 공개된 건 이번이 처음이야.

이걸 이해하려면

마이크로소프트와 OpenAI의 관계는 오래전부터 복잡했어. 2019년 $1B 투자로 시작해서, 2023년 $10B 추가 투자와 함께 Azure 독점 배포권을 가져갔지. 한동안은 윈윈 구조였어. OpenAI는 연구에 집중하고, MS는 그 모델을 Copilot, Bing, Word, Outlook, Teams에 꽂아넣었지.

그런데 2025년부터 균열이 보이기 시작했어. Sam Altman 축출·복귀 사태 이후 MS는 "우리는 OpenAI 없이도 살 수 있다"는 포지션을 준비하기 시작했어. Inflection AI의 Mustafa Suleyman과 핵심 팀을 통째로 영입해서 Microsoft AI 조직을 만든 게 2024년 3월. 그 팀이 2년 동안 조용히 돌린 결과물이 이번 MAI 시리즈야.

시점	사건
2019	MS, OpenAI에 $1B 투자
2023	MS, $10B 추가 투자 + Azure 독점 배포권
2024-03	MS, Inflection AI 팀 영입 → Microsoft AI 설립
2024-08	MAI-1 내부 코드네임 첫 루머
2025	Copilot에 MAI-1 일부 라우팅 시작
2026-04	MAI 3종 Foundry 공개

이 맥락을 알아야 이번 발표가 "Azure에 모델 3개 올렸네" 수준이 아니라는 게 보여. 클라우드 세 거인 중에 자체 파운데이션 모델이 없던 건 MS뿐이었어. 구글은 Gemini, 아마존은 Nova. MS는 이제서야 자기 이름표 붙인 모델을 갖게 된 거야.

핵심 내용 해부

MAI-Transcribe-1 — Azure Fast보다 2.5배 빠른 ASR

첫 번째는 다국어 음성 인식(ASR, Automatic Speech Recognition) 모델이야. 25개 언어를 지원하고, 기존 Azure Fast Transcription 대비 2.5배 빠르다는 게 MS의 주장이야. 벤치마크 공개는 제한적이지만, TechCrunch 취재에 따르면 WER(Word Error Rate)은 거의 동일하면서 지연 시간만 줄였다고 해.

이게 왜 중요하냐면, 회의 녹음·콜센터·자막 생성 같은 용례에서 "실시간 처리"와 "후처리 배치"의 경계가 흐려지거든. 1시간짜리 회의 녹음을 2분 안에 전사할 수 있으면, 그건 UX가 바뀌는 수준이야.

MAI-Voice-1 — 커스텀 보이스 클로닝

두 번째는 음성 합성(TTS, Text-to-Speech) 모델. 핵심은 "60초 오디오를 1초에 생성"이 아니라, 사용자가 자기 목소리로 커스텀 보이스를 만들 수 있다는 점이야. OpenAI의 Advanced Voice Mode나 ElevenLabs와 직접 경쟁하는 영역이지.

MAI Playground에서 공개됐는데, 짧은 샘플 녹음만으로 개인화된 TTS 보이스를 만들 수 있어. MS는 "오남용 방지"를 위해 워터마크와 출처 메타데이터를 삽입한다고 밝혔어. Sora나 Veo 영상에 적용되는 C2PA 표준과 비슷한 방식이야.

MAI-Image-1

세 번째 이미지 생성 모델은 디테일이 가장 적게 공개됐어. TechCrunch 기사에서 스펙은 언급되지 않았고, Foundry 페이지에도 "preview" 태그가 붙어 있어. DALL-E 3 이후 OpenAI가 이미지 생성 쪽에서 밀리고 있다는 지적이 있었는데, MS가 그 공백을 자체 모델로 메우려는 시도로 읽혀.

모델	용도	주요 스펙	배포
MAI-Transcribe-1	ASR (25개 언어)	Azure Fast 대비 2.5배 ↑	Foundry + MAI Playground
MAI-Voice-1	TTS / 보이스 클로닝	1초 연산 = 60초 오디오	Foundry + MAI Playground
MAI-Image-1	이미지 생성	스펙 미공개	Foundry (preview)

더 넓은 그림

이 발표를 읽는 키는 "OpenAI 의존도 축소"가 아니야. MS는 여전히 OpenAI 최대 투자자고, GPT-5.4를 Copilot 고품질 티어에 쓰고 있어. 달라지는 건 라우팅 전략이야.

간단한 음성 전사, 자막 생성, 기본 TTS는 MAI로 돌려서 비용을 줄이고, 복잡한 추론·코딩·에이전틱 태스크만 GPT-5.4에 넘기는 식이야. 클라우드 경제학에서 이 "저비용 경로"가 마진을 만들어. Copilot 프로 구독이 월 $20인데, 모든 요청을 GPT-5.4로 보내면 수익이 안 나지.

경쟁사 구도를 보면 이 움직임이 왜 지금인지 이해가 돼.

구글: Gemini 3.1 Pro + Gemma 4 투트랙(프런티어 + 오픈)
아마존: Nova + Titan + Anthropic 파트너십
메타: Llama 4 + 내부 MTIA 칩
MS: Copilot(GPT-5.4) + MAI 시리즈

4월 2일 기준으로 세 빅 클라우드 모두 "자체 모델 + 파트너 모델" 하이브리드 전략이 완성됐어. 순수하게 OpenAI에만 기대는 회사는 ChatGPT 소비자 서비스를 제외하면 이제 거의 없어.

그래서 뭐가 달라지는데

개발자 관점

Azure OpenAI 서비스와 Azure AI Foundry에 한 번의 API 키로 GPT-5.4와 MAI-Voice-1을 섞어 쓸 수 있어. 하이브리드 에이전트(대화는 GPT, 음성은 MAI)를 만들 때 계약·빌링·리전 분리를 신경 쓸 필요가 없어졌어. 이게 실무자 입장에서 제일 크게 느껴질 변화야.

가격은 아직 미공개인데, MS가 "Azure OpenAI 대비 현저히 낮은 단가"를 시사했어. Azure Fast Transcription이 분당 약 $0.024였던 걸 감안하면 MAI-Transcribe-1은 $0.01 수준으로 떨어질 가능성이 있어.

기업/사용자 관점

Teams 실시간 자막, Outlook 음성 메일 전사, Word 받아쓰기 같은 "눈에 안 보이는" 기능이 먼저 MAI로 전환될 거야. 사용자는 차이를 모를 텐데, MS 입장에선 OpenAI 인보이스에서 월 수백만 달러가 빠지는 거지.

이번 뉴스는 Q1 2026 AI 펀딩 폭증 기사와 같이 읽으면 맥락이 잡혀. OpenAI가 $122B를 받는 동시에, 최대 고객이 "우리도 자체 모델 있어"라고 선언하는 시점이야. 시장이 돈은 붓지만 의존은 분산시키는 국면인 거지.

Microsoft가 자체 파운데이션 모델 3종 풀었어

1초에 60초

이걸 이해하려면

핵심 내용 해부