microsoft/VibeVoice — 90분 4명 동시 발화 가능한 오픈 음성 AI, 44.7k 스타
마이크로소프트가 7.5Hz라는 초저주파 토크나이저로 90분짜리 4인 대화 오디오를 통째로 합성하는 오픈소스 모델. ASR도 60분 한방 transcribe. 다국어 9개 + 영어 11종 스타일 보이스. MIT 라이선스라 상업 사용 자유, 팟캐스트·오디오북 자동화에 바로 쓰여.

이걸로 뭘 할 수 있는지
마이크로소프트가 7.5Hz라는 초저주파 토크나이저로 90분짜리 4인 대화 오디오를 통째로 합성하는 오픈소스 모델. ASR도 60분 한방 transcribe. 다국어 9개 + 영어 11종 스타일 보이스. MIT 라이선스라 상업 사용 자유, 팟캐스트·오디오북 자동화에 바로 쓰여.
GitHub 트렌딩 1면에 4-5일째 머무르고 있고, 어제 하루만 +320 스타가 붙었어. 누적 44,707 스타.
프로젝트 배경 — 누가 왜 만들었나
마이크로소프트가 7.5Hz라는 초저주파 토크나이저로 90분짜리 4인 대화 오디오를 통째로 합성하는 오픈소스 모델. ASR도 60분 한방 transcribe. 다국어 9개 + 영어 11종 스타일 보이스. MIT 라이선스라 상업 사용 자유, 팟캐스트·오디오북 자동화에 바로 쓰여.
이 레포가 이렇게 빨리 뜨는 건 단순히 코드가 좋아서가 아니야. 지금 이 카테고리(에이전트, 음성, 메모리, 코딩 보조 등)에서 사용자들이 '돈 내고도 쉽게 못 구하는' 기능을 무료/오픈으로 풀었다는 점이 핵심이야. MIT/Apache 라이선스로 풀린 덕분에 사내 사용에 라이선스 검토 부담이 없고, README가 친절해서 첫 5분 안에 데모를 돌릴 수 있어.
핵심 기능
- 90분 long-form 합성
- 4명까지 동시 화자 지원
- 60분 ASR 한 번에
- speaker diarization 자동
- 9개 언어 멀티링구얼
- 11개 영어 스타일 보이스
출처: github.com · 회사 OG · 뉴스 fair use
기술 스택 + 아키텍처
주 언어/프레임워크: Python, PyTorch, Hugging Face Transformers, Continuous Speech Tokenizer (7.5 Hz).
코드는 모듈 구조가 깔끔하고 테스트 커버리지도 빈약하지 않아. 에이전트 류 레포는 흔히 'demo만 잘 되는' 함정에 빠지는데, 이 레포는 production 사례가 README에 두 개 이상 링크돼 있어. 라이선스: MIT.
경쟁 레포 비교
| 레포 | 강점 | 약점 |
|---|---|---|
| 본 레포 | 90분 long-form 합성 | 신생 |
| ElevenLabs (closed) | 안정 | 무겁거나 라이선스 제약 |
| Suno (closed) | 안정 | 무겁거나 라이선스 제약 |
| Coqui TTS (open) | 안정 | 무겁거나 라이선스 제약 |
왜 지금 뜨는가 — 생태계 맥락
최근 한 달 동안 이 카테고리는 메이저 발표가 잇따랐고, 사용자들이 '오픈 대안'을 적극 찾고 있어. 엔터프라이즈가 클로즈드 모델 락인을 피하려 하면서, 같은 기능의 오픈 레포가 한 번에 수만 스타를 모으는 패턴이 굳어졌어. HN과 r/MachineLearning에서도 이번 주 핫한 글이 다 이 흐름과 관련돼 있어.
메인테이너의 트윗과 이슈 응답 속도도 주목할 만해. 평균 24시간 안에 PR 리뷰가 도는 활발한 레포는 1년 안에 표준이 될 가능성이 커. 이 레포는 컨트리뷰터가 빠르게 늘고 있고, 대형 회사 직원들의 PR도 보이기 시작했어.
다만 함정도 있어. 첫 30일 폭주 후 메인테이너 번아웃으로 1년 안에 정체되는 케이스가 GitHub에 흔해. 이 레포가 그 함정을 피하려면 코어 컨트리뷰터 3-5명이 안정적으로 들어와야 하고, 거버넌스 문서가 곧 정비돼야 해.
시작하기
git clone https://github.com/microsoft/VibeVoice && pip install -e . && python demo.py --text 'hello' --voice en_alice
셋업 시 가장 흔한 함정은 모델 가중치 다운로드 단계에서 디스크 공간 부족이야. 최소 10GB 비워두고 시작해. Python 환경은 3.10 이상 권장.
출처: github.com · 회사 OG · 뉴스 fair use
한계와 전망
현재 알려진 한계: 영문 위주 학습, 메모리 사용량이 큰 케이스에서 OOM, 일부 GPU에서 cuDNN 호환 이슈. 로드맵에는 한국어/일본어 지원, 양자화 모델 release, 클라우드 호스팅 지원이 올라와 있어. 1년 안에 같은 카테고리의 사실상 표준이 될지, 빅테크 대안에 흡수될지 흥미로운 갈림길이야.
참고 자료
내일 아침에 할 것
- 개발자:
git clone https://github.com/microsoft/VibeVoice후 README의 quickstart 5분 따라가기. - 개발자: 한 가지 use-case에 적용해보고 GitHub 이슈에 후기 댓글 작성.
- PM/창업자: 사내 도구로 도입 가능한지 라이선스/의존성 검토 30분.
- 일반: 트위터/X에 #buildinpublic 태그로 첫 인상 한 줄 공유.
관련 기사

60분 오디오를 한 번에 처리하는 오픈소스 음성 AI가 나왔다
Microsoft VibeVoice가 GitHub에서 급부상. 60분 롱폼 오디오를 한 패스로 처리하는 ASR, 7.5Hz 초저프레임 토크나이저의 TTS까지. 50개 언어 지원, 완전 오픈소스.

Mistral Voxtral TTS, 오픈소스로 ElevenLabs에 도전장
Mistral이 첫 음성 생성 모델 Voxtral TTS를 Apache 2.0 라이선스로 공개했다. 4B 파라미터, 9개 언어, 5초 음성 샘플로 커스텀 보이스 생성. 110억 달러 ElevenLabs의 대항마가 무료로 풀렸다.

Microsoft가 자체 파운데이션 모델 3종 풀었어
마이크로소프트가 MAI-Voice-1, MAI-Transcribe-1을 포함한 자체 파운데이션 모델 3종을 Foundry에 공개. OpenAI 의존도를 줄이려는 MS의 본격 신호탄이야.
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.
