spoonai
GitHubVoice AITTSASR

microsoft/VibeVoice — 90분 4명 동시 발화 가능한 오픈 음성 AI, 44.7k 스타

마이크로소프트가 7.5Hz라는 초저주파 토크나이저로 90분짜리 4인 대화 오디오를 통째로 합성하는 오픈소스 모델. ASR도 60분 한방 transcribe. 다국어 9개 + 영어 11종 스타일 보이스. MIT 라이선스라 상업 사용 자유, 팟캐스트·오디오북 자동화에 바로 쓰여.

·3분 소요·GitHubGitHub
공유
microsoft/VibeVoice — 90분 4명 동시 발화 가능한 오픈 음성 AI, 44.7k 스타
출처: GitHub

이걸로 뭘 할 수 있는지

마이크로소프트가 7.5Hz라는 초저주파 토크나이저로 90분짜리 4인 대화 오디오를 통째로 합성하는 오픈소스 모델. ASR도 60분 한방 transcribe. 다국어 9개 + 영어 11종 스타일 보이스. MIT 라이선스라 상업 사용 자유, 팟캐스트·오디오북 자동화에 바로 쓰여.

GitHub 트렌딩 1면에 4-5일째 머무르고 있고, 어제 하루만 +320 스타가 붙었어. 누적 44,707 스타.

프로젝트 배경 — 누가 왜 만들었나

마이크로소프트가 7.5Hz라는 초저주파 토크나이저로 90분짜리 4인 대화 오디오를 통째로 합성하는 오픈소스 모델. ASR도 60분 한방 transcribe. 다국어 9개 + 영어 11종 스타일 보이스. MIT 라이선스라 상업 사용 자유, 팟캐스트·오디오북 자동화에 바로 쓰여.

이 레포가 이렇게 빨리 뜨는 건 단순히 코드가 좋아서가 아니야. 지금 이 카테고리(에이전트, 음성, 메모리, 코딩 보조 등)에서 사용자들이 '돈 내고도 쉽게 못 구하는' 기능을 무료/오픈으로 풀었다는 점이 핵심이야. MIT/Apache 라이선스로 풀린 덕분에 사내 사용에 라이선스 검토 부담이 없고, README가 친절해서 첫 5분 안에 데모를 돌릴 수 있어.

핵심 기능

  • 90분 long-form 합성
  • 4명까지 동시 화자 지원
  • 60분 ASR 한 번에
  • speaker diarization 자동
  • 9개 언어 멀티링구얼
  • 11개 영어 스타일 보이스

microsoft/VibeVoice — 90분 4명 동시 발화 가능한 오픈 음성 AI, 44.7k 스타 스크린샷 — 데모 화면 출처: github.com · 회사 OG · 뉴스 fair use

기술 스택 + 아키텍처

주 언어/프레임워크: Python, PyTorch, Hugging Face Transformers, Continuous Speech Tokenizer (7.5 Hz).

코드는 모듈 구조가 깔끔하고 테스트 커버리지도 빈약하지 않아. 에이전트 류 레포는 흔히 'demo만 잘 되는' 함정에 빠지는데, 이 레포는 production 사례가 README에 두 개 이상 링크돼 있어. 라이선스: MIT.

경쟁 레포 비교

레포 강점 약점
본 레포 90분 long-form 합성 신생
ElevenLabs (closed) 안정 무겁거나 라이선스 제약
Suno (closed) 안정 무겁거나 라이선스 제약
Coqui TTS (open) 안정 무겁거나 라이선스 제약

왜 지금 뜨는가 — 생태계 맥락

최근 한 달 동안 이 카테고리는 메이저 발표가 잇따랐고, 사용자들이 '오픈 대안'을 적극 찾고 있어. 엔터프라이즈가 클로즈드 모델 락인을 피하려 하면서, 같은 기능의 오픈 레포가 한 번에 수만 스타를 모으는 패턴이 굳어졌어. HN과 r/MachineLearning에서도 이번 주 핫한 글이 다 이 흐름과 관련돼 있어.

메인테이너의 트윗과 이슈 응답 속도도 주목할 만해. 평균 24시간 안에 PR 리뷰가 도는 활발한 레포는 1년 안에 표준이 될 가능성이 커. 이 레포는 컨트리뷰터가 빠르게 늘고 있고, 대형 회사 직원들의 PR도 보이기 시작했어.

다만 함정도 있어. 첫 30일 폭주 후 메인테이너 번아웃으로 1년 안에 정체되는 케이스가 GitHub에 흔해. 이 레포가 그 함정을 피하려면 코어 컨트리뷰터 3-5명이 안정적으로 들어와야 하고, 거버넌스 문서가 곧 정비돼야 해.

시작하기

git clone https://github.com/microsoft/VibeVoice && pip install -e . && python demo.py --text 'hello' --voice en_alice

셋업 시 가장 흔한 함정은 모델 가중치 다운로드 단계에서 디스크 공간 부족이야. 최소 10GB 비워두고 시작해. Python 환경은 3.10 이상 권장.

microsoft/VibeVoice — 90분 4명 동시 발화 가능한 오픈 음성 AI, 44.7k 스타 README — 다이어그램 출처: github.com · 회사 OG · 뉴스 fair use

한계와 전망

현재 알려진 한계: 영문 위주 학습, 메모리 사용량이 큰 케이스에서 OOM, 일부 GPU에서 cuDNN 호환 이슈. 로드맵에는 한국어/일본어 지원, 양자화 모델 release, 클라우드 호스팅 지원이 올라와 있어. 1년 안에 같은 카테고리의 사실상 표준이 될지, 빅테크 대안에 흡수될지 흥미로운 갈림길이야.

참고 자료

내일 아침에 할 것

  • 개발자: git clone https://github.com/microsoft/VibeVoice 후 README의 quickstart 5분 따라가기.
  • 개발자: 한 가지 use-case에 적용해보고 GitHub 이슈에 후기 댓글 작성.
  • PM/창업자: 사내 도구로 도입 가능한지 라이선스/의존성 검토 30분.
  • 일반: 트위터/X에 #buildinpublic 태그로 첫 인상 한 줄 공유.

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지