Mistral Voxtral TTS, 오픈소스로 ElevenLabs에 도전장
Mistral이 첫 음성 생성 모델 Voxtral TTS를 Apache 2.0 라이선스로 공개했다. 4B 파라미터, 9개 언어, 5초 음성 샘플로 커스텀 보이스 생성. 110억 달러 ElevenLabs의 대항마가 무료로 풀렸다.

뭔가 바뀌는 느낌 있지 않아?
Mistral이 2026년 3월 26일에 음성 생성 모델 Voxtral TTS를 Apache 2.0 라이선스로 풀었다. 완전 오픈소스다. 뭐가 대단한데?
음성 AI 시장에서 지금까지 시황을 대체로 ElevenLabs 같은 클로즈드 모델들이 지배했다. ElevenLabs는 최근 Series D 라운드에서 5억 달러를 모았고, 기업가치가 110억 달러까지 올랐다. TTS(Text-To-Speech) 분야는 상당히 수익성 있는 구간이라는 뜻이다. 그 와중에 Mistral이 "우리가 더 잘 만들었고, 무료로 공개할 거"라고 던져버린 거다.
이건 단순한 기술 뉴스가 아니다. 음성 AI 시장의 구조를 흔들 수 있는 신호다.
그래서 Voxtral TTS가 뭘 하는 모델인데?
기본부터 시작하자.
TTS (Text-To-Speech)는 텍스트를 들을 수 있는 음성으로 변환하는 기술이다. 간단해 보이지만, 자연스럽고 감정 있는 음성을 만드는 건 어렵다. 단조로운 로봇음이 아니라, 실제 사람처럼 들리는 음성을 만들어야 하니까.
Voxtral TTS는 4B 파라미터(40억 개의 뉴런) 규모의 모델이다. 큰 모델은 아니다. 최신 LLM들이 보통 7B에서 405B 규모인 걸 생각하면, Voxtral은 "경량급"이다. 근데 이게 장점이다.
가볍다는 건:
- 자신의 노트북이나 개인용 GPU에서 돌릴 수 있다
- 고가의 클라우드 인프라에 의존할 필요 없다
- 배포 비용이 극도로 낮아진다
- 프라이버시도 보장된다 (데이터가 회사 서버로 안 올라간다)
지원 언어는: English, French, German, Spanish, Dutch, Portuguese, Italian, Hindi, Arabic. 9개 언어다.
속도는: TTFA (Time-To-First-Audio, 첫 음성까지 소요 시간): 90밀리초. 이건 빠르다. 10초짜리 샘플을 1.6초 만에 생성한다. (Real-time factor 6x)
커스텀 보이스: 5초 이상의 음성 샘플만 있으면, 그 음성 스타일을 학습해서 새 텍스트를 같은 목소리로 읽어낼 수 있다. 변호사 로봇이 필요해? 변호사 목소리 샘플 5초면 된다.
음성 품질: 24 kHz 오디오, WAV/PCM/FLAC/MP3/AAC/Opus 포맷 지원. 전문적인 수준이다.
ElevenLabs와 뭐가 다른데?
| 항목 | Voxtral (Mistral) | ElevenLabs |
|---|---|---|
| 라이선스 | Apache 2.0 (오픈소스) | 클로즈드 (상용) |
| 가격 | 무료 | 월 $5 ~ $99 |
| 배포 | 자신의 서버에서 실행 가능 | API로만 사용 |
| 모델 크기 | 4B 파라미터 (경량) | 공개 안 함 |
| 커스텀 음성 | 5초 샘플로 가능 | 더 긴 샘플 필요 |
| 다국어 지원 | 9개 언어 | 20+ 언어 |
| 속도 | Real-time 6x (매우 빠름) | 비공개 |
| 크로스링구얼 | 지원 (한 음성으로 여러 언어 생성) | 제한적 |
가장 큰 차이는 자율성이다. ElevenLabs는 API를 통해서만 쓸 수 있다. Mistral은 다운로드해서 내 서버에서 돌린다. 비용도 0이고, 속도 제약도 없다.
왜 이렇게 빠르게 나왔어?
Mistral은 LLM 회사인데, 왜 음성 모델을 만들기 시작했을까?
이건 생태계 전략이다.
-
전문화. Mistral은 이미 텍스트 모델에서 좋은 평가를 받고 있다 (Mistral 7B, Mixtral 8x7B 등). 음성은 자연스러운 확장이다. "모든 모달리티를 아우르는 AI 회사"가 되려는 움직임.
-
차별화. 텍스트 LLM만으로는 경쟁이 포화되고 있다. 음성 생성이라는 새로운 영역에 진입하면, 더 광범위한 고객층에게 어필할 수 있다.
-
ElevenLabs의 높은 가격이 기회다. 사람들은 항상 "더 싸고 좋은 걸 원한다." Voxtral은 "오픈소스이고 자유로워"라는 포지션을 점할 수 있다. ElevenLabs처럼 매달 돈을 내고 싶지 않은 사람들이 있다.
-
기술 능력이 있다. Mistral은 충분한 엔지니어링 역량을 보유했다. 음성 모델을 만들 수 있는 팀이 있다는 뜻.
더 넓은 맥락—음성 AI 시장의 재편
음성 AI는 지금 매우 흥미로운 위치에 있다.
| 시점 | 상황 |
|---|---|
| 2022년 | ElevenLabs 설립, 고가 API로 시작 |
| 2024년 | 오픈소스 대안들 등장 (Coqui TTS, Vall-E 등) |
| 2025년 | Google, OpenAI가 음성 기능 출시 |
| 2026년 (지금) | Mistral, 경량 고성능 오픈소스 모델 공개 |
지금 벌어지고 있는 건 **"음성 AI의 민주화"**다.
예전엔 ElevenLabs 같은 회사만 상용급 TTS를 만들 수 있었다. 기술이 어렵고, 인프라 비용이 크고, 학습 데이터도 많이 필요했기 때문이다.
근데 이제:
- 오픈소스 모델들이 충분히 좋아졌다
- 경량화 기술이 발전했다
- 개인 개발자도 자신의 서버에서 돌릴 수 있다
Voxtral TTS는 이 변화를 체계화한 것이다.
이게 실제로 ElevenLabs를 위협할까?
단기적으로는 아닐 수도 있다.
ElevenLabs는 이미 확립된 고객 기반이 있다. 수백만 명의 유료 사용자, 각종 통합, 우수한 UI—이런 건 쉽게 따라잡지 못한다.
근데 장기적으로는?
개인 개발자들은 지금 옮긴다. 음성이 필요한 프로젝트를 만드는 소규모 팀들은 "무료 + 자유로운"을 선택할 것이다. ElevenLabs의 "폭탄 요금" 구조(초기엔 싸지만, 스케일하면 비싸진다)에 불만인 사람들도 많다.
기업도 관심 가진다. "우리 서버에서 돌릴 수 있는 음성 모델"은 프라이버시를 신경 쓰는 기업들에게 매력적이다. 의료, 금융, 법률 같은 분야에선 데이터가 외부로 나가면 안 된다.
다른 오픈소스 음성 모델들이 자극받는다. Mistral의 움직임은 신호다. 더 많은 팀이 더 좋은 음성 모델을 공개할 것이다. 경쟁이 가열된다.
그래서 뭐가 달라지는데?
세 가지 변화가 예상된다.
첫째, TTS의 가격이 아래로 내려간다. ElevenLabs가 가격을 올리고 싶어도, 무료 대안이 있으면 못 올린다. 가격 경쟁이 벌어질 거다.
둘째, 음성 기능을 가진 앱이 많아진다. 지금까진 "음성 기능은 ElevenLabs API 쓰는 건데, 비싸니까 생략하자"는 결정을 많이 했다. 이제는 "Voxtral 다운로드해서 돌리자"가 된다. 갑자기 음성 기능이 있는 앱들이 많아질 것이다.
셋째, Mistral의 위상이 올라간다. LLM만으로는 "또 다른 모델 회사"였는데, 음성까지 하면 "멀티모달 AI 회사"가 된다. OpenAI나 Google 수준으로 생각되기 시작한다.
마지막으로
Voxtral TTS가 ElevenLabs를 완전히 박살 낸다는 건 아니다. ElevenLabs는 지금도 대량의 사용자를 가지고 있고, 엔터프라이즈 고객도 있다.
근데 이건 틀림없는 신호다: 음성 AI 시장이 오픈소스로 가고 있다는 신호.
이 과정은:
- 비용을 낮춘다
- 접근성을 높인다
- 혁신을 가속한다
- 기존 주자들의 독점을 약화한다
Voxtral TTS는 "AI가 어떻게 민주화되고 있는가"를 완벽하게 보여주는 사례다. 텍스트에서는 이미 벌어졌고, 이제 음성에서도 벌어지고 있다. 비전도 이 흐름을 따를 것이다.
앞으로 1–2년 사이, 음성 기능이 필요한 앱을 만드는 개발자들은 거의 다 Voxtral 같은 오픈소스 모델을 쓸 거다. 그게 미래다.
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



