spoonai
TOPOpenAIGPT-Realtime-2voice AI

OpenAI, 음성 모델 3종 공개 + Realtime API GA — 음성 에이전트 시대 본격 출발선이야

OpenAI가 5월 7일 GPT-Realtime-2, Realtime-Translate, Realtime-Whisper를 공개하고 Realtime API를 GA로 풀었어. 컨텍스트가 32K→128K로 4배, Big Bench Audio에서 1.5 대비 15.2%p 개선. 음성 에이전트가 콜센터·의료·교육·번역에서 플러그인처럼 깔리는 시점이 시작됐어.

·8분 소요·OpenAIOpenAI
공유
OpenAI GPT-Realtime-2 음성 인텔리전스 모델 3종 공개
출처: OpenAI / MarkTechPost

음성 모델 3종 동시 공개 + Realtime API GA — 5월 7일의 의미

5월 7일 OpenAI가 음성 인텔리전스 패키지를 한 번에 풀었어. (1) GPT-Realtime-2 — GPT-5급 추론을 가진 첫 음성 모델, (2) GPT-Realtime-Translate — 50개 언어 즉시 번역, (3) GPT-Realtime-Whisper — 차세대 음성 인식. 그리고 가장 중요한 건, Realtime API가 베타에서 GA로 졸업했다는 점. 즉 SLA, 가격 안정성, 엔터프라이즈 컨트랙트가 가능해졌어.

핵심 숫자들. GPT-Realtime-2는 컨텍스트 32K → 128K로 4배 확장. Big Bench Audio에서 1.5 대비 15.2%p 향상, Audio MultiChallenge에서 13.8p 향상. 가격은 input $32/1M, output $64/1M(텍스트 기준 환산). Translate $0.034/분, Whisper $0.017/분. 즉 콜센터 1콜 평균 6분이라면 Translate 비용은 $0.20. 사람 통역사 시급 대비 1/100 수준.

이게 왜 변곡점이냐. 기존 음성 AI는 (1) 추론이 느려서 사람과 대화가 끊겼고, (2) 컨텍스트가 짧아서 긴 통화를 한 번에 못 다뤘고, (3) Realtime API가 베타라서 production deploy를 망설이는 회사가 많았어. 이번 발표가 세 가지 모두를 동시에 해결했어. 콜센터·의료 상담·라이브 번역·온라인 교육·드라이브 스루 같은 분야가 12-18개월 안에 음성 AI 풀 deploy로 전환되는 시작점이야.

각 모델 소개 — Realtime-2, Translate, Whisper

GPT-Realtime-2. 이름 그대로 "음성 in, 음성 out"을 GPT-5급 추론과 함께 처리하는 모델. 가장 큰 변화는 (1) 컨텍스트 32K→128K 확장으로 1시간 통화를 한 번에 끌고 가도 외부 state 스티칭이 필요 없어졌고, (2) 도구 호출(function calling)을 음성 도중에 끊김 없이 실행, (3) 사용자가 중간에 끼어들면(barge-in) 자연스럽게 대응. Big Bench Audio 15.2p 향상은 단순 인식 정확도가 아니라 "음성 추론 + 도구 사용 + 대화 흐름 유지"의 종합 성능. 음성 톤·억양·감정 인식도 1.5 대비 향상.

GPT-Realtime-Translate. 50개 언어 양방향 즉시 번역. 화자 인식까지 결합해 회의에서 두 사람이 다른 언어로 동시에 말해도 각자 맥락 유지. 분당 $0.034면 1시간 회의 $2.04 수준. Cisco·Zoom·MS Teams가 이미 RC API로 통합 발표.

GPT-Realtime-Whisper. Whisper-Large-v4 기준 차세대. 단어 오류율(WER)이 영어 1.8%(이전 v3 3.2%), 한국어 4.3%(이전 7.1%), 스페인어 2.1%, 중국어 4.9%. Speaker diarization 정확도 92%, noise 내성 강화. 분당 $0.017로 STT 가격이 1년 전 $0.06 대비 1/3.5.

Realtime API GA. 베타 7개월 → GA 졸업. SLA 99.9% 보장, 가격 12개월 lock 옵션, 엔터프라이즈 admin·로깅·SOC 2 Type II 통합. Voice Activity Detection 자동 처리, 동시 세션당 최대 10MB 오디오 버퍼, WebRTC + WebSocket 두 모드 지원.

핵심 내용 — 가격, 벤치마크, 통합 사례

모델 Input Output 핵심 벤치 비고
GPT-Realtime-2 $32/1M tokens $64/1M tokens Big Bench Audio +15.2p 128K 컨텍스트
Realtime-Translate $0.034/분 (포함) 50개 언어 양방향 Cisco/Zoom 통합
Realtime-Whisper $0.017/분 (없음) WER 영어 1.8% Speaker diarization
이전 GPT-Realtime-1.5 $40/1M $80/1M Big Bench Audio 베이스 32K 컨텍스트

얼리 어댑터 사례.

  • Salesforce Service Cloud Voice: Realtime-2를 1차 콜 응대에 깔아 평균 처리 시간 4분 30초→2분 50초로 37% 단축. 1차 응대 해소율 41%→63%.
  • Cisco Webex / MS Teams: Realtime-Translate를 multi-party 회의에 통합. 베타 사용자 보고로 회의 효율 30% 개선, 불필요한 통역사 비용 80% 절감.
  • Khan Academy: GPT-Realtime-2 기반 음성 튜터 "Khanmigo Voice" 출시. 학생이 음성으로 수학 풀이 과정을 설명하고 모델이 즉시 피드백.
  • Anthropic Claude는 GPT-Realtime API를 안 씀 — 자체 Voice Mode가 별도 path. 즉 음성 API 표준이 OpenAI Realtime으로 굳어지는 중.

개발자 입장 변화. 이전엔 (a) STT(Whisper) → (b) LLM(GPT-4) → (c) TTS(ElevenLabs)를 직접 파이프라인으로 묶어야 했고 latency가 1-2초였어. Realtime API GA로 (a~c)가 single endpoint, 평균 latency 350ms. 사람과의 자연스러운 대화 임계점이 깨졌어. 콜센터 IVR 교체 프로젝트의 ROI가 12개월에서 6개월로 단축.

각자의 이득 — 누가 무엇을 얻나

OpenAI는 음성 인프라 표준 자리를 굳혀. ChatGPT Voice Mode + Realtime API를 같은 백본으로 운영하면서 기업·개발자 모두에게 "음성 AI = OpenAI"라는 default를 만들어. 매출 측면에서 음성 토큰은 텍스트보다 단가가 4-5배 높아 ARR 가속에 직접 기여.

Salesforce·Cisco·Zoom 같은 SaaS 통합사: 각자 음성 모델을 직접 만들 필요 없이 OpenAI API를 깔고 자기 워크플로 위에 음성 레이어를 얹어. R&D 비용 절감 + 출시 시간 단축. 다만 음성 AI 단가 = OpenAI 가격 정책에 노출되는 락인 리스크는 있음.

콜센터 운영사 (Concentrix, Teleperformance): AHT 30-40% 단축으로 풀필먼트 비용 절감. 동시에 인간 상담사 비중 50%→30% 시나리오. 인력 비즈니스 모델의 구조적 압박. 차별화는 (1) 한국어/일본어/베트남어 같은 비영어 강점, (2) 인간 + AI 하이브리드 워크플로 디자인.

의료/원격 진료 (Teladoc, Babylon): Whisper v4 정확도로 원격 진료 음성 → 차트 자동 변환이 임상 적용 가능 수준 도달. HIPAA 컴플라이언스 갖춘 음성 의료 AI 시장의 카테고리 정의 단계.

번역 시장 (Lilt, DeepL): 텍스트 번역에서 음성 번역으로 시장이 확장. DeepL은 자체 음성 모델로 응대 중이지만, 인프라 투자 부담이 OpenAI 대비 큼. Translate $0.034/분의 가격 압박이 직접적.

과거 유사 사례 — Whisper-1 2022, Twilio 2010, IBM Watson Voice 2014

Whisper-1 오픈소스 공개 2022년. OpenAI가 처음 음성 인식을 무료 공개했을 때, 음성 STT 시장 가격이 1년 만에 80% 빠졌어. 동시에 Whisper 기반 스타트업이 폭발적으로 늘었지(Otter.ai, Fireflies, Read.ai 등). 이번 Realtime-2는 같은 패턴을 "음성 추론 + 대화 + 번역" 전체로 확장. STT 시장 변동의 10배 임팩트가 음성 AI 전체에 올 가능성.

Twilio 2010년 음성/SMS API. 통신 인프라를 API로 추상화하면서 콜센터·SaaS 통합사들의 빌드 시간을 90% 단축. 시총 $300억대로 성장. Realtime API GA가 OpenAI에게 "음성 AI의 Twilio" 자리를 잡아 줄 가능성. 시총 평가 모델이 SaaS 인프라 회사로 확장돼.

IBM Watson Voice 2014년. 음성 + 자연어를 통합 인지 컴퓨팅으로 출시했지만 정확도/가격/통합 마찰로 실패. Realtime-2의 차별점은 (1) WER 1.8%로 이전 세대 대비 절반, (2) 단가 경쟁력, (3) 단일 API로 통합 마찰 최소화. 그래도 IBM Watson의 교훈을 보면 "기술 우위 ≠ 시장 채택 보장"이라는 점은 잊으면 안 돼.

반대 사례: Amazon Lex / Google Dialogflow. 클라우드 콜센터 음성 모델은 5년 넘게 시장에 있었지만 채택률이 정체. 이유는 (1) 정확도 부족, (2) 다이얼로그 디자인 도구 부족, (3) 가격이 기대치보다 높음. Realtime-2는 세 가지 모두 해소. Amazon/Google은 OpenAI에 빠르게 따라가야 하는 입장.

경쟁자 카운터 플레이 — Anthropic·Google·Amazon·ElevenLabs

Anthropic의 카운터. Claude Voice Mode가 ChatGPT Voice Mode와 직접 경쟁하지만, API 형태로 외부 개발자에 제공하는 시점은 아직 미정. 5월 5일 Opus 4.7 발표에서 음성 API 언급은 없었음. 강점은 모델 정확도, 약점은 음성 latency 인프라. 6-12개월 안에 Realtime API 동급 출시가 시급. 안 하면 음성 카테고리 자체를 OpenAI에게 잃을 위험.

Google의 카운터. Gemini Live가 ChatGPT Voice Mode 대항마. Vertex AI에 Live API로 노출 중. 강점은 (1) Gemini 3.1 Ultra 멀티모달 성능, (2) 50개 언어 즉시 번역(이미 자체 인프라). 약점은 Cisco/Zoom 같은 엔터프라이즈 통합 부족. Google Cloud Contact Center AI를 풀스택으로 다시 패키징할 필요.

Amazon의 카운터. AWS Polly + Transcribe + Bedrock Voice를 묶어 풀 스택으로 응대 중. 강점은 AWS 락인된 엔터프라이즈 베이스. 5월 7일 Bedrock AgentCore Payments와 같은 자리에서 음성 에이전트 발표 가능성도 있었지만 안 함. 음성에서는 OpenAI 대비 2-3분기 늦어짐.

ElevenLabs / Cartesia 같은 음성 전문 스타트업. ElevenLabs는 TTS 품질 1위(자연스러움)로 차별화. OpenAI Realtime-2 출시 직후 5월 9일 자체 Conversational AI v3를 발표하며 latency 200ms 목표. 차별화는 (1) 음성 톤/감정 커스터마이징 압도적 우위, (2) 영어 외 비영어 음성 합성에서 높은 품질, (3) 자체 음성 클로닝 기능. 다만 음성 추론 부분은 외부 LLM(OpenAI/Anthropic) 의존.

Korea-specific: 네이버 클로바 / SK텔레콤. 클로바 Voice는 한국어 STT/TTS 정확도에서 글로벌 대비 우위. SKT는 자체 A. AI 비서 인프라. 둘 다 OpenAI Realtime-2의 한국어 정확도 향상으로 압박을 받지만, 한국 콜센터 데이터·발음 특성·문화 컨텍스트 학습은 여전히 차별화 가능. 주요 카드: 한국어 코드 스위칭, 사투리 대응, 한국 특화 BPO 데이터셋.

그래서 뭐가 달라지는데 — 페르소나별

개발자/스타트업: 음성 AI 기반 SaaS 빌드가 단일 API + 350ms latency로 가능해져. 콜센터 자동화, 의료 음성 차트, AI 튜터, 음성 코치, 음성 가이드 게임 — 카테고리 다양성이 폭발. 단가 안정으로 ROI 모델링 정확도 향상. Realtime-2 컨텍스트 128K로 1시간 세션 한 번에 처리.

콜센터 매니저/CCO: AHT 단축 30-40% + 1차 응대 해소율 60%+ 시나리오를 6-12개월 안에 만들 수 있어. 인력 비중 점진적 축소(50%→30%)와 인간 상담사 업스킬링(고가치 케이스 전담)을 병행하는 운영 모델 설계가 핵심. 단순 자동화가 아니라 "AI-First, Human-Escalation" 워크플로.

의료/원격 진료 책임자: 의사 음성 → 차트 자동화로 의사당 환자 진료 시간 30% 단축. 다만 HIPAA·개인정보보호법 준수가 필수. Whisper-Realtime의 정확도가 임상 사용 적합 수준에 도달했지만, 의료 도메인 fine-tuning + 휴먼 검증 레이어 필수.

교육 분야: Khanmigo Voice 같은 음성 튜터가 학생당 단가 $5-10/월 수준으로 가능. 한국 인강 시장(메가스터디·이투스)도 음성 튜터 도입 검토 임박. 단, 교사 채용 압박으로 갈지, 보조 도구로 자리잡을지는 정책 변수.

번역/통역 종사자: 라이브 통역 시장이 인간 → AI로 빠르게 전환. 분당 $0.034 가격은 인간 통역사 분당 $30-100 대비 1/1000 수준. 차별화 영역은 (1) 법률·의료 같은 정밀도 필수 영역, (2) 외교/정치 같은 컨텍스트 깊이 필수 영역. 일반 비즈니스 통역은 6-12개월 안에 80% AI 전환 시나리오.

한국 시장 시사점: 콜센터 BPO 산업(KT cs, LG U+ 등)에 직접 충격. 한국어 WER 4.3%로 GPT-Realtime-Whisper가 임계점 도달. 12-24개월 안에 한국 콜센터 자동화 비율 30%→60% 시나리오. 동시에 한국형 음성 AI 스타트업(Tridge Voice, Spitch.ai 등)에게 차별화 압박과 동시에 인프라 단가 절감 기회.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지