Google은 Gemini 3.1 시리즈에서 새로운 텍스트 음성 변환 모델인 Gemini‑TTS를 출시한다고 발표했습니다. 이 모델은 공식적으로 "현재까지 가장 표현력이 뛰어난 텍스트 음성 변환 솔루션"이라고 설명됩니다. 새로운 모델은 자연스러운 고음질 음성을 생성하는 동시에 개발자가 내레이션이나 대화의 어조, 일시 정지, 감정적 변화를 정확하게 조정하는 등 프롬프트를 통해 음성의 감정, 리듬 및 스타일을 제어할 수 있도록 해줍니다.

다중 언어 지원 측면에서 Gemini-TTS는 중국어(북경어), 영어, 스페인어, 독일어, 일본어 및 기타 주요 언어를 포함하여 약 70개 언어를 지원합니다. 모델은 언어 유형을 수동으로 표시하지 않고도 입력 텍스트의 언어를 자동으로 감지하고 해당 음성을 생성할 수 있습니다. 이 기능을 통해 개발자와 기업은 통합 API 세트를 사용하여 오디오북, 팟캐스트, 음성 도우미, 고객 서비스 로봇 및 교육 애플리케이션과 같은 시나리오에서 전 세계 사용자에게 다국어 음성 콘텐츠를 제공할 수 있습니다.

Google은 또한 Gemini‑TTS가 Gemini 3.1 시리즈의 다른 오디오 모델(예: Gemini 3.1 Flash Live)과 협력하여 "실시간 음성 경험" 기능을 더욱 향상시킨다는 점을 강조했습니다. 실시간 대화, 음성 번역 및 다중 모드 상호 작용에서 시스템은 텍스트 프롬프트 및 오디오 마커를 통해 음성 출력을 세밀하게 제어하는 ​​동시에 낮은 대기 시간을 유지할 수 있으므로 AI 에이전트가 전화 통화, 회의 및 내비게이션과 같은 시나리오에서 자연스러운 인간 음성 상호 작용에 더 가까워질 수 있습니다.