OpenAI는 오늘 개발자를 위한 "차세대 음성 응용 프로그램 양식 잠금 해제"를 목표로 세 가지 새로운 실시간 음성 모델을 출시했습니다. 이 세 가지 음성 인텔리전스 모델은 추론 대화, 실시간 번역, 실시간 전사와 같은 다양한 시나리오 요구 사항에 중점을 둡니다.

OpenAI에서 발표한 정보에 따르면 새 시리즈에는 GPT-Realtime-2, GPT-Realtime-Translate 및 GPT-Realtime-Whisper의 세 가지 모델이 포함됩니다. 그중 GPT‑Realtime‑2는 GPT‑5 수준 추론 기능을 갖춘 최초의 음성 모델로 포지셔닝되어 복잡한 요청을 더 잘 처리하고 보다 자연스러운 방식으로 대화를 계속 진행할 수 있습니다. 공식 소개에 따르면 이 모델은 실시간 음성 상호 작용을 위해 특별히 제작되었습니다. 사용자가 질문을 하거나 지시를 내릴 때 일관된 대화를 유지하면서 추론을 수행할 수 있습니다. 동시에 도구를 호출하고, 사용자 중단 및 수정을 처리하고, 현재 상황에 따라 보다 적절한 대응을 할 수도 있습니다.

두 번째 모델인 GPT‑Realtime‑Translate는 실시간 번역 기능에 중점을 두고 “70개 이상의 입력 언어와 13개 이상의 출력 언어”를 지원하며 번역 과정에서 화자의 말하기 속도를 따라잡으려고 노력합니다. 이 기능은 다국어 통화, 회의, 라이브 방송 등의 시나리오에서 이 모델이 '동시통역'에 가까운 경험을 제공할 것으로 기대된다는 것을 의미합니다.

세 번째 GPT‑Realtime‑Whisper는 지연 시간이 짧은 음성-텍스트 기능에 초점을 맞춘 실시간 스트리밍 음성 전사 모델입니다. OpenAI는 이 모델이 화자가 말하는 동안 즉시 전사를 완료할 수 있어 다양한 실시간 제품이 더 빠르고 반응성이 뛰어나며 자연스럽게 나타날 수 있다고 말했습니다. "말하면서 말하기" 라이브 자막부터 토론 속도를 따라갈 수 있는 회의 기록까지 이러한 응용 시나리오가 GPT-Realtime-Whisper의 주요 방향으로 간주됩니다.

액세스 방법 및 가격 측면에서 OpenAI는 Realtime API 시스템에 세 가지 새로운 음성 모델이 포함되었다고 밝혔습니다. GPT‑Realtime‑2의 가격은 오디오 입력 토큰 100만개당 32달러(캐시된 입력 토큰의 경우 0.40달러), 오디오 출력 토큰 100만개당 64달러입니다. GPT-Realtime-Translate의 가격은 분당 $0.034이고, GPT-Realtime-Whisper의 가격은 분당 $0.017입니다.

OpenAI는 개발자가 플레이그라운드를 통해 이러한 새로운 실시간 음성 모델을 직접 테스트할 수 있다고 밝혔습니다. Codex가 이미 설치되어 있는 경우 지정된 프롬프트에서 제출을 클릭하면 기존 애플리케이션에 GPT‑Realtime‑2를 추가하거나 모델을 기반으로 새 애플리케이션을 빠르게 생성할 수 있습니다. 관계자는 또한 홈페이지를 통해 이들 3가지 음성 모델의 기술적 세부사항과 일부 협력업체가 이를 실제 제품에 어떻게 활용했는지도 소개했다.

다중 양식 및 실시간 상호 작용을 향해 계속 진화하는 생성 AI의 맥락에서 OpenAI가 출시한 세 가지 음성 모델은 "음성 지능" 방향의 또 다른 중요한 레이아웃으로 간주됩니다. 추론, 번역 및 전사 기능의 통합 통합을 통해 개발자는 사용자에게 "즉시 사용 가능한" 음성 AI 경험을 보다 쉽게 ​​제공할 수 있습니다. 보조 도구부터 생산성 애플리케이션, 콘텐츠 생성 및 접근성 서비스에 이르기까지 새로운 탐색과 혁신을 가져올 것으로 예상됩니다.