OpenAI는 양방향 음성 모델을 개발합니다. 방해를 받더라도 즉시 응답할 수 있어 통화가 더욱 자연스럽고 원활해집니다

언론 보도에 따르면,OpenAI는 사용자가 ChatGPT와 더욱 자연스럽고 원활하게 대화할 수 있도록 설계된 새로운 음성 모델을 개발하고 있습니다. 이 기술의 핵심 혁신은 AI가 말하는 도중 사용자가 시스템을 중단하면 AI가 지금처럼 갑자기 멈추는 것이 아니라 실시간으로 반응을 조정할 수 있다는 점이다.

현재 ChatGPT의 고급 음성 모드는 턴 기반 대화 메커니즘을 사용합니다. AI가 음성을 처리하고 답변을 생성하려면 먼저 사용자가 말하기를 완료해야 합니다. AI가 말할 때 사용자가 "알았어", "mm-hm" 등의 짧은 응답을 삽입하면 대개 시스템이 바로 중단되어 일반적인 대화처럼 의사소통을 이어갈 수 없게 된다.

이 문제를 해결하려면,OpenAI가 개발 중인 BiDi(양방향 음성 모델)는 화자의 음성 입력을 지속적으로 처리하므로 중단 시 즉시 응답을 조정할 수 있습니다.대조적으로, 기존 음성 모델이 답변을 생성하기 시작하면 출력 내용은 기본적으로 고정되어 새로운 입력에 따라 변경될 수 없습니다.

이 기술은 아직 개발 단계에 있습니다. 이 문제에 정통한 사람들에 따르면, 프로토타입 모델은 결함이 발생하기 쉬웠고, 몇 분 간의 지속적인 대화 후에도 때로는 부자연스러운 소리를 내기까지 했습니다. OpenAI 연구진은 당초 올해 1분기에 BiDi를 출시할 예정이었지만 최신 출시는 2분기 이후로 연기될 수도 있습니다.

OpenAI는 음성 모델이 성능적으로 텍스트 모델에 접근할 수 있다면, 대부분의 사람들이 텍스트를 입력하는 것보다 AI를 통한 음성 커뮤니케이션에 더 익숙해져 있기 때문에 AI 활용 범위가 더욱 확대될 것이라고 믿습니다. BiDi 모델은 고객 서비스 시나리오에서 특히 유용할 수 있습니다.

예를 들어 고객이 유통업체의 AI 고객센터와 대화할 때 고객이 대화 도중 일시적으로 제품을 반품하지 않고 교환하기로 결정한 경우, BiDi 모델은 이론적으로 AI 고객 서비스가 갑작스런 중단이나 혼란 없이 원활하게 대화를 조정할 수 있도록 해준다.

이 문제에 정통한 사람들은 BiDi 모델이 외부 도구와 애플리케이션을 호출하는 데에도 더 유연하다는 사실도 밝혔습니다.오픈AI는 앞서 음성으로 주로 상호작용하는 미래 AI 기기의 음성 모델을 개선할 예정이며, 음성 명령으로 이메일 확인이나 서비스 예약 등이 가능한 스마트 스피커 개발을 검토하고 있다고 밝힌 바 있다.