4월 9일, ByteDance는 대규모 기본 전이중 음성 모델인 Seeduplex를 출시했으며 이제 Doubao 앱에서 완전히 출시되었습니다. 이 모델은 "동시에 듣고 말하기"라는 새로운 프레임워크 디자인을 기반으로 합니다. 이전 세대 반이중 종단 간 음성 모델과 비교하여 듣기와 말하기의 실시간 상호 작용을 동시에 달성하고 대화 리듬, 자연스러움 및 간섭 방지 능력을 향상시킵니다.

공식 소개에 따르면 Seeduplex는 모델 아키텍처 혁신과 훈련 최적화를 통해 높은 동시성에서 지연 및 안정성과 같은 엔지니어링 문제를 극복했습니다. 정확한 간섭 방지 측면에서, 모델은 지속적으로 "듣고" 사용자가 위치한 음향 환경을 이해하며 배경 소음과 관련 없는 대화를 정확하게 무시하는 기능을 갖추고 있습니다. 복잡한 시나리오에서 잘못된 응답 비율과 잘못된 중단 비율은 반이중 모델에 비해 50% 감소합니다. 동적 의사결정 측면에서 모델은 음성 및 의미론적 특징을 결합하여 사용자의 의도를 종합적으로 판단합니다. 사용자가 주저할 때는 참을성 있게 듣고, 사용자가 말하기를 마친 후에는 신속하게 응답할 수 있습니다. 반이중 모델 대비 선제호 호출 비중이 40% 감소하고, 의사결정 성능이 8% 향상된다.

다차원적 평가를 통해 Seeduplex는 대화 유창성과 리듬 측면에서 기존 반이중 솔루션 및 업계 주류 앱의 음성 통화 기능보다 훨씬 우수한 것으로 나타났습니다. 이 모델은 업계 최초로 대규모 구현을 달성했으며 수억 명의 사용자에게 지속적인 고품질 실시간 음성 상호 작용 경험을 제공할 수 있습니다.