텍스트 번역 도구로 유명한 AI 기업 딥엘(DeepL)이 실시간 음성 번역 시장 진출을 위해 오늘 맞춤형 애플리케이션을 통한 온라인 회의, 모바일 및 웹 대화, 일선 직원이 참여하는 그룹 커뮤니케이션 등 다양한 시나리오를 다루는 음성-음성 번역 제품 포트폴리오를 출시했다. 동시에 DeepL은 기술을 기반으로 콜센터 및 기타 비즈니스를 위한 맞춤형 음성 번역 솔루션을 지원하기 위해 개발자와 기업을 위한 API도 출시했습니다.

DeepL CEO Jarek Kutylowski는 인터뷰에서 수년간 텍스트 번역에 집중한 후 음성이 회사의 "자연스러운 다음 단계"라고 말했습니다. 그는 DeepL이 텍스트 및 문서 번역 분야에서 많은 발전을 이루었지만 실시간 음성 번역 분야에서는 "아직 진정으로 뛰어난 제품이 부족하다"는 이유로 진출을 결정했다고 강조했다.
Kutlovsky는 실시간 번역 제품을 구축할 때 가장 어려운 점은 대기 시간을 줄이는 것과 정확성을 유지하는 것 사이에서 균형을 맞추는 방법이라고 지적했습니다. 소위 지연이란 사용자가 말하는 시점과 번역된 음성이 재생되는 시점 사이의 시간 차이를 의미합니다. 회의 및 대화 시나리오에서는 차이가 작을수록 사용자의 의사소통 경험이 '동시 대화'에 가까워집니다.
이번 릴리스에서 DeepL은 Zoom 및 Microsoft Teams용 플러그인을 출시하여 원격 회의의 청취자가 모든 당사자가 모국어로 말하는 것을 듣고, 번역된 음성을 실시간으로 듣거나, 화면에서 실시간 번역된 자막을 읽을 수 있습니다. 이 프로그램은 아직 초기 테스트 단계에 있으며 DeepL은 이 기능을 가장 먼저 사용해 볼 수 있도록 기업을 대기자 명단에 등록하도록 초대하고 있습니다. 또한, 회사는 모바일 단말기 및 웹 페이지용 대화 상품도 제공하여 사용자가 직접 또는 원격으로 언어 간 의사소통을 할 수 있도록 합니다.
교육, 세미나 등 다수의 오프라인 또는 온라인 그룹 시나리오의 경우 DeepL을 사용하면 참가자가 QR 코드를 스캔하여 동일한 세션에 참여할 수 있으며 모든 사람이 자신의 장치에서 해당 언어로 번역된 콘텐츠를 받을 수 있습니다. DeepL은 자사의 음성 대 음성 기술이 수직 산업 용어, 회사 이름, 개인 이름과 같은 맞춤형 어휘를 학습하고 적용하여 전문적인 시나리오에서의 사용을 향상시킬 수 있다고 말했습니다.
Kutlovsky는 AI가 향후 몇 년 내에 고객 서비스 산업의 형태를 재편할 것이라고 믿습니다. 고품질 번역 계층은 기업이 현지 언어 인재가 부족하고 채용 비용이 높은 시장에서 다국어 서비스 지원을 제공하는 데 도움이 될 수 있습니다. 이러한 비전에 따라 DeepL은 자사의 음성 기술이 회의 시나리오를 지원할 뿐만 아니라 고객 서비스 센터 및 글로벌 기업을 위한 기본 언어 인프라 중 하나가 되기를 희망합니다.
기술 로드맵에서 DeepL은 자사의 현재 제품이 자체 개발한 완전한 "음성 대 음성" 기술 스택에 의해 구동되지만 이 단계에서는 여전히 "음성-텍스트-텍스트 번역-텍스트-음성"의 3단계 프로세스를 사용하고 있다고 밝혔습니다. 회사는 텍스트 번역에 장기적으로 초점을 맞추면 전반적인 번역 품질 면에서 이점을 얻을 수 있다고 믿습니다. 앞으로 DeepL은 지연 시간과 자연스러움을 더욱 향상시키기 위해 텍스트 중간 단계를 생략하는 엔드투엔드 음성 번역 모델을 개발할 계획입니다.
음성 및 번역 분야에서 DeepL은 여러 스타트업과의 경쟁에 직면해 있습니다. 이 중 Sanas는 지난해 Quadrille Capital과 Teleperformance로부터 6,500만 달러를 투자받았습니다. 주로 콜센터 상담원을 대상으로 화자의 말투를 실시간으로 수정하는 기술에 중점을 두고 있다. 두바이에 본사를 둔 Camb.AI는 미디어 및 엔터테인먼트 회사에 음성 합성 및 번역 서비스를 제공하여 고객이 대규모 콘텐츠의 더빙 및 현지화를 완료할 수 있도록 지원합니다. Reddit 공동 창립자 Alexis Ohanian의 펀드 Seven Seven Six가 투자한 Palabra는 번역 과정에서 화자의 원래 음성 특성을 유지하는 데 중점을 두는 실시간 음성 번역 엔진을 구축하여 DeepL이 구축한 기능과 보다 직접적인 경쟁 관계를 형성합니다.
텍스트 번역 시장에서 발판을 마련한 DeepL은 음성 제품을 통해 영역을 확장하고 회의 협업, 고객 서비스 및 일선 운영 시나리오로 기술을 확장하려고 노력하고 있습니다. 언어 간 통신 비용을 줄이기 위해 AI를 사용하려는 기업이 많아짐에 따라 실시간 음성 번역이 새로운 경쟁 라운드의 초점이 될 것으로 예상되며 DeepL은 이 트랙에 배치를 가속화하고 있습니다.