"구텐베르크 프로젝트"는 신경 텍스트 음성 변환 기술을 사용하여 5,000권의 무료 audiobooks

오디오북은 가독성으로 인해 최근 몇 년 동안 폭발적인 인기를 얻었지만 오디오북을 녹음하는 것은 어렵고 비용이 많이 듭니다. 최근 연구자들은 기술이 직면한 많은 문제를 해결하고 일반 사용자가 오디오북을 제작할 수 있도록 하는 합성된 텍스트 음성 변환을 사용하는 자동화된 방법을 시연했습니다. 이제 독자들은 프로젝트 구텐베르그를 통해 수천 권의 고전 문학 오디오북과 기타 공개 자료를 무료로 들을 수 있습니다. Microsoft와 MIT의 연구원들은 텍스트 음성 변환 소프트웨어를 사용하여 책을 스캔하여 컬렉션을 만들었습니다.

이 텍스트에는 셰익스피어, 애거서 크리스티, 제인 오스틴, 레오나르도 다빈치 등의 작품이 포함됩니다. 사용자는 InternetArchive, Spotify, ApplePodcast 및 GooglePodcast에서 들을 수 있습니다.

https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html

오디오북 컬렉션을 구축하는 데 사용된 코드는 GitHub에서 사용할 수 있습니다.

https://github.com/microsoft/SynapseML

애플은 올해 1월 자동 텍스트 음성 변환 기술을 이용해 오디오북 판매를 시작했다. 그러나 이러한 시도는 애플의 사업 목표를 비판하는 문학계와 애플의 인공지능 교육을 제공하는 성우들로부터 회의적인 반응을 보였다. 구텐베르크의 접근 방식은 오픈 소스이고 이익 동기가 없기 때문에 엇갈린 반응을 불러일으킬 수 있습니다.

구텐베르크 프로젝트는 무료로 널리 사용 가능한 텍스트 형식의 무료 문헌 저장소를 구축하는 데 수십 년을 투자해 왔지만 오디오북을 사용하면 이 자료에 더 쉽게 접근할 수 있습니다. 오디오북은 운전을 하거나, 멀티태스킹을 하거나, 시각 장애가 있거나, 읽기를 배우거나, 새로운 언어를 배우는 독자에게 도움이 됩니다.

전통적인 방법을 사용하여 오디오북을 제작하려면 누군가가 책 전체를 읽도록 하는 데 시간과 돈을 소비해야 합니다. 읽을 가치가 있는 모든 책의 오디오 버전을 수동으로 녹음하는 것은 비용 효율적이지 않습니다. 텍스트 음성 변환 기술은 구텐베르크 프로젝트에 더 적합했습니다. 그러나 연구자들은 기계 학습 도구를 사용하는 데 여러 가지 장애물에 직면합니다.

첫 번째이자 가장 중요한 문제는 소프트웨어가 어떤 디지털 도서를 분석할 수 있는지 결정하는 것입니다. 프로젝트 구텐베르그는 다양한 형식의 자료를 수집하며, 많은 파일에 오류나 불완전한 스캔이 포함되어 있습니다. 그래서 연구원들은 HTML 파일 형식으로 저장된 책에 초점을 맞추고 유사한 형식을 표시하는 항목을 검색하는 도구(위 그림)를 구축했습니다.

연구원들이 해결한 또 다른 문제는 시스템이 어떤 텍스트를 읽거나 무시할지 알고 있는지 확인하는 것이었습니다. 여기에는 목차, 페이지 번호, 각주, 표 및 기타 관련 없는 자료와 같은 구성 요소가 포함됩니다.

또한 결과는 자연스러운 인간의 음성에 충분히 가깝게 들려야 합니다. 연구원들은 논픽션과 내레이션에 가장 적합한 음성 표현에 중점을 두었지만 사용자는 소프트웨어를 조정하여 극적인 읽기를 실험할 수도 있습니다.

연구진은 사용자가 자신의 목소리로 오디오북을 생성할 수 있는 시연을 개최할 계획입니다. 알고리즘을 훈련하기 위해 몇 개의 문장을 녹음한 후, 각 참가자는 소프트웨어가 책 전체를 읽도록 하기 전에 샘플을 들을 수 있었습니다. 또한 이메일을 통해 오디오북 사본을 받게 됩니다. 사용자는 합성된 음성 중에서 선택하여 각 오디오북을 맞춤 설정할 수 있습니다.

입장:

Alibaba Cloud - 최대 1,888위안까지 즉시 사용 가능한 범용 바우처