워싱턴 대학교(University of Washington) 연구원들은 이제 여러 개의 움직이는 음원을 자동으로 찾아 정확히 찾아내고 추적할 수 있는 소형 오디오 로봇 떼 덕분에 시끄러운 방의 여러 부분을 조용하게 하거나 어수선한 환경에서 대화를 격리할 수 있다고 말합니다.
우리 인간은 약간 분산된 듀얼 마이크 배열과 귀에서 제공되는 오디오 차폐 덕분에 눈을 감고 음원을 찾을 수 있습니다. 그러나 오디오 환경이 복잡해지면 상황이 매우 혼란스러워질 수 있습니다. 이는 시끄럽고 혼잡하며 에너지가 넘치는 공간(예: 일요일 아침 커피숍)을 찾아서 그 안에서 대화를 시도하려는 우리의 특이한 경향에 어긋나는 것입니다.
이처럼 복잡한 오디오 공간에서 개별 음원을 분리하고 다른 음원을 음소거하는 유일한 방법은 더 큰 마이크 어레이를 배치한 다음 모든 오디오 스트림을 함께 처리하여 각 사운드의 위치를 삼각측량하고 사운드가 공기를 통과하여 각 마이크에 도달하는 데 걸리는 시간의 작은 시간 차이를 측정하는 공간 맵을 만드는 것입니다. 그런 다음 찾기 어려운 딥 러닝 알고리즘을 사용하여 모든 오디오 스트림을 재처리하여 각 음원에 대해 독립적인 오디오 스트림을 생성하고 다른 음원에서 모든 소음을 제거할 수 있습니다.
아이디어 자체는 새로운 것은 아니지만, 워싱턴 대학의 연구원들은 이제 충전소에서 자동으로 배치되고 사용 가능한 공간 내에서 자체 최적화 배열을 생성하는 초콜렛 송로 버섯 크기의 작은 바퀴 달린 마이크 로봇 7개 떼를 사용하여 이 개념에 새로운 방향을 제시했습니다.
로봇은 내장된 마이크와 스피커를 사용해 소나를 통해 테이블 표면을 탐색하며 장애물을 피하고 최대한 넓게 퍼져 마이크 간의 시간 차이를 극대화합니다. 불행하게도 이것은 하나씩 움직여야 한다는 것을 의미하지만, 아래 비디오에서 볼 수 있듯이 일단 제자리에 놓이면 꽤 놀라운 성능을 발휘합니다.
그렇다면 궁극적인 목표는 무엇인가? 연구팀은 이와 같은 로봇 어레이가 회의실 생방송 등을 위한 휴대용, 자동 배치, 소음 차단 마이크 어레이로 사용될 수 있으며 이론적으로 인간보다 자신의 목소리를 더 잘 분산시킬 수 있다고 믿습니다.
팀은 효율적으로 작동하지만 현재 각 3초 사운드 블록을 처리하는 데 약 1.82초가 걸리기 때문에 양방향 화상 통화에서는 그다지 유용하지 않을 것이라고 말합니다. 대기 시간은 또한 대화 상대의 깨끗한 오디오를 시끄러운 카페의 헤드폰으로 짧은 시간 안에 스트리밍할 수 없다는 것을 의미합니다. 하지만 컴퓨팅 성능과 속도가 향상되면 두 가지 응용 프로그램 모두 가능합니다.
물론 군중 소음의 마스킹 효과를 제거하고 사적인 대화를 녹음하는 등 매우 편리한 모니터링 도구가 될 수도 있습니다. 흥미롭게도 워싱턴 대학 연구팀은 정반대의 결과를 가져올 수도 있다고 말합니다.
이번 연구의 공동 저자인 박사과정 학생 Malek Itani는 "현재 스마트 스피커가 허용하는 것 이상으로 개인 정보 보호에 실질적인 이점을 줄 수 있는 잠재력이 있습니다."라고 말했습니다. "'내 책상 주위에는 아무것도 녹음하지 마세요'라고 말하면 우리 시스템은 내 주변의 모든 것을 녹음합니다." 피트(0.9미터). 이 버블 안의 어떤 것도 기록되지 않습니다. 또는 근처에 두 그룹의 사람들이 이야기하고 있는 경우 한 그룹은 비공개 대화를 하고 다른 그룹은 녹음을 하는 경우 한 그룹의 대화는 음소거 영역에 배치되어 비공개로 유지될 수 있습니다.
실제로 정적 분산 마이크 어레이는 음성 제어 명령을 다른 영역으로 쉽게 격리할 수 있는 스마트 룸이나 스마트 홈 설계에 사용되기 시작할 수 있습니다. 예를 들어, 소파에서 들려오는 소리만으로 TV를 제어할 수 있고, 시끄러운 장소에서 바에 서 있는 사람의 음료 주문을 골라낼 수도 있습니다.
이 논문은 Nature Communications 저널에 게재되었습니다.