Penn State University의 연구원들은 휴대폰 이어폰에서 생성되는 작은 진동을 사용하여 전화 대화를 재구성하는 새로운 원격 모니터링 방법을 시연했습니다. 무선 도청으로 알려진 이 기술은 밀리미터파 레이더 센서를 사용하여 최대 10피트(약 10미터) 거리에서 이러한 작은 진동을 감지하고 해석합니다.
팀은 자율주행차 및 고급 동작 감지기에 사용되는 것과 유사한 기술을 사용하여 스마트폰에서 몇 피트 떨어진 곳에 밀리미터파 레이더 장치를 배치했습니다. 전화기의 헤드셋을 통해 음성이 재생되면 레이더는 오디오 신호로 인한 표면 진동을 감지합니다.
이러한 진동은 사람이나 근처의 마이크에 의해 감지될 수 없지만 장치의 전체 구조에 스며듭니다. 레이더 측정 데이터는 하드웨어 및 환경 소음을 줄이기 위해 신중하게 사전 처리된 후 기계 학습 기술을 사용하여 분석됩니다.
표준 음성 인식 시스템은 선명한 고품질 오디오를 처리하도록 설계되었지만 시끄러운 레이더 데이터에 직접 적용하면 제대로 작동하지 않습니다. 연구진은 이 문제를 해결하기 위해 오픈소스 대규모 음성인식 모델인 위스퍼(Whisper)를 하위 적응(Low-Rank Adaptation)이라는 방법을 이용해 개선했다.

모델 매개변수 중 1%만 재교육함으로써 잡음이 있는 레이더 신호를 처리하는 데 특화되었으며 진동 측정 데이터를 최대 10,000단어의 어휘 크기에 대해 최대 60%의 정확도로 텍스트로 변환했습니다. 이 정확도는 여전히 제한되어 있지만 실제 도청 시나리오에서는 부분적인 전사 또는 키워드 복구도 유용할 수 있습니다.
이 결과는 같은 팀의 이전 연구를 기반으로 합니다. 팀의 2022년 연구에 따르면 레이더 센서는 센서가 전화기의 1피트 내에 있을 때 약 83%의 정확도로 미리 결정된 최대 10개의 단어, 문자 또는 숫자를 식별할 수 있습니다. 새로운 방법은 이 연구를 확장하여 더 먼 거리에서 더 긴 문구와 대화의 일부를 성공적으로 추출합니다.

Suryoday Basak은 무선 및 모바일 네트워크의 보안 및 개인 정보 보호에 관한 제18차 컴퓨터 기계 협회 컨퍼런스에서 무선 도청 시스템을 선보였습니다.
연구자들은 입술 읽기와 마찬가지로 맥락 단서가 부분적으로 정확한 녹취록의 해석을 더욱 향상시킬 수 있다고 지적합니다. 즉, 잘못되었거나 불완전한 출력이라도 민감한 토론의 요점을 식별하는 데 충분할 수 있다는 의미입니다.
저자는 그들의 실험실 설정이 소형 또는 비밀 레이더 장치를 사용하는 악의적인 행위자의 향후 공격을 예측하기 위한 목적으로 연구 및 인식 제고 목적으로만 사용된다는 점을 강조합니다. 특히 이러한 감시가 존재할 수 있는 환경에서 민감한 주제를 논의할 때 이러한 새로운 개인 정보 보호 위험을 인식할 것을 사용자에게 조언합니다.
미국 국립과학재단(National Science Foundation)의 자금 지원을 받은 이 연구는 무선 및 모바일 네트워크의 보안 및 개인 정보 보호에 관한 제18차 ACM 컨퍼런스 회보에 게재되었습니다.