최근 전문가들은 실시간 음성 심층위조 기술이 성숙해지면서 새로운 네트워크 보안 위험을 가져오고 있다고 경고했다. 오픈 소스 AI 도구와 저렴한 하드웨어가 널리 보급됨에 따라 공격자는 인공 지능을 사용하여 실시간 대화에서 다른 사람의 목소리를 위장하고 모방할 수 있으며, 사전 녹음된 콘텐츠만 처리할 수 있거나 긴 처리 시간이 필요한 이전의 기술적 한계를 극복할 수 있습니다.

사이버 보안 회사인 NCC 그룹의 새로운 연구에 따르면 AI 음성 모델을 일반 노트북이나 스마트폰과 결합하면 단 0.5초의 지연만으로 고품질 실시간 음성 모방을 달성할 수 있는 것으로 나타났습니다. 운영자는 간단한 작업으로 맞춤형 웹 인터페이스에서 음성 복제를 시작할 수 있습니다. 이러한 '딥페이크 보이스피싱' 공격 방식은 낮은 사양의 그래픽 카드로도 완성될 수 있으며, 일반 기기의 마이크를 사용해도 충분히 실감나는 효과를 얻을 수 있다.
이전의 음성 심층 위조 기술은 일반적으로 음성 데이터를 학습하는 데 오랜 시간이 필요하고 사전 녹음된 클립만 생성할 수 있어 실시간 상호 작용에는 적합하지 않습니다. 이 획기적인 기술은 음성 모방 프로세스에서 일시 중지와 무응답을 완전히 제거하여 공격 효율성과 은폐를 크게 향상시킵니다. NCC 그룹 보안 컨설턴트는 실제 테스트에서 발신자 ID 스푸핑과 결합하면 이러한 유형의 공격이 거의 매번 대상을 속일 수 있으며 전화 음성 확인 사칭 위험이 크게 증가한다는 사실을 발견했습니다.
실시간 음성 심층위조가 점점 더 현실화되고 있지만, 동일 수준의 실시간 영상 심층위조에는 여전히 얼굴 표정과 음성의 싱크가 맞지 않는 등 쉽게 감지할 수 있는 기술적인 장애물이 존재합니다. 예를 들어 전문가들은 한 기업이 AI 가짜 영상에 속아 노트북을 잘못된 주소로 보내기도 했다고 밝혔는데, 이는 음성 통화와 영상 통화만으로는 더 이상 신원 확인 보안을 보장할 수 없음을 보여준다.
인공지능 도구가 대중화되면서 전문가들은 딥페이크에 의한 사회공학적 공격을 막기 위해 통신에 고유한 구조화된 신호나 비밀 코드를 추가하는 등 보다 정교한 원격 검증 방법이 필요하다고 요구하고 있습니다. 그렇지 않으면 개인과 조직 모두 AI 위조 사기의 위험이 커집니다.