Google 보안 블로그의 최근 게시물에는 Google이 "최근 몇 년간 가장 큰 방어 업그레이드 중 하나"라고 부르는 Gmail 스팸 필터의 새로운 업그레이드에 대해 자세히 설명되어 있습니다. 업그레이드는 RETVec(Resilient Efficient Text Vectorizer)이라는 새로운 텍스트 분류 시스템의 형태로 제공됩니다. 구글은 이것이 이전에는 사람이 읽을 수 있었지만 기계로는 쉽게 이해할 수 없었던 특수 문자, 이모티콘, 오타 및 기타 정크 문자로 가득 찬 이메일인 "적대적 텍스트 조작"을 이해하는 데 도움이 된다고 말합니다. 이전에는 특수 문자로 가득 찬 스팸이 Gmail의 방어를 쉽게 통과했습니다.

"적대적 텍스트 처리"가 어떤 것인지 알고 싶다면 내 스팸 폴더에 있는 내용은 다음과 같습니다.

제 개인적인 경험으로는 상반기에는 이러한 이메일이 큰 문제가 되었고 받은편지함에 자주 들어오곤 했습니다. 그러나 지난 몇 달 동안 그런 이메일을 전혀 접하지 못했기 때문에 이번 RETVec 기술 업그레이드가 확실히 변화를 가져온 것 같습니다.

이와 같은 이메일은 스팸 필터가 "축하합니다. 당첨 계정 잔액은 $1,000입니다."라고 적힌 이메일을 차단할 가능성이 높기 때문에 정렬하기가 어렵습니다. 하지만 이메일의 실제 내용은 그렇지 않습니다. 여기에 있는 대부분의 문자는 "동음어"입니다. 유니코드 표준의 끝없는 깊이를 탐구하면 일반 라틴 알파벳의 일부인 것처럼 보이지만 그렇지 않은 모호한 문자를 찾을 수 있습니다.

예를 들어, "Check_Your_Account" 항목은 이상하게 굵게 표시됩니다. 이는 굵게 표시된 스타일 때문이 아니라 "Math Bold Capital C"와 같은 유니코드 문자 모양을 사용하기 때문입니다. 사람이 보기엔 문자 "C"처럼 보이는 수학 기호인데, 스팸 필터링 봇은 이를 수학 기호로 정확하게 보고 영어 의미를 이해하지 못합니다. 이와 같은 이메일을 자세히 볼수록 상황은 더욱 악화됩니다. "CONGRATULATIONS"의 "O" 문자는 0으로 대체되고, "Jackpot"의 밑줄 문자는 너무 이상해서 유니코드 검색에서도 찾을 수 없으며, 많은 공백이 마침표나 밑줄로 대체됩니다. 결과적으로 스팸 필터는 이러한 지저분한 이메일을 보면 항복합니다.

Google은 RETVec이 우리를 구하기 위해 왔다고 말합니다. "RETVec은 삽입, 삭제, 오타, 동음이의어, LEET 대체 등을 포함한 문자 수준 작업에 저항하도록 훈련되었습니다. RETVec 모델은 모든 UTF-8 문자와 단어를 효율적으로 인코딩하는 새로운 문자 인코더로 훈련되었습니다. 결과적으로 RETVec은 조회 테이블이나 고정 어휘가 필요하지 않으며 100개 이상의 언어로 실행됩니다."

효율성은 매우 중요합니다. "고정 어휘" 또는 동음어 "조회 테이블"을 사용하는 다른 방법은 런타임에 리소스를 많이 사용합니다. 하나 이상의 "축하합니다" 문자가 숫자, 수학 기호, 키릴 문자, 히브리어 또는 이모티콘으로 대체된다면 가능한 모든 철자와 철자 오류가 거의 끝없는 목록에 나타날 것이라고 상상해 보십시오. Google은 RETVec에 "수백만 개가 아닌" 200,000개의 매개변수만 있다고 말합니다. 따라서 Google의 스팸 필터링 클라우드는 무엇이든 실행할 수 있을 만큼 클 수 있지만 로컬 장치에서도 실행할 수 있을 만큼 작습니다. RETVec은 오픈 소스이며 Google은 다양한 인코딩으로 발생하는 이러한 유형의 동음이의어 공격으로부터 세상을 자유롭게 해주기를 바랍니다.

RETVec은 인간이 읽는 방식과 매우 유사하게 작동하는 것으로 보입니다. 이는 단어의 실제 문자 내용이 아닌 시각적 "유사성"을 사용하여 단어의 의미를 식별하는 기계 학습 TensorFlow 모델입니다. Google의 "유사성" 데모는 동일한 기술을 사용하여 고양이 사진을 식별하므로 이를 세계에서 가장 진보된 광학 문자 인식 시스템으로 전환하는 것이 가능해 보입니다.

분명히 이 접근 방식은 큰 개선을 가져왔습니다. Google은 "Gmail 스팸 분류기의 이전 텍스트 벡터기를 RETVec으로 교체하여 스팸 탐지율을 기준보다 38% 향상하고 오탐지를 19.4% 줄였습니다. 또한 RETVec을 사용하면 모델의 TPU 사용량이 83% 감소하여 RETVec 배포가 최근 몇 년간 가장 큰 방어 업그레이드 중 하나가 되었습니다"라고 밝혔습니다.

구글은 "지난 1년 동안 내부적으로 RETVec을 테스트해 왔으며 이를 지메일 계정에 출시했다"고 밝혔다.