최근 구글은 공식적으로자사의 주력 AI 모델 제미니가 상용화 주도 대규모 증류 공격에 시달리고 있다. 반복 질문으로 챗봇 내부 메커니즘 유출 유도. 구글은 공격자가 모델 복제를 달성하거나 자체 AI 시스템을 강화하기 위해 Gemini의 내부 추론 논리 및 의사 결정 메커니즘을 리버스 엔지니어링하려는 시도로 신중하게 설계된 프롬프트 단어를 모델에 체계적이고 반복적으로 전송(단일 공격에서 100,000회 이상)했다고 밝혔습니다.
이러한 공격은 주로 "상업적 동기를 지닌 행위자"에 의해 수행됩니다.구글은 그 배후에 있는 사람들이 대부분 경쟁 우위를 확보하려는 AI 민간 기업이나 연구 기관이라고 판단했습니다. 회사 대변인은 공격의 출처가 전 세계 여러 지역에서 왔다고 밝혔지만 더 이상의 정보는 공개하지 않았습니다..
증류 공격(지식 증류라고도 함)은 원래 대규모 '교사 모델'의 지식을 소규모 '학생 모델'로 마이그레이션하여 모델 경량화를 달성하는 모델 압축 기술인 것으로 알려졌습니다.
공격자는 체계적이고 구조화된 대규모 질문을 통해 다양한 시나리오에서 모델의 응답을 수집하고 응답 내용, 지연, 신뢰도 등 미묘한 차이를 분석하여 Gemini의 의사결정 경계 및 추론 경로 맵을 구축합니다.마지막으로 수집된 응답 데이터는 Gemini의 핵심 기능을 복제하기 위해 자체 "학생 모델"을 교육하는 데 사용됩니다..
Google은 이러한 증류 공격이 지적 재산 절도라고 밝혔지만, 주요 제조업체는 증류 공격을 식별하고 차단할 수 있는 메커니즘을 배포했습니다.하지만 주류 대형 모델 서비스는 누구에게나 열려 있기 때문에 여전히 본질적으로 취약합니다..
