Microsoft 인공지능 연구원들이 실수로 수십 테라바이트에 달하는 내부 민감한 데이터를 노출했습니다

Microsoft 인공 지능 연구자들은 GitHub에서 오픈 소스 교육 데이터 버킷을 출시하면서 실수로 개인 키와 비밀번호를 포함한 수십 테라바이트의 민감한 데이터를 노출했습니다. 클라우드 보안 스타트업인 Wiz는 TechCrunch와 공유한 연구 노트에서 클라우드 호스팅 데이터의 우발적인 노출에 대한 지속적인 작업의 일환으로 Microsoft의 인공 지능 연구 부서에 속한 GitHub 저장소를 발견했다고 밝혔습니다.

이 GitHub 리포지토리는 이미지 인식을 위한 오픈 소스 코드와 인공 지능 모델을 제공하며 독자에게 Azure Storage URL에서 모델을 다운로드하도록 지시합니다. 그러나 Wiz는 전체 스토리지 계정에 권한을 부여하도록 URL이 구성되어 실수로 더 많은 개인 데이터가 노출되었음을 발견했습니다.

데이터에는 두 명의 Microsoft 직원 PC의 개인 백업을 포함하여 38TB의 중요한 정보가 포함되어 있습니다. 이 데이터에는 Microsoft 서비스의 암호 및 키와 수백 명의 Microsoft 직원이 보낸 30,000개 이상의 내부 Microsoft Teams 메시지를 비롯한 기타 중요한 개인 데이터도 포함되어 있습니다.

Wiz에 따르면 2020년부터 이 데이터를 노출한 URL은 "읽기 전용" 권한 대신 "모든 권한"을 허용하도록 잘못 구성되었습니다. 즉, 어디를 볼지 아는 사람은 누구나 잠재적으로 악성 콘텐츠를 삭제, 교체 및 주입할 수 있다는 의미입니다.

위즈는 스토리지 계정이 직접 노출되지 않았다는 점을 지적했다. 대신 Microsoft AI 개발자는 과도하게 권한이 부여된 SAS(공유 액세스 서명) 토큰을 URL에 포함했습니다. SAS 토큰은 사용자가 Azure 스토리지 계정 데이터에 대한 액세스 권한을 부여하는 공유 가능한 링크를 만들 수 있도록 Azure에서 사용하는 메커니즘입니다.

Wiz의 공동 창립자이자 최고 기술 책임자인 Ami Luttwak은 "인공 지능은 기술 회사에 엄청난 잠재력을 열어주었습니다. 그러나 데이터 과학자와 엔지니어가 새로운 인공 지능 솔루션을 생산에 적용하기 위해 경쟁함에 따라 그들이 처리하는 대규모 데이터에는 추가 보안 검사와 보호 조치가 필요합니다. 많은 개발 팀이 대량의 데이터를 처리하고, 동료와 데이터를 공유하거나, 공개 오픈 소스 프로젝트에서 협업해야 하기 때문에 Microsoft와 같은 사례를 모니터링하고 피하는 것이 점점 더 어려워지고 있습니다."

Wiz는 6월 22일에 Microsoft와 조사 결과를 공유했으며 Microsoft는 이틀 후인 6월 24일에 SAS 토큰을 취소했다고 말했습니다. Microsoft는 8월 16일에 잠재적인 조직 영향에 대한 조사를 완료했다고 말했습니다.

Microsoft 보안 연구소는 발표에 앞서 공유한 블로그 게시물에서 "이 문제로 인해 노출된 고객 데이터는 없으며 다른 내부 서비스도 위험에 처하지 않았습니다"라고 밝혔습니다.

마이크로소프트는 Wiz의 조사 결과를 바탕으로 GitHub의 Secrets Scanning 서비스를 확장했다고 밝혔습니다. 이 서비스는 과도한 권한 만료 또는 권한이 있을 수 있는 SAS 토큰을 포함하여 자격 증명 및 기타 비밀의 일반 텍스트 노출을 방지하기 위해 모든 공개 오픈 소스 코드의 변경 사항을 모니터링합니다.