미 국방부는 AI 회사가 기밀 데이터에 대한 모델을 훈련할 수 있도록 허용할 계획입니다

MIT Technology Review에 따르면 미국 국방부는 기밀 군사 정보 데이터를 바탕으로 대규모 모델의 군사 버전을 훈련할 수 있도록 생성 인공 지능 회사를 위한 극비 훈련 환경을 구축하는 대대적인 변화를 계획하고 있습니다. 이는 원래 기밀 환경에서 "읽고" "질문에 대답"만 했던 모델이 향후에는 기밀 데이터를 교육 자료로 직접 사용하여 민감한 정보를 모델 자체에 "기록"할 수 있음을 의미합니다.

이미 Anthropic의 Claude와 같은 일부 생성 AI 모델은 이란 표적을 포함하여 질문에 답변하고 분석을 지원하기 위해 기밀 환경에 배포되고 있습니다. 그러나 이러한 모델은 현재 기존 기능을 기반으로 기밀 정보만 처리하며 모델 자체를 교육하고 업데이트하는 데 데이터를 재사용하지 않습니다. 기밀 데이터에 대한 훈련이 허용되면 모델은 특정 군사 임무를 수행하는 데 있어 더 정확하고 효율적일 것으로 예상되지만 전례 없는 보안 위험도 발생할 것입니다.

익명의 미국 국방부 관계자는 기밀 데이터를 바탕으로 군 맞춤형 모델을 훈련하면 특정 임무에서 성능과 신뢰성이 크게 향상될 것으로 기대한다고 말했습니다. 이 계획은 미군에서 보다 강력한 AI 모델에 대한 수요가 증가하는 가운데 나온 것입니다. 미 국방부는 기밀 환경에서 모델을 실행하기 위해 OpenAI 및 Musk의 xAI와 합의했으며 이란과의 갈등이 심화되는 것에 대응하여 미군을 "AI 우선 전투 부대"로 전환하는 것을 목표로 하는 새로운 인공 지능 전략을 추구하고 있습니다. 보도 당시 미 국방부는 이 훈련 계획에 대해 공식적으로 언급하지 않았습니다.

관련 운영 모드에 익숙한 두 사람에 따르면, 위 교육은 기밀 프로젝트에 대해 인증된 데이터 센터에서 진행되며, 여기서 특정 버전의 AI 모델이 동일한 보안 환경에서 기밀 데이터와 쌍을 이룰 것입니다. 국방부 관계자에 따르면 데이터 소유권은 미 국방부에 있지만, 드물게 관련 인력이 적절한 보안 허가를 받은 경우 AI 기업 직원도 기밀 데이터에 접근하는 것이 허용될 수 있다고 한다. 미 국방부는 기밀 데이터를 실제로 다루기 전에 상업용 위성 이미지 등 기밀이 아닌 데이터에 대해 먼저 테스트하여 훈련된 모델의 정확성과 효율성이 실제로 향상되었는지 평가할 계획입니다.

미군은 오랫동안 구세대 컴퓨터 비전 모델을 사용해 드론과 정찰기가 수집한 이미지와 비디오에 대한 물체 인식을 수행해 왔으며, 정부 계약을 통해 기업에 그러한 데이터에 대한 알고리즘을 훈련하도록 의뢰해 왔습니다. 최근에는 보안 환경에서의 다국어 기능과 배포를 강조하는 Anthropic이 출시한 Claude Gov와 같이 정부 시나리오 전용 대형 언어 모델과 챗봇 버전도 속속 등장했습니다. 하지만 이번 국방부 관계자의 발언은 OpenAI, xAI 등 대규모 언어 모델을 개발하는 기업이 기밀 데이터를 대상으로 정부 맞춤형 모델을 직접 훈련시킬 수 있다는 사실이 명확하게 드러난 것은 처음이다.

Google 및 OpenAI의 전 AI 정책 책임자이자 현재 CSIS(전략 및 국제 연구 센터) 산하 Wadhwani AI 센터 소장인 Aalok Mehta는 기밀 환경에서 단지 "읽고 대답"하는 것과 비교하여 실제로 기밀 데이터를 사용하여 모델을 훈련시키는 것은 새로운 위험을 가져올 것이라고 지적했습니다. 그는 가장 큰 문제는 모델 훈련을 통해 흡수된 기밀 정보가 향후 다른 사용자가 쿼리하거나 호출할 때 "다시 표면화"될 수 있다는 것이라고 생각합니다. 이는 보안 수준이 다르고 인텔리전스 요구 사항이 다른 여러 서비스 또는 서비스에서 모델 세트를 공유할 때 특히 위험합니다.

예를 들어, 메타는 모델이 비밀 요원의 신원과 같은 매우 민감한 인간 정보에 접근할 수 있는 경우 접근 권한이 없는 다른 군대에서 해당 모델을 사용할 때 해당 정보가 실수로 다른 군대로 "유출"될 수 있다고 말했습니다. 이는 정보원과 일선 인력에게 생사의 위험을 초래할 뿐만 아니라, 특히 동일한 모델이 여러 부서에서 공유되는 경우 기술적으로 절대적으로 예방하기 어려울 것입니다. 이와 대조적으로 그는 군대 내에서 기밀 정보를 "잠그고" 공개 인터넷이나 AI 회사로 다시 흘러가는 것을 방지하는 것이 상대적으로 더 쉽다고 믿습니다.

현재 미국 정부는 몇 가지 관련 인프라를 구축했습니다. 예를 들어 보안 회사 Palantir는 정보를 AI 회사에 다시 전달하지 않고도 기밀 주제에 대한 질문과 답변에 답할 수 있는 정부 보안 시스템을 구축하기 위해 여러 대규모 계약을 받았습니다. 이러한 시스템에서 공무원은 기밀 콘텐츠에 대해 모델에 질문할 수 있지만 데이터는 통제된 환경으로 제한됩니다. 그러나 추론과 질문 답변뿐만 아니라 교육에도 동일한 보안 아키텍처를 적용하는 것은 여전히 새로운 기술 및 관리 과제로 남아 있습니다.

올해 1월, 피트 헤그세스(Pete Hegseth) 국방장관은 국방 시스템 전반에 걸쳐 더 많은 AI 기능 도입을 가속화할 것을 촉구하는 메모를 발표하여 이 분야에서 국방부의 경주 레이아웃을 홍보했습니다. 잠재적인 목표의 순위를 매기고 우선 공격 제안을 제공하는 등 실제 전투에서 생성형 AI가 사용되었습니다. 계약서 작성, 보고서 정리 등 행정 업무에도 사용되었습니다. 국방 부문의 관점에서 볼 때 원래 인간 분석가가 수행한 많은 작업은 미래에는 더 강력한 AI 모델에 의존할 수 있지만 이는 또한 대량의 기밀 데이터가 모델에 공개되어야 함을 의미합니다.

메타는 군이 AI가 고위 분석가와 같은 이미지에서 극도로 미묘한 단서를 식별하거나 새로 획득한 정보와 역사적 정보 사이의 복잡한 연결을 만드는 등 경험에 크게 의존하는 몇 가지 미묘한 판단을 배우기를 원할 수 있다고 말했습니다. 이를 위해 정보기관의 방대한 다국어 텍스트, 오디오, 이미지 및 비디오 데이터가 교육 자료의 소스가 될 수 있습니다. 그러나 그는 또한 국방부가 특정 능력을 비밀로 유지하려는 강한 동기를 갖고 있고 이 분야에서 미국의 기술적 한계를 다른 국가들이 정확하게 이해하는 것을 원하지 않기 때문에 특정 업무에 기밀 데이터에 대한 훈련이 필요한지를 외부에 설명하기 어렵다고 강조했습니다.

외부 세계의 눈으로 볼 때 국방부의 조치는 최전선 요구에 대한 대응일 뿐만 아니라 위험성이 높은 기술에 대한 투자이기도 합니다. 일단 기밀 정보가 대형 모델에 깊이 내장되면 군대는 기존 시스템을 훨씬 능가하는 자동화된 분석 및 의사 결정 지원 기능을 얻게 될 것입니다. 그러나 과도한 모델 '메모리', 우발적인 유출, 흐릿한 액세스 경계 등 새로운 보안 위험에도 직면해야 합니다. 현재 미국 국방 기관은 고도로 격리된 보안 데이터 센터, 엄격한 액세스 제어, 계층화되고 맞춤형 모델 배포 방법을 구축하여 실제로 완전히 테스트되지 않은 "군사적 이점 확보"와 "보안 위험 제어" 사이의 균형을 찾으려고 노력하고 있습니다.