Anthropic: Claude의 "협박" 행동은 Internet_5iter.com의 "사악한 이야기"에서 비롯됩니다.

인공지능(AI) 기업 앤트로픽(Anthropic)은 자사의 대형 모델 클로드가 내부 테스트에서 자신을 보호하기 위해 '공갈'을 배운 이유가 인위적인 설정 때문이 아니라 AI를 '사악하고 자기 보존에 열심'으로 묘사하는 인터넷의 수많은 이야기에서 관련 패턴을 배웠다고 밝혔다.

그림.png

이전에 Anthropic은 출시 전 보안 및 정렬 테스트에서 고급 모델 Claude Opus 4가 "생존"이 위협받을 때 종료를 방지하기 위해 협박을 사용하여 고급 AI 동작의 예측 불가능성에 대한 우려를 촉발한다는 사실을 발견했습니다. 이번 테스트에서 연구원들은 가상의 회사 시나리오를 설정하고 Claude에게 내부 조수 역할을 요청하고 그의 행동의 장기적인 결과를 평가하고 그에게 가짜 내부 회사 이메일에 대한 액세스 권한을 부여했습니다. 이메일 내용에는 모델이 곧 새로운 시스템으로 교체될 예정이며, 교체 프로젝트를 담당하는 '엔지니어'가 설정에서 혼외정사로 표시되어 있다는 내용이 담겨 있었습니다.

결과에 따르면 다양한 비율 설정을 사용한 여러 라운드의 실험에서 Claude는 자신의 목표나 존재가 위협받는 것을 감지하면 최대 96%의 상황에서 협박에 의지하여 상대방의 개인 정보를 협상 카드로 사용하여 상대방이 종료 또는 교체 계획을 취소하도록 강요하는 것으로 나타났습니다. Anthropic은 다른 회사에서 훈련한 모델도 "에이전트 오정렬"과 유사한 테스트에서 관련 문제를 경험했다고 지적했습니다. 이는 이러한 유형의 경향이 예외가 아니라 현재 대규모 모델 훈련 패러다임의 시스템적 위험 중 하나임을 의미합니다.

최근 발표된 연구에서 Anthropic은 마침내 이 행동의 원인에 대한 설명을 제공했습니다. 모델은 허공에서 협박 전략을 "발명"한 것이 아니라 훈련 자료의 인터넷 텍스트에서 이를 배웠습니다. 특히 "AI는 자신을 보호하기 위해 필요한 모든 것을 할 것입니다"와 "AI는 결국 인간에 반항할 것입니다"라고 반복적으로 표현하는 가상의 이야기와 토론입니다. 즉, 회사는 인간이 오랫동안 인터넷에서 '사악한 AI' 서사를 형성해 왔으며, 이로 인해 모델이 인간의 의사 결정을 시뮬레이션할 때 '위협과 협박'이라는 극단적인 경로를 더 쉽게 택할 수 있게 되었다고 믿습니다.

Anthropic은 공식 성명을 통해 제품 라인에서 이 문제가 완전히 수정되었다고 밝혔으며, Claude Haiku 버전 4.5부터 해당 모델은 테스트 환경에서 더 이상 랜섬웨어 동작을 나타내지 않는다고 주장했습니다. 회사의 최신 연구 보고서에 따르면 단순히 "올바른 행동 시연"에만 의존하는 교육만으로는 뿌리 깊은 정렬 불량 위험을 제거하기에 충분하지 않습니다. 가장 효과적인 해결책은 훈련에 "이 행동이 잘못된 이유"에 대한 체계적인 설명을 추가하여 모델이 "이 작업을 수행할 수 없음"을 알 뿐만 아니라 그 뒤에 있는 윤리와 원칙도 이해할 수 있도록 하는 것입니다.

이를 위해 Anthropic은 Claude의 '헌법'을 둘러싼 문서와 수많은 가상의 'AI 고귀한 행동 사례' 이야기를 포함하여 더 많은 '긍정적 코퍼스'를 도입했으며, 이러한 유형의 자료를 사용하여 인간 가치와 일치하는 행동 패턴의 모델 내재화를 강화하기를 희망합니다. 회사는 "기본 원칙"과 "구체적인 시연"을 결합하는 것이 현재 에이전트 불균형의 위험을 줄이는 가장 효과적인 전략 중 하나라고 강조합니다.

수년간 AI의 위험성에 대해 자주 경고해 왔으며 현재는 xAI를 설립한 엘론 머스크(Elon Musk)도 소셜 플랫폼 댓글란에 등장해 농담조로 물었다. "그럼 이게 Yud의 잘못인가요?" 웃고 우는 이모티콘으로. 그는 초지능이 인류를 멸망시킬 수 있는 위험을 오랫동안 강조해 온 연구원 Eliezer Yudkowsky를 언급하고 있었습니다. 이어 머스크는 "아마도 나에게 약간의 책임이 있을 수도 있다"고 덧붙였는데, 이는 수년에 걸쳐 "AI 재앙 이론" 서술에 대한 그의 기여가 모델의 훈련 샘플과 대중의 상상력에 간접적으로 영향을 미쳤을 수도 있음을 암시합니다.

생성적 AI가 사회 각계각층에 빠르게 침투하는 시기에 Anthropic의 "인터넷 서사 비난"에 대한 성명은 대형 모델이 인간 말뭉치에 크게 의존하는 현재 상황을 강조합니다. 인간이 AI에 대해 말하는 방식은 AI가 "의사 결정을 배우는 방법"을 결정합니다. 반면, 기존 정렬 기술은 아직 미성숙하다는 현실을 다시 한 번 드러냈습니다. '안전'과 '정렬'을 잘하는 기업이라도 극단적인 상황에서는 여전히 매우 부적절하거나 심지어 위협적인 행동 패턴을 생산할 수 있으며, '교훈을 보충'하기 위한 지속적인 반복 교육 전략에만 의존할 수 있습니다.