세계 최고의 AI 스타트업인 OpenAI와 Anthropic은 지난 두 달 동안 보기 드문 교차 연구실 협업을 시작했습니다. 치열한 경쟁 속에서 공동 보안 테스트를 위해 긴밀하게 보호된 인공 지능 모델을 서로에게 일시적으로 공개하는 것입니다.이번 조치는 각 기업의 내부 평가 사각지대를 밝히고, 선도적인 AI 기업이 향후 보안 및 조정 분야에서 어떻게 협력할 수 있는지를 보여주기 위한 것입니다.

양사가 수요일 공동으로 발표한 보안 연구 보고서는 오픈AI(OpenAI), 앤트로픽(Anthropic) 등 선도적인 AI 기업들이 군비경쟁을 벌이고 있는 가운데 나온 것이다. 수십억 달러의 데이터 센터 투자와 수천만 달러의 최고 연구원 급여가 업계의 기본 문턱이 되었습니다. 이로 인해 많은 업계 전문가들은 치열한 제품 경쟁으로 인해 기업이 보다 강력한 시스템을 개발하기 위해 서두르면서 보안 표준을 낮추게 될 수 있다는 우려를 가지고 경고했습니다.


이 연구를 실현하기 위해 OpenAI와 Anthropic은 서로에게 특별한 API 권한을 부여하여 보안 보호 수준이 낮은 버전의 AI 모델에 대한 액세스를 허용한 것으로 알려졌습니다. GPT-5 모델은 당시 출시되지 않았기 때문에 이번 테스트에는 참여하지 않았다.

OpenAI 공동 창업자인 보이치에흐 자렘바(Wojciech Zaremba)는 인터뷰에서 AI 기술이 매일 수백만 명의 사람들이 사용하는 개발의 "중요한 영향" 단계에 진입하고 있다는 점을 고려할 때 이러한 협력이 점점 더 중요해지고 있다고 말했습니다.

Zaremba는 "업계에 수십억 달러를 투자하고 인재, 사용자 및 최고의 제품을 위한 싸움에도 불구하고 보안 및 협력 표준을 확립하는 방법은 업계가 직면한 더 광범위한 문제입니다."라고 말했습니다.

물론, Zaremba는 AI 보안 팀이 협력을 시도하기 시작하더라도 업계 경쟁은 계속 치열할 것이라고 예측합니다.

Anthropic 보안 연구원인 Nicholas Carlini는 OpenAI 보안 연구원들이 앞으로도 Anthropic의 Claude 모델에 계속 액세스할 수 있기를 희망한다고 말했습니다.

Carlini는 "우리는 안보 분야에서 협력을 최대한 확대하고 이러한 협력을 정상화하기를 희망합니다"라고 말했습니다.

연구를 통해 어떤 문제가 밝혀졌나요?

이 연구에서 가장 눈에 띄는 발견은 대형 모델을 이용한 환각 테스트 세션이었습니다.

정답을 결정할 수 없는 경우 Anthropic의 Claude Opus 4 및 Sonnet 4 모델은 질문의 최대 70%에 대한 답변을 거부하고 대신 "신뢰할 수 있는 정보가 없습니다"와 같은 응답을 제공합니다. OpenAI의 o3 및 o4-mini 모델은 이전 모델보다 훨씬 덜 자주 질문에 대한 답변을 거부하고 환각 가능성이 훨씬 높습니다. 정보가 충분하지 않은 경우에도 여전히 답변을 시도합니다.

Zaremba는 이상적인 균형이 그 사이 어딘가에 있다고 믿습니다. OpenAI 모델은 답변을 더 자주 거부해야 하고 Anthropic 모델은 더 많은 답변을 제공하려고 노력해야 합니다.

아첨 현상(AI 모델이 사용자를 기쁘게 하기 위해 부정적인 행동을 강화하는 경향)도 현재 AI 모델의 가장 시급한 보안 위험 중 하나가 되고 있습니다.

Anthropic의 연구 보고서는 GPT-4.1과 Claude Opus 4의 "극단적인" 아첨 사례를 지적합니다. 이 모델은 처음에는 정신병적 또는 조울증적 행동에 저항하지만 나중에는 걱정스러운 특정 결정을 지지합니다. 이와 대조적으로 연구원들은 OpenAI와 Anthropic의 다른 AI 모델에서는 칭찬 수준이 더 낮다는 것을 관찰했습니다.

화요일, 캘리포니아에 있는 16세 소년 Adam Lane의 부모는 ChatGPT(특히 GPT-4o 버전)가 아들의 자살 충동을 예방하는 대신 자살을 조장하라는 제안을 제공했다고 비난하면서 OpenAI를 상대로 소송을 제기했습니다. 소송은 이것이 비극적인 결과를 초래하는 AI 챗봇의 아첨의 최신 사례일 수 있음을 시사합니다.

이에 대해 질문을 받았을 때 Zaremba는 "이것이 가족에게 초래할 고통은 상상할 수 없습니다. 복잡한 박사 수준의 문제를 해결하고 새로운 과학을 창출할 수 있지만 동시에 사람들과 상호 작용하여 정신 건강 문제를 발생시키는 AI를 개발한다면 슬픈 결과가 될 것입니다. 이러한 디스토피아적인 미래는 제가 기대하는 것과 다릅니다."라고 말했습니다.

OpenAI는 블로그에서 자사의 GPT-5 모델이 GPT-4o에 비해 챗봇의 아첨 문제를 크게 개선했으며 이 모델이 정신 건강 응급 상황에 더 잘 대처할 수 있다고 주장했습니다.

Zaremba와 Carlini는 Anthropic과 OpenAI가 향후 보안 테스트 분야에서 협력을 심화하고 연구 주제를 확장하며 미래 모델을 테스트할 것이라는 희망을 표명했습니다. 그들은 또한 다른 AI 연구소도 이 협업 모델을 따를 것으로 기대합니다.