OpenAI는 최신 AI 추론 모델을 모니터링하기 위해 새로운 시스템을 배포한다고 밝혔습니다.o3 및 o4-mini는 생물학적, 화학적 위협과 관련된 단서를 탐지합니다.OpenAI의 보안 보고서에 따르면, 이러한 모델이 누군가에게 잠재적으로 유해한 공격을 수행하도록 지시할 수 있는 권장 사항을 제공하지 못하도록 설계된 시스템입니다.
OpenAI는 O3와 o4-mini의 성능이 이전 모델에 비해 크게 향상되어 악의적인 공격자에게 새로운 위험을 초래한다고 밝혔습니다. OpenAI의 내부 벤치마크에 따르면 o3는 특정 유형의 생물 위협 관련 질문에 더 능숙하게 답변합니다. 이러한 이유로, 그리고 다른 위험을 줄이기 위해 OpenAI는 회사에서 "보안 중심 추론 모니터"라고 설명하는 새로운 모니터링 시스템을 만들었습니다.
모니터는 o3 및 o4-mini에서 실행되며 OpenAI의 콘텐츠 정책을 추론하도록 맞춤 학습됩니다. 이는 생물학적 및 화학적 위험과 관련된 단서를 식별하고 모델에 이러한 주제에 대한 권장 사항을 거부하도록 지시하도록 설계되었습니다.
기준선을 설정하기 위해 OpenAI는 레드팀 구성원에게 o3 및 o4-mini에서 생물학적 위험과 관련된 "안전하지 않은" 대화를 표시하는 데 약 1,000시간을 소비하도록 했습니다. OpenAI는 자사 보안 모니터의 '차단 논리'를 시뮬레이션한 테스트에서 해당 모델이 98.7%의 시간 동안 위험 메시지에 대한 응답을 거부했다고 밝혔습니다.
OpenAI는 모니터에 의해 차단된 후 새로운 프롬프트를 시도할 수 있는 사람들을 테스트에서 고려하지 않았다는 점을 인정했으며, 이것이 회사가 부분적으로 인간 모니터링에 계속 의존할 것이라고 밝힌 이유입니다.
OpenAI는 O3와 o4-mini가 OpenAI가 설정한 생물학적 위험에 대한 '고위험' 임계값을 초과하지 않았다고 밝혔습니다. 하지만 OpenAI는 생물무기 개발에 대한 질문에 답하는 데 o1과 GPT-4보다 이전 버전의 o3과 o4-mini가 더 도움이 된다고 말합니다.

o3 및 o4-mini 시스템 카드 다이어그램(스크린샷: OpenAI)
OpenAI의 최근 업데이트된 예방 프레임워크에 따르면, OpenAI는 자사 모델을 통해 악의적인 사용자가 화학적 및 생물학적 위협을 더 쉽게 개발할 수 있는 방법을 적극적으로 추적하고 있습니다.
OpenAI는 모델의 위험을 제거하기 위해 자동화 시스템에 점점 더 의존하고 있습니다. 예를 들어 GPT-4o의 기본 이미지 생성기가 CSAM(아동 성적 학대 콘텐츠)을 생성하는 것을 방지하기 위해 OpenAI는 회사가 o3 및 o4-mini에 배포한 것과 유사한 추론 모니터를 사용한다고 밝혔습니다.
그러나 일부 연구자들은 OpenAI가 보안을 있어야 할 곳에 보안을 적용하지 않는다는 점을 우려하고 있습니다. 회사의 레드팀 파트너 중 하나인 Metr는 o3의 속임수를 벤치마킹할 시간이 거의 없다고 말했습니다. 한편 OpenAI는 이번 주 초에 출시한 GPT-4.1 모델에 대한 보안 보고서를 공개하지 않기로 결정했습니다.