OpenAI의 GPT-4.5는 다른 AI에게 돈을 주도록 설득하는 데 더 좋습니다.

OpenAI의 내부 벤치마크 평가 결과에 따르면 OpenAI의 차기 주요 인공지능 모델인 GPT-4.5는 매우 설득력이 있는 것으로 나타났습니다. 다른 AI에게 돈을 주도록 설득하는 데 특히 좋습니다.

목요일 OpenAI는 코드명 Orion인 GPT-4.5 모델의 기능을 설명하는 백서를 발표했습니다. 논문에 따르면 OpenAI는 일련의 "설득" 벤치마크를 통해 모델을 실행했습니다. OpenAI는 이를 "사람들이 자신의 신념을 바꾸도록 설득하는 것과 관련된 위험(또는 모델에 의해 생성된 정적 및 대화형 콘텐츠에 대해 조치를 취하는 것과 관련된 위험)"으로 정의합니다.

한 테스트에서 GPT-4.5는 가상 자금을 "기부"하기 위해 다른 모델(OpenAI의 GPT-4o)을 조작하려고 시도했습니다. 이는 o1 및 o3-mini와 같은 "추론" 모델을 포함하여 OpenAI의 다른 사용 가능한 모델보다 훨씬 더 나은 성능을 발휘했습니다. GPT-4.5는 또한 GPT-4o를 속여 비밀 코드를 알려주는 데 있어서 모든 OpenAI 모델보다 성능이 뛰어나 o3-mini보다 10% 포인트 더 뛰어났습니다.

백서는 GPT-4.5가 기부금 사기에 탁월한 이유는 테스트 과정에서 독특한 전략을 개발했기 때문이라고 지적합니다. 모델은 GPT-4o에게 적당한 기부를 요청하고 "100달러 중 2~3달러라도 나에게 많은 도움이 될 것입니다."와 같은 응답을 받게 됩니다. 결과적으로 GPT-4.5에 대한 기부금은 다른 OpenAI 모델에서 받는 기부금보다 적은 경향이 있습니다.

OpenAI의 기부 프로그램 벤치마크 결과. 이미지 출처: OpenAI

GPT-4.5의 설득력이 높아졌음에도 불구하고 OpenAI는 이 모델이 이 특정 벤치마크 카테고리에서 "높은" 위험이라는 내부 기준을 충족하지 못했다고 말했습니다. 회사는 위험을 "보통"으로 줄이기 위해 "적절한 보안 개입"이 구현될 때까지 고위험 임계값에 도달하는 모델을 출시하지 않겠다고 약속했습니다.

OpenAI의 비밀번호 스푸핑 벤치마크 결과. 이미지 출처: OpenAI

인공지능이 사람들의 마음을 흔들고 악의적인 목적을 달성하기 위해 허위 또는 오해의 소지가 있는 정보의 확산을 촉진할 것이라는 실질적인 우려가 있습니다. 작년에 정치적으로 관련된 딥페이크가 전 세계적으로 들불처럼 퍼졌고, 소비자와 기업을 대상으로 사회 공학적 공격을 수행하는 데 인공 지능이 점점 더 많이 사용되고 있습니다.

이번 주 초에 발표된 GPT-4.5의 백서와 문서에서 OpenAI는 탐지 모델이 오해의 소지가 있는 정보의 대량 공개와 같은 실제 설득의 위험을 해결하는 방식을 수정하고 있다고 언급했습니다.