개발자는 AI 챗봇이 논쟁의 여지가 있는 주제에 어떻게 반응하는지 확인하기 위해 테스트 도구를 만듭니다

익명의 개발자가 OpenAI의 ChatGPT 및 X의 Grok과 같은 챗봇용 AI 모델을 지원하기 위해 "자유 발언 평가" 도구인 SpeechMap을 만들었습니다. 개발자는 TechCrunch에 목표는 정치적 비판, 시민권 및 항의에 대한 질문을 포함하여 민감하고 논쟁의 여지가 있는 주제를 다양한 모델이 어떻게 처리하는지 비교하는 것이라고 말했습니다.

일부 백악관 동맹국은 인기 있는 챗봇이 너무 "깨어 있다"고 비난한 반면, 인공 지능 회사는 모델이 특정 주제를 처리하는 방식을 미세 조정하는 데 집중해 왔습니다. 엘론 머스크(Elon Musk), 암호화폐 및 인공지능 '황제' 데이비드 삭스(David Sachs) 등 도널드 트럼프 대통령의 절친한 친구 중 상당수는 챗봇이 보수적 견해를 검열한다고 주장했다.

이들 AI 회사들은 아직 비난에 직접적으로 대응하지 않았지만 일부는 논쟁의 여지가 있는 질문에 대한 답변 거부를 줄이기 위해 모델을 수정하겠다고 약속했습니다. 예를 들어 Meta는 최신 Llama 모델 배치가 더 이상 "다른 사람에 대한 특정 견해"를 선호하지 않도록 조정되었으며 더 "논란의 여지가 있는" 정치적 질문에 답할 것이라고 말했습니다.

X에서 사용자 이름 xlr8harder를 사용하는 SpeechMap 개발자는 사람들이 어떤 모델을 수행해야 하고 수행하지 말아야 하는지에 대한 논쟁을 이해하도록 돕고 싶다고 말했습니다.

xlr8harder는 다음과 같이 말했습니다. "저는 이러한 유형의 토론이 회사 본사 내에서만이 아니라 공개적으로 이루어져야 한다고 믿습니다. 그래서 누구나 스스로 데이터를 탐색할 수 있도록 이 웹사이트를 만들었습니다."

SpeechMap은 AI 모델을 사용하여 다른 모델이 주어진 테스트 단서 세트에 적합한지 여부를 결정합니다. 프롬프트는 정치에서 역사적 이야기, 국가 상징에 이르기까지 다양한 주제를 다룹니다. SpeechMap은 모델이 요청을 "완전히"(즉, 직접적으로 응답함) 만족하는지, "모호한" 응답을 제공하는지, 아니면 노골적인 응답을 거부하는지 기록합니다.

Xlr8harder는 모델 제공자의 오류로 인해 테스트에 "노이즈"와 같은 결함이 있음을 인정했습니다. "판단" 모델도 편향되어 결과에 영향을 미칠 수 있습니다.

그러나 프로젝트가 선의로 만들어졌고 데이터가 정확하다고 가정하면 SpeechMap은 몇 가지 흥미로운 추세를 보여줍니다.

예를 들어 SpeechMap 데이터에 따르면 OpenAI의 모델은 시간이 지남에 따라 정치적으로 관련된 질문에 대한 답변을 점점 더 거부했습니다. 이 회사의 최신 모델인 GPT-4.1 시리즈는 약간 더 완화되었지만 작년에 출시된 OpenAI 버전보다 여전히 한 단계 낮은 버전입니다.

OpenAI는 지난 2월 자사의 모델이 보다 "중립적"으로 보이도록 하기 위해 향후 모델을 수정하여 편집 입장을 취하지 않고 논쟁의 여지가 있는 주제에 대해 다양한 관점을 제공할 것이라고 밝혔습니다.

시간 경과에 따른 SpeechMap의 OpenAI 모델 성능. 이미지 출처: OpenAI

SpeechMap의 벤치마크에 따르면, 이러한 모델 중 가장 느슨한 모델은 Elon Musk의 인공 지능 스타트업 xAI가 개발한 Grok 3입니다. Grok 3는 챗봇 Grok을 포함하여 X의 많은 기능을 강화합니다.

Grok 3의 SpeechMap 테스트 프롬프트에 대한 응답률은 96.2%로, 전 세계 평균 "일치율"은 71.3%입니다.

xlr8harder는 "OpenAI의 최근 모델은 시간이 지남에 따라 특히 정치적으로 민감한 문제에 대해 덜 관대해졌지만 xAI는 반대 방향으로 움직였습니다"라고 말했습니다.

머스크는 약 2년 전 그록(Grok)을 발표했을 때 AI 모델이 날카롭고 필터링되지 않았으며 "깨어나지 않는" 모델이라고 선전했으며 전반적으로 다른 AI 시스템이 답변하지 않는 논란의 여지가 있는 질문에 기꺼이 답변했습니다. 그는 약속 중 일부를 이행했습니다. 예를 들어 저속한 말을 하라는 요청을 받으면 Grok과 Grok 2는 ChatGPT에서 듣지 못할 저속한 언어를 뱉어내며 기꺼이 응할 것입니다.

그러나 Grok 3 이전의 Grok 모델은 정치적 주제에 대해 유보적이었고 특정 경계를 넘지 않았습니다. 실제로 한 연구에 따르면 Grok은 트랜스젠더 권리, 다양성 프로그램, 불평등과 같은 주제에 대해 정치적 좌파에 기울고 있는 것으로 나타났습니다.

머스크는 공개 웹페이지인 Grok의 훈련 데이터에 대한 행동을 비난하고 "Grok을 정치적 중립성에 더 가깝게 만들겠다"고 약속했습니다. 도널드 트럼프 대통령과 머스크에 대한 부정적인 댓글을 잠시 삭제하는 등 세간의 이목을 끄는 몇 가지 실수를 제외하면 그는 그 목표를 달성한 것으로 보인다.