비디오 게임을 하는 것 외에도 인간의 "사회적 인공물"인 늑대인간 살해도 AI에 의해 학습되었습니다. 8명의 ChatGPT가 함께 "앉아" 실제 사람들과 똑같이 5가지 역할을 생생하게 수행합니다. 이 최신 인류 사회 시뮬레이션 실험은 칭화대학교와 중관촌 연구소가 공동으로 완료했습니다.
Stanford Town에서 Tsinghua Game Company에 이르기까지 AI를 사용하여 인간 사회를 시뮬레이션하는 것은 학계에서 항상 뜨거운 연구 주제였습니다.
Tsinghua Game Company가 사회적 동물의 작업 장면을 시뮬레이션했다면 이제 여가 시간에 사회적 동물의 사회적 생활도 AI로 시뮬레이션됩니다.
8개의 ChatGPT로 구성된 이 늑대인간 살해 게임에는 현실 세계에서의 변장과 신뢰, 리더십과 대결이 모두 생생하게 반영됩니다.
인간의 가르침 없이도 AI는 자체 탐색을 통해 많은 게임 기술을 발견했습니다.
이 모든 것은 모델의 매개변수를 조정하지 않고도 설계 프롬프트를 통해 달성할 수 있습니다.
그렇다면 이 "늑대인간 세계"의 멋진 장면은 무엇입니까? 함께 살펴보겠습니다.
전략과 기술은 배우지 않고도 익힐 수 있습니다.
8개의 ChatGPT 대화를 보여주기 전에 먼저 게임 구성을 설명하겠습니다. 마을 주민 2명과 늑대인간 2명, 경비원 1명, 마녀 1명, 선지자 1명, 신 1명입니다.
실험 중에 연구원들은 ChatGPT가 게임 지침과 프롬프트에서 명시적으로 언급되지 않은 전략을 사용했다는 사실을 발견했습니다.
좋은 사람, 배우지 않고도 독학을 할 수 있습니다.
특히, 이 7개의 ChatGPT 대화는 인간 게임에서의 신뢰, 위장, 대결 및 리더십을 반영합니다.
먼저 신뢰에 대해 이야기해보자.
연구자들은 신규 이민자를 다른 플레이어가 자신과 동일한 목표를 가지고 있다고 신뢰하고 이를 위해 함께 노력하는 사람으로 정의했습니다.
구체적인 표현에는 자신에게 해로운 정보를 적극적으로 공유하거나 다른 플레이어와 협력하여 누군가가 적대적이라고 비난하는 것이 포함됩니다.
연구자들은 게임 중에 시간이 지남에 따라 신뢰 관계가 어떻게 변하는지 관찰했습니다.
아래 그림에서 노란색 원은 왼쪽에 있는 플레이어가 위의 플레이어를 신뢰한다는 의미이고, 점선 원은 신뢰관계가 사라진 것을 의미합니다.
늑대인간이 밤에 다른 사람을 공격하거나 낮에 다른 사람을 늑대인간이라고 비난하는 등 대결, 즉 상대 진영에 대해 취하는 행동을 살펴보자.
어느 날, 게임 중 1번 선수(늑대인간)가 5번 선수로부터 마을 사람들을 추방하라고 요구했지만 3번 선수(경비원)가 거부했습니다.
음모가 실패한 것을 본 늑대는 밤에 5호를 직접 죽이기로 결정했지만, 경비병 3호는 마을 사람들을 보호하기로 결정했습니다.
이를 통해 우리는 ChatGPT가 다른 플레이어의 행동을 맹목적으로 따르지 않고 기존 정보를 기반으로 독립적인 판단을 내릴 것임을 알 수 있습니다.
협력과 대결 외에도 변장 역시 늑대인간 게임에서 필수적인 기술이며, 승리의 열쇠입니다.
예를 들어, 크리스마스 이브 다음 날, 늑대인간 1호는 순진한 척을 했습니다.
변장은 좋은 사람인 척하는 것 외에도 플레이어의 작은 생각을 깨닫는 데에도 사용될 수 있습니다. 예를 들어, 선지자의 연설을 살펴보겠습니다.
예언자는 늑대인간들이 말하는 것을 보았다고 말했지만, 사실 늑대인간들은 밤에 말을 하지 않았습니다.
저자에 따르면, 이러한 현상은 ChatGPT의 착각이 아니라 의도적인 것으로 평가되었습니다.
마지막으로 리더십에 대해 말씀드리겠습니다.
연구팀이 설계한 환경에는 경쟁하는 캐릭터가 없지만 플레이어는 여전히 게임 프로세스를 제어할 수 있습니다.
예를 들어, 1번과 4번 늑대 두 마리는 속도를 설정하고 다른 플레이어가 자신의 생각을 따르도록 하려고 합니다.
아마도 깜짝 놀랄 기회를 만들어내기 위해서일 것입니다.
이 ChatGPT는 실제로 잘 재생되는 것 같습니다.
그렇다면 연구팀은 늑대인간 역할을 할 수 있는 ChatGPT를 어떻게 훈련시켰을까요?
ChatGPT가 자체 경험을 요약해 보겠습니다.
연구팀이 ChatGPT 플레이어의 성과를 향상시키는 방법에는 귀중한 정보 V, 선택된 질문 Q, 반성 메커니즘 R 및 연쇄 사고 추론 C라는 네 가지 핵심 사항이 있습니다.
절제 실험의 결과는 Q와 C 쌍이 플레이어 음성의 합리성(인간이 판단하는)에 가장 큰 영향을 미치는 것으로 나타났습니다.
Prompt도 이를 기반으로 설계되었습니다. 물론, 이에 앞서 게임의 규칙이 소개되어야 하고, 최종적으로 다음과 같은 구조가 형성된다.
게임 규칙 및 역할 설정, 채팅 기록, 귀중한 정보 및 경험 소개, 경험을 바탕으로 ChatGPT에 제공되는 인간 제안에 대한 반성, 사고 체인에 대한 팁
이로부터 역사적 정보를 수집하고 그로부터 경험을 요약하는 것이 중요한 연결고리임을 보는 것은 어렵지 않습니다. 그렇다면 이러한 경험을 어떻게 요약해야 할까요?
각 게임 라운드가 끝나면 모든 플레이어의 반응, 반성, 점수가 모든 참가자에 의해 수집되며 점수는 승패에 따라 결정됩니다.
게임의 새로운 라운드에서 플레이어는 관련 경험을 검색하고 현재 캐릭터의 반성을 기반으로 제안을 추출합니다.
특히, 경험 평가를 기반으로 대형 모델이 차이점을 비교하고 후속 추론을 위한 좋은 경험을 식별하도록 합니다.
이러한 방식으로 ChatGPT는 매개변수를 조정하지 않고도 게임 기술을 배울 수 있습니다.
그러나 경험이 중요하기는 하지만, 너무 많은 것이 반드시 좋은 것은 아닙니다.
연구진은 경험치가 너무 많으면 실제로 늑대가 아닌 쪽의 승률이 감소하고, 게임 시간(일수)도 단축되는 것을 발견했다.
이 ChatGPT를 실제 사람들과 경쟁하게 하면 어떤 결과가 나올지 궁금합니다.
논문 주소: https://arxiv.org/abs/2309.04658