Scientific Reports 저널에 발표된 최근 연구에 따르면 LLM(대형 언어 모델) 인공 지능 챗봇은 다양한 사고를 반영하여 공통 항목에 대한 대체 용도를 브레인스토밍하는 등 창의적인 작업에서 일반 인간보다 성능이 뛰어날 수 있습니다. 그러나 이러한 작업에서 가장 높은 점수를 받은 개인은 여전히 최고 성능을 발휘하는 챗봇의 결과를 초과했습니다.
확산적 사고(Divergent Thinking)는 특정 작업에 대한 다양한 아이디어나 솔루션 생성을 강조하는 창의성과 종종 관련된 사고 과정입니다.
이는 일반적으로 AUT(대안 사용 작업)를 통해 평가되며, 참가자는 짧은 시간 내에 일상적인 물건에 대해 가능한 한 많은 대체 용도를 생각해내도록 요청받습니다. 응답은 유창함, 유연성, 독창성, 정교함이라는 네 가지 범주로 나누어졌습니다.
Mika Koivisto와 Simone Grassini는 256명의 인간 참가자의 응답을 3개의 AI 챗봇(ChatGPT3, ChatGPT4 및 Copy.Ai)의 응답과 비교했으며 AUT 응답을 밧줄, 상자, 연필, 양초 등 4개 개체에 대한 응답으로 비교했습니다. 저자는 의미론적 거리(응답이 개체의 원래 사용과 얼마나 밀접하게 관련되어 있는지)와 창의성을 평가하여 응답의 독창성을 평가했습니다.
의미적 거리는 계산 방법을 사용하여 0에서 2까지 척도로 정량화되는 반면, 인간 평가자는 응답 개시자를 알지 못하여 주관적으로 창의성을 1에서 5까지 평가합니다. 평균적으로 챗봇은 의미적 거리(0.95 대 0.91)와 창의성(2.91 대 2.47)에 대해 인간의 반응보다 훨씬 더 높은 점수를 받은 응답을 생성했습니다.
인간의 응답은 두 지표 모두에서 더 넓은 범위를 가졌습니다. 가장 낮은 점수는 AI 응답보다 훨씬 낮았지만 일반적으로 가장 높은 점수는 더 높았습니다. 인간의 최고 응답은 8개 평가 범주 중 7개에서 각 챗봇의 최고 응답보다 성능이 뛰어났습니다.
이러한 연구 결과는 AI 챗봇이 이제 인간만큼 아이디어를 생성할 수 있음을 시사합니다. 그러나 저자는 창의성 평가와 관련된 단일 작업의 성과만 고려했다고 지적합니다. 저자들은 미래의 연구가 인간의 성과를 향상시키기 위해 인공 지능을 창의적 프로세스에 통합하는 방법을 탐구할 수 있다고 제안합니다.