연구에 따르면 생성적 AI 창의성은 일반 인간의 창의성을 능가했지만 최고의 창작자는 여전히 훨씬 앞서 있습니다

캐나다 몬트리올 대학교 심리학과가 주도한 대규모 연구에 따르면 생성 인공 지능 시스템은 일부 표준화된 창의성 테스트에서 일반 인간 참가자를 능가했지만 가장 창의적인 인간은 여전히 훨씬 앞서 있습니다. 이는 AI가 인간 창조자를 대체하는 것보다 더 강력한 창의적 보조 수단이라는 것을 의미합니다.

이번 연구는 몬트리올대학교 카림 제르비(Karim Jerbi) 교수가 주도했으며, 딥러닝 분야의 선구자이자 몬트리올대학교 교수인 요슈아 벤지오(Yoshua Bengio)가 팀원으로 포함됐다. 그들은 다수의 주류 대형 언어 모델(ChatGPT, Claude, Gemini 등 포함)에 대한 체계적인 평가를 수행하고 이를 100,000명 이상의 인간 피험자로부터 얻은 데이터와 비교했습니다. 이는 현재 인간-기계 창의성에 대한 가장 큰 비교 연구 중 하나입니다. 이 논문은 "인간과 대규모 언어 모델의 다양한 창의성"이라는 제목으로 "Scientific Reports"에 게재되었습니다.

결과에 따르면 "다양한 언어 창의성"을 측정하는 데 사용되는 일부 테스트에서 일부 대규모 언어 모델(GPT-4 포함)의 평균 점수가 일반 인간의 평균 점수를 초과한 것으로 나타났습니다. Jerbi는 이 발견이 “아마도 놀랍고 심지어 충격적일 수도 있지만” 똑같이 중요하다고 지적했습니다. 가장 강력한 AI 시스템조차도 여전히 가장 창의적인 인간 개인보다 성능이 더 나쁩니다.

추가 분석에 따르면 연구자들이 창의성 수준이 인간의 "상위 절반"에 있는 참가자의 절반만 조사했을 때 이 그룹의 평균 성능은 이미 테스트된 모든 AI 시스템의 성능보다 높았으며, 창의적인 사람들 중 상위 10% 중에서 인간과 AI 사이의 격차는 훨씬 더 분명했습니다. 공동 제1저자인 몬트리올 대학의 박사후 연구원인 앙투안 벨레마레-페팽(Antoine Bellemare-Pépin)과 콩코르디아 대학의 박사 과정 학생인 프랑수아 레스피나스(François Lespinasse)는 이것이 "최고 수준의 창의성은 여전히 인간의 고유한 장점"임을 보여준다고 지적했습니다.

인간과 AI를 공정하게 비교하기 위해 연구팀은 다양한 방법을 사용했다. 핵심 도구는 캐나다 토론토 대학의 연구원인 Jay Olson이 개발한 "Divergent Association Task"(DAT)였습니다. 이번 심리테스트는 인간이든 AI이든 참가자에게 '은하수, 포크, 자유, 조류, 하모니카, 양자, 노스탤지어, 벨벳, 허리케인' 등 최대한 의미가 다른 10개의 단어를 하나의 응답으로 제시하고, 단어 사이의 의미적 거리를 계산해 확산적 사고능력을 측정한다.

이전 연구에 따르면 DAT에서 인간의 성과는 창의적 글쓰기, 아이디어 생성, 창의적 문제 해결 등과 같은 다른 전통적인 창의성 테스트 결과와 높은 상관관계가 있으므로 더 넓은 창의적 인지 과정의 빠른 대리 지표로 간주될 수 있습니다. DAT의 또 다른 특징은 운영이 쉽고 시간이 짧으며 일반적으로 완료하는 데 2~4분밖에 걸리지 않으며 온라인 형식으로 대중에게 공개된다는 점입니다.

연구팀은 기본 단어 테스트를 마친 후 이 '언어적 수준' 성과가 보다 복잡한 창의적 작업에 적용될 수 있는지 추가로 조사했습니다. 그들은 AI 시스템이 하이쿠(3줄짜리 짧은 시) 만들기, 영화 줄거리 요약 쓰기, 단편 소설 만들기 등 다양한 쓰기 시나리오에서 인간 참가자들과 정면으로 경쟁할 수 있도록 마련한 다음 작품의 품질을 평가했습니다. 결과는 이전 패턴을 이어갑니다. 일부 작업에서는 AI의 평균 성능이 일반 인간보다 낫지만, 더 높은 수준의 인간 창작자, 특히 글쓰기와 스토리텔링에 가장 능숙한 사람들 사이에서는 인간의 이점이 여전히 분명합니다.

이 연구는 또한 AI의 "창의성"이 제어 가능하고 조정 가능한가?라는 핵심 질문도 탐구했습니다. 대답은 '예'입니다. 기사에서는 중요한 기술 매개변수가 모델의 "온도"이며 이는 출력 콘텐츠의 예측 가능성과 다양성에 영향을 미친다고 지적했습니다. 온도가 낮을수록 AI가 생성한 답변은 더 보수적이고 예측 가능합니다. 온도가 높을수록 출력은 더 다양하고 불안정해지며 종종 더 위험하지만 더 혁신적인 연관성으로 이어집니다.

또한 프롬프트를 작성하는 방식도 중요한 영향을 미칩니다. 연구에 따르면 모델이 단어의 어원과 구조를 어원적으로 고려하도록 지시할 때 AI는 예상치 못한 연관성을 만들어 창의성 등급에서 더 높은 점수를 받을 가능성이 더 높았습니다. 이는 AI가 발휘하는 창의성이 인간의 입력과 안내에 크게 의존하며, 인간-컴퓨터 상호 작용의 디자인이 창작 과정의 핵심 링크 중 하나가 되고 있음을 의미합니다.

AI가 창의적 인력을 '대체'할 것이라는 우려가 널리 퍼져 있는 상황에서 본 연구는 비교적 신중한 판단을 제공합니다. Jerbi는 AI가 현재 일부 표준화된 테스트에서 인간의 평균 창의성 수준에 도달하거나 심지어 이를 능가하지만 인간과 기계의 관계를 '경쟁'으로 과도하게 이해하는 것은 오해의 소지가 있다고 강조했습니다. 그의 견해에 따르면 생성 AI는 무엇보다도 매우 강력한 창의적 도구입니다. "그것은 창작자를 대체하지는 않지만 창작자가 상상하고 탐색하고 창조하는 방식을 근본적으로 변화시킬 것입니다. 물론 이는 사람들이 그것을 사용하기로 선택하는지 여부에 달려 있습니다."

논문 말미에서는 AI를 창의적 경력의 종말을 예측하기보다는 상상의 경계를 확장하는 '창의적 조력자'로 보는 것이 더 낫다는 점을 지적하고 있다. 미래의 창의성 생태학은 더 이상 인간과 기계 사이의 단순한 싸움이 아니라 인간-기계 협업의 새로운 패러다임이 될 수 있습니다. AI는 인간에게 영감과 변형, 시험장을 제공하고 인간은 더 높은 수준에서 미학과 가치, 의미를 파악합니다. Jerbi는 인간과 기계의 능력을 긍정적으로 비교하는 이러한 종류의 연구가 학계와 대중으로 하여금 "무엇이 창의성으로 간주되는지"라는 근본적인 질문을 다시 생각하게 만든다고 믿습니다.