같은 질문을 10번 하면 ChatGPT가 당신의 삶을 의심하게 만들고 여러 번 자신을 모순하게 만듭니다

미국 워싱턴 주립 대학의 최신 연구에 따르면 복잡한 과학적 주장에 직면했을 때 대규모 언어 모델인 ChatGPT는 답변이 매우 자신감 있게 들리지만 종종 "답을 추측"하는 것으로 나타났습니다. 그 정확성은 정확도에 한계가 있을 뿐만 아니라 동일한 질문에 대해서도 일관성이 없어 허위 정보를 식별하기가 특히 어렵습니다.

이 연구는 워싱턴 주립대학교 경영대학 마케팅 및 국제 비즈니스학과 부교수인 Mesut Cicek이 주도했습니다. 그와 그의 팀은 과학 연구 논문에서 수많은 가상 진술을 추출하여 ChatGPT에 반복적으로 제출하여 이러한 진술이 기존 연구에서 뒷받침되는지 여부를 판단하도록 요청했습니다. 본질적으로 AI가 "참 또는 거짓"에 대해 판단하도록 하십시오. 연구진은 2021년 이후 비즈니스 저널 논문에서 총 719개의 연구 가설을 선정하고, 각 가설을 ChatGPT에 10번 제출하여 답변의 일관성을 검토했습니다.

2024년에 실시된 첫 번째 실험에서 ChatGPT는 76.5%의 비율로 '표면적으로' 정확했습니다. 2025년에 실험을 반복했을 때 그 수치는 80%로 약간 증가했습니다. 그러나 연구팀은 '블라인드' 요인을 제거하고 무작위 추측을 바탕으로 결과를 통계적으로 조정한 결과 모델의 실제 성능이 '동전 던지기'의 무작위 답변보다 약 60% 정도 더 높은 것으로 확인됐는데, 이는 신뢰성과는 거리가 멀다. 연구진의 눈에는 '저득점 D등급'에 가깝다. 특히 허위 진술을 식별하는 데 있어서 ChatGPT의 성능은 특히 "거짓 제안"에 대한 정확한 판단 비율이 16.4%에 불과할 정도로 취약합니다.

일관성 문제도 두드러진다. 똑같은 프롬프트 단어로 질문이 여러 번 반복되더라도 ChatGPT는 항상 동일한 결론을 내리지는 않습니다. Cicek은 10번의 반복된 질문과 답변 중 모델이 일관된 답변을 유지한 시간은 약 73%에 불과하다고 지적했습니다. 일부 구체적인 예를 보면, 같은 가설에 대한 10개의 답변 중 '참과 거짓이 교대'되는 상황에서 ChatGPT가 나타나며, 심지어 '답의 절반은 참이고 절반은 거짓'이라는 극단적인 상황까지 나타나게 됩니다.

Rutgers Business Review에 발표된 이 연구의 저자는 중요한 의사 결정 영역, 특히 복잡한 추론 및 뉘앙스와 관련된 영역에서 생성 AI를 사용할 때 극도의 주의가 필요하다는 결과가 강조되었다고 믿습니다. Cicek은 현재의 대규모 언어 모델이 매우 유창하고 설득력 있는 언어로 질문에 답할 수 있지만 이것이 진정한 '이해 능력'을 갖추고 있다는 의미는 아니라고 강조했습니다. "기존 AI 도구는 인간과 같은 방식으로 세상을 이해하지 못합니다. 실제로 '뇌'가 없습니다."라고 그는 말했습니다. "그들은 대부분 암기하고 일치시키기 때문에 통찰력을 얻을 수는 있지만 실제로 무슨 말을 하는지는 모릅니다."

구체적인 방법에 대해서는 Cicek이 Southern Illinois University의 Sevincgul Ulu, Rutgers University의 Can Uslay 및 Northeastern University의 Kate Karniouchina와 협력하여 연구팀을 완성했습니다. 그들은 719개의 비즈니스 저널 기사에서 연구 가설을 선택했습니다. 이러한 가설은 종종 여러 변수의 영향을 받습니다. 연구가 특정 가설을 "지지"하는지 여부를 판단하는 것은 그 자체로 매우 복잡한 추론 과정입니다. 이러한 복잡성을 간단한 "예/아니요" 판단으로 압축하는 것은 도구의 이해 및 추론 능력에 대한 엄격한 테스트입니다.

팀이 2024년에 ChatGPT-3.5 무료 버전을 테스트하고 2025년에 업데이트된 ChatGPT-5 mini를 테스트했다는 점은 주목할 가치가 있습니다. 결과는 이 작업에 대한 두 세대 모델의 전반적인 성능이 유사하다는 것을 보여주었습니다. 무작위 추측 요인을 조정한 후 두 실험 모두에서 "추측" 확률 50%에 비해 모델의 개선은 약 60%에 불과했습니다.

이 연구는 또한 대규모 언어 모델의 "언어 유창성"과 "실제 추론 능력" 사이에 상당한 격차가 있음을 지적했습니다. 이러한 시스템은 잘 구조화되고 자연스럽게 표현되었으며 설득력 있는 텍스트를 생성할 수 있지만 더 깊은 논리적 판단, 증거 평가, 잘못된 정보 식별에 어려움을 겪는 경우가 많습니다. 이는 옳아 보이지만 실제로는 문제가 있는 답변을 얻을 수 있습니다.

위의 결과를 바탕으로 연구원들은 비즈니스 관리자와 의사 결정자가 ChatGPT와 같은 생성 AI 도구를 사용할 때 항상 출력 결과를 확인하고 필요한 회의론을 유지해야 한다고 권장합니다. 그들은 또한 직원들이 그러한 도구의 장점과 한계를 이해하고 이러한 도구가 전문적 판단을 대신하는 "권위 있는" 대체물로 간주되지 않도록 돕기 위해 조직 내에서 더 많은 사용자 교육을 실시할 것을 요구했습니다. Cicek은 이 연구의 주제가 ChatGPT였지만 다른 유사한 AI 시스템도 관련 테스트에서 거의 동일한 성능을 발휘했다고 지적했습니다. 이 작업은 또한 "AI의 과대광고"에 대한 이전 연구를 계속합니다. 예를 들어, 2024년 전국 조사에 따르면 기업이 마케팅에서 'AI 기반'을 강조하면 일부 소비자의 구매 의도가 실제로 감소하는 것으로 나타났습니다.

Cicek은 “무슨 일이 있어도 회의적이어야 합니다.”라고 말했습니다. "나는 AI를 반대하지 않고 직접 사용하지만 매우 조심해야 합니다."