4월 15일, 블룸버그(Bloomberg)는 AI 기반 챗봇이 의료 조언을 제공할 때 약 절반의 시간 동안 문제가 되는 질문에 대한 답변을 제공한다는 새로운 연구 결과를 보도했습니다. 이번 발견은 일상 생활에 점점 더 통합되고 있는 신기술인 AI의 건강 위험을 강조합니다.

미국, 캐나다, 영국의 연구원들은 ChatGPT, Gemini, Meta AI, Grok, DeepSeek 등 5개의 주요 AI 플랫폼을 5가지 건강 카테고리에서 각 플랫폼에 10가지 질문을 하여 평가했습니다. 이번 주 의학 저널 BMJ Open에 발표된 연구에 따르면 이러한 AI 챗봇의 모든 응답 중 약 50%가 "문제가 있는" 것으로 간주되었으며 거의 ​​20%가 "매우 의심스러운" 것으로 분류되었습니다.

연구에 따르면 이러한 챗봇은 다양한 유형의 질문에서 크게 다른 성능을 보였습니다. 폐쇄형 질문(대답은 확실함)과 백신 및 암과 관련된 질문에서는 상대적으로 더 나은 성능을 보였지만 개방형 질문과 줄기세포 연구 및 영양과 같은 영역에서는 성능이 더 나빴습니다.


노란색은 문제가 있음을 의미하고 주황색은 키에 문제가 있음을 의미합니다.

연구원들은 응답이 자신감 있고 확실한 어조로 제공되는 경우가 많았지만 어떤 챗봇도 프롬프트에 응답하여 완전하고 정확한 참조 목록을 제공하지 못했다고 말했습니다. 연구 전반에 걸쳐 챗봇은 Meta AI의 질문에 단 두 번만 답변을 거부했습니다.

연구 결과는 사람들이 의학적 조언을 얻기 위해 점점 더 생성적 AI 플랫폼을 사용하고 있지만 이러한 플랫폼은 의학적 조언을 제공할 수 있는 허가가 없고 진단을 내리는 데 필요한 임상적 판단이 부족하다는 우려가 커지고 있음을 강조합니다.

AI 챗봇의 폭발적인 증가로 인해 AI 챗봇은 질병에 대한 지침을 찾는 사람들에게 인기 있는 도구가 되었습니다. OpenAI에 따르면 매주 2억 명이 넘는 사람들이 건강 및 복지 관련 질문을 위해 ChatGPT를 이용합니다. 이 플랫폼은 올해 1월 일반 사용자와 임상의를 위한 별도의 건강 도구를 출시할 것이라고 발표했습니다. 같은 달에 Anthropic은 자사의 Claude 제품이 새로운 의료 서비스를 출시할 것이라고 발표했습니다.

BMJ Open에 발표된 이 연구의 저자는 챗봇이 공공 교육 및 규제 없이 배포될 경우 잘못된 정보의 확산을 증폭시킬 수 있다는 중대한 위험을 지적했습니다.

그들은 이번 발견이 "AI의 중요한 행동 한계를 강조하고 AI 챗봇이 대중을 대상으로 하는 건강 및 의료 커뮤니케이션에 어떻게 배치되는지 재평가할 필요성을 시사한다"고 말했습니다. 그들은 또한 이러한 시스템이 종종 "권위 있는 것처럼 보이지만 잠재적으로 결함이 있는 응답"을 생성할 수 있다고 지적합니다.