하버드 응급 분류 실험에서 AI 진단이 실제 의사보다 낫다는 것이 입증되었습니다

'ER'의 조지 클루니부터 'ER'의 노아 와일까지 의료 드라마에서 응급의사는 생명을 구하는 영웅으로 오랫동안 그려져 왔다. 그러나 하버드의 최근 연구에 따르면 긴급 상황 분류 상황에서 인공 지능 시스템은 진단 정확도 면에서 인간 의사를 능가했습니다. 연구자들은 이 결과를 "의학을 재편성"할 기술적 전환점으로 묘사합니다.

사이언스(Science) 저널에 게재되고 하버드 의과대학 팀이 주도한 이 연구는 독립적인 전문가들에 의해 단순히 시험에 합격하거나 인위적으로 구성된 시험 문제를 해결하는 것을 넘어 AI의 임상 추론 능력에 있어 "진정한 발전"을 이룬 것으로 믿고 있습니다. 이 연구에서는 수백 명의 의사를 대규모 언어 모델(LLM)과 비교하기 위해 대규모 실험 설계를 사용했으며 응급 분류 및 장기 치료 계획과 같은 주요 시나리오의 성과 차이를 평가하는 데 중점을 두었습니다.

핵심 실험 중 하나로 연구팀은 보스턴의 한 병원 응급실을 방문한 실제 환자 76명을 선정했다. AI 시스템과 두 명의 인간 의사로 구성된 팀은 활력 징후 데이터, 인구 통계 정보 및 방문 이유에 대한 몇 문장의 간호사 설명을 포함하여 정확히 동일한 표준 전자 의료 기록을 제공 받았습니다. 초기 진단을 내리기 위한 제한된 정보를 고려하여 AI는 67%의 사례에서 정확하거나 매우 근접한 진단을 내린 반면, 인간 의사는 50%~55%의 경우에만 정확했습니다.

연구 결과에 따르면 정보가 극히 제한적이고 신속한 판단이 필요한 분류 시나리오에서 AI의 장점이 특히 두드러진다고 합니다. AI와 의사에게 보다 상세한 임상 정보가 제공되자 AI(OpenAI의 o1 추론 모델 사용)의 진단 정확도는 82%로 더욱 향상됐고, 인간 전문가의 정확도는 70%~79% 범위였지만 이 차이는 통계적으로 유의미하지는 않았다.

AI는 응급 분류 외에도 장기 치료 계획을 수립하는 데 있어서 의사들에게 탁월한 성능을 보여주었습니다. 또 다른 실험에서 연구팀은 AI에게 항생제 처방 설계부터 임종 치료 과정과 같은 장기 관리 계획 계획에 이르기까지 46명의 의사와 함께 5건의 임상 사례를 검토하도록 요청했습니다. 그 결과, AI가 제공한 치료 옵션은 89%로 훨씬 더 높은 점수를 얻은 반면, 검색 엔진과 같은 전통적인 소스에 의존하는 의사는 34%에 불과한 것으로 나타났습니다.

그럼에도 불구하고 연구진은 “응급의사 해고 발표”는 아직 멀었다고 강조했다. 이번 연구는 텍스트화 가능한 의료기록 데이터 수준에서 AI와 인간의 진단 능력만을 비교했을 뿐, 환자의 통증 표현, 감정 상태, 신체 언어, 심지어 가족과의 상호작용 등 비텍스트 정보 등 실제 임상 상황에서 중요한 신호는 많이 포함하지 않았다. 즉, 이번 연구에서 AI는 종이 정보를 바탕으로 2차 소견을 내는 '비하인드 의사'에 더 가까웠다.

이번 연구의 제1저자 중 한 명이자 하버드 의과대학 AI 연구소 소장인 아르준 만라이(Arjun Manrai)는 “우리의 발견이 AI가 의사를 대체한다는 의미는 아니라고 생각한다”고 말했다. "내 생각에 이것이 의미하는 바는 우리가 전체 의료 시스템을 재편할 심오한 기술적 변화를 목격하고 있다는 것입니다." 보스턴에 있는 Beth Israel Deaconess Medical Center의 임상의인 동료 주요 저자인 Adam Rodman은 대규모 언어 모델을 "최근 수십 년 동안 가장 영향력 있는 기술 중 하나"라고 말했습니다. 그는 향후 10년 안에 AI가 의사를 대체하는 것이 아니라 의사, 환자, 즉 '의사, 환자, 인공지능 시스템'으로 구성된 새로운 '3자 진료 모델'을 형성할 것이라고 내다봤다.

이 연구는 또한 대표적인 임상 사례도 제시했습니다. 한 환자가 폐혈전이 발생하고 증상이 악화되어 병원에 왔습니다. 인간 의사들은 처음에 항응고제 치료가 실패하여 질병이 진행되었다고 판단했습니다. 그러나 AI는 병력을 읽은 후 중요한 점을 발견했습니다. 환자는 폐 염증을 유발할 수도 있는 자가면역 질환인 홍반성 루푸스를 앓고 있었습니다. 추가 조사 결과 AI의 추론은 정확한 것으로 판명되었습니다.

AI의 임상적 적용은 실험실 단계에 머물지 않습니다. 이미 많은 의사들이 이를 실제로 사용하고 있다. 미국의학협회(American Medical Association)가 최근 발표한 연구에 따르면 미국 의사 5명 중 거의 1명이 AI 지원 도구를 진단 절차에 도입한 것으로 나타났습니다. 영국 왕립의사협회(Royal College of Physicians)의 새로운 조사에 따르면 의사의 16%가 이러한 기술을 매일 사용하고 있으며, 15%는 일주일에 한 번 이상 사용하는 것으로 나타났습니다. 가장 일반적인 사용 시나리오 중 하나는 "임상적 의사결정 지원"입니다.

그러나 영국 의사들도 조사를 받을 때 AI에 대해 높은 경계심을 표명했으며, 특히 AI 오진 위험과 책임 문제에 대한 우려를 표명했다. 전 세계적으로 의료 AI 스타트업에 수십억 달러가 쏟아졌지만 AI가 잘못되면 책임을 어떻게 정의하고 그 결과를 누가 부담할 것인지는 여전히 해결해야 할 시급한 제도적 격차이다. Rodman은 “현재 공식적인 책임 프레임워크는 없습니다.”라고 지적하면서 환자는 삶과 죽음의 결정이나 복잡한 치료 계획에 직면할 때 “궁극적으로 인간의 안내, 동행 및 설명을 원한다”고 강조했습니다.

에딘버러 대학교 의료 정보학 센터의 공동 책임자인 이완 해리슨 교수는 "이러한 시스템이 더 이상 건강 검진을 통과하거나 인위적으로 구성된 시험 문제에 응답하는 것만을 의미하지 않는다"는 점을 보여주었기 때문에 이번 연구가 중요하다고 말했습니다. 그의 견해에 따르면 AI는 특히 잠재적인 진단을 종합적으로 분류하고 질병의 중요한 원인을 놓치지 않는 것이 필요한 시나리오에서 임상의에게 점차적으로 유용한 "2차 의견 도구"가 되고 있습니다.

동시에 영국 셰필드대학교 수학 및 물리과학대학 조교수인 웨이 싱(Wei Xing)은 연구의 일부 결과에서 의사가 AI와 협력할 때 무의식적으로 AI 결론에 의존하고 독립적인 사고를 약화시킬 수 있다는 점을 상기시켰다. 그는 “AI가 임상 환경에서 일상적으로 사용됨에 따라 이러한 경향은 더욱 증가할 가능성이 높습니다”라고 말했습니다. Xing Wei는 또한 노인 환자 또는 영어가 모국어가 아닌 환자를 진단하는 것이 더 어려운지 등 어떤 유형의 환자 AI가 더 나쁜지 완전히 공개하지 않았다는 점을 강조했습니다. 안전성을 평가할 때 무시할 수 없는 문제들이다.

따라서 하버드 임상시험의 결과는 고무적이지만 AI가 임상 진단 및 치료에 일상적이고 독립적으로 사용될 만큼 안전하다는 것을 증명하지도 않으며, 대중이 전문적인 의학적 조언을 대신하여 무료 AI 도구를 사용해야 한다는 의미도 아닙니다. 가까운 미래에 AI는 고성능 '지능형 청진기'이자 인간 주도 의료 시스템에 탑재되는 '제2의 두뇌'로 활용돼 더욱 정확하고 효율적인 진단과 치료를 촉진하는 동시에 사회에 책임, 윤리, 신뢰에 대한 새로운 문제를 제기할 가능성이 높다.