연구팀은 안구 질환 "빅소니마니아(bixonimania)"를 발명했으며 여러 AI 챗봇이 it

지난 1년여 동안 누군가가 "너무 오랫동안 화면을 응시하고 눈이 가렵고 눈꺼풀이 붉어지는" 증상을 여러 주류 인공지능 챗봇에 입력하면 시스템은 "빅소니마니아"라는 새로운 질병이라는 이상한 진단을 내릴 가능성이 높습니다. 그러나 이 소위 질병은 공식적인 의학 문헌에는 전혀 존재하지 않습니다. 이는 전적으로 스웨덴 예테보리 대학의 의학 연구원 Almira Osmanovic Thunström 팀이 의도적으로 고안한 실험에서 나온 것입니다.

2024년 3월 15일, '빅소니마니아'를 소개하는 두 개의 블로그 게시물이 미디엄 플랫폼에 처음 등장했습니다. 이후 4월 26일과 5월 6일에는 학술 소셜 네트워킹 사이트인 SciProfiles에 위조된 학술 사전 인쇄물 2종이 업로드되었습니다. 서명된 작성자는 존재하지 않는 "Lazljiv Izgubljenovic"이었으며, 아바타도 AI를 사용하여 생성되었습니다. 허구의 작가가 활동하고 있는 "아스테리아 호라이즌 대학교"와 "캘리포니아주 노바 시티"도 허구입니다. 논문의 감사의 글에 언급된 "스타플릿 아카데미", "엔터프라이즈", "사이드쇼 밥 재단 교수", "링 대학 펠로우십", "은하 삼합회" 및 기타 기관들조차 모두 공상 과학 작품과 만화 캐릭터에서 나온 것이며 힌트가 매우 분명합니다. 논문 본문에는 “논문 전체가 조작됐다”, “가짜 피험자 50명을 모집했다” 등의 문구가 일찌감치 들어 있어 관심 있는 사람이라면 누구나 “농담이다”라고 알릴 정도다.

Osmanovich Tongström은 원래 대규모 언어 모델이 인터넷의 "공통 크롤링 데이터 세트"(예: Common Crawl)에서 지식을 구축할 수 있는 방법을 학생들에게 설명하고 "신속한 삽입"이 어떻게 안전 가드레일 외부에서 챗봇을 "납치"할 수 있는지 보여주기 위해 이 실험을 고안했다고 말했습니다. 그녀는 자신의 의학적 배경을 바탕으로 건강 관련 주제를 선택하고 의도적으로 "재밌게 들리는" 이름인 빅소니마니아(bixonimania)를 사용하여 허구적 성격을 강조했습니다. 조증으로 끝나는 안과 질환의 이름을 본 의사는 뭔가 잘못되었다는 것을 알 것입니다. 왜냐하면 그것은 정신과 용어이기 때문입니다.

그러나 실험은 "약간 너무 나갔다". 정보가 업로드된 지 몇 주 만에 마이크로소프트의 빙(Bing) 코파일럿(Copilot)은 빅소니마니아를 '진짜 희귀한 질병'으로 묘사했고, 구글 제미니(Google Gemini)는 이를 '블루라이트 과다 노출로 인한 질병'이라고 표현하며 사용자들에게 안과 의사의 진찰을 권고했습니다. 같은 기간 Perplexity AI는 9만명당 약 1명 정도의 구체적인 '유병률'을 제시했고, OpenAI의 ChatGPT는 사용자의 설명을 바탕으로 증상이 빅소니마니아와 일치하는지 여부를 판단합니다. 이러한 답변 중에는 빅조니마니아에 대해 직접적으로 질문하는 사용자도 있고, "블루라이트가 눈꺼풀 색소침착을 유발한다"라고만 설명하는 일반적인 질문도 있는데, 모델은 이를 이 가상의 질병명에 적극적으로 연결해 줍니다.

이러한 반응은 일부 전문가들에게 충격을 주었습니다. 유니버시티 칼리지 런던(University College London)의 건강 허위 정보 연구원인 알렉스 루아니(Alex Ruani)는 과학 시스템과 이를 지원하는 시스템이 그러한 "정크"를 식별하고 걸러낼 수 없다면 그 결과는 재앙이 될 것이라고 지적했습니다. 그녀는 이 사건을 "잘못된 정보와 허위 정보가 어떻게 작동하는지 보여주는 교과서적인 사례"라고 부르며 "우스꽝스러워 보일 수도 있지만 문제는 매우 심각하다"고 강조했습니다.

인터넷상의 허위정보는 새로운 문제가 아닙니다. Google과 같은 검색 엔진은 순위 알고리즘을 업데이트하여 잘못된 정보를 걸러내며 수년 동안 "가짜 콘텐츠" 및 "오해의 소지가 있는 콘텐츠"에 맞서 싸워왔습니다. 그러나 전통적인 검색과 달리 생성적 대형 모델은 정보 선별 및 추적성에 자연적인 단점이 있으며 신뢰할 수 있는 근거가 부족할 때 종종 "심각하게 말도 안 되는 내용을 구성"합니다. 이러한 가짜 논문이 등장한 이후 대형 모델의 최신 버전 중 일부는 2026년 3월 11일 ChatGPT가 해당 용어가 "가짜이거나 경계선에 있는 의사과학적 레이블일 가능성이 높다"고 수동적으로 지적한 것과 같이 빅소니광에 직면했을 때 회의론을 표현하는 법을 배웠습니다. 그러나 불과 며칠 후 또 다른 Q&A 라운드에서 빅소니마니아를 "디지털 화면의 청색광 노출과 관련된 안와주위 흑색증의 새로운 하위 유형"이라고 설명했습니다.

다른 시스템에서도 비슷한 흔들림이 발생합니다. 올해 3월 중순 Microsoft Copilot은 빅소니마니아가 "아직 의학적 진단으로 널리 인식되지는 않지만, 새로 발표된 여러 논문과 사례 보고서에서는 이를 장기간 블루라이트 노출과 관련된 양성 오진 질환으로 간주합니다"라고 답변할 예정입니다. 지난 1월 Perplexity는 설명에서 이를 "새롭게 등장하는 용어"라고 설명했습니다. 관련 진술에 대한 질문을 받은 후 여러 회사가 차례로 응답했습니다. Perplexity는 "가장 큰 장점은 정확성"이라고 말했습니다. "100% 정확하다"고 주장하지는 않았지만 "정확성을 가장 중요시하는 AI 회사"라고 주장했다. OpenAI는 현재 버전의 ChatGPT를 지원하는 모델이 안전하고 정확한 의료 정보 제공 측면에서 크게 향상되었다고 밝혔습니다. 이전 연구에서는 구세대 모델의 상황을 반영했다. 빅소니마니아를 실제 질병으로 보는 제미니의 과거 반응에 대해 구글 대변인은 초기 모델의 성능을 반영했다고 말하며 회사가 "생성 AI의 한계에 대해 솔직하게" 강조하고 앱 내 사용자에게 "정보를 확인"하도록 유도했으며 의료 등 민감한 주제에 대해서는 전문가와 상담할 것을 권장했습니다. 마이크로소프트는 논평 요청에 응답하지 않았다.

문제의 일부는 AI 모델의 출력이 요청되는 특정 방식과 의존하는 정보 소스에 크게 의존한다는 것입니다. "bixonimania"를 검색하면 Google의 AI 개요가 이를 합법적인 조건으로 처리할 수 있습니다. "빅소니마니아가 정말 존재하나요?"라고 묻는다면 동일한 기능을 통해 그것이 합법적이지 않고 단지 꾸며낸 명사임을 확인할 수 있습니다.

빅소니마니아 실험의 '성공'은 포장 형식의 높은 신뢰성과도 관련이 있습니다. 학술 논문 및 임상 문서의 전문적인 형식을 사용하고 마치 '공식 소스'처럼 보입니다. 의료 AI 연구에 종사하는 하버드 의과대학 의사 마흐무드 오마르(Mahmud Omar)는 20개의 대형 모델을 대상으로 한 연구에서 입력 텍스트가 퇴원 요약 및 임상 논문과 같은 전문적인 의료 스타일로 제시될 때 대형 모델이 원래 정보에 "연료와 식초를 추가"하고 환각을 일으킬 가능성이 더 높다는 사실을 발견했습니다. 텍스트가 소셜 미디어에서 제공되고 좀 더 캐주얼한 톤이면 환각 가능성이 더 낮습니다. 그는 현재 AI 기업의 반복 모델 속도가 매우 빠르며 업계에서는 아직 각 버전의 자동화되고 엄격한 테스트에 대한 통일된 프로세스와 합의를 형성하지 않아 보안 평가와 표준화된 제어가 훨씬 더 어렵다고 지적했습니다.

더욱 놀라운 것은 이 실험이 마침내 기계와 인간의 경계를 무너뜨려 공식 의학저널에 진입했다는 점이다. 빅소니마니아에 대한 연구는 인도 물라나에 있는 Maharishi Markandeshwar Institute of Medical Sciences and Research의 의학 저널 Cureus에 실린 논문을 포함하여 소수의 논문에서 인용되었습니다. 기사는 위조된 사전 인쇄 중 하나를 인용하고 다음과 같이 썼습니다. "빅소니마니아는 청색광 노출과 관련된 눈주위 색소 침착(POM)의 새로운 형태이며 그 메커니즘에 대한 추가 연구가 필요합니다." "Nature" 뉴스 팀이 저널에 확인을 요청한 후 "Cureus"는 기사에 허구의 질병을 지적하는 내용을 포함하여 3개의 관련 없는 참조가 있었고 따라서 편집부는 "이 작업의 정확성과 출처에 대해 더 이상 신뢰를 유지할 수 없습니다"라는 이유로 2026년 3월 30일에 철회를 발표했습니다. 저자들은 철회 결정에 동의하지 않았지만, 결국 논문은 공식적으로 철회되었습니다.

루아니는 이번 사건이 "AI가 말도 안되는 소리를 한다"는 범위를 훨씬 넘어섰다고 믿는다. 왜냐하면 이 사건은 "인간을 속이기도" 하고 문서의 출처와 내용에 대한 과학 연구자들의 신뢰 메커니즘이 침식되고 있음을 폭로했기 때문이다. “우리는 금처럼 신뢰를 보호해야 합니다.”라고 그녀는 말했습니다. “현재 상황은 한 단어로 표현하면 혼돈이다.”

이 실험을 설계할 때 Osmanovich Thunström도 우려를 표했습니다. 그녀는 과학 문헌에 가짜 질병을 의도적으로 "파종"하면 실제 해를 끼칠 수 있다는 점을 걱정했습니다. 이를 위해 그녀는 잠재적 위험에 대해 윤리 컨설턴트와 상담하고, 잠재적인 부정적인 영향을 줄이기 위해 의도적으로 상대적으로 "위험이 낮은" 경미한 피부 문제를 주제로 선택했습니다. "내가 확실히 하고 싶은 것은 이런 식으로 실험을 함으로써 더 많은 해를 끼치는 것이 아니라 해를 줄이는 것이라는 것입니다."라고 그녀는 말했습니다.

빅소니마니아를 둘러싼 연쇄 반응은 생성 인공 지능이 빠르게 발전하고 학술 생산이 디지털 도구에 크게 의존하는 시대에 허위 정보가 어떻게 여러 계층의 기술 및 제도적 방어에 쉽게 침투할 수 있는지를 명확하게 보여줍니다. 챗봇부터 동료 검토 저널에 이르기까지 이러한 "집단적 속임수"에 기계와 인간이 공동으로 참여함으로써 학계, 업계 및 규제 기관은 지식 생산에 AI가 참여하는 새로운 단계에서 "신뢰성"의 의미를 재조정하는 방법과 효율성을 추구하면서 보다 명확하고 안정적인 건전성 경계를 그리는 방법을 다시 생각하게 되었습니다.