생성적 AI 도구는 한때 공상 과학 소설처럼 보였던 작업을 수행할 수 있지만 대부분은 여전히 ​​아날로그 시계 및 달력 읽기를 포함한 많은 기본 기술에 어려움을 겪고 있습니다. 새로운 연구에 따르면 전체적으로 인공지능 시스템이 시계 문자판을 정확하게 읽는 횟수는 4분의 1도 안 되는 것으로 나타났습니다.

에딘버러 대학의 연구팀은 시계와 달력의 이미지를 기반으로 질문에 얼마나 잘 대답할 수 있는지 알아보기 위해 최고의 다중 모달 대규모 언어 모델 중 일부를 테스트했습니다.

테스트된 시스템에는 GoogleDeepMind의 Gemini2.0, Anthropic의 Claude3.5Sonnet, Meta의 Llama3.2-11B-Vision-Instruct, Alibaba의 Qwen2-VL7B-Instruct, ModelBest의 MiniCPM-V-2.6, OpenAI의 GPT-4o 및 GPT-o1이 포함됩니다.

로마 숫자가 있는 시계, 초침이 있는 시계, 초침이 없는 시계, 다양한 색상의 다이얼 등 다양한 유형의 시계가 이미지에 나타납니다.

시스템은 전체 시간의 25% 미만으로 시계를 올바르게 읽습니다. 그들은 로마 숫자와 양식화된 바늘을 사용하는 시계 때문에 더욱 어려움을 겪습니다.

초침을 떼어도 AI 성능이 향상되지 않아 연구진은 시계바늘을 감지해 시계 문자판의 각도를 해석하는 데서 문제가 발생한 것으로 추정했다.

연구진은 10년 달력 이미지를 이용해 설날이 무슨 요일인지 등 질문을 던졌다. 가장 성공적인 AI 모델조차도 달력 문제를 20% 정도 잘못 이해합니다.

사용되는 AI 시스템에 따라 성공률이 달라집니다. Gemini-2.0은 시계 테스트에서 가장 높은 점수를 받았고, GPT-01은 달력 질문에서 80% 정확도를 보였습니다.

"대부분의 사람들은 시간을 말하고 달력을 사용하면서 성장했습니다."라고 에딘버러 대학 정보학부의 연구 리더인 Rohit Saxena가 말했습니다. "이 연구 결과는 기본적인 인간 기술을 수행하는 AI 능력에 큰 격차가 있음을 강조합니다. AI 시스템이 일정 관리, 자동화, 보조 기술과 같이 시간에 민감한 실제 애플리케이션에 성공적으로 통합되려면 이러한 단점을 해결해야 합니다."

에든버러 대학 정보학부의 또 다른 연구원인 아리오 게마(Aryo Gema)는 "오늘날의 인공 지능 연구는 종종 복잡한 추론 작업을 강조하지만 아이러니하게도 많은 시스템이 여전히 단순한 일상 작업을 처리하는 데 어려움을 겪고 있습니다"라고 말했습니다.

연구 결과는 4월 28일 싱가포르에서 열리는 제13회 학습 표현에 관한 국제 회의(ICLR)에서 열리는 대규모 언어 모델 추론 및 계획 워크숍에서 발표될 동료 검토 논문으로 보고될 예정입니다. 연구 결과는 현재 사전 인쇄 서버 arXiv에서 확인할 수 있습니다.

이번 달 AI 시스템이 여전히 많은 실수를 저지르고 있음을 시사한 첫 번째 연구는 아닙니다. 다우 디지털 뉴스센터(Dow Digital News Center)는 8개의 인공지능 검색 엔진에 대한 연구를 실시한 결과 60%의 시간이 부정확한 것으로 나타났습니다. 최악은 정확도가 94%인 Grok-3이다.