Google의 AI Studio 플랫폼은 이름이 알려지지 않은 AI 모델을 테스트하고 있으며 읽을 수 없는 역사적 원고를 해독하는 데 중요한 진전을 이루었습니다. 핵심 문자 인식에 있어서 모델의 오류율은 0.56%에 불과하며 정확도는 해당 분야의 전문 연구자 수준에 가깝습니다.

역사가 Mark Humphries는 특별히 구축된 벤치마크 데이터 세트를 사용하여 모델에 대한 체계적인 평가를 수행했습니다. 테스트에 포함된 18세기부터 19세기까지의 5개 난제 사본에서 모델의 전체 문자 오류율은 약 1.7%였습니다. 대부분의 오류는 구두점, 대문자 표기 등 핵심이 아닌 문제에서 발생했으며, 단어 자체의 올바른 인식에는 영향을 미치지 않았습니다.

이러한 중요하지 않은 오류를 제외하면 모델의 문자 오류율을 0.56%로 더 줄일 수 있습니다. 이는 전사된 200자당 하나의 실질적인 오류에 해당합니다. 그 성능은 이미 문서 음역에 집중하는 전문 작업자의 성능과 비슷합니다.

테스트 원고는 읽기 어려운 손글씨, 비표준 철자법, 일관되지 않은 문법 등 복잡한 상황을 포함하여 다양한 글쓰기 스타일을 다루며 모델의 강력한 적응성을 완전히 검증합니다.더욱 주목할만한 점은 이 모델이 텍스트 전사를 완료할 수 있을 뿐만 아니라 특정 상황별 추론 기능도 보여줄 수 있다는 것입니다.

예를 들어, 18세기 상인의 일기를 처리할 때 모델은 단위 표시가 없는 "145"의 설탕 구매 기록을 발견했습니다. 계좌 총액을 다시 확인하고 이를 당시 영국 화폐 및 중량 단위 체계와 결합해 '14파운드 5온스'라는 수치를 추론하는 데 성공했습니다.

Humphries는 또한 현재 평가에는 여전히 특정 한계가 있음을 지적했습니다. 이 모델은 A/B 테스트 형태로 산발적으로만 나타나기 때문에 대규모의 체계적인 검증이 어렵습니다. 현재 벤치마크 데이터 세트의 샘플 중 약 10%만 평가되었습니다.