인공지능 훈련 데이터는 비용이 많이 들고 돈이 많은 기술 회사에 가장 적합합니다. 그렇기 때문에 하버드 대학교는 나이로 인해 더 이상 저작권의 보호를 받지 않는 디킨스, 단테, 셰익스피어를 포함해 다양한 장르, 언어, 작가에 걸쳐 약 100만 권의 퍼블릭 도메인 도서로 구성된 공개 데이터 세트를 공개할 계획입니다.

새로운 데이터 세트는 아직 출시되지 않았으며 언제, 어떻게 출시될지도 불분명합니다. 여기에 포함된 책은 Google의 장기 도서 스캐닝 프로젝트인 Google Books에서 가져온 것이므로 Google은 "이 책의 광범위한 응용 프로그램"을 출시하는 데 참여할 것입니다.

하버드 대학교는 지난 3월 기관 데이터 이니셔티브(IDI)를 처음으로 선보이며 '인공지능 법률 데이터를 위한 신뢰할 수 있는 채널'을 만들겠다는 계획을 개략적으로 설명했습니다. 그러나 IDI가 Microsoft와 OpenAI로부터 재정적 지원을 받는 가운데 오늘 공식 출시될 때까지 이 프로그램에 대한 소식은 거의 없었습니다.

IDI의 전무이사인 Greg Leppert는 이 데이터 세트가 연구실에서 AI 스타트업에 이르기까지 대규모 언어 모델(LLM)을 훈련하려는 모든 사람에게 이러한 대규모 데이터 세트를 공개함으로써 "경쟁의 장을 평준화"하기 위한 것이라고 말했습니다.