하버드 로스쿨 도서관은 오늘 하버드 로스쿨 도서관이 도서관, 박물관, 정부 기관 및 기타 기관과 협력하여 컬렉션을 데이터 형식으로 게시하는 연구 이니셔티브인 기관 데이터 이니셔티브(Institutional Data Initiative)의 시작을 발표했습니다. 이 데이터는 인공지능 모델 훈련 등 다양한 목적으로 사용될 수 있습니다.

IDI(Institutional Data Initiative)는 먼저 하버드 도서관에서 스캔한 100만 권의 공개 도서를 개선하는 데 중점을 둘 예정입니다. 또한 보스턴 공공 도서관과 협력하여 수백만 페이지의 역사 신문을 데이터로 사용할 수 있도록 할 것입니다. 이러한 데이터 세트는 긴 텍스트이지만 IDI는 다른 기관과 협력하여 과학 및 생물 의학 데이터를 포함한 다양한 형식의 데이터를 개발할 방법을 모색하고 있습니다.

IDI 출시는 Microsoft와 OpenAI에서 지원됩니다. 장기 자금 조달을 위해 IDI는 여러 자선 단체 및 업계 후원자와 협력할 계획입니다.

Microsoft 부사장 겸 법률 고문 Burton Davis는 IDI에 대해 다음과 같은 견해를 표명했습니다.

"Microsoft는 모든 AI 빌더의 지식과 고품질 데이터에 대한 접근성을 높이기 위해 노력할 기관 데이터 이니셔티브(Institutional Data Initiative)의 설립을 지원하게 된 것을 자랑스럽게 생각합니다. 우리는 데이터에 대한 광범위한 액세스를 지원하고 보다 포괄적인 AI 생태계를 강화하기 위해 최선을 다하고 있습니다. 2020년부터 우리는 데이터 격차를 해소하고 모든 조직이 혁신하고 더 많은 것을 달성하는 데 필요한 데이터에 액세스할 수 있도록 노력해 왔습니다. 이는 활기차고 경쟁력 있는 AI 경제를 성장시키는 데 중요합니다."

Microsoft는 항상 공개되고 사용 가능한 데이터를 중심으로 한 협업을 통해 모든 사람이 이익을 얻을 수 있다고 믿어 왔습니다. 실제로 Microsoft는 2020년 초에 모든 규모의 조직이 인공 지능 애플리케이션을 개발하는 데 필요한 데이터에 액세스할 수 있는 개방형 데이터 운동을 시작했습니다.

OpenAI 지적재산권 및 콘텐츠 담당 이사인 Tom Rubin은 IDI 출시에 대해 다음과 같이 말했습니다.

"학술 기관은 오랫동안 AI 연구 및 발전에서 중요한 파트너였으며 Harvard University의 Institutional Data Initiative가 강력한 예입니다. 공개 도메인은 지식과 창의성을 전파하는 데 중요한 역할을 하며 OpenAI는 이러한 노력을 지원하게 되어 기쁘게 생각합니다. 우리는 이 중요한 프로젝트에 대한 Zittrain 교수의 리더십에서 영감을 얻었으며 그것이 가져올 영향을 매우 기대하고 있습니다."

IDI는 쉽게 접근할 수 있는 대규모 데이터 세트를 제공함으로써 인공지능 기술의 발전과 모든 사람의 접근성에 기여하고 있습니다.