Wikipedia는 AI 모델 훈련에 특별히 최적화된 데이터 세트를 게시하여 인공 지능 개발자가 플랫폼을 복사하는 것을 막으려고 노력하고 있습니다.위키미디어 재단(Wikimedia Foundation)은 머신러닝 데이터를 호스팅하기 위해 구글의 데이터 과학 커뮤니티 플랫폼과 파트너십을 맺었다고 수요일 발표했습니다.Kaggle은 "영어 및 프랑스어 구조화된 Wikipedia 콘텐츠"의 베타 데이터 세트를 출시하기 위해 협력합니다.

Wikipedia에 따르면 Kaggle에서 호스팅하는 데이터세트는 "머신러닝 워크플로를 염두에 두고 설계"되어 AI 개발자가 모델링, 미세 조정, 벤치마킹, 정렬 및 분석을 위해 기계가 읽을 수 있는 기사 데이터에 더 쉽게 액세스할 수 있도록 해줍니다. 데이터 세트의 콘텐츠는 4월 15일부터 공개 라이센스가 부여되었으며 연구 초록, 간단한 설명, 이미지 링크, 정보 상자 데이터 및 기사 장을 포함하지만 참조 또는 오디오 파일과 같은 비기록 요소는 포함하지 않습니다.
Wikipedia에서는 Kaggle 사용자가 "JSON 형식의 잘 구조화된 Wikipedia 콘텐츠"를 사용할 수 있다고 말합니다. 이는 "원시 기사 텍스트를 크롤링하거나 구문 분석하는 것"보다 더 매력적입니다. 자동화된 AI 봇이 플랫폼의 대역폭을 계속해서 소비함에 따라 Wikipedia의 서버는 현재 심각한 부담을 겪고 있습니다. Wikipedia는 이미 Google 및 Internet Archive와 콘텐츠 공유 계약을 맺었지만 Kaggle과의 파트너십을 통해 소규모 회사와 독립 데이터 과학자가 데이터에 더 쉽게 접근할 수 있게 되었습니다.
Kaggle의 파트너십 책임자인 Brenda Flynn은 "기계 학습 커뮤니티를 위한 도구이자 테스트 플랫폼인 Kaggle이 Wikimedia Foundation 데이터의 호스팅 플랫폼이 된 것을 기쁘게 생각합니다."라고 말했습니다. "Kaggle은 이 데이터의 접근성, 유용성 및 유용성을 보장하는 역할을 하게 되어 기쁘게 생각합니다."