Meta는 최근 수천 권의 불법 복제 도서를 사용하여 인공 지능 모델을 훈련시키는 데 따른 법적 위험에 대한 저작권 침해 소송에 직면했습니다.Meta는 LLAM1 및 LLAM2 모델을 교육하기 위해 수많은 불법 복제 도서의 "Books3" 데이터 세트를 사용한 것으로 알려졌습니다. Meta는 Books3 데이터 세트를 사용했음을 인정했지만 저자에게 적절한 보상을 거부했습니다.
Books3은 총 용량이 거의 37GB에 달하는 195,000권의 도서를 포함하는 텍스트 데이터 세트입니다. AI 연구자 Shawn Presser가 기계 학습 알고리즘 개선을 위한 더 나은 데이터 소스를 제공하기 위해 2020년에 만들었습니다.
Meta는 또한 이를 사용하여 자체 LLAM 모델을 교육합니다. 그러나 Books3에는 불법 복제 웹사이트인 Bibliotik에서 크롤링된 수많은 저작물이 포함되어 있어 Meta의 행위가 법적 위험에 처해 있습니다.
올해 여러 기술 회사가 생성 AI 모델을 구축할 때 예술가, 작가 및 기타 콘텐츠 제작자의 저작권을 침해했다고 비난하면서 유사한 불만 사항에 직면했습니다.
또한, 인공 지능에 대한 새로운 임시 EU 규정으로 인해 기업은 모델 훈련에 사용되는 데이터 세트를 공개해야 할 수 있으며, 이로 인해 더 큰 법적 위험에 노출될 수 있습니다.