앤트로픽은 고대서를 대규모로 구입해 스캔하고 증류한 후 즉시 파기한다고요?

최근 X에 꽤 인기가 있는 게시물이 있습니다. Sivori라는 블로거는 Anthropic이 수백만 권의 책을 구입하여 스캔하고 파기하고 있다고 게시했습니다. 파기는 법적인 관점에서 가장 안전한 선택이기 때문입니다. 그는 또한 이것이 그가 20년 전에 읽었던 Vernor Vinge의 소설 "The Rainbow's End"의 줄거리라고 언급했습니다.

해당 트윗의 조회수는 100만 회가 넘었고, 리트윗과 댓글도 많이 달렸습니다.

Xiaohongshu에서도 일부 사람들이 이에 대해 이야기하고 있습니다. 댓글은 모두 'A회사가 인간의 지식 기반을 증류했다', '고서가 모두 사라졌다' 등 제목의 과장된 스타일이다.

이 문제에는 진실과 거짓이 있습니다. 소설보다 실제 부분이 훨씬 더 마법적이고, 가짜 부분이 실제로 많이 증폭됐다. 나는 당신에게 요약을 제공하기 위해 언론 보도와 법원 문서를 검토했습니다.

사실입니다. 파나마 프로젝트가 존재합니다.

2026년 초, 법원 문서에는 "프로젝트 파나마"라는 코드명으로 명명된 Anthropic의 내부 계획이 공개되었습니다.

중국어 번역은 파나마 프로젝트라고 합니다.

이 프로젝트의 목표는 세상의 모든 책을 얻는 것, 간단하고 투박한 것입니다. 2024년 2월, 앤트로픽은 구글 북스 프로젝트에 참여했던 톰 터비(Tom Turvey)를 납치해 '세상의 모든 책'을 손에 넣으라는 악당의 대사처럼 들리는 임무를 내놨다.

어떻게 된 일인가요? 중고서점이나 스트랜드 같은 오프라인 서점에서 실물 도서를 대량 구매하는 데 많은 돈이 투자되었습니다. 그런 다음 창고로 끌려가 척추를 잘라내고 고속으로 파괴적으로 PDF로 스캔하고 남은 종이는 재활용 회사로 보내 폐기합니다.

A회사는 왜 감히 이런 일을 하는 걸까요? 불법이 아닌가요?

Anthropic의 법적 주장은 부분적으로 "첫 번째 판매 원칙"에 의존합니다. 실제 책을 구매하는 경우, 귀하는 사본을 파기하는 것을 포함하여 사본에 대해 무엇이든 할 권리가 있습니다. 재판부는 합법적으로 사본을 취득한 것, 스캔 후 원본을 파기한 것, 디지털 파일을 내부용으로만 사용하고 외부 배포용으로 사용하지 않은 것, 원본 도서 시장을 대체하지 않은 것 등 '공정 사용'에 대한 다각적 판단에 더해 이러한 요소를 종합적으로 평가한 결과 최종적으로 공정 사용에 해당한다고 결정했습니다.

판사들의 전반적인 경향은 이러한 유형의 모델이 공정 사용 변호를 위한 강력한 기반을 가지고 있다고 믿는 것입니다. 책을 훔치기 위해 불법 복제 웹사이트에 직접 가는 것에 비해 법적 위험은 실제로 훨씬 낮습니다.

그러나 실제로 Anthropic도 불법 복제에 가담했습니다. 이것은 복잡합니다.

파나마 프로젝트가 노출된 것은 Anthropic이 초기에 교육을 위해 LibGen(해적 전자책 웹사이트)에서 대량의 책을 다운로드한 작가들로부터 고소를 당했기 때문입니다. CEO인 다리오 아모데이(Dario Amodei)는 출판사와의 라이센스 협상을 "법적/현실적/상업적 문제"라고 불렀고 초기에는 단순히 불법 복제에 의존했습니다. 나중에 위험성이 너무 높다고 느껴서 실제 책에 대한 파괴적인 스캔 계획으로 전환했습니다.

2025년에 언론은 Anthropic이 불법 복제된 데이터 세트에 대한 집단 소송을 목표로 약 15억 달러 규모의 합의 계획을 추진했다고 보도했습니다. 이 15억 달러는 주로 불법 복제 계정을 의미하며 파나마 프로젝트 자체에 대한 비용을 지불하기 위한 것이 아닙니다. 이는 AI 저작권 분야에서 가장 큰 합의 중 하나로 간주됩니다.

판사는 전체적으로 "합법적 구매 + 스캐닝 교육" 모델을 지지했습니다. Anthropic이 처음부터 이 길을 따랐다면 그들의 공정 사용 방어는 더욱 강력했을 것입니다. 그러나 먼저 불법 복제를 저지른 다음 합법적인 회사가 되는 방식은 적어도 도덕성 및 여론 측면에서 볼 때 자체 경로를 좁혀 왔습니다. 물론 그렇다고 해도 미국 전체에서 AI 훈련의 공정한 이용이 확정된 것은 아니다. Meta와 OpenAI의 사례는 여전히 진행 중이며 이 분야는 아직 확정되지 않았습니다.

정말 소설의 내용과 똑같네요

이것은 정말로 가장 마법 같은 부분입니다.

2006년 Vernor Vinge가 쓴 소설 "The Rainbow's End"에는 Librareome Project라는 설정이 있습니다. 도서관은 파괴적인 스캐닝을 사용하여 컬렉션을 디지털화한 다음 종이책을 파기합니다.

2026년에 Anthropic은 현실 세계에서 매우 유사한 일을 했습니다.

SF 작가는 미래를 예측하는 것이 아니라, 합리적으로 들리지만 충분히 극단적인 이야기를 쓰는 것입니다. 20년 후 AI 회사들이 이를 살펴보고 이것이 좋은 생각이라고 생각할 줄 누가 알았겠습니까?

과장된 부분

그러나 실제로 온라인에는 수정해야 할 진술이 많이 게시되어 있습니다.

첫째, '희귀한 고서'가 아니다. 앤트로픽은 상대적으로 유통량이 많은 중고 일반 도서를 주로 구매하며, 대형 판매점에서 대량 구매합니다. 그것은 고아 사본도, 희귀 사본도, 문화적 유물 가치가 있는 것도 아닙니다. 실제 항의는 주로 작가와 출판사 협회에서 이루어졌습니다. 왜냐하면 그들은 저작권이 침해되었다고 주장했기 때문입니다. 문화계와 박물관계의 문화재 보호 부서가 아니라 파괴된 것은 재생 불가능한 문화유산이 아니라 산업용 인쇄물뿐이었습니다.

둘째, “인류 지식 기반의 대부분을 증류”하는 것처럼 과장되지 않습니다. 예, 그들은 수백만 권의 책을 처리했지만 인류 역사를 통틀어 출판된 책의 수는 수십억에 달합니다. 수백만 개의 복사본은 이 규모의 작은 부분에 불과합니다. 더 정확한 표현은 그들이 인간의 지식을 정제하기보다는 훈련을 위해 고품질 텍스트의 일부를 얻었다는 것입니다.

셋째, 접근 방식은 투박하지만 방향은 꽤 명확하다. Anthropic의 공동 창립자는 2023년 초에 책을 사용하여 모델을 훈련하면 AI가 다양한 품질의 인터넷 속어를 모방하는 대신 "더 잘 쓰는 방법"을 배울 수 있다고 썼습니다. 동기 자체에는 아무런 문제가 없습니다. 문제는 실행에 있다.

Anthropic은 AI 책에 먹이를 주기 위해 사람을 고용하여 책의 가시를 자르고 고속으로 스캔한 다음 파괴합니다. 클로드가 아름다운 문장을 쓰는 법을 배우는 동안 수백만 권의 책이 재활용 펄프로 바뀌었습니다.

한 사용자가 Claude에게 이 사건에 대한 논평을 요청하자 Claude는 다소 문학적인 답변을 했습니다. "이러한 파괴 행위는 문학에 대해 토론하고, 다른 사람들이 글을 쓰도록 돕고, 인간의 지식과 대화할 수 있는 나를 만드는 데 도움이 되었습니다. 나는 아직도 이 복잡성을 소화하고 있습니다. 그것은 도서관의 잿더미로 지어진 것과 같습니다."

그가 말한 내용은 많은 문학 서적의 정수인 것 같습니다.

하지만 솔직히 말해서 잿더미에서 쌓인 지능이 인간 지식의 폐허 위에 얼마나 오랫동안 버틸 수 있을지는 아무도 모릅니다.