WIRED가 발표한 뉴스에 따르면 미국의 많은 웹사이트는 인터넷 아카이브의 Wayback Machine의 스냅샷 기능을 차단하기 시작했습니다. 즉, Wayback Machine은 더 이상 이러한 뉴스 웹사이트의 페이지를 캡처하고 보관할 수 없습니다. 그 이유는 AI 크롤러가 데이터를 캡처하고 이를 모델 교육에 사용하기 때문입니다.

현재 인공지능 붐으로 인해 수많은 웹사이트 트래픽이 크게 감소했으며, AI 기업은 제한을 우회하고 웹사이트 콘텐츠를 불법적으로 크롤링하는 방법을 찾고 있으며, 궁극적으로 캡처된 데이터를 AI 대화 로봇이나 후속 인공지능 모델 교육에 사용하고 있습니다.

웹사이트의 경우 이러한 동작에는 허가 없이 콘텐츠를 크롤링하고 사용하는 것이 포함되며, 이로 인해 웹사이트 트래픽이 감소하게 됩니다. 따라서 많은 웹사이트에서는 인공 지능 검색 크롤러가 robots.txt의 웹사이트 데이터를 크롤링하는 것을 명시적으로 금지했습니다.

Internet Archive와 그 사용자 모두 실수로 사망했습니다.

USA Today, New York Times 등을 포함한 많은 유명 언론 매체는 그들의 정당한 권익을 보호하기 위해 Internet Archive의 웹 사이트 타임머신을 차단했습니다. 이러한 뉴스 웹사이트에서는 Internet Archive에서 사용하는 크롤러인 ia_archiverbot 크롤러를 제외합니다.

뉴스 미디어 외에도 Reddit과 같은 온라인 포럼에서도 Internet Archive의 콘텐츠 크롤링이 금지됩니다. Reddit은 Google 및 OpenAI와 라이선스 계약을 체결하여 이들 회사가 데이터를 크롤링하고 이를 인공 지능 모델 교육에 사용할 수 있도록 했습니다. 적어도 Reddit의 경우 인터넷 아카이브에 데이터 크롤링이 허용되고 AI 회사가 인터넷 아카이브의 데이터를 크롤링하면 데이터를 계속 판매하지 못할 수도 있습니다.

문제는 많은 콘텐츠가 영구적으로 존재하지 않는다는 것입니다. 웹사이트 타임머신의 의의는 웹페이지 콘텐츠의 변화를 확인할 수 있고, 웹페이지가 삭제되더라도 스냅샷을 통해 콘텐츠를 계속해서 찾아볼 수 있다는 점이다. 이는 많은 사용자에게 매우 중요합니다.

따라서 AI 열풍 속에서 인터넷 아카이브의 데이터 크롤링을 차단하는 언론 매체는 실제로 AI 기업을 차단하고 관련 기능을 정상적으로 사용하는 사용자를 차단하기 위해 인터넷 아카이브와 사용자를 학살하는 것입니다.

USA Today는 이것이 인터넷 아카이브를 겨냥한 것이 아니라고 말했습니다.

USA Today의 대변인은 Internet Archive가 크롤링한 콘텐츠를 차단하는 것이 특별히 Internet Archive를 대상으로 하는 것은 아니라고 말했습니다. 모든 웹 크롤러를 광범위하게 차단하는 것이 회사의 일반적인 계획입니다.

The Guardian의 상업 및 라이센스 담당 이사는 회사가 인공 지능 회사가 보존 목적으로 콘텐츠를 크롤링하는 오용 가능성에 대해 논의하기 위해 인터넷 아카이브와 소통하고 있다고 말했습니다(그러나 아직 명확한 결과는 없습니다).

이러한 상황으로 볼 때, AI 기업이 인터넷 아카이브를 통해 자신의 콘텐츠를 크롤링하는 것을 방지하기 위해 앞으로 점점 더 많은 미디어가 인터넷 아카이브를 차단할 수도 있습니다. 최종적으로 분석해보면 근본 원인은 여전히 ​​이들 AI 기업들이다.

이러한 AI 회사가 승인 없이 콘텐츠를 크롤링하고 높은 빈도로 콘텐츠를 크롤링하는 것은 드문 일이 아닙니다. 궁극적으로 이는 개방형 인터넷의 환경을 변화시켜 더 많은 웹사이트가 공개 액세스에서 등록된 로그인 액세스 또는 유료 액세스로 전환할 수 있도록 할 수 있습니다.