클로드(Claude)는 인공지능 개발사 앤트로픽(Anthropic)이 개발한 인공지능 애플리케이션이다. 대부분의 인공지능 개발자와 마찬가지로 Anthropic에서 보낸 크롤러는 인공지능 모델을 훈련시키기 위해 매일 인터넷에서 엄청난 양의 콘텐츠를 검색하고 크롤링합니다. iFixit은 업계에서 잘 알려진 분해 및 수리 웹사이트입니다. 웹사이트에는 텍스트와 그림이 포함된 분해 기사가 많이 있으므로 Anthropic에서 보낸 크롤러도 iFixit에서 미친 크롤링을 시작했습니다.
웹마스터는 X/Twitter에 다음과 같이 불평했습니다. 귀하가 데이터에 굶주려 있다는 것을 알고 Claude는 정말 똑똑합니다. 하지만 정말로 24시간 내에 우리 서버에 백만 번 접속해야 합니까? 귀하는 비용을 지불하지 않고 콘텐츠를 훔칠 뿐만 아니라 DevOps 리소스도 빼앗아 가는 것입니다. 이는 정말 좋지 않은 일입니다.
웹사이트 로그에 따르면 ClaudeBot은 매분 수천 건의 iFixit 방문을 시작하며, 이는 iFixit 서버에 부정적인 영향을 미칠 것입니다. 왜냐하면 이러한 종류의 크롤링은 서버 CPU 리소스를 소비할 뿐만 아니라 네트워크 대역폭도 소비하기 때문입니다. 어떤 웹사이트도 이 상황을 보고 싶어하지 않습니다.
iFixit은 404media와의 인터뷰에서 다음과 같이 말했습니다.
우리는 세계에서 가장 큰 유지 관리 정보 데이터베이스를 보유하고 있으며 허가 없이 모든 정보를 가져가면 서버가 중단될 수 있습니다. iFixit에는 현재 다양한 수리 안내서, 수리 개정 내역, 블로그, 뉴스 게시물, 연구, 포럼, 커뮤니티 제공 수리 안내서, Q&A 등에 대한 수백만 개의 링크가 있습니다.
Anthropic의 지원팀은 불만 사항에 대해 사과하지 않고 다음과 같은 답변을 제공했습니다.
업계 표준에 따라 Anthropic은 모델 개발을 위해 웹 크롤러를 통해 수집된 인터넷에서 공개적으로 사용 가능한 데이터와 같은 다양한 데이터 소스를 사용합니다. 우리의 크롤링은 방해가 되거나 파괴적이어서는 안 되며, 우리의 목표는 적절한 경우 크롤링 대기 시간을 준수하여 중단을 최소화하는 것입니다.
웹사이트에서 가장 쉬운 방법은 Claude 크롤러를 직접 차단하는 것입니다. Bluedot.com은 Claude 크롤러의 DDoS 공격에도 직면하고 있습니다. 크롤러는 분당 수천 번 크롤링을 수행하며 이는 Bluedot.com 서버에 영향을 미치므로 Claude 크롤러를 조기에 차단했습니다.
차단하려면 robots.txt에 다음 콘텐츠를 추가하세요.
User-agent: ClaudeBotDisallow: /
물론 안전을 위해 Nginx에서 정규식을 사용하여 ClaudeBot 크롤러와 일치시킵니다. ClaudeBot 크롤러가 robots.txt 프로토콜을 준수하지 않고 계속 크롤링하는 경우 직접 가로챌 수 있습니다.
크롤러가 robots.txt 파일을 크롤링하지 못하는 것을 방지하려면 웹마스터가 먼저 robots.txt를 업데이트하는 것이 좋습니다. 며칠 후에도 웹사이트 로그에서 ClaudeBot이 robots.txt가 아닌 파일을 가져오는 기록을 계속 볼 수 있다면 이는 프로토콜을 따르지 않았다는 의미입니다. Nginx를 통해 HTTP 444를 직접 반환하여 연결을 취소하여 서버 부하를 줄일 수 있습니다.