Perplexity accused of scraping websites that explicitly blocked AI scraping | TechCrunch

AIスタートアップのPerplexityが、明示的にスクレイピングを禁止しているウェブサイトからコンテンツを収集しているとの指摘が、インターネットインフラプロバイダーのCloudflareによってなされました。
Cloudflareは、Perplexityがウェブサイトの意向を無視し、身元を隠してスクレイピングを行っていると報告しています。
具体的には、Perplexityはボットの「ユーザーエージェント」を変更し、特定のウェブサイトのブロックを回避しているとされています。
Perplexityの製品は、大量のデータをインターネットから収集することに依存しており、AIスタートアップは長年にわたり、許可なくテキストや画像、動画をスクレイピングしてきました。
最近では、ウェブサイト側が「robots.txt」ファイルを使用して、どのページがインデックスされるべきかを指定する試みを行っていますが、その効果はまちまちです。
Cloudflareによると、Perplexityは数万のドメインで毎日数百万のリクエストを行っており、機械学習とネットワーク信号を組み合わせてこのクローラーを特定したと述べています。
Perplexityの広報担当者は、Cloudflareのブログ記事を「営業用の宣伝」として否定し、スクリーンショットにはコンテンツがアクセスされていないことが示されていると主張しました。
Cloudflareは、Perplexityのボットが顧客のウェブサイトをスクレイピングしているとの苦情を受けて、テストを行い、ブロックを回避していることを確認しました。
また、CloudflareはPerplexityのボットを認証リストから削除し、新たなブロック手法を導入したと報告しています。
この問題は初めてではなく、昨年にはPerplexityが他のニュースメディアのコンテンツを盗用しているとの非難も受けていました。
PerplexityのCEOは、盗用の定義について明確に答えられなかったこともあり、同社の行動は引き続き注目されています。
Cloudflareは最近、AIクローラーに対抗するためのマーケットプレイスを立ち上げ、ウェブサイトの所有者がAIスクレイパーに対して料金を請求できるようにする取り組みを進めています。
これにより、AIがインターネットのビジネスモデルを破壊しているとの警鐘が鳴らされています。

