Cloudflare: Perplexity umgeht Webseiten-Sperren

Das IT-Sicherheitsunternehmen Cloudflare behauptet, die KI-Suchmaschine Perplexity setze undeklarierte Web-Crawler ein, um auf Inhalte zuzugreifen. Dies geschehe auch auf Webseiten, die einen solchen Zugriff ausdrücklich untersagen. Laut einem Blogbeitrag von mehreren Cloudflare-Ingenieuren ignoriert Perplexity damit gängige Protokolle, die den Wünschen von Webseitenbetreibern Geltung verschaffen sollen.

Um das Verhalten zu prüfen, führte Cloudflare ein Experiment durch. Das Unternehmen richtete neue, private Webseiten ein und verbot jeglichen automatisierten Zugriff mithilfe einer robots.txt-Datei. Dies ist eine Standardanweisung für Web-Crawler. Trotz dieser Maßnahme und zusätzlicher Blockaden gegen die bekannten Crawler von Perplexity konnte die KI-Engine die geschützten Inhalte abrufen und detailliert zusammenfassen.

Die Untersuchung ergab, dass ein „heimlicher“ Crawler die Arbeit aufnahm, sobald der offizielle Crawler von Perplexity blockiert wurde. Dieser Crawler tarnte sich anscheinend als gewöhnlicher Webbrowser. Er nutzte zudem eine Reihe wechselnder, nicht gelisteter IP-Adressen, um seine Identität zu verschleiern und einer Entdeckung zu entgehen. Cloudflare gibt an, diese Aktivität bei Millionen von täglichen Anfragen beobachtet zu haben.

Im Gegensatz dazu würden sich andere KI-Anbieter wie OpenAI an die Vorgaben halten. In einem vergleichbaren Test respektierte der Crawler von OpenAI die robots.txt-Datei und stellte seine Aktivität nach einer Blockade ein. Infolge der Untersuchung hat Cloudflare Perplexity von seiner Liste verifizierter Bots entfernt und neue Regeln zum Schutz vor dem heimlichen Crawling eingeführt.

Mehr zum Thema:

Bleib up-to-date: