Große Nachrichtenverlage blockieren Internet Archive aus Angst vor KI-Scraping

Große Nachrichtenverlage beschränken den Zugriff des Internet Archive auf ihre Inhalte. Sie befürchten, dass KI-Unternehmen die digitale Bibliothek der gemeinnützigen Organisation als Hintertür nutzen könnten, um Artikel für Trainingsdaten abzugreifen.

Andrew Deck berichtet für Nieman Lab, dass Medien wie The Guardian und The New York Times Maßnahmen ergriffen haben. Sie begrenzen, wie das Internet Archive ihre Inhalte erfassen und speichern kann.

The Guardian hat sich von den APIs des Internet Archive ausgeschlossen. Außerdem wurden die Artikelseiten aus der URL-Oberfläche der Wayback Machine herausgefiltert. Robert Hahn ist der Leiter für Geschäftsangelegenheiten und Lizenzierung der Zeitung. Er sagt, Zugriffsprotokolle hätten häufiges Crawling durch das Internet Archive gezeigt. Besonders besorgt sei er über die APIs der Organisation. Diese beschreibt er als „einen offensichtlichen Ort“, an dem KI-Unternehmen „ihre eigenen Maschinen anschließen und das geistige Eigentum absaugen“ könnten.

Die New York Times ist noch weiter gegangen. Sie blockiert die Crawler des Internet Archive aktiv und hat einen davon zu ihrer robots.txt-Datei hinzugefügt. „Die Wayback Machine bietet uneingeschränkten Zugang zu Times-Inhalten, auch für KI-Unternehmen, ohne Genehmigung,“ sagt ein Sprecher der Times.

Das Internet Archive betreibt Crawler, um das Web zu bewahren. Momentaufnahmen macht es über die Wayback Machine zugänglich. Die gemeinnützige Organisation unterhält ein Repository mit über einer Billion Webseiten-Snapshots. Allerdings gibt es Belege, dass diese Archive für KI-Training genutzt wurden. Eine Analyse der Washington Post von Googles C4-Datensatz aus dem Jahr 2023 ergab: Die Wayback Machine war die 187. präsenteste Domain von 15 Millionen. Ihre Daten wurden zum Aufbau von Googles T5-Modell und Metas Llama-Modellen verwendet.

Reddit hat das Internet Archive im August letzten Jahres blockiert. Als Grund nannte die Plattform Fälle, in denen KI-Unternehmen gegen Richtlinien verstießen und Daten von der Wayback Machine abgriffen. Die Financial Times blockiert Bots von OpenAI, Anthropic, Perplexity und dem Internet Archive vom Zugriff auf ihre kostenpflichtigen Inhalte.

Eine Analyse von 1.167 Nachrichten-Websites zeigt: 241 Seiten aus neun Ländern untersagen explizit mindestens einen Crawling-Bot des Internet Archive. Die meisten dieser Seiten (87 Prozent) gehören zu USA Today Co. Das Unternehmen hat Internet Archive-Bots im Jahr 2025 zu seinen robots.txt-Dateien hinzugefügt. CEO Mike Reed sagte in einer Telefonkonferenz im Oktober, das Unternehmen habe allein im September 75 Millionen KI-Bots blockiert. Davon stammten 70 Millionen von OpenAI.

„Wenn Verlage Bibliotheken wie das Internet Archive einschränken, dann hat die Öffentlichkeit weniger Zugang zur historischen Aufzeichnung,“ sagt Brewster Kahle, Gründer des Internet Archive.

Michael Nelson ist Informatiker an der Old Dominion University. Er beschreibt die Situation als Kollateralschaden. „Common Crawl und Internet Archive gelten weithin als die ‚Guten‘ und werden von den ‚Bösen‘ wie OpenAI genutzt,“ sagt er. „In der allgemeinen Abneigung, von LLMs kontrolliert zu werden, sind die Guten meiner Meinung nach Kollateralschaden.“

Das Internet Archive untersagt derzeit über seine eigene robots.txt-Datei keine spezifischen Crawler. Das schließt auch die großer KI-Unternehmen ein.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (3. Ausgabe, Januar 2026)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklich gewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen