Wie Common Crawl die KI-Industrie mit Artikeln hinter Bezahlschranken versorgt

Die gemeinnützige Organisation Common Crawl stellt KI-Unternehmen urheberrechtlich geschützte Nachrichtenartikel für das Training ihrer Sprachmodelle zur Verfügung. Die Inhalte stammen von Webseiten mit Bezahlschranken. Dies widerspricht den eigenen Angaben der Organisation. Alex Reisner berichtet darüber in einer Recherche für das Magazin The Atlantic.

Laut dem Bericht umgeht die Software von Common Crawl die technischen Hürden vieler Nachrichtenportale. Sie speichert den vollständigen Text eines Artikels, bevor die Bezahlschranke ihn für Nicht-Abonnenten ausblendet. Auf diese Weise gelangen Millionen von Artikeln von Medien wie der New York Times oder dem Wall Street Journal in das Archiv. Unternehmen wie OpenAI, Google und Meta nutzen diese Datensammlung.

Die Recherche zeigt zudem, dass Common Crawl Verlage über die Löschung ihrer Inhalte täuscht. Die Organisation sichert die Entfernung auf Anfrage zwar zu, die Artikel bleiben jedoch nachweislich im Archiv. Eine technische Analyse deutet darauf hin, dass seit Jahren keine Daten mehr gelöscht wurden. Eine Suchfunktion auf der Webseite der Organisation verbirgt die betreffenden Inhalte.

Rich Skrenta, der Geschäftsführer von Common Crawl, stellte gegenüber The Atlantic lapidar fest, Verlage sollten ihre Inhalte nicht ins Internet stellen, wenn sie nicht wollten, dass diese dort zu finden seien.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen