Die gemeinnützige Organisation Common Crawl stellt KI-Unternehmen urheberrechtlich geschützte Nachrichtenartikel für das Training ihrer Sprachmodelle zur Verfügung. Die Inhalte stammen von Webseiten mit Bezahlschranken. Dies widerspricht den eigenen Angaben der Organisation. Alex Reisner berichtet darüber in einer Recherche für das Magazin The Atlantic.
Laut dem Bericht umgeht die Software von Common Crawl die technischen Hürden vieler Nachrichtenportale. Sie speichert den vollständigen Text eines Artikels, bevor die Bezahlschranke ihn für Nicht-Abonnenten ausblendet. Auf diese Weise gelangen Millionen von Artikeln von Medien wie der New York Times oder dem Wall Street Journal in das Archiv. Unternehmen wie OpenAI, Google und Meta nutzen diese Datensammlung.
Die Recherche zeigt zudem, dass Common Crawl Verlage über die Löschung ihrer Inhalte täuscht. Die Organisation sichert die Entfernung auf Anfrage zwar zu, die Artikel bleiben jedoch nachweislich im Archiv. Eine technische Analyse deutet darauf hin, dass seit Jahren keine Daten mehr gelöscht wurden. Eine Suchfunktion auf der Webseite der Organisation verbirgt die betreffenden Inhalte.
Rich Skrenta, der Geschäftsführer von Common Crawl, stellte gegenüber The Atlantic lapidar fest, Verlage sollten ihre Inhalte nicht ins Internet stellen, wenn sie nicht wollten, dass diese dort zu finden seien.
