Eine umfassende Studie der Data Provenance Initiative hat besorgniserregende Entwicklungen bei KI-Trainingsdaten aufgedeckt. Wie Melissa Heikkilä für MIT Technology Review berichtet, wurden fast 4.000 öffentliche Datensätze aus 67 Ländern analysiert. Die Ergebnisse zeigen eine zunehmende Konzentration der Datenquellen bei großen Technologieunternehmen.
Seit 2018 dominiert das Web-Scraping die Datensammlung für KI-Entwicklung. Plattformen wie YouTube liefern über 70% der Video- und Sprachdaten. In den frühen 2010er Jahren stammten die Daten noch aus vielfältigen Quellen wie Parlamentsprotokollen und Wetterberichten. Diese Entwicklung begünstigt besonders große Technologieunternehmen wie Google als Eigentümer von YouTube.
Die geografische Verteilung der Daten ist stark unausgewogen: Über 90% der Datensätze stammen aus Europa und Nordamerika, während weniger als 4% aus Afrika kommen. Die Forscher warnen, dass diese Konzentration der Datenkontrolle, verstärkt durch exklusive Datenvereinbarungen, die Vormachtstellung führender KI-Entwickler weiter festigt und kleineren Organisationen den Zugang erschwert.