KI-Trainingsdaten zeigen wachsende Macht der Technologiekonzerne

Eine umfassende Studie der Data Provenance Initiative hat besorgniserregende Entwicklungen bei KI-Trainingsdaten aufgedeckt. Wie Melissa Heikkilä für MIT Technology Review berichtet, wurden fast 4.000 öffentliche Datensätze aus 67 Ländern analysiert. Die Ergebnisse zeigen eine zunehmende Konzentration der Datenquellen bei großen Technologieunternehmen.

Seit 2018 dominiert das Web-Scraping die Datensammlung für KI-Entwicklung. Plattformen wie YouTube liefern über 70% der Video- und Sprachdaten. In den frühen 2010er Jahren stammten die Daten noch aus vielfältigen Quellen wie Parlamentsprotokollen und Wetterberichten. Diese Entwicklung begünstigt besonders große Technologieunternehmen wie Google als Eigentümer von YouTube.

Die geografische Verteilung der Daten ist stark unausgewogen: Über 90% der Datensätze stammen aus Europa und Nordamerika, während weniger als 4% aus Afrika kommen. Die Forscher warnen, dass diese Konzentration der Datenkontrolle, verstärkt durch exklusive Datenvereinbarungen, die Vormachtstellung führender KI-Entwickler weiter festigt und kleineren Organisationen den Zugang erschwert.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen