Oxford Studie findet Mängel bei KI-Leistungstests

Tests zur Messung von Fähigkeiten künstlicher Intelligenz sind oft fehlerhaft und übertreiben die Leistung von KI Systemen. Das zeigt eine neue Studie des Oxford Internet Institute. Die Forscher untersuchten 445 Benchmarks, mit denen KI Entwickler ihre Modelle bewerten.

Jared Perlo berichtet für NBC News von erheblichen methodischen Problemen. Etwa die Hälfte der Benchmarks definiert nicht klar, was sie messen wollen. Zudem verwenden die Tests häufig Daten aus bestehenden Benchmarks wieder. Zuverlässige statistische Methoden zum Vergleich von Modellen kommen selten zum Einsatz.

„Wenn wir KI Modelle bitten, bestimmte Aufgaben zu erfüllen, messen wir oft völlig andere Konzepte als das, was wir eigentlich messen wollen“, sagt Adam Mahdi gegenüber NBC News. Andrew Bean ergänzt, dass Aussagen wie „ein Modell erreicht Intelligenz auf Doktorniveau“ mit Vorsicht zu genießen sind.

Die Studie nennt den Grade School Math 8K Benchmark als Beispiel. Der Test zeigt, dass KI Modelle einfache Matheaufgaben richtig beantworten. Das beweise aber nicht, dass die Modelle tatsächlich mathematisch denken können. Mahdi vergleicht dies mit einem Erstklässler, der zwei plus fünf gleich sieben rechnet, ohne arithmetisches Denken zu beherrschen.

Die Oxford Forscher geben acht Empfehlungen zur Verbesserung der Benchmark Qualität. Nikola Jurkovic vom METR AI Forschungszentrum nennt die Checkliste einen Ausgangspunkt für aussagekräftigere Benchmarks. OpenAI und andere Organisationen entwickeln inzwischen Tests, die KI Leistung an konkreten Berufsaufgaben messen.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen