Tests zur Messung von Fähigkeiten künstlicher Intelligenz sind oft fehlerhaft und übertreiben die Leistung von KI Systemen. Das zeigt eine neue Studie des Oxford Internet Institute. Die Forscher untersuchten 445 Benchmarks, mit denen KI Entwickler ihre Modelle bewerten.
Jared Perlo berichtet für NBC News von erheblichen methodischen Problemen. Etwa die Hälfte der Benchmarks definiert nicht klar, was sie messen wollen. Zudem verwenden die Tests häufig Daten aus bestehenden Benchmarks wieder. Zuverlässige statistische Methoden zum Vergleich von Modellen kommen selten zum Einsatz.
„Wenn wir KI Modelle bitten, bestimmte Aufgaben zu erfüllen, messen wir oft völlig andere Konzepte als das, was wir eigentlich messen wollen“, sagt Adam Mahdi gegenüber NBC News. Andrew Bean ergänzt, dass Aussagen wie „ein Modell erreicht Intelligenz auf Doktorniveau“ mit Vorsicht zu genießen sind.
Die Studie nennt den Grade School Math 8K Benchmark als Beispiel. Der Test zeigt, dass KI Modelle einfache Matheaufgaben richtig beantworten. Das beweise aber nicht, dass die Modelle tatsächlich mathematisch denken können. Mahdi vergleicht dies mit einem Erstklässler, der zwei plus fünf gleich sieben rechnet, ohne arithmetisches Denken zu beherrschen.
Die Oxford Forscher geben acht Empfehlungen zur Verbesserung der Benchmark Qualität. Nikola Jurkovic vom METR AI Forschungszentrum nennt die Checkliste einen Ausgangspunkt für aussagekräftigere Benchmarks. OpenAI und andere Organisationen entwickeln inzwischen Tests, die KI Leistung an konkreten Berufsaufgaben messen.
