Benchmarking: Aufgaben aus der Arbeitswelt statt traditionelle KI-Tests

Artificial Analysis hat seine Methode zur Messung von KI-Intelligenz grundlegend überarbeitet. Die unabhängige Organisation ersetzt etablierte Benchmarks durch Tests, die messen, ob KI tatsächliche Arbeitsaufgaben erledigen kann. Michael Nuñez berichtet darüber für VentureBeat.

Die neue Version 4.0 des Intelligence Index entfernt drei häufig zitierte Tests, darunter MMLU-Pro und AIME 2025. An ihre Stelle treten zehn Evaluierungen in den Bereichen Agenten, Programmierung, wissenschaftliches Denken und Allgemeinwissen. Die besten Modelle erreichen nun maximal 50 Punkte auf der neuen Skala. Zuvor waren es 73 Punkte.

Der wichtigste neue Test heißt GDPval-AA. Er prüft KI-Modelle anhand echter Aufgaben aus 44 Berufen und neun Branchen. Der Benchmark misst, ob KI professionelle Ergebnisse wie Dokumente, Tabellen und Präsentationen erstellen kann. OpenAIs GPT-5.2 führt mit einem Score von 1442. Anthropics Claude Opus 4.5 folgt mit 1403 Punkten.

Ein weiterer Test namens CritPT zeigt Grenzen beim wissenschaftlichen Denken auf. Physikaufgaben auf Graduiertenniveau, entwickelt von über 50 Forschern, offenbaren Schwächen selbst bei den besten Modellen. GPT-5.2 erreicht nur 11,5 Prozent.

Der Index misst auch Halluzinationen separat. Googles Gemini 3 Pro führt bei der Genauigkeit mit 54 Prozent, zeigt aber eine Halluzinationsrate von 88 Prozent. GPT-5.1 erreicht niedrigere 51 Prozent.

Die Änderungen markieren einen grundlegenden Wandel. Forscher Aravind Sundar beobachtet auf X: Intelligenz werde weniger durch Erinnerungsvermögen gemessen, sondern durch wirtschaftlich nützliches Handeln.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen