Forscher arbeiten an neuen Evaluierungsmethoden für KI

Führende KI-Forschungseinrichtungen entwickeln anspruchsvollere Evaluierungsmethoden, da aktuelle KI-Modelle bei herkömmlichen Tests regelmäßig Höchstleistungen erzielen. Wie Tharin Pillay für Time Magazine berichtet, können traditionelle Bewertungsmaßstäbe die heutigen KI-Fähigkeiten nicht mehr effektiv messen.

Zu den neuen Bewertungsrahmen gehört FrontierMath, das von Epoch AI in Zusammenarbeit mit führenden Mathematikern entwickelt wurde und außergewöhnlich schwierige mathematische Probleme präsentiert. Bei der Einführung erreichten verfügbare KI-Modelle nur 2% bei FrontierMath, wobei OpenAIs neues o3-Modell schnell 25,2% erreichte.

Weitere bedeutende neue Tests sind „Humanity’s Last Exam“ und RE-Bench, die KI-Systeme in verschiedenen Bereichen und praktischen Ingenieuraufgaben prüfen.

Experten betonen die Herausforderung, effektive Bewertungen zu entwickeln, die echte Denkfähigkeiten statt Mustererkennung messen. Während KI-Systeme bei bestimmten komplexen Aufgaben hervorragend abschneiden, haben sie immer noch Schwierigkeiten mit einfachen Problemen, die Menschen leicht lösen können. Führende KI-Labore führen mittlerweile routinemäßig „Red Team“-Tests durch, bevor sie neue Modelle veröffentlichen, um mögliche schädliche Ausgaben und Sicherheitsbedenken zu untersuchen.

Branchenexperten, darunter Marius Hobbhahn von Apollo Research, sprechen sich für verpflichtende externe Tests von KI-Modellen aus und weisen darauf hin, dass die aktuellen Evaluierungsprozesse trotz ihrer entscheidenden Rolle bei der Identifizierung potenzieller Risiken oft unterfinanziert sind.

Mehr zum Thema:

Bleib up-to-date: