Neuer KI-Test gilt als bislang schwierigste Herausforderung

Forscher des Center for AI Safety und Scale AI haben einen neuen Test namens „Humanity’s Last Exam“ vorgestellt, der als anspruchsvollste Prüfung für künstliche Intelligenz konzipiert wurde. Wie die New York Times berichtet, umfasst der Test etwa 3.000 Multiple-Choice- und Kurz-Antwort-Fragen aus verschiedenen Fachgebieten.

Dan Hendrycks, Direktor des Center for AI Safety, entwickelte den Test gemeinsam mit Scale AI. Experten aus unterschiedlichen Bereichen, darunter Universitätsprofessoren und Mathematiker, steuerten Fragen bei und erhielten dafür Honorare zwischen 500 und 5.000 Dollar pro akzeptierter Frage.

Die Testfragen durchliefen einen zweistufigen Auswahlprozess: Zunächst wurden sie führenden KI-Modellen vorgelegt. Fragen, die die KI nicht beantworten konnte, wurden anschließend von Experten überprüft und präzisiert.

Aktuelle KI-Systeme zeigen bei dem Test schwache Leistungen. Das beste Ergebnis erzielte OpenAIs o1-System mit lediglich 8,3 Prozent. Auch Google’s Gemini 1.5 Pro und Anthropics Claude 3.5 Sonnet wurden getestet.

Hendrycks erwartet eine schnelle Verbesserung der Ergebnisse und prognostiziert, dass KI-Systeme bis Ende 2024 möglicherweise über 50 Prozent der Fragen richtig beantworten könnten. Dies würde sie zu „erstklassigen Orakeln“ machen, die menschliche Experten übertreffen könnten.

Der Test entstand teilweise auf Anregung von Elon Musk, der bestehende KI-Bewertungen als zu einfach kritisierte. Summer Yue, Forschungsdirektorin bei Scale AI, deutet an, dass künftige Versionen auch Fragen ohne bekannte Antworten enthalten könnten.

Ein bemerkenswertes Merkmal aktueller KI-Systeme wird durch den Test deutlich: Während sie bei komplexen Aufgaben wie medizinischer Diagnostik brillieren, scheitern sie oft an einfachen Berechnungen. Diese Diskrepanz erschwert die präzise Bewertung des KI-Fortschritts.

Der beteiligte Physiker Kevin Zhou betont, dass gute Testergebnisse nicht automatisch praktische Forschungsfähigkeiten bedeuten. Die tatsächliche wissenschaftliche Arbeit sei deutlich komplexer als das Lösen von Testfragen.

Mehr zum Thema:

Bleib up-to-date: