Die Arc Prize Foundation hat mit ARC-AGI-2 einen neuen Maßstab zur Messung künstlicher allgemeiner Intelligenz (artificial general intelligence, AGI) veröffentlicht, der sich für selbst die fortschrittlichsten KI-Systeme als äußerst schwierig erwiesen hat. Dieser Test der zweiten Generation bewertet gezielt die Denkfähigkeiten zur Testzeit: KI muss sich an neue, nie zuvor gesehene Aufgaben anpassen, anstatt sich auf auswendig Gelerntes zu verlassen.
Die Ergebnisse zeigen eine deutliche Fähigkeitslücke: Während menschliche Testgruppen durchschnittlich 60% Genauigkeit erreichen (wobei mindestens zwei Menschen 100% der Aufgaben lösen), erzielen die ausgefeiltesten KI-Denksysteme nur einstellige Prozentwerte. OpenAIs o3-low-Modell, das beim vorherigen ARC-AGI-1-Maßstab 75,7% erreichte, schafft beim neuen Test nur 4%.
Hauptherausforderungen für KI-Systeme
ARC-AGI-2 deckt spezifische Denkdefizite in aktuellen KI-Systemen auf:
- Symbolische Interpretation: KI hat Schwierigkeiten, Symbolen über visuelle Muster hinaus semantische Bedeutung zuzuweisen
- Zusammengesetztes Denken: Systeme scheitern, wenn mehrere Regeln gleichzeitig angewendet werden müssen
- Kontextbezogene Regelanwendung: KI tut sich schwer, Regeln je nach Kontext unterschiedlich anzuwenden
Der Maßstab besteht aus visuellen Rätseln, bei denen Systeme Muster erkennen und korrekte Antwortgitter erzeugen müssen. Jede Aufgabe in ARC-AGI-2 wurde von mindestens zwei Menschen in höchstens zwei Versuchen gelöst, was den Bewertungskriterien für KI-Systeme entspricht.
Messung von Effizienz neben Fähigkeit
Eine wichtige Neuerung in ARC-AGI-2 ist die Betonung der Effizienz. Der Maßstab verfolgt nun ausdrücklich die Kosten für die Lösung von Aufgaben und erkennt an, dass Intelligenz nicht nur die Problemlösungsfähigkeit, sondern auch die Ressourcennutzung umfasst.
„Intelligenz wird nicht allein durch die Fähigkeit definiert, Probleme zu lösen oder hohe Punktzahlen zu erreichen“, schreibt Greg Kamradt, Mitbegründer der Arc Prize Foundation. „Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende Komponente.“
Diese Effizienzmessung unterstreicht eine weitere Lücke: Menschliche Löser kosten etwa 17 Dollar pro Aufgabe, während das o3-low-Modell bei weitaus geringerer Genauigkeit rund 200 Dollar pro Aufgabe kostet.
Wettbewerb und Preise
Neben dem neuen Maßstab hat die Arc Prize Foundation den ARC Prize 2025-Wettbewerb mit Preisen in Höhe von 1 Million Dollar angekündigt. Der Wettbewerb fordert Entwickler heraus, 85% Genauigkeit bei ARC-AGI-2 zu erreichen und dabei nur 0,42 Dollar pro Aufgabe auszugeben. Der Wettbewerb läuft vom 26. März bis zum 3. November 2025.
Der Ansatz der Stiftung spiegelt einen wachsenden Konsens in der Branche wider, dass neue, ungesättigte Maßstäbe nötig sind, um KI-Fortschritte in Richtung allgemeiner Intelligenz zu messen. Durch die Gestaltung von Aufgaben, die für Menschen einfach, aber für KI schwierig sind, zielt ARC-AGI darauf ab, die spezifischen Fähigkeiten zu identifizieren, die menschenähnliche allgemeine Intelligenz von selbst den fortschrittlichsten heute verfügbaren KI-Systemen unterscheiden.
Quellen: ARC Prize, TechCrunch