Führende Technologieunternehmen stehen vor der Herausforderung, neue Bewertungsmethoden für ihre KI-Modelle zu entwickeln. Die bisherigen Testverfahren reichen nicht mehr aus, da moderne KI-Systeme bei Standard-Tests bereits über 90% Genauigkeit erreichen, berichtet die Financial Times. Unternehmen wie OpenAI, Microsoft, Meta und Anthropic arbeiten an internen Bewertungssystemen, besonders für autonome KI-Agenten. Neue öffentliche Benchmarks wie SWE-bench Verified und FrontierMath wurden eingeführt, um komplexere Fähigkeiten zu testen. Experten warnen jedoch, dass ohne einheitliche Standards ein echter Vergleich verschiedener Modelle schwierig bleibt. Besonders die Bewertung von Denk- und Planungsfähigkeiten der KI-Systeme steht im Fokus der neuen Testverfahren.