KI-Unternehmen entwickeln neue Testverfahren für fortschrittliche Modelle
Führende Technologieunternehmen stehen vor der Herausforderung, neue Bewertungsmethoden für ihre KI-Modelle zu entwickeln. Die bisherigen Testverfahren reichen nicht mehr aus, da moderne KI-Systeme bei Standard-Tests bereits über 90% Genauigkeit erreichen, berichtet die Financial Times. Unternehmen wie OpenAI, Microsoft, Meta und Anthropic arbeiten an internen Bewertungssystemen, besonders für autonome KI-Agenten. Neue öffentliche Benchmarks wie SWE-bench Verified …