Ein neuer Forschungsbericht der Princeton University enthüllt Schwächen in aktuellen Benchmarks und Bewertungspraktiken für KI-Agenten. Die Forscher bemängeln, dass die Kostenkontrolle bei der Bewertung oft vernachlässigt wird, obwohl der Ressourcenaufwand für KI-Agenten im Vergleich zu einzelnen Modellabfragen erheblich höher sein kann. Dies führe zu verzerrten Ergebnissen, da teure Agenten mit hoher Genauigkeit in Benchmarks besser abschneiden, ohne dass die Kosten berücksichtigt werden. Darüber hinaus kritisieren die Forscher die Fokussierung auf Genauigkeit anstatt auf praktische Anwendbarkeit und die Problematik des Overfittings, bei der KI-Agenten Abkürzungen lernen, die in realen Szenarien nicht funktionieren. Die Autoren plädieren für eine ganzheitliche Bewertung von KI-Agenten, die sowohl Kosten als auch praktische Anwendbarkeit berücksichtigt, um die tatsächliche Leistungsfähigkeit dieser Systeme realistisch einschätzen zu können.