Studie zeigt Schwächen bei Benchmarks für KI-Agenten
Ein neuer Forschungsbericht der Princeton University enthüllt Schwächen in aktuellen Benchmarks und Bewertungspraktiken für KI-Agenten. Die Forscher bemängeln, dass die Kostenkontrolle bei der Bewertung oft vernachlässigt wird, obwohl der Ressourcenaufwand für KI-Agenten im Vergleich zu einzelnen Modellabfragen erheblich höher sein kann. Dies führe zu verzerrten Ergebnissen, da teure Agenten mit hoher Genauigkeit in Benchmarks besser abschneiden, …