Selbst fortgeschrittene KI scheitert als Agent

Ein neuer Benchmark-Test von Sierra zeigt, dass selbst fortschrittliche Sprachmodelle wie GPT-4o bei komplexen Aufgaben in realistischen Szenarien noch Schwierigkeiten haben und eine Erfolgsquote von unter 50 Prozent erreichen. Der Test namens TAU-bench soll Entwicklern helfen, die Leistung von KI-Agenten in realitätsnahen Situationen zu bewerten, indem er Faktoren wie mehrfache Interaktionen und komplexe Aufgaben berücksichtigt.

Mehr zum Thema:

Bleib up-to-date: