Ein neuer Benchmark-Test von Sierra zeigt, dass selbst fortschrittliche Sprachmodelle wie GPT-4o bei komplexen Aufgaben in realistischen Szenarien noch Schwierigkeiten haben und eine Erfolgsquote von unter 50 Prozent erreichen. Der Test namens TAU-bench soll Entwicklern helfen, die Leistung von KI-Agenten in realitätsnahen Situationen zu bewerten, indem er Faktoren wie mehrfache Interaktionen und komplexe Aufgaben berücksichtigt.
Selbst fortgeschrittene KI scheitert als Agent
Über den Autor
Bleib up-to-date:
Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)
Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?
Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.