LiveBench ist ein neuer Benchmark für große Sprachmodelle, die von einem Wissenschaftlerteam entwickelt wurde. Im Gegensatz zu bestehenden Benchmarks verwendet er ständig aktualisierte Fragen aus aktuellen Quellen und bewertet die Antworten automatisch anhand objektiver Kriterien. Das Team hat sich besonders bemüht, die Gefahr der „Contamination“ zu vermeiden, bei der die Trainingsdaten eines Sprachmodells die Testdaten eines Benchmarks enthalten. Dadurch sollen die Ergebnisse des Benchmarks tatsächlich die Fähigkeiten des Modells in neuen Situationen widerspiegeln und nicht nur dessen Fähigkeit, bereits bekannte Inhalte wiederzugeben.
LiveBench ist ein neuer Benchmark für LLMs
Bleib up-to-date:
Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)
Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?
Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.