LiveBench ist ein neuer Benchmark für große Sprachmodelle, die von einem Wissenschaftlerteam entwickelt wurde. Im Gegensatz zu bestehenden Benchmarks verwendet er ständig aktualisierte Fragen aus aktuellen Quellen und bewertet die Antworten automatisch anhand objektiver Kriterien. Das Team hat sich besonders bemüht, die Gefahr der „Contamination“ zu vermeiden, bei der die Trainingsdaten eines Sprachmodells die Testdaten eines Benchmarks enthalten. Dadurch sollen die Ergebnisse des Benchmarks tatsächlich die Fähigkeiten des Modells in neuen Situationen widerspiegeln und nicht nur dessen Fähigkeit, bereits bekannte Inhalte wiederzugeben.