Google hat ein neues Bewertungssystem namens FACTS Grounding eingeführt, das die Genauigkeit von Sprachmodellen bei der Verwendung von Quellinformationen überprüft. Das vom FACTS-Team bei Google DeepMind und Google Research entwickelte System umfasst 1.719 Testbeispiele aus verschiedenen Bereichen wie Finanzen, Technologie und Medizin. Drei fortschrittliche KI-Modelle – Gemini 1.5 Pro, GPT-4o und Claude 3.5 Sonnet – bewerten die Antworten der getesteten Systeme. Die Bewertung erfolgt in zwei Phasen: Zunächst wird die Angemessenheit der Antwort geprüft, dann ihre faktische Korrektheit. Google hat eine öffentliche Rangliste auf Kaggle eingerichtet, um den Fortschritt in diesem Bereich zu dokumentieren und zu fördern.