Neuer Benchmark: Führende KI-Modelle produzieren selbstsicher falsche Informationen
Ein neuer Benchmark namens Phare zeigt, dass führende Large Language Models (LLMs) häufig falsche Informationen mit hoher Überzeugungskraft generieren, besonders bei der Verarbeitung von Fehlinformationen. Die von Giskard in Zusammenarbeit mit Partnern wie Google DeepMind durchgeführte Untersuchung bewertete die Top-Modelle von acht KI-Anbietern in mehreren Sprachen. Die Phare-Benchmark konzentriert sich auf vier kritische Bereiche: Halluzination, …