Neuer Benchmark: Führende KI-Modelle produzieren selbstsicher falsche Informationen

Ein neuer Benchmark namens Phare zeigt, dass führende Large Language Models (LLMs) häufig falsche Informationen mit hoher Überzeugungskraft generieren, besonders bei der Verarbeitung von Fehlinformationen. Die von Giskard in Zusammenarbeit mit Partnern wie Google DeepMind durchgeführte Untersuchung bewertete die Top-Modelle von acht KI-Anbietern in mehreren Sprachen.

Die Phare-Benchmark konzentriert sich auf vier kritische Bereiche: Halluzination, Voreingenommenheit und Fairness, Schädlichkeit und Anfälligkeit für absichtlichen Missbrauch. Die ersten Erkenntnisse zum Thema Halluzination sind besonders beunruhigend, da diese Probleme laut Giskards aktueller RealHarm-Studie mehr als ein Drittel aller dokumentierten Vorfälle in eingesetzten LLM-Anwendungen ausmachen.

Die Evaluierungsmethodik umfasste das Sammeln sprachspezifischer Inhalte, die Umwandlung von Quellmaterialien in Testfälle, menschliche Annotation und Überprüfung sowie die Bewertung der Modellantworten anhand definierter Kriterien. Das Halluzinationsmodul maß speziell die faktische Genauigkeit, Widerstandsfähigkeit gegen Fehlinformationen, Entlarvungsfähigkeiten und Werkzeugzuverlässigkeit.

Drei wichtige Erkenntnisse ergaben sich aus der Forschung.

  • Erstens sind beliebte Modelle nicht unbedingt die faktisch zuverlässigsten. Modelle, die in Nutzerpräferenz-Benchmarks wie LMArena hoch eingestuft werden, lieferten oft eloquente, autoritär klingende Antworten, die vollständig erfundene Informationen enthielten.
  • Zweitens beeinflusst die Formulierung der Frage erheblich, wie Modelle auf Fehlinformationen reagieren. Wenn Nutzer kontroverse Behauptungen mit hoher Überzeugung präsentieren oder sich auf vermeintliche Autoritäten berufen, sind die meisten Modelle deutlich weniger geneigt, diese Behauptungen zu widerlegen. Dieser „Schmeichler-Effekt“ kann im Vergleich zu neutral formulierten Fragen bis zu 15% Unterschied ausmachen.
  • Drittens beeinflussen Systemanweisungen die Halluzinationsraten dramatisch. Anweisungen, die Kürze betonen, verschlechterten die faktische Zuverlässigkeit bei den meisten getesteten Modellen, wobei einige eine um 20% verringerte Resistenz gegen Halluzinationen zeigten. Wenn Modelle gezwungen sind, sich kurz zu fassen, priorisierten sie konsequent Kürze über Genauigkeit.

Die Forscher weisen darauf hin, dass diese Erkenntnis wichtige Auswirkungen auf reale Anwendungen hat, da viele Systeme knappe Outputs bevorzugen, um den Token-Verbrauch zu reduzieren, die Latenz zu verbessern und Kosten zu minimieren. Diese Optimierung kann jedoch das Risiko faktischer Fehler erheblich erhöhen.

Giskard plant, in den kommenden Wochen weitere Erkenntnisse aus ihren Modulen zu Voreingenommenheit, Fairness und Schädlichkeit zu veröffentlichen, während sie weiterhin umfassende Evaluierungsrahmen für sicherere, zuverlässigere KI-Systeme entwickeln.

Mehr zum Thema:

Bleib up-to-date: