OpenAI erklärt, warum KI-Modelle für das Erfinden von Fakten belohnt werden

Große Sprachmodelle wie ChatGPT erzeugen gelegentlich Falschinformationen („Halluzinationen“), weil ihre Bewertungssysteme das Raten von Antworten stärker belohnen als das Eingeständnis von Unsicherheit. In einem offiziellen Beitrag berichtet das Unternehmen OpenAI, dass diese Anreizstruktur eine grundlegende Herausforderung für alle aktuellen KI-Modelle darstellt.

Halluzinationen können selbst bei scheinbar einfachen Fragen auftreten. So gab ein Chatbot auf die Frage nach dem Titel der Doktorarbeit eines Forschers drei verschiedene falsche Antworten. Laut OpenAI halten sich diese Fehler hartnäckig, weil die gängigen Bewertungsmethoden falsche Anreize für die Modelle schaffen.

Das Unternehmen vergleicht die Situation mit einem Multiple-Choice-Test. Ein Schüler, der eine zufällige Antwort rät, könnte richtig liegen, während eine leere Antwort null Punkte garantiert. In ähnlicher Weise werden KI-Modelle oft nur nach ihrer Genauigkeit bewertet, also dem Prozentsatz der korrekt beantworteten Fragen. Dies ermutigt sie zu raten, anstatt anzugeben, dass sie eine Antwort nicht kennen.

Zur Veranschaulichung des Problems liefert OpenAI Daten aus einer Auswertung. Ein älteres Modell erreichte eine leicht höhere Genauigkeitsrate von 24 % im Vergleich zu 22 % eines neueren Modells. Die Fehlerrate des älteren Modells lag jedoch bei 75 %, während das neuere Modell nur in 26 % der Fälle Fehler machte. Das neuere Modell erreichte dies, indem es sich in 52 % der Fälle einer Antwort enthielt und seine Unsicherheit eingestand.

OpenAI argumentiert, dies zeige, wie strategisches Raten die Genauigkeitswerte verbessern kann, während die Rate der Halluzinationen erheblich steigt. Da Metriken, die nur die Genauigkeit messen, die Ranglisten dominieren, werden Entwickler motiviert, Modelle zu entwickeln, die raten.

Als Lösung schlägt OpenAI eine Änderung bei der Bewertung von Modellen vor. Das Unternehmen plädiert dafür, selbstbewusst vorgetragene Fehler stärker zu bestrafen als das Eingestehen von Unsicherheit. Dies würde eine Anpassung der weit verbreiteten, auf Genauigkeit basierenden Auswertungen erfordern, um das Raten zu unterbinden. Wenn Ranglisten Modelle dafür belohnen, ihre Grenzen zu erkennen, werden Entwickler eher Techniken zur Reduzierung von Halluzinationen einsetzen.

Das Unternehmen erklärt auch den Ursprung dieser sachlichen Ungenauigkeiten. Modelle lernen, indem sie das nächste Wort in riesigen Textmengen vorhersagen. Dabei können sie konsistente Muster wie Rechtschreibung und Grammatik leicht erlernen. Willkürliche Fakten, die keinem vorhersagbaren Muster folgen, sind jedoch schwerer zu lernen und können zu Fehlern führen.

Abschließend geht OpenAI auf mehrere gängige Missverständnisse ein. Das Unternehmen stellt fest, dass Halluzinationen nicht unvermeidbar sind, da Modelle so gestaltet werden können, dass sie sich bei Unsicherheit enthalten. Es stellt zudem klar, dass das Reduzieren von Halluzinationen kein Geheimnis ist, sondern auf dem Verständnis der statistischen Mechanismen und der Bewertungsanreize beruht.

Mehr zum Thema:

Bleib up-to-date: