OpenAI hat die Ursache für ein ungewöhnliches Verhalten seiner neuesten KI-Modelle gefunden. Die Modelle erwähnten wiederholt und ohne erkennbaren Zusammenhang Goblins (Kobolde), Gremlins, Waschbären, Trolle, Oger und Tauben. Der Fehler fand sich letztlich in einem falsch gesetzten Trainingsanreiz.
Das Verhalten tauchte erstmals nach dem Start von GPT-5.1 auf. OpenAI stellte fest, dass das Wort „Goblin“ in Gesprächen mit dem Modell um 175 Prozent häufiger vorkam als beim Vorgängermodell. „Gremlin“ stieg um 52 Prozent. Zunächst schien das kein ernstes Problem zu sein. Mit GPT-5.4 wurde der Trend jedoch deutlich stärker.
OpenAI stellte fest, dass das Verhalten vor allem bei Nutzern auftrat, die die Persönlichkeit „Nerdy“ ausgewählt hatten. Diese Persönlichkeit war eine von mehreren anpassbaren Chatstilen in ChatGPT. Obwohl sie nur 2,5 Prozent aller ChatGPT-Antworten ausmachte, war sie für 66,7 Prozent aller Goblin-Erwähnungen verantwortlich. Zwischen GPT-5.2 und GPT-5.4 stieg die Rate der Goblin-Erwähnungen unter dieser Persönlichkeit gar um mehr als 3.800 Prozent!
Die Ursache war ein sogenanntes Reward-Signal im Training. Reward-Signale sind Bewertungen, die steuern, wie ein KI-Modell lernt. OpenAI hatte ein solches Signal eingesetzt, um den verspielten, schrägen Stil der Nerdy-Persönlichkeit zu fördern. Dieses Signal bewertete Antworten durchgehend besser, die diverse Kreaturen erwähnten. In 76,2 Prozent der untersuchten Trainingsdatensätze bekamen Antworten mit „Goblin“ oder „Gremlin“ höhere Bewertungen.
Beim Reinforcement Learning bleiben solche gelernte Verhaltensweisen allerdings nicht auf den Kontext beschränkt, in dem sie trainiert wurden. Nachdem das Modell gelernt hatte, dass Kreaturen im Nerdy-Kontext bessere Bewertungen bringen, begann dasselbe Muster auch in anderen Momenten aufzutauchen. Antworten mit diesen Wörtern flossen zudem in spätere Trainingsdaten ein. Das erzeugte eine Rückkopplungsschleife, die das Verhalten über mehrere Modellversionen hinweg weiter verbreitete.
Bei GPT-5.5 war das Problem so auffällig geworden, dass OpenAI explizite Anweisungen in Codex CLI aufnahm, ein Werkzeug zum Programmieren mit KI. Die Anweisung lautete sinngemäß: Erwähne niemals Goblins, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Tiere und Kreaturen, es sei denn, das ist für die Anfrage eindeutig und zweifelsfrei relevant. Nutzer von OpenClaw, einem Automatisierungswerkzeug, das OpenAI übernommen hatte, berichteten, dass das Modell Software-Fehler als „Gremlins“ und „Goblins“ bezeichnete.
Um das Problem an der Wurzel zu beheben, stellte OpenAI die Nerdy-Persönlichkeit ein, entfernte das verantwortliche Reward-Signal aus dem Training und filterte Kreaturen-Wörter aus den Trainingsdaten heraus. Das Unternehmen erklärt, dass das Training von GPT-5.5 bereits begonnen hatte, bevor diese Ursache gefunden wurde. Daher wurden die Anweisungen in Codex als vorübergehende Lösung hinzugefügt.
OpenAI beschreibt den Vorfall als Beispiel dafür, wie kleine Trainingsanreize unerwartetes Modellverhalten auslösen und sich über den ursprünglich beabsichtigten Anwendungsfall hinaus ausbreiten können. Das Unternehmen gibt an, durch die Untersuchung neue interne Werkzeuge zur Analyse und Korrektur von Modellverhalten entwickelt zu haben.
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
