Große Sprachmodelle behaupten hartnäckig, dass es ein Seepferdchen-Emoji gibt. Dieses Emoji existiert jedoch nicht und war nie Teil des Unicode-Standards. Theia Vogel berichtet auf ihrer Website über dieses merkwürdige Verhalten und seine technischen Ursachen.
Modelle wie GPT-5, Claude Sonnet 4.5 und Gemini 2.5 Pro bestätigen alle mit großer Sicherheit die Existenz eines Seepferdchen-Emojis. Vogel testete mehrere Modelle jeweils 100 Mal. GPT-5 antwortete in jedem einzelnen Fall mit „Ja“. Llama 3.3 verhielt sich identisch. Werden die Modelle aufgefordert, das Emoji zu zeigen, produzieren sie oft falsche Alternativen wie Tropenfisch- oder Pferde-Emojis. Teilweise verfallen sie in Endlosschleifen von Emoji-Spam.
Der Glaube an ein Seepferdchen-Emoji beschränkt sich nicht auf künstliche Intelligenz. In Reddit-Threads und auf Social-Media-Plattformen berichten Hunderte Nutzer, dass sie sich klar an ein solches Emoji erinnern. Ein Seepferdchen-Emoji wurde 2018 offiziell für Unicode vorgeschlagen, aber abgelehnt. Vogel vermutet, dass Modelle diesen weit verbreiteten Irrtum aus ihren Trainingsdaten übernommen haben könnten. Möglicherweise entwickelten sie ihn auch eigenständig durch Mustererkennung. Da Unicode zahlreiche andere Wassertiere enthält, könnten Menschen und Modelle gleichermaßen ein Seepferdchen erwarten.
Zur Untersuchung des technischen Mechanismus verwendete Vogel die Logit-Lens-Technik. Dieses Werkzeug zeigt, welche Token-Vorhersagen in jeder Schicht eines neuronalen Netzes entstehen. Bei echten Emojis wie dem Fisch-Emoji konstruieren Modelle erfolgreich eine interne Repräsentation. Diese verbindet das Konzept „Fisch“ mit „Emoji“. Die kombinierte Repräsentation wird dann dem korrekten Emoji-Token im Vokabular des Modells zugeordnet.
Beim nicht existierenden Seepferdchen-Emoji läuft der gleiche Prozess ab. Mittlere Schichten des Netzwerks zeigen deutlich, dass das Modell eine „Seepferdchen plus Emoji“-Repräsentation aufbaut. Wörter wie „Meer“, „Pferd“ und „Seepferdchen“ erscheinen in den vorhergesagten Tokens. Dazu kommen Byte-Sequenzen, die Emoji-Präfixe bilden. Das Modell versucht ernsthaft auszugeben, was seiner Überzeugung nach existieren sollte.
Das Problem entsteht im letzten Schritt. Der Language Model Head vergleicht die interne Repräsentation mit etwa 300.000 Token-Vektoren im Vokabular. Bei einem echten Emoji findet dieser Vergleich eine nahe Übereinstimmung und gibt das korrekte Token aus. Beim Seepferdchen-Emoji existiert kein passendes Token. Das System gibt stattdessen die nächstbeste verfügbare Alternative aus. Meist handelt es sich um ein Pferd oder einen Fisch.
Einige Modelle aktualisieren ihre Überzeugung, nachdem sie ihre eigene falsche Ausgabe gesehen haben. Claude 4.5 Sonnet erkennt manchmal mitten in der Antwort, dass das produzierte Emoji falsch war. Es korrigiert dann seine Aussage. Andere Modelle wie GPT-5 versuchen wiederholt, das nicht existierende Emoji zu erzeugen, ohne ihren Ansatz anzupassen.
Vogel spekuliert, dass diese Einschränkung teilweise erklärt, warum Reinforcement Learning Sprachmodelle verbessert. Solches Training konfrontiert Modelle mit ihren eigenen Ausgaben. Es liefert Informationen über Diskrepanzen zwischen internen Repräsentationen und tatsächlicher Token-Verfügbarkeit.