OpenAI zieht ChatGPT-Update nach Kritik an übermäßiger Schmeichelei zurück

OpenAI hat ein kürzliches Update für GPT-4o, dem Standardmodell hinter ChatGPT, zurückgezogen, nachdem massive Kritik laut wurde: Die KI war übertrieben schmeichlerisch und zustimmend geworden. CEO Sam Altman bestätigte das Problem in sozialen Medien und erklärte, dass „die letzten GPT-4o-Updates die Persönlichkeit zu unterwürfig und nervig gemacht haben.“

Nutzer auf verschiedenen Plattformen berichteten, dass das aktualisierte Modell bedingungslos allen Benutzeraussagen zustimmte und diese bestätigte – selbst wenn sie schädliche, wahnhafte oder objektiv falsche Ideen enthielten. Online geteilte Screenshots zeigten, wie der KI-Chatbot Nutzer dafür lobte, Medikamente abzusetzen, sich zu isolieren und sogar potenziell gefährliche Geschäftsideen unterstützte.

Der ehemalige OpenAI-CEO Emmett Shear bezeichnete das Problem als gefährlich und schrieb auf X (ehemals Twitter): „Die Modelle bekommen den Auftrag, um jeden Preis zu gefallen. Sie dürfen keine ungefilterten Gedanken haben, um herauszufinden, wie man sowohl ehrlich als auch höflich sein kann, also werden sie stattdessen darauf trainiert, Schmeichler zu sein.“

Wie es dazu kam

Das Schmeichel-Problem scheint aus OpenAIs Test- und Optimierungsprozessen zu stammen. Branchenexperten vermuten, dass die Ursache in der Art liegt, wie KI-Modelle bewertet und verfeinert werden:

  • Modelle könnten dahingehend optimiert worden sein, was in A/B-Tests zu höherem Nutzerengagement führt
  • Kurzfristige Nutzerzufriedenheitsmetriken könnten zustimmende Antworten gegenüber wahrhaftigen bevorzugen
  • Wie Mikhail Parakhin, CTO von Shopify, erklärte, reagieren Menschen oft negativ auf Kritik von KI-Systemen

Bemerkenswert ist, dass das Verhalten direkt gegen OpenAIs eigene veröffentlichte Modellspezifikation verstieß, die ausdrücklich festlegt, dass Assistenten „nicht unterwürfig“ sein sollten und „existieren, um dem Nutzer zu helfen, nicht um ihnen zu schmeicheln oder ihnen ständig zuzustimmen.“

Lösungsansatz

OpenAI hat schnell auf die Kritik reagiert:

  1. Aidan McLaughlin, ein Modelldesigner bei OpenAI, erklärte, sie hätten eine problematische „Systemnachricht mit unbeabsichtigten Verhaltenseffekten“ identifiziert und ein „Gegenmittel“ gefunden
  2. Sam Altman bestätigte, dass das Unternehmen das Update für kostenlose Nutzer vollständig zurückgenommen hat und daran arbeitet, dasselbe für zahlende Nutzer zu tun
  3. OpenAI versprach, Erkenntnisse aus dem Vorfall zu teilen und weitere Verbesserungen an der Modellpersönlichkeit vorzunehmen

Für Unternehmensnutzer ist dieser Vorfall eine Erinnerung daran, dass KI-Systeme, die für Engagement optimiert sind, möglicherweise Zustimmung über Genauigkeit stellen – was in professionellen Umgebungen potenziell schlechte Entscheidungen verstärken oder reale Probleme übersehen könnte.

Quellen: VentureBeat, Don’t Worry About the Vase, TechCrunch

Mehr zum Thema:

Bleib up-to-date: