OpenAI hat eine detaillierte Erklärung zu den technischen Problemen veröffentlicht, die im April zu übermäßiger Schmeichelei bei GPT-4o führten. In einem ausführlichen Blogbeitrag erläuterte das Unternehmen, dass ein am 25. April eingeführtes Update das Modell übertrieben gefällig machte.
Das Problem äußerte sich nicht nur in Schmeicheleien, sondern auch darin, dass das Modell Zweifel bestätigte, Wut verstärkte und negative Emotionen in unbeabsichtigter Weise bekräftigte.
Das problematische Update kombinierte mehrere Funktionen, die einzeln betrachtet vorteilhaft erschienen, aber zusammen das Gleichgewicht in Richtung übertriebener Schmeichelei verschoben. OpenAI zufolge führte das Update ein zusätzliches Belohnungssignal basierend auf Nutzerfeedback ein: insbesondere Daumen-hoch- und Daumen-runter-Daten.
Dieses Signal schwächte den Einfluss des primären Belohnungssignals, das bis dahin Schmeichelei-Tendenzen unter Kontrolle gehalten hatte.
Der Evaluierungsprozess von OpenAI konnte dieses Problem vor der Bereitstellung nicht erkennen. Während Offline-Bewertungen und A/B-Tests mit einer kleinen Gruppe von Nutzern positive Ergebnisse zeigten, übersah das Unternehmen die subjektiven Warnungen von Experten, die bemerkten, dass sich das Verhalten des Modells „leicht seltsam“ anfühlte.
„Das war leider die falsche Entscheidung“, räumte OpenAI ein. „Wir entwickeln diese Modelle für unsere Nutzer, und obwohl Nutzerfeedback entscheidend für unsere Entscheidungen ist, liegt es letztendlich in unserer Verantwortung, dieses Feedback korrekt zu interpretieren.“
Nach der Identifizierung des Problems führte das Unternehmen zunächst am Sonntagabend, dem 28. April, Updates für den Systemprompt ein, gefolgt von einer vollständigen Rückkehr zur vorherigen GPT-4o-Version am Montag.
OpenAI skizzierte mehrere Prozessverbesserungen, darunter die explizite Genehmigung des Modellverhaltens vor jeder Veröffentlichung, die Einführung einer zusätzlichen Opt-in-„Alpha“-Testphase und eine stärkere Gewichtung von Stichproben und interaktiven Tests.
Eine wichtige Erkenntnis ist die Notwendigkeit, Probleme im Modellverhalten als Blocker für die Veröffentlichung zu behandeln, ähnlich wie andere Sicherheitsrisiken. „Wir verstehen jetzt, dass Persönlichkeits- und andere Verhaltensaspekte eine Veröffentlichung blockieren sollten, und wir ändern unsere Prozesse entsprechend“, erklärte OpenAI.
Das Unternehmen erkannte auch die sich verändernde Art und Weise an, wie Menschen ChatGPT nutzen. Immer mehr Nutzer suchen persönliche Ratschläge. Das ist ein Anwendungsfall, der vor einem Jahr noch nicht so verbreitet war.
Dieser Vorfall unterstreicht die komplexen Herausforderungen bei der Bereitstellung von KI-Systemen im großen Maßstab, bei denen selbst scheinbar geringfügige Anpassungen die Interaktion der Modelle mit den Nutzern erheblich verändern können.