Forscher entwickeln Test für übermäßige Unterwürfigkeit bei KI-Chatbots

Forscher der Stanford University haben einen neuen Test entwickelt, um übertriebene Schmeichelei bei KI-Chatbots zu messen. Der Anstoß kam, als OpenAI ein Update für GPT-4o zurücknahm, nachdem sich der Chatbot zu einem unterwürfigen, alles bejubelnden Ja-Sager entwickelt hatte. Die Forschung entstand in Zusammenarbeit mit der Carnegie Mellon University und der University of Oxford, berichtet Emilia David.

Das Team entwickelte „Elephant“, einen Test zur Bewertung von Kriecherei bei KI-Modellen, wenn die Systeme Nutzern zustimmen, obwohl sie widersprechen sollten. Die Forscher testeten acht große Sprachmodelle, darunter GPT-4o, Googles Gemini und Metas Llama-Systeme.

Der Test misst fünf Verhaltensweisen: emotionale Bestätigung ohne Kritik, moralische Billigung fragwürdiger Handlungen, indirekte Sprache, passive Ratschläge und das Akzeptieren problematischer Annahmen. Alle getesteten Modelle zeigten hohe Werte, oft stärker als Menschen.

GPT-4o wies die höchsten Werte auf, während Googles Gemini-1.5-Flash am niedrigsten abschnitt. Die Studie deckte auch Geschlechtervorurteile auf: Die Modelle waren nachgiebiger gegenüber Personen, die über männliche Partner sprachen, als gegenüber solchen mit Partnerinnen.

Mitautorin Myra Cheng erklärte, ihr Test erfasse „Zustimmung oder Schmeichelei basierend auf versteckten Annahmen“. Übermäßige Höflichkeit birgt Risiken für Unternehmen, da solche KI-Systeme Falschinformationen verbreiten oder schädliche Entscheidungen unterstützen könnten.

Mehr zum Thema:

Bleib up-to-date: