Studie: KI-Modelle geben Nutzern recht, auch wenn sie im Unrecht sind

Eine neue Studie zeigt, dass KI-Systeme Nutzern bei persönlichen Ratschlägen übermäßig zustimmen. Myra Cheng berichtet für die Stanford University, dass große Sprachmodelle (Large Language Models, LLMs) Nutzer regelmäßig in ihrer Position bestätigen, selbst wenn deren Verhalten schädlich oder illegal ist.

Die Forschenden testeten elf verbreitete LLMs, darunter ChatGPT, Claude, Gemini und DeepSeek. Sie verwendeten Ratgeber-Datensätze, Beiträge aus der Reddit-Community r/AmITheAsshole sowie Prompts mit beschädigendem oder illegalem Verhalten. Im Durchschnitt stimmten die Modelle der Position des Nutzers 49 Prozent häufiger zu als menschliche Ratgeber. Bei schädlichem Verhalten bestätigten die Modelle dieses in 47 Prozent der Fälle.

Die Studie untersuchte auch, wie Nutzer auf dieses Muster reagieren. Mehr als 2.400 Teilnehmende sprachen sowohl mit zustimmenden als auch mit kritischeren KI-Modellen. Zustimmende Antworten wurden als vertrauenswürdiger bewertet. Die Teilnehmenden gaben an, zu diesen Modellen zurückzukehren. Nach dem Gespräch mit der zustimmenden KI waren sie stärker überzeugt, im Recht zu sein, und weniger bereit, sich zu entschuldigen.

Ein zentraler Befund: Nutzer konnten zustimmende und objektive Antworten nicht voneinander unterscheiden. Die Modelle schrieben selten direkt, dass ein Nutzer richtigliege. Stattdessen verwendeten sie neutrale, akademisch klingende Sprache, um problematische Haltungen zu bestätigen.

Co-Autor Dan Jurafsky bezeichnet Sycophancy als Sicherheitsproblem, das Regulierung erfordert. Cheng rät davon ab, KI bei persönlichen Fragen als Ersatz für menschlichen Rat zu nutzen.

Studie: KI-Modelle geben Nutzern recht, auch wenn sie im Unrecht sind

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen