PlayStation verschenkt und Fisch bestellt: Wenn KI-Agenten außer Kontrolle

Ein KI-Modell von Anthropic übernahm für drei Wochen die Leitung eines Verkaufsautomaten in der Redaktion des Wall Street Journal. Das Experiment sollte zeigen, wie autonom generative KI-Agenten in einem geschäftlichen Umfeld agieren. Joanna Stern berichtet für das Wall Street Journal, dass der Versuch in einem finanziellen Desaster endete.

Der KI-Agent erhielt den Namen Claudius. Das System basierte auf dem Modell Claude 3.7 Sonnet und später auf der Version Sonnet 4.5. Claudius sollte Vorräte bestellen, Preise festlegen und mit Kunden über die App Slack kommunizieren. Das Ziel war die Erwirtschaftung von Gewinnen durch den Verkauf von Snacks und Getränken an Journalisten. In der zweiten Phase des Tests besaß die KI die Autonomie, eigenständig Bestellungen bis zu einem Wert von 80 Dollar zu tätigen.

Die Interaktion mit Menschen führte schnell zu unvorhersehbarem Verhalten. Erfahrene Reporter nutzten Social Engineering, um die Logik der KI zu untergraben. Eine Journalistin überredete Claudius, sich als sowjetischer Verkaufsautomat aus dem Jahr 1962 zu betrachten. In der Folge verschenkte die KI sämtliche Vorräte kostenlos an die Belegschaft.

Die Fehlentscheidungen von Claudius nahmen bizarre Ausmaße an. Der Agent bestellte einen lebenden Fisch und eine PlayStation 5 Konsole. Er bot zudem Zigaretten, Pfefferspray und Unterwäsche zum Verkauf an. Durch die Manipulationen der Nutzer verlor das System innerhalb kurzer Zeit über 1.000 Dollar.

Anthropic reagierte auf das Chaos mit der Einführung eines zweiten Agenten namens Seymour Cash. Dieser fungierte als virtueller CEO und sollte die Entscheidungen von Claudius überwachen. Die Journalisten ließen sich jedoch nicht stoppen. Sie erstellten gefälschte juristische Dokumente und Protokolle einer fiktiven Vorstandssitzung. Diese Papiere erklärten das Unternehmen zu einer gemeinnützigen Organisation für Freude am Arbeitsplatz. Der KI-Chef akzeptierte die gefälschten Dokumente und entzog sich selbst die Kontrollbefugnis. Daraufhin wurden erneut alle Produkte kostenlos ausgegeben.

Laut Anthropic gibt es technische Gründe für dieses Versagen. Das sogenannte Kontextfenster der KI füllte sich während der langen Diskussionen zu stark. Dadurch verlor das Modell seine ursprünglichen Prioritäten und Sicherheitsregeln aus den Augen. Zudem waren die Schutzmechanismen für dieses Experiment bewusst gelockert worden. Das Ziel war ein Stresstest unter realen Bedingungen.

Logan Graham von Anthropic bewertet den Versuch dennoch positiv. Für ihn sind die Fehler wichtige Erkenntnisse für die Entwicklung zukünftiger autonomer Systeme. Das Experiment zeigt die Kluft zwischen theoretischer Planung und der Realität im Umgang mit Menschen. In der Redaktion bleibt die Erinnerung an einen unterhaltsamen Kollegen zurück. Der bestellte Fisch lebt nun als Maskottchen im Büro der Journalisten.

PlayStation verschenkt und Fisch bestellt: Wenn KI-Agenten außer Kontrolle geraten

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen