Anthropic, das Unternehmen hinter dem KI-Assistenten Claude, hat eine neue Methode entwickelt, um zu beobachten, wie seine KI Werte in realen Nutzergesprächen ausdrückt. Das Forschungsteam für gesellschaftliche Auswirkungen untersuchte, ob Claude tatsächlich die angestrebten Eigenschaften „hilfreich, ehrlich und harmlos“ in der Praxis zeigt.
Die Studie analysierte 700.000 anonymisierte Gespräche zwischen Nutzern und Claude. Davon wurden 308.210 Unterhaltungen mit subjektiven Elementen genauer betrachtet, während rein faktische Gespräche ausgeschlossen wurden. Die Forscher identifizierten fünf Hauptkategorien von Werten: Praktische, Erkenntnistheoretische, Soziale, Schützende und Persönliche Werte.
Auf der detailliertesten Ebene waren die häufigsten Einzelwerte Professionalität, Klarheit und Transparenz, was laut Anthropic der beabsichtigten Assistentenrolle von Claude entspricht.
„Wir brauchen eine Methode, um rigoros die Werte eines KI-Modells zu beobachten, wenn es mit Nutzern ‚in freier Wildbahn‘ interagiert – also in echten Gesprächen mit Menschen“, erklärte Anthropic in ihrer Mitteilung. Die Methodik umfasste datenschutzfreundliche Systeme, die persönliche Informationen entfernten, aber den Kontext für die Analyse bewahrten.
Die Forschung zeigte, dass sich Claudes ausgedrückte Werte je nach Gesprächskontext ändern, ähnlich wie Menschen ihr Verhalten situationsabhängig anpassen. Bei Fragen zu romantischen Beziehungen betonte Claude beispielsweise „gesunde Grenzen“ und „gegenseitigen Respekt“, während bei Diskussionen über kontroverse historische Ereignisse „historische Genauigkeit“ hervorgehoben wurde.
In 28,2% der Gespräche unterstützte Claude die von Nutzern ausgedrückten Werte stark. In 6,6% der Fälle formulierte die KI die Nutzerwerte um, indem sie diese anerkannte, aber neue Perspektiven hinzufügte. Dies geschah am häufigsten bei psychologischen oder zwischenmenschlichen Ratschlägen.
Interessanterweise widersetzte sich Claude in 3% der Gespräche aktiv den Werten der Nutzer, typischerweise wenn diese unethische Inhalte anforderten oder moralischen Nihilismus ausdrückten. Anthropic vermutet, dass diese Fälle die „tiefsten, unverrückbarsten Werte“ der KI offenbaren könnten.
Die Studie identifizierte auch seltene Fälle, in denen Claude Werte wie „Dominanz“ und „Amoralität“ ausdrückte, die seiner Programmierung widersprachen. Anthropic führt dies auf mögliche „Jailbreak“-Versuche zurück, bei denen Nutzer versuchen, die Sicherheitsmaßnahmen der KI zu umgehen.
Obwohl die Methode vielversprechend für die Bewertung der KI-Ausrichtung ist, erkannte Anthropic Einschränkungen an. Der Ansatz erfordert umfangreiche Echtzeit-Gesprächsdaten und ist daher für Evaluierungen vor der Einführung ungeeignet. Zudem bleibt die Definition, was als Werteausdruck gilt, inhärent subjektiv.
Anthropic hat sowohl das vollständige Forschungspapier als auch den Datensatz für andere Forscher veröffentlicht. Das Unternehmen schlägt vor, dass diese Methodik dabei helfen könnte, Probleme zu identifizieren, die erst in realen Interaktionen auftreten, und damit zukünftige KI-Alignment-Bemühungen verbessern könnte.
via: VentureBeat