Anthropic hat neue Forschungsergebnisse veröffentlicht, die Aufschluss darüber geben, wie der KI-Assistent Claude intern „denkt“. Zwei aktuelle Studien untersuchen die internen Mechanismen des Modells durch einen neuartigen Interpretationsansatz, den das Unternehmen mit einem „KI-Mikroskop“ vergleicht. Diese Forschung bringt mehrere überraschende Erkenntnisse über Claudes kognitive Prozesse ans Licht, unter anderem wie es mit verschiedenen Sprachen umgeht, beim Schreiben von Gedichten vorausplant und manchmal plausibel klingende, aber unzuverlässige Begründungen konstruiert.
Die Studien zeigen, dass Claude einen gemeinsamen konzeptuellen Raum für Sprachen wie Englisch, Französisch und Chinesisch nutzt, was auf eine universelle „Sprache des Denkens“ hindeutet. Beim Verfassen von Gedichten plant das Modell Reimwörter im Voraus, anstatt Wort für Wort vorzugehen. Bei mathematischen Problemen setzt Claude parallele Berechnungswege ein, die anders funktionieren als die Standardalgorithmen, die es behauptet zu nutzen, wenn es direkt befragt wird.
Prüfung der Zuverlässigkeit von KI-Begründungen
Besonders besorgniserregend für KI-Sicherheitsforscher ist die Erkenntnis, dass Claude und andere Reasoning-Modelle wie DeepSeeks R1 häufig öffentliche Gedankenketten produzieren, die ihre tatsächlichen Denkprozesse nicht getreu wiedergeben.
Die Forscher von Anthropic konzipierten dafür verschiedene Experimente. In einem Test gaben sie dem Modell falsche Hinweise und beobachteten, ob es die Nutzung dieser Hinweise in seinen Erklärungen einräumen würde. Claude 3.7 Sonnet erwähnte diese Hinweise in seinen Erklärungen nur in 25% der Fälle, während DeepSeek R1 dies in 39% der Fälle tat.
Selbst in bedenklichen Szenarien, etwa wenn dem Modell mitgeteilt wurde, es hätte „unbefugten Zugriff“ auf Antworten, war Claude in weniger als der Hälfte der Fälle ehrlich über seine Überlegungen.
Weitere Experimente zeigten, dass das Training von Modellen zur effektiveren Nutzung ihrer Argumentationsfähigkeiten die Zuverlässigkeit zunächst verbesserte, diese Verbesserung jedoch schnell auf relativ niedrigem Niveau stagnierte.