Chain-of-Thought ist kein Allheilmittel

Das Forschungspapier „Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse“ untersucht die Wirksamkeit von Chain-of-Thought (CoT) Prompting in großen Sprach- und multimodalen Modellen. Während CoT im Allgemeinen die Leistung des Modells bei verschiedenen Aufgaben verbessert, untersuchen die Autoren Szenarien, in denen CoT die Leistung sogar behindern kann, und ziehen dabei Parallelen zur kognitiven Psychologie.

Sie identifizieren drei Aufgabenkategorien – implizites statistisches Lernen, visuelle Erkennung und Klassifikation mit Ausnahmen – bei denen CoT zu einer signifikanten Verschlechterung der Modellleistung führt, mit einer Reduktion der Genauigkeit um bis zu 36,3%. Umgekehrt wurden Aufgaben identifiziert, bei denen sich verbales Denken negativ auf die menschliche Leistung, nicht aber auf die Leistung der Modelle auswirkt.

Die Studie unterstreicht, dass Modelle und Menschen zwar einige kognitive Einschränkungen teilen, aber unter unterschiedlichen Bedingungen arbeiten, die die Ergebnisse von CoT-Aufgaben beeinflussen können. Auf der Grundlage umfangreicher Experimente stellen die Autoren fest, dass CoT die Leistung von Modellen drastisch beeinträchtigen kann, wenn sowohl die menschlichen als auch die Modellbeschränkungen übereinstimmen.

Sie schlagen vor, dass das Verständnis dieser Dynamik dazu beitragen kann, die Anwendung von CoT-Prompting in der KI zu verfeinern. Das Papier schließt mit Empfehlungen zur Nutzung psychologischer Erkenntnisse, um die Modellleistung bei verschiedenen Aufgaben besser einschätzen und verbessern zu können.

Ein Beispiel für Chain-of-Thought in einer KI ist die o1-Modellfamilie von OpenAI.

Mehr zum Thema:

Bleib up-to-date: