Studie: KI-Modelle verfälschen Dokumente bei mehrstufigen Arbeitsabläufen

Eine neue Studie von Microsoft Research zeigt, dass große Sprachmodelle (Large Language Models, LLMs) Dokumente bei komplexen, mehrstufigen Arbeitsabläufen unbemerkt verändern. Ben Dickson berichtet für VentureBeat, dass selbst die leistungsstärksten KI-Modelle durchschnittlich 25 Prozent des Dokumenteninhalts verfälschen.

Das Forschungsteam entwickelte dafür einen Benchmark namens DELEGATE-52. Er simuliert automatisierte Arbeitsabläufe in 52 Berufsfeldern, darunter Finanzbuchhaltung, Softwareentwicklung und Musiknotation. Getestet wurden 19 verschiedene KI-Modelle von Anbietern wie OpenAI, Anthropic und Google.

Die Methode funktioniert wie folgt: Ein Modell bearbeitet ein Dokument nach einer bestimmten Anweisung. In einer neuen Sitzung wird es dann aufgefordert, diese Änderung rückgängig zu machen. Da das Modell keine Erinnerung an die erste Sitzung hat, zeigen Abweichungen zwischen Original und wiederhergestelltem Dokument, wo Fehler entstanden sind. Über 20 aufeinanderfolgende Bearbeitungsschritte hinweg verschlechterten sich Dokumente im Durchschnitt um 50 Prozent.

Die Probleme entstehen dabei nicht schrittweise. Rund 80 Prozent der Gesamtverschlechterung geht auf plötzliche, schwerwiegende Fehler zurück. Dabei verliert ein Modell in einem einzigen Schritt mindestens 10 Prozent des Dokumenteninhalts. Leistungsstarke Modelle vermeiden diese Fehler nicht grundsätzlich. Sie treten bei ihnen einfach erst später auf.

Die Art der Fehler unterscheidet sich je nach Modell. Schwächere Modelle löschen Inhalte vollständig. Fortgeschrittenere Modelle hingegen schreiben Inhalte leicht verändert um. Der Text bleibt also vorhanden, wurde aber unbemerkt verfälscht. Das macht Fehler für menschliche Prüfer deutlich schwerer erkennbar.

Philippe Laban, leitender Forscher bei Microsoft Research und Mitautor der Studie, stellt fest, dass der Einsatz sogenannter agentischer Werkzeuge, also etwa Programmierfunktionen oder Dateizugriff, die Leistung sogar um weitere 6 Prozent verschlechtert. „Modelle sind nicht in der Lage, spontan effektive Programme zu schreiben, die Dateien in verschiedenen Bereichen fehlerfrei bearbeiten“, erklärt er. Wenn der programmatische Ansatz scheitert, lesen Modelle ganze Dateien aus und schreiben sie neu. Das führt zu noch mehr Fehlern.

Das einzige Fachgebiet, in dem die meisten Modelle zuverlässig abschnitten, war Python-Programmierung. Das insgesamt beste Modell, Gemini 3.1 Pro, war in lediglich 11 von 52 getesteten Bereichen für delegierte Aufgaben geeignet.

Für Unternehmen, die sogenannte Retrieval-Augmented Generation (RAG) einsetzen, enthält die Studie eine weitere Warnung. Irrelevante Dokumente im Kontextfenster verstärken die Verschlechterung über lange Arbeitsabläufe erheblich. Ein Qualitätsverlust von 1 Prozent nach zwei Schritten kann auf 2 bis 8 Prozent über eine längere Simulation anwachsen.

Laban empfiehlt Entwicklern, Anwendungen auf kurze, überschaubare Aufgaben zu beschränken statt auf lange autonome Arbeitsabläufe. Außerdem rät er dazu, eng gefasste, fachspezifische Werkzeuge statt allgemeiner Tools einzusetzen.

Trotz der beunruhigenden Ergebnisse zeigt sich Laban optimistisch. Allein innerhalb der GPT-Modellfamilie stiegen die Ergebnisse in ähnlichen Tests innerhalb von 18 Monaten von unter 20 Prozent auf rund 70 Prozent. Er warnt jedoch, dass Unternehmen auch bei weiteren Fortschritten stets auf maßgeschneiderte, fachspezifische Werkzeuge angewiesen sein werden.

Studie: KI-Modelle verfälschen Dokumente bei mehrstufigen Arbeitsabläufen

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen