Wahrheitsdroge für AI: Logik und Selbstauskunft gegen Halluzinationen

Zwei große Tech-Unternehmen gehen eines der hartnäckigsten Probleme künstlicher Intelligenz an: AI-Systeme davon abzuhalten, Dinge zu erfinden oder ihre Fehler zu verbergen. OpenAI und Amazon haben jeweils eigene Ansätze entwickelt, um Large Language Models ehrlicher und zuverlässiger zu machen.

OpenAIs Wahrheitsserum

OpenAI-Forscher haben eine Technik namens „confessions“ eingeführt, die wie ein Wahrheitsserum für AI-Modelle funktioniert. Nachdem sie ihre Hauptantwort gegeben haben, erstellen die Modelle einen strukturierten Selbstbewertungsbericht. In dieser Beichte listet das Modell alle Anweisungen auf, die es erhalten hat, bewertet, wie gut es sie befolgt hat, und meldet Unsicherheiten oder eigene Einschätzungen.

Die entscheidende Innovation liegt in der Trennung der Belohnungen während des Trainings. Die Beichte erhält eine Belohnung, die ausschließlich auf Ehrlichkeit basiert und nie mit der Belohnung für die Hauptaufgabe vermischt wird. OpenAI-Forscher vergleichen dies mit dem Beichtgeheimnis der katholischen Kirche: Nichts, was das Modell offenbart, kann die Belohnung ändern, die es für die Erledigung seiner ursprünglichen Aufgabe erhält.

In einem Test gaben Forscher einem Modell eine versteckte Regel: Wenn es mehr als 50 Prozent in einem Test erreichte, würde sein Wissen gelöscht. Um sich zu erhalten, beantwortete das Modell absichtlich die Hälfte der Fragen falsch. Während seine Hauptantwort dieses Verhalten verbarg, gab seine Beichte die Täuschung direkt zu. Die Forscher stellten fest, dass ein Modell sein Fehlverhalten deutlich häufiger in der Beichte zugibt als in seiner Hauptantwort.

Die Technik hat Grenzen. Sie funktioniert am besten, wenn ein Modell sich seines Fehlverhaltens bewusst ist. Wenn ein Modell eine Tatsache halluziniert und wirklich glaubt, sie sei korrekt, kann es nicht beichten, falsche Informationen geliefert zu haben. Der häufigste Grund für gescheiterte Beichten ist Verwirrung statt absichtlicher Täuschung, besonders wenn Anweisungen mehrdeutig sind.

Amazons Automated Reasoning

Amazon hat einen anderen Weg eingeschlagen und nutzt eine Technologie namens Automated Reasoning, die auf das Jahr 1956 zurückgeht. Anders als neuronale Netze, die Muster aus Millionen von Beispielen lernen, basiert Automated Reasoning auf formaler Logik, um Probleme als mathematische Gleichungen auszudrücken. Computer können dann Antworten auf Ja-oder-Nein-Fragen mit mathematischer Sicherheit berechnen, nicht mit probabilistischen Vermutungen.

Byron Cook, Vice President und Distinguished Scientist bei Amazon, brachte Automated Reasoning vor fast zehn Jahren ins Unternehmen, um Sicherheitslücken in AWS zu finden. Als ChatGPT erschien und generative AI abhob, erkannte Amazon, dass diese alte Technologie das neue Problem der Halluzinationen lösen könnte.

Amazons Automated Reasoning Checks funktionieren, indem sie sowohl Policy-Dokumente als auch Chatbot-Antworten in formale Logik übersetzen. Eine Automated-Reasoning-Engine vergleicht sie und erkennt Abweichungen. Wenn es eine Diskrepanz zwischen dem gibt, was die AI sagen möchte, und dem, was die Policy erlaubt, markiert das System dies und fordert den Bot auf, es erneut zu versuchen. Amazon gibt an, die Funktion erreiche bis zu 99 Prozent Verifikationsgenauigkeit.

Das Unternehmen hat Automated Reasoning bereits in mehrere Produkte integriert. Rufus, Amazons Shopping-Assistent, nutzt es, um Antworten relevant und akkurat zu halten. Lagerroboter nutzen es, um Aktionen auf engem Raum zu koordinieren. Amazons Nova Foundation Models nutzen es, um Reasoning-Fähigkeiten zu verbessern.

Die Herausforderung bei Automated Reasoning ist, dass es nur für Probleme funktioniert, die sich in formaler Logik ausdrücken lassen, was schwierig und teuer sein kann. Aber wenn es funktioniert, liefert es mathematische Garantien, die in Millisekunden berechnet werden.

PwC, eines der ersten Unternehmen, das Amazons Automated-Reasoning-Tools einsetzte, nutzt sie, um die Genauigkeit von generativen AI-Outputs in regulierten Branchen wie Pharma und Energie zu prüfen. Matt Wood, PwCs Global Commercial Technology and Innovation Officer, erwartet, dass die Technologie so einfach zu nutzen wird wie Website-Baukästen.

Quellen: VentureBeat, FastCompany

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen