DeepMinds SCoRE soll KI-Modelle verlässlicher machen

DeepMind hat eine neue Technik namens SCoRe entwickelt, die die Selbstkorrektur-Fähigkeiten von großen Sprachmodellen (LLMs) deutlich verbessert. Das berichtet Ben Dickson in einem Artikel für VentureBeat. SCoRe nutzt dabei selbst generierte Daten und ermöglicht es LLMs, ihr internes Wissen zu nutzen, um Fehler zu erkennen und zu korrigieren. In Tests übertraf SCoRe andere Selbstkorrektur-Methoden deutlich. Die Technik reduzierte auch Fälle, in denen Modelle fälschlicherweise korrekte Antworten änderten.

SCoRe funktioniert, indem es ein zweistufiges Trainingsverfahren mit Reinforcement Learning einsetzt. Zunächst lernt das Modell, seine Antworten zu verbessern, ohne dabei die ursprünglichen Outputs zu stark zu verändern. In der zweiten Phase wird das Modell darauf trainiert, seine Antworten über mehrere Versuche hinweg zu optimieren. Dabei wird es belohnt, wenn es sich von der ersten zur zweiten Antwort verbessert. Die Forscher sehen in SCoRe einen wichtigen Schritt, um LLMs zuverlässiger und robuster zu machen, insbesondere bei komplexen Aufgaben wie Mathematik und Programmierung.

Mehr zum Thema:

Bleib up-to-date: