Studie: KI-Modelle erkennen eigene Fehler

Forschende von Technion, Google Research und Apple haben herausgefunden, dass große Sprachmodelle (LLMs) ein tieferes Verständnis von Wahrheit besitzen als bisher angenommen. Die Studie untersuchte die internen Repräsentationen von LLMs anhand verschiedener Datensätze, berichtet VentureBeat. Dabei zeigte sich, dass Informationen zur Wahrheit in bestimmten Antwort-Token konzentriert sind. Durch das Training von Klassifikator-Modellen auf diesen Token konnten Fehler und Fehlertypen vorhergesagt werden. Dies deutet darauf hin, dass LLMs Informationen über ihre eigene Wahrhaftigkeit kodieren. Zudem deckte die Studie Diskrepanzen zwischen internen Aktivierungen und externen Ausgaben der Modelle auf, was darauf hindeutet, dass aktuelle Evaluationsmethoden die tatsächlichen Fähigkeiten von LLMs möglicherweise nicht korrekt widerspiegeln.

Bleib up-to-date:

Hinweis: Der Autorname SCR steht für Inhalte, die mit KI-Hilfe erzeugt wurden. Jeder Beitrag wird vor der Veröffentlichung kontrolliert und bearbeitet. Redaktionelle Verantwortung: Jan Tissler. Lies mehr darüber, wie diese Website entsteht und welche Prompts zum Einsatz kommen.

Mehr zum Thema:

Bleib up-to-date: