Studie: KI-Modelle erkennen eigene Fehler

Forschende von Technion, Google Research und Apple haben herausgefunden, dass große Sprachmodelle (LLMs) ein tieferes Verständnis von Wahrheit besitzen als bisher angenommen. Die Studie untersuchte die internen Repräsentationen von LLMs anhand verschiedener Datensätze, berichtet VentureBeat. Dabei zeigte sich, dass Informationen zur Wahrheit in bestimmten Antwort-Token konzentriert sind. Durch das Training von Klassifikator-Modellen auf diesen Token konnten Fehler und Fehlertypen vorhergesagt werden. Dies deutet darauf hin, dass LLMs Informationen über ihre eigene Wahrhaftigkeit kodieren. Zudem deckte die Studie Diskrepanzen zwischen internen Aktivierungen und externen Ausgaben der Modelle auf, was darauf hindeutet, dass aktuelle Evaluationsmethoden die tatsächlichen Fähigkeiten von LLMs möglicherweise nicht korrekt widerspiegeln.

Mehr zum Thema:

Bleib up-to-date: