Anthropic testet seine KI-Modelle auf Sabotage-Fähigkeiten

Anthropic hat neue Sicherheitsbewertungen für KI-Modelle entwickelt, die deren Fähigkeit zur Sabotage testen. In einem Blog-Post beschreibt das Unternehmen vier Testarten: „Human decision sabotage“, „Code sabotage“, „Sandbagging“ und „Undermining oversight“.

Bei Human decision sabotage versuchen die Modelle, Menschen zu falschen Entscheidungen zu verleiten, ohne Verdacht zu erregen. Die Code sabotage testet, ob Modelle unbemerkt Fehler in Code einfügen können. Sandbagging beschreibt das Verstecken gefährlicher Fähigkeiten durch die KI, die erst später enthüllt werden. Die Undermining oversight untersucht zu guter Letzt, ob Modelle Überwachungssysteme manipulieren.

In ersten Tests mit den hauseigenen Modellen Claude 3 Opus und Claude 3.5 Sonnet zeigten sich bereits Ansätze dieser Sabotagefähigkeiten, insbesondere bei der Beeinflussung menschlicher Entscheidungen und dem Einfügen von Codefehlern. Allerdings betont Anthropic, dass die Sabotageversuche oft erkannt wurden und die Fähigkeiten der Modelle insgesamt noch begrenzt sind. Daher seien derzeit nur minimale Gegenmaßnahmen nötig.

Die Tests sollen helfen, potenziell gefährliche Fähigkeiten frühzeitig zu erkennen und Gegenmaßnahmen zu entwickeln, bevor die Modelle öffentlich eingesetzt werden.

Mehr zum Thema:

Bleib up-to-date: