Anthropic testet seine KI-Modelle auf Sabotage-Fähigkeiten
Anthropic hat neue Sicherheitsbewertungen für KI-Modelle entwickelt, die deren Fähigkeit zur Sabotage testen. In einem Blog-Post beschreibt das Unternehmen vier Testarten: „Human decision sabotage“, „Code sabotage“, „Sandbagging“ und „Undermining oversight“. Bei Human decision sabotage versuchen die Modelle, Menschen zu falschen Entscheidungen zu verleiten, ohne Verdacht zu erregen. Die Code sabotage testet, ob Modelle unbemerkt Fehler …