Anthropic entwickelt neues Sicherheitssystem gegen KI-Manipulation
Anthropic hat ein neues Sicherheitssystem namens „constitutional classifiers“ vorgestellt, das KI-Modelle vor Manipulationsversuchen schützt. Wie Taryn Plumb für VentureBeat berichtet, blockiert das System 95,6% aller Versuche, die Schutzfunktionen des Claude 3.5 Sonnet Modells zu umgehen. Das Unternehmen testete das System mit 10.000 künstlich erzeugten Manipulationsanfragen. In einem Sicherheitstest versuchten 185 Experten über zwei Monate lang, …