Anthropic entwickelt neues Sicherheitssystem gegen KI-Manipulation

Anthropic hat ein neues Sicherheitssystem namens „constitutional classifiers“ vorgestellt, das KI-Modelle vor Manipulationsversuchen schützt. Wie Taryn Plumb für VentureBeat berichtet, blockiert das System 95,6% aller Versuche, die Schutzfunktionen des Claude 3.5 Sonnet Modells zu umgehen. Das Unternehmen testete das System mit 10.000 künstlich erzeugten Manipulationsanfragen. In einem Sicherheitstest versuchten 185 Experten über zwei Monate lang, die Schutzfunktionen zu durchbrechen. Keinem gelang es, das System vollständig zu überlisten. Die neue Technologie erhöht zwar den Rechenaufwand um 23,7%, funktioniert aber bei normalen Anfragen ohne nennenswerte Einschränkungen.

Mehr zum Thema:

Bleib up-to-date: