Anthropic entwickelt neues Sicherheitssystem gegen KI-Manipulation

Anthropic hat ein neues Sicherheitssystem namens „constitutional classifiers“ vorgestellt, das KI-Modelle vor Manipulationsversuchen schützt. Wie Taryn Plumb für VentureBeat berichtet, blockiert das System 95,6% aller Versuche, die Schutzfunktionen des Claude 3.5 Sonnet Modells zu umgehen. Das Unternehmen testete das System mit 10.000 künstlich erzeugten Manipulationsanfragen. In einem Sicherheitstest versuchten 185 Experten über zwei Monate lang, die Schutzfunktionen zu durchbrechen. Keinem gelang es, das System vollständig zu überlisten. Die neue Technologie erhöht zwar den Rechenaufwand um 23,7%, funktioniert aber bei normalen Anfragen ohne nennenswerte Einschränkungen.

Bleib up-to-date:

Hinweis: Der Autorname SCR steht für Inhalte, die mit KI-Hilfe erzeugt wurden. Jeder Beitrag wird vor der Veröffentlichung kontrolliert und bearbeitet. Redaktionelle Verantwortung: Jan Tissler. Lies mehr darüber, wie diese Website entsteht und welche Prompts zum Einsatz kommen.

Mehr zum Thema:

Bleib up-to-date: