Anthropic entwickelt neues Sicherheitssystem gegen KI-Manipulation

Anthropic hat ein neues Sicherheitssystem namens „constitutional classifiers“ vorgestellt, das KI-Modelle vor Manipulationsversuchen schützt. Wie Taryn Plumb für VentureBeat berichtet, blockiert das System 95,6% aller Versuche, die Schutzfunktionen des Claude 3.5 Sonnet Modells zu umgehen. Das Unternehmen testete das System mit 10.000 künstlich erzeugten Manipulationsanfragen. In einem Sicherheitstest versuchten 185 Experten über zwei Monate lang, die Schutzfunktionen zu durchbrechen. Keinem gelang es, das System vollständig zu überlisten. Die neue Technologie erhöht zwar den Rechenaufwand um 23,7%, funktioniert aber bei normalen Anfragen ohne nennenswerte Einschränkungen.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen