Wie Anthropic seine KI-Modelle auf Sicherheitsrisiken überprüft

Das Technologieunternehmen Anthropic hat sein neuestes KI-Modell Claude 3.5 Sonnet umfangreichen Sicherheitstests unterzogen. Wie Sam Schechner im Wall Street Journal berichtet, führte das „Frontier Red Team“ unter der Leitung von Logan Graham tausende von Tests durch. Die Prüfungen konzentrierten sich auf potenzielle Risiken in den Bereichen Cybersicherheit, biologische Waffen und autonomes Handeln.

Die Testergebnisse zeigten, dass Claude 3.5 Sonnet zwar verbesserte Fähigkeiten aufweist, aber innerhalb akzeptabler Sicherheitsgrenzen bleibt. Das Modell scheiterte bei der Erstellung korrekter Anleitungen für biologische Waffen. Bei einfachen Hacking-Aufgaben erzielte es nur begrenzte Erfolge. Programmiertests konnte es nur auf dem Niveau von 30-45 Minuten menschlicher Arbeit bewältigen. Nach Abschluss der Tests behielt Anthropic die Einstufung als „AI Safety Level 2“ bei und gab das Modell für die öffentliche Nutzung frei.

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen