Wie Anthropic seine KI-Modelle auf Sicherheitsrisiken überprüft

5. Februar 202511. Dezember 2024 von SCR

Das Technologieunternehmen Anthropic hat sein neuestes KI-Modell Claude 3.5 Sonnet umfangreichen Sicherheitstests unterzogen. Wie Sam Schechner im Wall Street Journal berichtet, führte das „Frontier Red Team“ unter der Leitung von Logan Graham tausende von Tests durch. Die Prüfungen konzentrierten sich auf potenzielle Risiken in den Bereichen Cybersicherheit, biologische Waffen und autonomes Handeln.

Die Testergebnisse zeigten, dass Claude 3.5 Sonnet zwar verbesserte Fähigkeiten aufweist, aber innerhalb akzeptabler Sicherheitsgrenzen bleibt. Das Modell scheiterte bei der Erstellung korrekter Anleitungen für biologische Waffen. Bei einfachen Hacking-Aufgaben erzielte es nur begrenzte Erfolge. Programmiertests konnte es nur auf dem Niveau von 30-45 Minuten menschlicher Arbeit bewältigen. Nach Abschluss der Tests behielt Anthropic die Einstufung als „AI Safety Level 2“ bei und gab das Modell für die öffentliche Nutzung frei.

_{Über den Autor}

Der Autorname SCR steht für Inhalte, die mit KI-Hilfe erstellt wurden. Jeder Beitrag wird vor der Veröffentlichung kontrolliert und bearbeitet. Redaktionelle Verantwortung: Jan Tissler. Lies mehr darüber, wie diese Website entsteht und welche Prompts zum Einsatz kommen.

Mehr zum Thema:

Schlagwörter: Anthropic, Claude, Sicherheit

Bleib up-to-date:

Newsletter

RSS Feed

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen

Direkt beim Anbieter …

Bei Amazon …