Wie Anthropic seine KI-Modelle auf Sicherheitsrisiken überprüft

Das Technologieunternehmen Anthropic hat sein neuestes KI-Modell Claude 3.5 Sonnet umfangreichen Sicherheitstests unterzogen. Wie Sam Schechner im Wall Street Journal berichtet, führte das „Frontier Red Team“ unter der Leitung von Logan Graham tausende von Tests durch. Die Prüfungen konzentrierten sich auf potenzielle Risiken in den Bereichen Cybersicherheit, biologische Waffen und autonomes Handeln.

Die Testergebnisse zeigten, dass Claude 3.5 Sonnet zwar verbesserte Fähigkeiten aufweist, aber innerhalb akzeptabler Sicherheitsgrenzen bleibt. Das Modell scheiterte bei der Erstellung korrekter Anleitungen für biologische Waffen. Bei einfachen Hacking-Aufgaben erzielte es nur begrenzte Erfolge. Programmiertests konnte es nur auf dem Niveau von 30-45 Minuten menschlicher Arbeit bewältigen. Nach Abschluss der Tests behielt Anthropic die Einstufung als „AI Safety Level 2“ bei und gab das Modell für die öffentliche Nutzung frei.

Mehr zum Thema:

Bleib up-to-date: