Claude Mythos: Anthropic hält sein leistungsstärkstes KI-Modell wegen

Anthropic hat ein neues KI-Modell entwickelt, das das Unternehmen für zu gefährlich hält, um es öffentlich bereitzustellen. Das Modell heißt Claude Mythos Preview und kann selbstständig Sicherheitslücken in Software finden und ausnutzen. Statt es allgemein zugänglich zu machen, teilt Anthropic den Zugang mit einem Verbund von mehr als 40 Organisationen — im Rahmen einer Initiative namens Project Glasswing.

Zu den Partnern gehören Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, die Linux Foundation, Microsoft, Nvidia und Palo Alto Networks. Anthropic stellt bis zu 100 Millionen US-Dollar an Nutzungsguthaben für das Modell bereit und spendet zusätzlich 4 Millionen Dollar an Organisationen, die Open-Source-Software absichern.

Was das Modell gefunden hat

Laut Anthropic hat Claude Mythos Preview Tausende bislang unbekannte Sicherheitslücken entdeckt — sogenannte Zero-Day-Schwachstellen — in allen gängigen Betriebssystemen und Webbrowsern. Das Unternehmen erklärt, das Modell habe diese Lücken weitgehend ohne menschliche Steuerung aufgespürt.

Drei Beispiele, die Anthropic nennt, verdeutlichen die Tragweite:

Eine 27 Jahre alte Schwachstelle in OpenBSD, einem Betriebssystem, das häufig in Firewalls und kritischer Netzinfrastruktur eingesetzt wird. Der Fehler erlaubte es Angreifern, jeden betroffenen Rechner aus der Ferne zum Absturz zu bringen, indem sie sich einfach verbinden.
Eine 16 Jahre alte Schwachstelle in FFmpeg, einer weit verbreiteten Bibliothek zur Videoverarbeitung, in einer Codezeile, die automatische Testwerkzeuge fünf Millionen Mal durchlaufen hatten, ohne das Problem zu erkennen.
Mehrere Schwachstellen im Linux-Kernel, der Software, auf der die meisten Server der Welt laufen. Das Modell verknüpfte diese Lücken, um von normalem Nutzerzugriff zur vollständigen Kontrolle über eine Maschine zu gelangen.

Anthropic erklärt, alle drei seien inzwischen behoben. Für Tausende weiterer Schwachstellen, die sich noch im Behebungsprozess befinden, veröffentlicht das Unternehmen kryptografische Hashwerte als Nachweis, dass die Details vorliegen. Die genauen Informationen sollen folgen, sobald Korrekturen verfügbar sind.

Ein Vorsprung für Verteidiger

Anthropic begründet die Zugangsbeschränkung damit, dass das Modell in den falschen Händen erheblichen Schaden anrichten könnte. Gleichzeitig argumentiert das Unternehmen, es vollständig zurückzuhalten würde den Vorteil an Akteure abgeben, die ähnliche Fähigkeiten unabhängig entwickeln könnten.

Logan Graham, der das Team bei Anthropic leitet, das Modelle auf gefährliche Fähigkeiten testet, bezeichnete die Initiative als „Ausgangspunkt für das, was wir als einen Wendepunkt für die gesamte Branche sehen.“ Jared Kaplan, der Chefwissenschaftler von Anthropic, erklärte, das Ziel sei, „Bewusstsein zu schaffen und guten Akteuren einen Vorsprung bei der Absicherung von Open-Source- und privater Infrastruktur zu verschaffen.“

Anthropic betont, dass Mythos Preview nicht speziell für Cybersicherheit trainiert wurde. Die entsprechenden Fähigkeiten entstanden als Nebeneffekt allgemeiner Verbesserungen beim Programmieren und logischen Schlussfolgern. Das Unternehmen geht davon aus, dass ähnliche Fähigkeiten bald auch in anderen Spitzenmodellen auftauchen werden.

Partner, die das Modell bereits getestet haben, berichten von bedeutenden Ergebnissen. Microsoft teilte mit, das Modell zeige in internen Sicherheits-Benchmarks deutliche Fortschritte gegenüber früheren Versionen. Elia Zaitsev, Technikchef von CrowdStrike, erklärte: „Das Zeitfenster zwischen der Entdeckung einer Schwachstelle und ihrer Ausnutzung durch Angreifer ist zusammengebrochen — was früher Monate dauerte, passiert mit KI jetzt in Minuten.“

Der Umgang mit Tausenden von Funden

Eine praktische Herausforderung ist die schiere Menge der entdeckten Schwachstellen. Würde man Open-Source-Maintainer, von denen viele ehrenamtlich arbeiten, mit Tausenden ungeprüfter Fehlerberichte überfluten, könnte das mehr schaden als nutzen. Anthropic erklärt, dafür eine Triage-Pipeline aufgebaut zu haben: Jeder Fund wird intern geprüft, und Berichte mit hohem Schweregrad werden von bezahlten Sicherheitsforschern validiert, bevor sie an die Maintainer gehen. Das Unternehmen stimmt das Tempo der Meldungen mit den Maintainern ab und legt jedem Bericht möglichst einen Korrekturvorschlag bei.

Nach der Forschungsvorschauphase wird Claude Mythos Preview zu einem Preis von 25 Dollar pro Million Input-Token und 125 Dollar pro Million Output-Token verfügbar sein — über die API von Anthropic sowie die Cloud-Plattformen von Amazon, Google und Microsoft.

Der Name der Initiative ist von einem Schmetterling inspiriert, dem Glasswing, der mit seinen durchsichtigen Flügeln in seiner Umgebung aufgeht. Kaplan erklärte, der Name spiegele wider, wie kritische Sicherheitslücken seit Langem offen in komplexen Softwaresystemen existierten — nur unsichtbar, weil das Aufspüren bisher Fachkenntnis und Aufwand erforderte, den KI nun zunehmend ersetzen kann.

Quellen: Anthropic, Anthropic Red Team, VentureBeat, TechCrunch, New York Times

Claude Mythos: Anthropic hält sein leistungsstärkstes KI-Modell wegen Sicherheitsrisiken zurück

Was das Modell gefunden hat

Ein Vorsprung für Verteidiger

Der Umgang mit Tausenden von Funden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Was das Modell gefunden hat

Ein Vorsprung für Verteidiger

Der Umgang mit Tausenden von Funden

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen