Claude Sonnet 5 kommt dem Flaggschiff Opus nahe

Anthropic hat Claude Sonnet 5 veröffentlicht. Das neue KI-Modell soll ähnliche Leistungen erbringen wie das Flaggschiffmodell Opus 4.8, kostet aber deutlich weniger. Sonnet 5 ist ab sofort das Standardmodell für Nutzerinnen und Nutzer der Free- und Pro-Tarife. Auch Max-, Team- und Enterprise-Kunden haben Zugang.

Über die API gilt bis zum 31. August 2026 ein Einführungspreis von 2 US-Dollar pro Million Eingabe-Token und 10 US-Dollar pro Million Ausgabe-Token. Danach steigt der Preis auf 3 beziehungsweise 15 US-Dollar. Zum Vergleich: Das Flaggschiffmodell Opus 4.8 kostet 5 US-Dollar pro Million Eingabe-Token und 25 US-Dollar pro Million Ausgabe-Token. Sonnet 5 ist also auch zum Standardpreis erheblich günstiger.

Partner, die frühen Zugang zum Modell hatten, berichten, dass es komplexe Aufgaben mit mehreren Schritten abschließt, an denen frühere Sonnet-Versionen gescheitert sind.

Was „agentisch“ in der Praxis bedeutet

Anthropic bewirbt Sonnet 5 als sein bislang fähigstes Modell für agentische Aufgaben. Der Begriff „agentisch“ beschreibt die Fähigkeit eines KI-Systems, selbstständig zu planen, externe Werkzeuge wie Browser oder Terminals zu verwenden und mehrstufige Aufgaben mit wenig menschlicher Aufsicht auszuführen. Bislang war diese Leistungsklasse vor allem teureren Modellen vorbehalten.

In einem eigenen Artikel erfährst du mehr über KI-Agenten für Contentprofis.

Die von Anthropic veröffentlichten Benchmark-Ergebnisse zeigen Sonnet 5 mit 63,2 Prozent auf dem Coding-Test SWE-bench Pro. Vorgängermodell Sonnet 4.6 erreichte dort 58,1 Prozent, Opus 4.8 kommt auf 69,2 Prozent. Beim Wissenstest Humanity’s Last Exam erzielt Sonnet 5 mit Werkzeugunterstützung 57,4 Prozent und liegt damit fast gleichauf mit Opus 4.8 (57,9 Prozent). Beim Wissensarbeits-Benchmark GDPval-AA v2 übertrifft Sonnet 5 mit 1.618 Punkten sogar das Flaggschiff, das 1.615 Punkte erreicht.

Wer das Modell nutzt, sollte einen technischen Aspekt beachten: Sonnet 5 verwendet einen neuen Tokenizer. Derselbe englische Text erzeugt damit rund 30 Prozent mehr Token als bei Sonnet 4.6. Das erhöht die tatsächlichen Kosten über den Listenpreis hinaus. Wie Simon Willison in seinem Blog beschreibt, fällt der Effekt je nach Sprache und Inhaltstyp unterschiedlich stark aus. Englische Texte sind am stärksten betroffen, vereinfachtes Mandarin kaum.

Sicherheit verbessert, aber nicht auf Spitzenniveau

Anthropic gibt an, dass Sonnet 5 seltener Fehlinformationen produziert und besser gegen Manipulationsversuche geschützt ist als Sonnet 4.6. Auch die Rate sogenannter „Fehlausrichtungen“, also Verhaltensweisen, die von Nutzerabsichten oder ethischen Grundsätzen abweichen, ist laut Anthropic gesunken. Allerdings schneidet Sonnet 5 in diesen Bereichen schlechter ab als Opus 4.8 und das Claude Mythos Preview Modell.

Beim Thema Cybersicherheit berichtet Anthropic, dass Sonnet 5 keine funktionierenden Software-Exploits entwickeln konnte. In einem gemeinsam mit Mozilla durchgeführten Test erzielte es dort 0,0 Prozent. Teilweise gelangen dem Modell jedoch mehr Zwischenschritte auf dem Weg zu einem Exploit als Sonnet 4.6. Anthropic führt das auf allgemeine Verbesserungen der Modellkompetenz zurück, nicht auf gezielte Trainingsdaten. Als Vorsichtsmaßnahme sind Cybersicherheits-Schutzmaßnahmen standardmäßig aktiviert.

Wie Amanda Caswell für The New Stack berichtet, widmet sich die 145-seitige Systemkarte zum Modell hauptsächlich nicht den Benchmark-Ergebnissen. Stattdessen geht sie der Frage nach, wie sich das Modell bei länger laufenden, eigenständigen Aufgaben verhält: wie es mit fehlgeschlagenen Werkzeugaufrufen umgeht, Versuchen widersteht, durch manipulative Webseiteninhalte umgelenkt zu werden, und nach Unterbrechungen wieder auf Kurs kommt. Das zeigt, wie ernst Anthropic den Unterschied nimmt zwischen einem Modell, das im Chat-Fenster gut funktioniert, und einem, das auch bei selbstständiger Arbeit zuverlässig bleibt.

Sonnet 5 ist ab sofort auf allen Anthropic-Plattformen verfügbar, einschließlich Claude Code.

Quellen

Introducing Claude Sonnet 5 – Anthropic
Anthropic launches Claude Sonnet 5 at a steep discount to its top model as the company races toward a blockbuster IPO – VentureBeat
Anthropic’s Claude Sonnet 5 system card says more about the future of AI than its benchmarks do – The New Stack
What’s new in Claude Sonnet 5 – Simon Willison’s Weblog

Claude Sonnet 5 kommt dem Flaggschiff Opus nahe

Was „agentisch“ in der Praxis bedeutet

Sicherheit verbessert, aber nicht auf Spitzenniveau

Quellen

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Was „agentisch“ in der Praxis bedeutet

Sicherheit verbessert, aber nicht auf Spitzenniveau

Quellen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen