Anthropic hat Claude Sonnet 4.6 veröffentlicht, ein umfangreiches Update seines KI-Modells der mittleren Preisklasse. Laut Anthropic übertrifft das Modell seinen Vorgänger in den Bereichen Programmierung, Computerbedienung, Verarbeitung langer Texte, Planung von KI-Agenten, Büroarbeit und Design. Sonnet 4.6 ist jetzt das Standardmodell in claude.ai und Claude Cowork. Der Preis bleibt unverändert: 3 Dollar pro Million Input-Tokens und 15 Dollar pro Million Output-Tokens.
Der Preis ist aus einem bestimmten Grund bemerkenswert: Anthropics Flaggschiff-Modelle der Opus-Reihe kosten fünfmal so viel. Anthropic zufolge erreicht Sonnet 4.6 bei mehreren wichtigen Benchmarks ein ähnliches Niveau wie Opus-Modelle oder kommt ihnen nahe. Beim SWE-bench Verified, einem Standardtest für reale Programmieraufgaben, erzielte Sonnet 4.6 einen Wert von 79,6 Prozent, Opus 4.6 erreichte 80,8 Prozent. Bei der KI-gestützten Finanzanalyse erzielte Sonnet 4.6 sogar 63,3 Prozent gegenüber 60,1 Prozent bei Opus 4.6. Für Unternehmen, die KI-Agenten mit Millionen von Anfragen täglich betreiben, ist dieser Preisunterschied erheblich.
In frühen Nutzertests mit Claude Code, dem Entwickler-Tool von Anthropic, bevorzugten rund 70 Prozent der Nutzer Sonnet 4.6 gegenüber Sonnet 4.5. 59 Prozent zogen es sogar dem bisherigen Flaggschiff-Modell Opus 4.5 vor. Als Gründe nannten sie weniger Halluzinationen, weniger Überengineering und eine bessere Befolgung von Anweisungen.
Zu den wichtigsten neuen Fähigkeiten gehört die Computerbedienung. Dabei steuert das KI-Modell Software so, wie ein Mensch es tut: durch Klicken und Tippen. Anthropic hatte diese Funktion im Oktober 2024 eingeführt und sie damals als experimentell und fehleranfällig bezeichnet. Beim OSWorld-Benchmark, der KI-Modelle an realen Softwareaufgaben testet, erzielte Sonnet 4.6 einen Wert von 72,5 Prozent. Beim Start der Funktion waren es noch 14,9 Prozent gewesen. Jamie Cuffe, CEO des Versicherungstechnologieunternehmens Pace, berichtete, Sonnet 4.6 habe bei seinem internen Benchmark für Computerbedienung 94 Prozent erreicht — der höchste Wert, den ein Claude-Modell dort je erzielt habe.
Anthropic betonte außerdem Verbesserungen beim Schutz vor sogenannten Prompt-Injection-Angriffen. Dabei verstecken Angreifer Anweisungen auf Webseiten, um das Verhalten eines KI-Agenten zu manipulieren.
Sonnet 4.6 verfügt in der Beta-Version über ein Kontextfenster von einer Million Tokens. Damit kann es ganze Codebasen oder große Dokumentensammlungen in einer einzigen Anfrage verarbeiten. Anthropic testete die Langzeitplanung des Modells mit Vending-Bench Arena, einer Simulation, in der KI-Modelle ein virtuelles Unternehmen über ein ganzes Jahr führen. Sonnet 4.6 schloss die Simulation mit einem Kontostand von rund 5.700 Dollar ab, während Sonnet 4.5 nur etwa 2.100 Dollar erreichte.
Anthropic erklärte, dass Sicherheitstests zeigen, Sonnet 4.6 sei mindestens so sicher wie die bisherigen Modelle. Die Sicherheitsforschenden des Unternehmens beschrieben das Modell als eines mit starkem Sicherheitsverhalten und ohne Anzeichen für schwerwiegende Fehlausrichtungen.
Quellen: Anthropic, VentureBeat
