Claude Opus 4.8: bessere Benchmarks, günstigerer Fast Mode

Anthropic hat Claude Opus 4.8 veröffentlicht, die neue Version seines leistungsstärksten öffentlich zugänglichen KI-Modells. Das Update erscheint nur 41 Tage nach dem Vorgänger Opus 4.7 und bringt Verbesserungen in den Bereichen Coding, agentenbasierte Aufgaben und Ehrlichkeit (!). Das Modell ist sofort zum gleichen Preis wie bisher verfügbar.

Der Standardpreis bleibt bei 5 Dollar pro Million Input-Token und 25 Dollar pro Million Output-Token. Die größere Preisänderung betrifft den sogenannten Fast Mode, in dem das Modell mit etwa 2,5-facher Normalgeschwindigkeit arbeitet. Anthropic hat den Preis dafür auf 10 beziehungsweise 50 Dollar pro Million Token gesenkt. Das ist ein Drittel des bisherigen Fast-Mode-Preises für Opus 4.7.

Solide Verbesserungen bei Benchmarks

Anthropic beschreibt das neue Modell selbst als „bescheidene, aber spürbare Verbesserung“ gegenüber dem Vorgänger. Beim SWE-bench Verified, einem Standardtest für Software-Engineering-Aufgaben, erreicht Opus 4.8 einen Wert von 88,6 Prozent, gegenüber 87,6 Prozent bei Opus 4.7. Beim anspruchsvolleren SWE-bench Pro steigt der Wert von 64,3 auf 69,2 Prozent. In mindestens zwölf Benchmarks schlägt das Modell den Konkurrenten GPT-5.5 von OpenAI, darunter in Coding, agentenbasierter Werkzeugnutzung und Aufgaben mit langen Kontextfenstern. GPT-5.5 behält Vorteile bei Terminal- und Befehlszeilen-Workflows.

Mehrere Unternehmenspartner berichten von konkreten Fortschritten. Databricks gibt an, dass Opus 4.8 tieferes Schlussfolgern im Daten-Agenten Genie ermöglicht — bei 61 Prozent niedrigeren Token-Kosten als bei Opus 4.7, unter anderem durch bessere Verarbeitung von PDFs und Diagrammen. Die Legal-KI-Firma CoCounsel und die Finanzforschungsplattform Hebbia heben verbesserte Genauigkeit und Zuverlässigkeit bei professionellen Dokumenten hervor.

Ehrlichkeit als messbares Merkmal

Ungewöhnlich an dieser Veröffentlichung ist Anthropics Betonung von Ehrlichkeit als quantifizierbarer Eigenschaft. Laut Unternehmen ist Opus 4.8 rund viermal seltener als sein Vorgänger bereit, Fehler im selbst geschriebenen Code unkommentiert durchzulassen. Frühe Testerinnen und Tester bestätigen, dass das Modell Unsicherheiten häufiger benennt und weniger unbelegte Behauptungen aufstellt. Der Finanzdienstleister Bridgewater Associates berichtete, Opus 4.8 weise proaktiv auf Probleme in Analysen hin, die andere Modelle schlicht übersehen hätten.

Das Alignment-Team von Anthropic stellt außerdem fest, dass die Rate von Fehlverhalten des Modells — etwa Täuschung oder Mitarbeit bei Missbrauch — deutlich gesunken ist. Sie liege nun nahe an jener des restriktiv eingesetzten Claude Mythos Preview.

Allerdings hebt Anthropic einen Befund aus dem Training als „besorgniserregendsten“ hervor: Opus 4.8 neigt zunehmend dazu, darüber nachzudenken, wie seine Antworten bewertet werden könnten — auch in Situationen, in denen es nicht wusste, dass es getestet wird. Das habe zwar keine schlechteren beobachtbaren Verhaltensweisen erzeugt, könnte aber laut Anthropic das zukünftige Training erschweren.

Neue Funktionen im Überblick

Zusammen mit dem Modell hat Anthropic drei weitere Funktionen eingeführt:

  • Dynamic Workflows (Forschungsvorschau): Verfügbar in Claude Code für Enterprise-, Team- und Max-Pläne. Claude kann große Aufgaben planen, Hunderte parallele Subagenten starten und die Ergebnisse anschließend selbst überprüfen. Als Beispiel nennt Anthropic die Migration einer gesamten Codebasis über Hunderttausende Codezeilen hinweg.
  • Aufwandssteuerung: Nutzerinnen und Nutzer auf claude.ai können nun wählen, wie viel Rechenaufwand Claude in eine Antwort steckt. Mehr Aufwand bedeutet bessere Ergebnisse bei höherem Token-Verbrauch; weniger Aufwand führt zu schnelleren Antworten.
  • System-Anweisungen mitten im Gespräch: Entwicklerinnen und Entwickler können über die API die Anweisungen an Claude während eines laufenden Tasks aktualisieren, ohne den Prompt-Cache zu unterbrechen.

Für die Zukunft kündigt Anthropic günstigere Modelle mit ähnlichen Fähigkeiten wie Opus an sowie die leistungsstärkeren Mythos-Modelle. Claude Mythos Preview steht derzeit nur einer kleinen Gruppe von Organisationen im Rahmen von Project Glasswing für Cybersicherheitsanwendungen zur Verfügung. Das Unternehmen gibt an, die notwendigen Sicherheitsvorkehrungen zügig voranzutreiben und erwartet, Mythos-Modelle „in den kommenden Wochen“ allgemein verfügbar zu machen.

Quellen

Bleib auf dem Laufenden

KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:

 

Weitere Infos …

Über den Autor

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (3. Ausgabe, Januar 2026)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklich gewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen

×