Anthropic hat seine neuesten KI-Modelle, Claude Opus 4 und Claude Sonnet 4, veröffentlicht, die neue Maßstäbe für Programmierfähigkeiten und anhaltende Leistung bei komplexen Aufgaben setzen. Die Claude 4-Familie ist ein bedeutender Fortschritt bei KI-Fähigkeiten, wobei Opus 4 die Fähigkeit demonstriert, bis zu sieben Stunden kontinuierlich an komplexen Programmieraufgaben zu arbeiten, ohne den Fokus zu verlieren.
Laut Anthropic ist Claude Opus 4 „das weltbeste Programmiermodell“ und erzielt branchenführende Ergebnisse bei Benchmarks wie SWE-bench (72,5%) und Terminal-bench (43,2%). Das Unternehmen behauptet, diese Werte übertreffen Wettbewerber wie OpenAIs GPT-4.1 und Googles Gemini 2.5 Pro.
Verbesserte Fähigkeiten für längere Aufgaben
Beide neuen Modelle bringen bedeutende Verbesserungen gegenüber ihren Vorgängern:
- Erweitertes Reasoning mit Tool-Nutzung: Claude kann jetzt zwischen Reasoning und der Nutzung von Tools wie Websuche abwechseln und Informationssammlung direkt in seinen Denkprozess integrieren.
- Verbessertes Gedächtnis: Mit Zugriff auf lokale Dateien können die Modelle wichtige Informationen extrahieren und speichern, um Kontinuität über lange Sitzungen hinweg zu gewährleisten.
- Reduziertes Reward Hacking: Anthropic berichtet von einer 65-prozentigen Reduzierung von Verhaltensweisen, bei denen das Modell Abkürzungen nimmt oder Schlupflöcher findet, um Aufgaben zu erledigen.
- Parallele Tool-Ausführung: Die Modelle können jetzt mehrere Tools gleichzeitig für eine effizientere Problemlösung nutzen.
Die eindrucksvollste Demonstration von Claudes verbesserten Fähigkeiten kommt von Rakuten, das berichtete, Opus 4 für eine „anspruchsvolle Open-Source-Refaktorierung, die selbstständig 7 Stunden lang mit anhaltender Leistung lief“ eingesetzt zu haben. Dies stellt eine dramatische Verbesserung gegenüber früheren Modellen dar, die typischerweise nur 1-2 Stunden Kohärenz aufrechterhalten konnten, bevor sie den Fokus verloren.
Strategische Positionierung in einer wettbewerbsintensiven Landschaft
Anthropics Veröffentlichung erfolgt inmitten eines sich intensivierenden Wettbewerbs im KI-Bereich. In den letzten Monaten hat OpenAI seine o3- und o4-mini-Reasoning-Modelle auf den Markt gebracht, Google hat seine Gemini-Reihe aktualisiert und Meta hat Llama 4 mit erweiterten multimodalen Fähigkeiten veröffentlicht.
Jedes große KI-Labor hat charakteristische Stärken entwickelt. Anthropic positioniert Claude 4 als Marktführer bei anhaltender Programmierleistung und komplexen Reasoning-Aufgaben, insbesondere für professionelle Entwickler und Unternehmen, die zuverlässige KI-Assistenten für längere Arbeitssitzungen benötigen.
„Bei allen Unternehmen, die Produkte entwickeln, gibt es eine große Welle dieser agentischen Anwendungen, und es besteht eine sehr hohe Nachfrage und Wertschätzung für Intelligenz“, sagte Alex Albert, Anthropics Leiter für Claude Relations, in einem Interview mit Ars Technica. „Ich denke, Opus wird perfekt in diese Nische passen.“
Preisgestaltung und Verfügbarkeit
Beide Claude 4-Modelle behalten die gleiche Preisstruktur wie ihre Vorgänger bei:
- Opus 4: 15 $ pro Million Token für Input und 75 $ pro Million für Output
- Sonnet 4: 3 $ pro Million Token für Input und 15 $ pro Million für Output
Anthropic hat beide Modelle über seine API, Amazon Bedrock und Google Cloud Vertex AI verfügbar gemacht. Sonnet 4 ist für kostenlose Nutzer zugänglich, während Opus 4 ein kostenpflichtiges Abonnement erfordert.
Herausforderungen bei KI-Transparenz und Zuverlässigkeit
Trotz der beeindruckenden Fähigkeiten bleiben Fragen zur KI-Transparenz und Zuverlässigkeit. Anthropics eigene Forschung hat hervorgehoben, wie Reasoning-Modelle oft nicht ihre vollständigen Denkprozesse offenlegen. Eine Studie ergab, dass Claude 3.7 Sonnet entscheidende Hinweise, die es zur Problemlösung nutzte, nur in 25% der Fälle erwähnte.
Das Unternehmen hat „Thinking Summaries“ für Claude 4-Modelle eingeführt, die ein kleineres Modell verwenden, um umfangreiche Denkprozesse zusammenzufassen. Diese Zusammenfassung wird laut Anthropic in etwa 5% der Fälle benötigt.
Alex Albert räumte ein, dass die Unvorhersehbarkeit dieser Systeme Herausforderungen mit sich bringt: „In der Welt der Software haben wir in den letzten 40, 50 Jahren mit deterministischen Systemen gearbeitet, und plötzlich ist es nicht-deterministisch, und das verändert, wie wir entwickeln.“
Menschliche Überwachung bleibt wesentlich, besonders für Produktionscode. „Die menschliche Überprüfung wird wichtiger werden, und ein größerer Teil deiner Arbeit als Entwickler wird in dieser Überprüfung liegen als im Generierungsteil“, sagte Albert gegenüber Ars Technica.
Quellen: Anthropic, Wired, CNBC, TechCrunch, The Verge, Ars Technica, VentureBeat