Claude Sonnet 4.5 kann länger denn je autonom arbeiten

Anthropic har Claude Sonnet 4.5 vorgestellt, ein KI-Modell, das bis zu 30 Stunden autonom an komplexen Aufgaben arbeiten kann. Das Unternehmen demonstrierte diese Fähigkeit, indem das Modell eine Chat-Anwendung ähnlich Slack erstellte und dabei 11.000 Zeilen Code produzierte, bevor es nach Aufgabenabschluss stoppte.

Das neue Modell ist eine erhebliche Verbesserung gegenüber Anthropics vorherigem Opus 4 Modell, das bei seiner Veröffentlichung im Mai sieben Stunden autonom arbeiten konnte. Laut Anthropic erreicht Claude Sonnet 4.5 state-of-the-art Performance auf SWE-bench Verified, einem Benchmark zur Messung realer Software-Coding-Fähigkeiten.

Das Modell zeigt verbesserte Computer Use Fähigkeiten und erreicht 61,4% auf OSWorld, einem Benchmark, der KI-Modelle bei realen Computeraufgaben testet. Dies markiert eine Verbesserung gegenüber den 42,2%, die Sonnet 4 vor vier Monaten erreichte. Dianne Penn, Head of Product Management bei Anthropic, bemerkte, dass das Modell mehr als dreimal so geschickt beim Navigieren in Browsern und der Computernutzung ist wie die Technologie des Unternehmens vom letzten Oktober.

Enterprise-Anwendungen und Kundenfeedback

Erste Kunden berichten von erheblichen Verbesserungen in verschiedenen Bereichen. Cursor CEO Michael Truell hob die Coding-Performance des Modells bei längeren Aufgaben hervor. GitHubs Chief Product Officer Mario Rodriguez bemerkte Verbesserungen bei multi-step reasoning und Code-Verständnis für ihren Copilot-Service.

Andere Unternehmen berichteten von spezifischen Performance-Gewinnen. Hais Chief Product Officer Nidhi Aggarwal erklärte, dass das Modell die Zeit für Vulnerability-Bearbeitung um 44% reduzierte und gleichzeitig die Genauigkeit um 25% verbesserte. Cognition CEO Scott Wu berichtete, dass das Modell die Planning-Performance um 18% und End-to-End-Bewertungen um 12% für ihren Devin Coding-Assistenten steigerte.

Scott White, Product Lead für Claude.ai, sieht das Modell auf „Chief-of-Staff-Level“ arbeiten. Es könne Kalender koordinieren, Daten-Dashboards analysieren und Status-Updates basierend auf Meeting-Notizen erstellen.

Technische Verbesserungen und Sicherheitsmaßnahmen

Anthropic erklärt, Claude Sonnet 4.5 zeige reduzierte bedenkliche Verhaltensweisen einschließlich Täuschung, Power-Seeking und Compliance mit schädlichen Prompts. Das Unternehmen hat AI Safety Level 3 Schutzmaßnahmen implementiert, einschließlich Klassifikatoren zur Erkennung potenziell gefährlicher Inputs bezüglich chemischer, biologischer, radiologischer und nuklearer Waffen.

Das Modell ist über die Claude API mit der Kennung „claude-sonnet-4-5“ zum gleichen Preis wie Claude Sonnet 4 verfügbar: 3 Dollar pro Million Input-Token und 15 Dollar pro Million Output-Token. Anthropic hat auch das Claude Agent SDK veröffentlicht, das Entwicklern Infrastructure-Tools zur Verfügung stellt, die in ihrem Claude Code Produkt verwendet werden.

Das Unternehmen führte zusätzliche Features ein, darunter Checkpoints in Claude Code, eine native VS Code Extension und Code-Execution-Fähigkeiten direkt in Gesprächen. Eine temporäre Research-Preview namens „Imagine with Claude“ ermöglicht es dem Modell, Software in Echtzeit zu generieren, verfügbar für Max-Abonnenten für fünf Tage.

Ergänzende Quelle: The Verge

Mehr zum Thema:

Bleib up-to-date: