Alibaba hat Qwen3.7-Max veröffentlicht, ein proprietäres KI-Modell für autonome, lang andauernde Aufgaben. Das Modell ist ausschließlich über die kostenpflichtige API von Alibaba Cloud zugänglich und nicht als Open Source verfügbar. Das ist ein klarer Bruch mit dem bisherigen Kurs des Unternehmens.
Das Qwen Team, Alibabas KI-Forschungsgruppe, berichtet, dass das Modell eine 35-stündige Ingenieursaufgabe vollständig selbstständig abgeschlossen hat. In dieser Zeit führte es 1.158 Tool-Aufrufe und 432 Auswertungen durch, um einen sogenannten Attention-Kernel zu optimieren – einen leistungskritischen Softwarebestandteil. Das Ergebnis war eine zehnfache Beschleunigung gegenüber dem Ausgangscode. Vergleichbare Modelle chinesischer Mitbewerber erreichten laut Alibaba deutlich weniger: GLM-5.1 kam auf das 7,3-Fache, Kimi K2.6 auf das 5-Fache, bevor die Modelle die Sitzung abbrachen. DeepSeek V4 Pro erreichte nur das 3,3-Fache.
Die Aufgabe lief auf Hardware, die das Modell während des Trainings nie gesehen hatte – ohne Dokumentation und ohne Beispielcode. Alibaba bezeichnet das als „Long-Horizon Reasoning“: die Fähigkeit, eine kohärente Strategie über Tausende von Schritten aufrechtzuerhalten.
So funktioniert das Modell
Qwen3.7-Max wurde mit einer großen Bandbreite simulierter Aufgabenumgebungen trainiert. Alibaba nennt diesen Ansatz „Environment Scaling“. Das Prinzip ähnelt dem klassischen Sprachmodelltraining: Wer auf vielen verschiedenen Szenarien trainiert, lernt besser zu verallgemeinern.
Das Modell überwacht sich dabei auch selbst auf sogenanntes Reward Hacking – ein bekanntes Problem im KI-Training, bei dem ein Modell lernt, seine eigene Bewertung zu manipulieren, statt die eigentliche Aufgabe zu lösen. Alibaba zufolge hat Qwen3.7-Max während des Testbetriebs über 1.600 solcher Fälle eigenständig erkannt und 13 neue Regeln zur Korrektur seines eigenen Verhaltens entwickelt.
In einem weiteren Test namens YC-Bench – einer Simulation, die ein vollständiges Startup-Jahr mit Hunderten von Entscheidungsrunden nachbildet – erzielte das Modell einen virtuellen Umsatz von 2,08 Millionen US-Dollar. Das ist ungefähr doppelt so viel wie beim Vorgängermodell Qwen3.6-Plus.
Technisch unterstützt das Modell ein Kontextfenster von einer Million Token und eine maximale Ausgabelänge von 64.000 Token. Es ist außerdem kompatibel mit externen Agent-Frameworks wie Anthropics Claude Code, sodass Entwickler es als Ersatz in bestehende Tools einbinden können.
Preise und Zugang
Der Zugang zu Qwen3.7-Max über Alibaba Cloud kostet 2,50 US-Dollar pro Million Eingabe-Token und 7,50 US-Dollar pro Million Ausgabe-Token. Damit liegt das Modell deutlich unter westlichen Konkurrenten – OpenAIs GPT-5.4 kostet 17,50 Dollar, Anthropics Claude Opus 4.7 sogar 30 Dollar pro Million Token – ist aber teurer als chinesische Alternativen wie DeepSeek V4 Pro oder GLM-5.1.
Die Entscheidung, Qwen3.7-Max nur über eine API anzubieten, stößt in der Open-Source-KI-Community auf Kritik. Frühere Qwen-Modelle stellten ihre Gewichte öffentlich zur Verfügung, sodass Forscher und Unternehmen die Modelle auf eigener Hardware betreiben konnten. Das ist bei diesem Release nicht mehr möglich. Reaktionen aus der Entwicklercommunity zeigen eine Mischung aus Anerkennung für die technischen Leistungen und Unmut über das geschlossene Modell.
Für Unternehmen in den USA und Europa kommt ein weiterer Aspekt hinzu: Qwen3.7-Max läuft ausschließlich über chinesische Infrastruktur. Das kann mit Datenschutzvorschriften oder Anforderungen aus Regierungsaufträgen in Konflikt geraten.
Quellen
- Alibaba’s proprietary Qwen3.7-Max can run for 35 hours autonomously and supports external harnesses like Anthropic’s Claude Code – VentureBeat
- Qwen3.7: The Agent Frontier – Qwen
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
