Das chinesische KI-Unternehmen DeepSeek hat zwei neue Open-Source-Modelle unter dem Namen DeepSeek-V4 veröffentlicht: V4-Pro und V4-Flash. Beide sind zum Download sowie über eine API verfügbar und unterstützen ein Kontextfenster von einer Million Tokens. Das bedeutet, sie können in einer einzigen Sitzung eine Textmenge verarbeiten, die etwa achtmal so lang ist wie ein langer Roman. Das bisherige Flaggschiffmodell von DeepSeek unterstützte 128.000 Tokens.
DeepSeek-V4-Pro enthält insgesamt 1,6 Billionen Parameter und ist damit das größte Modell des Unternehmens. Der Technologie-Blogger Simon Willison bezeichnet es als das größte Open-Weights-Modell, das derzeit verfügbar ist. Bei einer einzelnen Anfrage sind jedoch nur 49 Milliarden Parameter aktiv, was die Rechenkosten deutlich geringer hält, als die Gesamtzahl vermuten lässt. DeepSeek-V4-Flash ist kleiner: Es hat 284 Milliarden Parameter insgesamt und 13 Milliarden aktive Parameter.
Wie DeepSeek die Kosten senkte
Ein zentrales Thema dieser Veröffentlichung ist Effizienz. DeepSeek gibt an, dass V4-Pro bei einem Kontext von einer Million Tokens nur 27 Prozent der Rechenoperationen und 10 Prozent des Arbeitsspeichers benötigt, die sein Vorgänger DeepSeek-V3.2 für dieselbe Aufgabe brauchte. V4-Flash geht noch weiter und kommt mit nur 10 Prozent der Rechenoperationen und 7 Prozent des Speichers aus. Das Unternehmen erreicht dies durch einen neuen Hybrid-Attention-Mechanismus namens Compressed Sparse Attention und Heavily Compressed Attention, der speziell dafür entwickelt wurde, sehr lange Eingaben kostengünstiger zu verarbeiten.
Diese Effizienzgewinne wirken sich direkt auf den Preis aus. DeepSeek berechnet für V4-Flash 0,14 US-Dollar pro Million Input-Tokens und 0,28 US-Dollar pro Million Output-Tokens. V4-Pro kostet 1,74 US-Dollar pro Million Input-Tokens und 3,48 US-Dollar pro Million Output-Tokens. Willison, der eine Vergleichstabelle aktueller KI-Modellpreise zusammengestellt hat, stellt fest, dass V4-Flash sogar günstiger ist als OpenAIs GPT-5.4 Nano, während V4-Pro das günstigste unter den großen Frontier-Modellen ist.
Beide Modelle wurden auf mehr als 32 Billionen Text-Tokens vortrainiert. DeepSeek erklärt, dass die Modelle danach ein mehrstufiges Post-Training durchliefen: Zunächst wurden spezialisierte Fähigkeiten in einzelnen Bereichen entwickelt, die anschließend in ein einziges Modell zusammengeführt wurden.
Angaben zur Leistung
DeepSeek berichtet, dass V4-Pro im höchsten Reasoning-Modus mehrere Standard-Benchmarks erreicht oder nahezu erreicht, die von Modellen von OpenAI, Google DeepMind und Anthropic gesetzt wurden. Dazu gehören Programmierwettbewerbe und mathematische Aufgaben. Der eigene technische Bericht des Unternehmens räumt jedoch ein, dass V4-Pro GPT-5.4 und Gemini-3.1-Pro knapp verfehlt und der Entwicklungsstand dem aktuellen Stand der Technik um etwa drei bis sechs Monate hinterherhinkt.
Kurz nach der Veröffentlichung kündigte Huawei Unterstützung für die V4-Modelle auf seiner Ascend-Chip-Hardware an. Auch der Chiphersteller Cambricon Technologies gab Kompatibilität bekannt. Analysten von Huatai Securities wiesen darauf hin, dass die Veröffentlichung ausdrücklich die Kompatibilität mit chinesischen Inlandschips erwähnt, was deren Verbreitung beschleunigen könnte.
Die Modellgewichte werden unter der MIT-Lizenz veröffentlicht, die eine breite kommerzielle und wissenschaftliche Nutzung erlaubt. Beide Modelle sind auf Hugging Face und ModelScope verfügbar.
Quellen: Model Card, South China Morning Post, Simon Willison
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
