DeepSeek veröffentlicht neue Reasoning-Modelle

Das chinesische KI-Unternehmen DeepSeek hat seine neuen Sprachmodelle DeepSeek-R1-Zero und DeepSeek-R1 sowie sechs kleinere destillierte Versionen vorgestellt. Die Hauptmodelle, die auf DeepSeeks V3-Architektur basieren, verfügen über insgesamt 671 Milliarden Parameter, von denen 37 Milliarden aktiv sind, und eine Kontextlänge von 128.000 Token. Laut Unternehmensangaben erreicht DeepSeek-R1 eine mit OpenAI-Modellen vergleichbare Leistung in den Bereichen Mathematik, Programmierung und logisches Denken.

Das Unternehmen hat auch destillierte Versionen des Modells mit 1,5 bis 70 Milliarden Parametern eingeführt, die auf den Architekturen von Llama und Qwen basieren. Diese kleineren Modelle sollen für Forscher und Entwickler mit begrenzten Rechenressourcen zugänglicher sein. Die von DeepSeek veröffentlichten Evaluierungsergebnisse zeigen, dass ihr 32B-destilliertes Modell mehrere bestehende Modelle bei spezifischen Benchmarks übertrifft, insbesondere bei mathematischem Denken und Programmieraufgaben.

Alle Modelle wurden als Open Source veröffentlicht, wobei Fragen zur Lizenzkompatibilität der Llama-basierten Versionen offen bleiben. Die neuen Modelle verfügen über Chain-of-Thought-Fähigkeiten und wurden mittels einer Kombination aus Reinforcement Learning und überwachtem Feintuning entwickelt. DeepSeek weist darauf hin, dass die R1-Zero-Version zwar starke Denkfähigkeiten aufweist, aber mit Problemen wie Wiederholungen und Sprachmischung zu kämpfen hat, die in der überarbeiteten R1-Version behoben wurden.

Quelle: Simon Willison’s Blog

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen