DeepSeek veröffentlicht neue Reasoning-Modelle

Das chinesische KI-Unternehmen DeepSeek hat seine neuen Sprachmodelle DeepSeek-R1-Zero und DeepSeek-R1 sowie sechs kleinere destillierte Versionen vorgestellt. Die Hauptmodelle, die auf DeepSeeks V3-Architektur basieren, verfügen über insgesamt 671 Milliarden Parameter, von denen 37 Milliarden aktiv sind, und eine Kontextlänge von 128.000 Token. Laut Unternehmensangaben erreicht DeepSeek-R1 eine mit OpenAI-Modellen vergleichbare Leistung in den Bereichen Mathematik, Programmierung und logisches Denken.

Das Unternehmen hat auch destillierte Versionen des Modells mit 1,5 bis 70 Milliarden Parametern eingeführt, die auf den Architekturen von Llama und Qwen basieren. Diese kleineren Modelle sollen für Forscher und Entwickler mit begrenzten Rechenressourcen zugänglicher sein. Die von DeepSeek veröffentlichten Evaluierungsergebnisse zeigen, dass ihr 32B-destilliertes Modell mehrere bestehende Modelle bei spezifischen Benchmarks übertrifft, insbesondere bei mathematischem Denken und Programmieraufgaben.

Alle Modelle wurden als Open Source veröffentlicht, wobei Fragen zur Lizenzkompatibilität der Llama-basierten Versionen offen bleiben. Die neuen Modelle verfügen über Chain-of-Thought-Fähigkeiten und wurden mittels einer Kombination aus Reinforcement Learning und überwachtem Feintuning entwickelt. DeepSeek weist darauf hin, dass die R1-Zero-Version zwar starke Denkfähigkeiten aufweist, aber mit Problemen wie Wiederholungen und Sprachmischung zu kämpfen hat, die in der überarbeiteten R1-Version behoben wurden.

Quelle: Simon Willison’s Blog

Mehr zum Thema:

Bleib up-to-date: