Das chinesische KI-Startup DeepSeek hat sein neues KI-Modell DeepSeek-V3 vorgestellt. Wie Shubham Sharma für VentureBeat berichtet, verfügt das Modell über 671 Milliarden Parameter, aktiviert jedoch durch seine Experten-Mischarchitektur nur 37 Milliarden für jede Aufgabe.
Das Modell wurde mit 14,8 Billionen verschiedenen Tokens trainiert und zeigt überlegene Leistung in mehreren Bereichen, besonders in Mathematik und Programmierung. Es führt zwei wichtige Neuerungen ein: eine verlustfreie Lastausgleichsstrategie und eine Mehrfach-Token-Vorhersage, die die Generierungsgeschwindigkeit verdreifacht.
Bemerkenswert sind die geringen Trainingskosten von etwa 5,57 Millionen Dollar – deutlich weniger als bei Konkurrenzprodukten wie Meta’s Llama 3.1, dessen Training über 500 Millionen Dollar gekostet haben soll.
In Leistungstests übertrifft DeepSeek-V3 andere Open-Source-Modelle wie Llama 3.1-405B und Qwen 2.5-72B. Es erreicht vergleichbare Ergebnisse wie die geschlossenen Modelle GPT-4 und Claude 3.5 Sonnet, wobei jedes Modell in bestimmten Bereichen seine Stärken hat.
Das Modell ist jetzt über Hugging Face unter der Unternehmenslizenz verfügbar. Unternehmen können es über DeepSeek Chat oder API nutzen. Die kommerziellen API-Preise betragen ab dem 8. Februar 0,27 Dollar pro Million Eingabe-Tokens und 1,10 Dollar pro Million Ausgabe-Tokens.