Das neue KI-Modell DeepSeek-V3 erreicht vergleichbare Leistungen wie führende proprietäre Systeme bei deutlich niedrigeren Kosten. Dies geht aus einer umfassenden Analyse von Sunil Kumar Dash hervor.
Das Modell übertrifft demnach die Fähigkeiten von GPT-4 und Claude 3.5 Sonnet bei mathematischen Aufgaben und erreicht ähnliche Leistungen im Programmierbereich. Diese Erfolge basieren auf mehreren technischen Innovationen, darunter ein spezielles FP8-Präzisionstraining, das den Speicherbedarf um bis zu 50 Prozent reduziert.
In Benchmark-Tests zeigte das Modell besondere Stärken bei mathematischen Aufgaben und komplexen Geometrieproblemen, die andere führende Modelle vor Herausforderungen stellten.
DeepSeek v3 nutzt eine eigens entwickelte Lastausgleichsstrategie und das HAI-LLM-Framework. Das System integriert zusätzlich Reasoning-Fähigkeiten aus der R1-Serie durch Wissensdestillation.
Die Entwickler erreichten diese Ergebnisse mit bemerkenswerter Effizienz: Das Training benötigte 2.788.000 GPU-Stunden auf Nvidia-H800-Clustern bei Gesamtkosten von etwa 6 Millionen Dollar.
Die Preisgestaltung macht das Modell besonders attraktiv für Unternehmensanwendungen: Der kommerzielle API-Zugang kostet 0,27 Dollar pro Million Eingabe-Token und 1,10 Dollar pro Million Ausgabe-Token.