DeepSeek-V3 auf Augenhöhe mit GPT-4 und Claude 3.5 Sonnet
Das chinesische KI-Startup DeepSeek hat sein neues KI-Modell DeepSeek-V3 vorgestellt. Wie Shubham Sharma für VentureBeat berichtet, verfügt das Modell über 671 Milliarden Parameter, aktiviert jedoch durch seine Experten-Mischarchitektur nur 37 Milliarden für jede Aufgabe. Das Modell wurde mit 14,8 Billionen verschiedenen Tokens trainiert und zeigt überlegene Leistung in mehreren Bereichen, besonders in Mathematik und Programmierung. …