Nvidias neues Sprachmodell hat zuschaltbares Reasoning

Nvidia hat ein neues Sprachmodell namens Llama-3.1-Nemotron-Ultra-253B veröffentlicht, das trotz seiner geringeren Größe den Konkurrenten DeepSeek R1 in mehreren Benchmarks übertrifft. Wie VentureBeat-Autor Carl Franzen berichtet, wurde das vollständig quelloffene Modell auf Hugging Face bereitgestellt. Eine Besonderheit ist der Wechsel zwischen „Reasoning On“ und „Reasoning Off“-Modi, wodurch die Leistung bei komplexen Aufgaben deutlich steigt, beim MATH500-Benchmark etwa von 80,40% auf 97,00%. Das Modell läuft effizient auf einem einzigen 8x H100 GPU-Knoten, unterstützt Sequenzen bis zu 128.000 Tokens und beherrscht neben Englisch auch Deutsch, Französisch, Spanisch und weitere Sprachen. Es ist unter der Nvidia Open Model License für kommerzielle Zwecke nutzbar und wurde durch mehrstufiges Post-Training optimiert.

Mehr zum Thema:

Bleib up-to-date: