Neues KI-Modell mit 8 Milliarden Parametern schlägt zehnmal größere

Essential AI hat Rnj-1 vorgestellt, ein quelloffenes großes Sprachmodell für Programmierung, mathematisches Denken und wissenschaftliche Aufgaben. Das nach dem indischen Mathematiker Srinivasa Ramanujan benannte Modell ist der erste große Beitrag des Unternehmens zum Open-Source-Ökosystem.

Das Team berichtet im Essential-AI-Blog, dass das Modell mit 8 Milliarden Parametern außergewöhnliche Leistungen bei Software-Entwicklungsaufgaben zeigt. Auf SWE-bench, einem Benchmark für realistische Programmieraufgaben, übertrifft Rnj-1 ähnlich große Modelle deutlich und erreicht die Fähigkeiten wesentlich größerer Systeme.

Essential AI entwickelte zwei Versionen des Modells. Die Basisversion dient als Grundlage, während die instruktionsoptimierte Variante Nutzerbefehle befolgt und mehrschrittige Aufgaben bewältigt. Beide Versionen nutzen die Gemma-3-Architektur und unterstützen Kontexte von bis zu 32.000 Token.

Das Modell zeigt besondere Stärken beim Schreiben und Optimieren von Code. Bei algorithmischen Programmierbenchmarks wie HumanEval+ und MBPP+ konkurriert Rnj-1 mit den stärksten offenen Modellen ähnlicher Größe und übertrifft manchmal GPT OSS 20B, das mehr als doppelt so viele Parameter besitzt. Die instruktionsoptimierte Version kann Profiling-Tools nutzen, um Code-Effizienz iterativ zu verbessern. Diese Fähigkeit ist typischerweise größeren Modellen vorbehalten.

Bei mathematischen Problemlösungen erreicht Rnj-1 das Niveau führender Open-Source-Modelle auf AIME’25, einem anspruchsvollen Mathematik-Benchmark für Oberstufenschüler. Das Modell schneidet auch konkurrenzfähig bei GPQA-Diamond ab. Dieser Test prüft Wissen in Biologie, Physik und Chemie mit Fragen, die selbst für Experten anderer Fachgebiete mit Internetzugang schwierig sind.

Die Entwicklung bei Essential AI begann im Februar. Das Unternehmen entschied sich damals, primär auf Modellfähigkeiten statt auf Produktentwicklung zu fokussieren. Das Team priorisierte Pre-Training gegenüber Post-Training. Die Wette lautete, dass starkes grundlegendes Training für nachgelagerten Erfolg notwendig sei. Dieser Ansatz stand im Kontrast zum Branchentrend nach der Veröffentlichung von DeepSeek R1, der Reinforcement Learning betonte.

Das Unternehmen teilte die Entwicklung in zwei Phasen über das Jahr auf. Kleinere Modelle mit 200 Millionen bis 2 Milliarden Parametern dienten der schnellen Erprobung. Das Team validierte vielversprechende Ergebnisse dann bei größeren Dimensionen mit 8-Milliarden-Parameter-Modellen. Essential AI berichtet von einer Trainingseffizienz von etwa 50 Prozent der maximal erreichbaren Leistung auf AMD-MI300X-GPUs.

Die Infrastruktur spielte eine entscheidende Rolle bei der Entwicklung. Das Team baute ein einheitliches Trainings-Framework, das sowohl TPU- als auch GPU-Plattformen über zwei Cloud-Anbieter unterstützt. Sie entwickelten außerdem einen automatisierten Service zur Wiederherstellung ausgefallener Knoten. Dieser reduzierte verschwendete Rechenleistung um zwei Drittel.

Das Modell behält seine Leistung auch bei Kompression in niedrigere Präzisionsformate. Essential AI berichtet, dass Rnj-1 beim Übergang von BF16 zu FP8 zu NVFP4 seine Qualität bewahrt und den Token-Durchsatz bei prompt-intensiven Aufgaben deutlich steigert.

Essential AI positioniert sich als Befürworter offener KI-Entwicklung. Das Unternehmen glaubt, dass Beherrschung der zugrundeliegenden Technologie einen gangbaren Weg zu nützlichen und dauerhaften KI-Unternehmen darstellt. Sowohl die Basis- als auch die instruktionsoptimierte Version von Rnj-1 sind öffentlich mit vollständigen Modellkarten und Nutzungsanleitungen verfügbar.

Neues KI-Modell mit 8 Milliarden Parametern schlägt zehnmal größere Konkurrenz

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen