Das dezentrale Training eines 10-Milliarden-Parameter-Modells namens INTELLECT-1 ist gestartet. Jeder kann Rechenleistung beisteuern und sich beteiligen. INTELLECT-1 basiert auf der Llama-3-Architektur und wird mit einem hochwertigen Open-Source-Datensatz namens Fineweb-Edu von Hugging Face trainiert. Der Datensatz umfasst über sechs Billionen Token und besteht aus Fineweb-edu (55%), DLCM (20%), Stack v2 (20%), OpenWebMath (5%). Für das Training kommt der WSD-Lernratenplaner zum Einsatz. Dieser hält die Lernrate nach einer anfänglichen Aufwärmphase konstant. Ein eigens entwickelter Int8 All-Reduce Kernel, der die Pseudo-Gradienten in int8 statt fp32 kommuniziert, reduziert die Payload-Größe.