Zyphra veröffentlicht mit Zamba2-7B ein neues, kleines Sprachmodell, das in Sachen Qualität und Leistung die führenden Modelle von Mistral, Google und Meta übertreffen soll. Laut Aussagen des Zyphra-Teams ist Zamba2-7B ideal für den Einsatz auf Endgeräten, Consumer-GPUs und Unternehmensanwendungen.
Zamba2-7B ist im Vergleich zu Modellen wie Llama3-8B deutlich effizienter. Es erreicht den ersten Token 25 % schneller, verarbeitet 20 % mehr Token pro Sekunde und benötigt weniger Speicher.
Die Architektur von Zamba2-7B wurde gegenüber dem Vorgänger Zamba1-7B verbessert. Es gibt zwei statt nur einem Shared-Attention-Block und LoRA-Projektoren für jeden Shared-MLP-Block. Das Modell wurde mit einem 3 Billionen Token umfassenden Datensatz trainiert und in einer separaten „Annealing“-Phase optimiert. Es ist Open Source und unter Apache-2.0-Lizenz verfügbar.