Meta Platforms hat quantisierte Versionen seiner Llama 3.2 1B und 3B Modelle veröffentlicht, die laut Unternehmensangaben einen reduzierten Speicherbedarf, schnellere On-Device-Inferenz, Genauigkeit und Portabilität bieten sollen. Die Modelle wurden in enger Zusammenarbeit mit Qualcomm und MediaTek entwickelt und sind auf SoCs mit Arm-CPUs verfügbar. Meta gibt an, dass die durchschnittliche Modellgröße um 56% und der Speicherverbrauch um 41% im Vergleich zum Originalformat reduziert wurden.
Für die Quantisierung der Llama 3.2 1B und 3B Modelle wurden zwei Techniken verwendet: QLoRA (Quantization-Aware Training with LoRA adaptors) und SpinQuant. Laut Meta priorisiert QLoRA die Genauigkeit, während SpinQuant die Portabilität in den Vordergrund stellt. Die Inferenzen unter Verwendung beider Quantisierungstechniken werden in der Llama-Stack-Referenzimplementierung über PyTorch’s ExecuTorch Framework unterstützt.
Basierend auf Tests mit Android OnePlus 12 Modellen zeigen die Ergebnisse laut Meta eine 2-4-fache Beschleunigung und eine durchschnittliche Reduzierung der Modellgröße um 56% im Vergleich zum Originalformat.
Quellen: Meta, VentureBeat, Silicon Angle