Google hat neue Versionen seiner Gemma 3 KI-Modelle veröffentlicht, die dank einer speziellen Technik namens Quantization-Aware Training (QAT) auf handelsüblichen Grafikkarten laufen können. Diese Entwicklung macht leistungsstarke KI-Modelle für Nutzer ohne High-End-Hardware zugänglich.
Der Speicherbedarf wurde durch QAT erheblich reduziert, während die Qualität der Modelle erhalten bleibt. Das größte Gemma 3 Modell mit 27 Milliarden Parametern benötigt in der int4-Präzision nur noch 14,1 GB Grafikspeicher statt der ursprünglichen 54 GB in BFloat16-Präzision. Damit läuft es auf einer einzelnen NVIDIA RTX 3090 Grafikkarte.
Bei der Quantisierung wird die Genauigkeit der Modellparameter von 16 Bit auf nur 4 Bit reduziert, was die Datengröße um bis zu 75% verringert. Im Gegensatz zur herkömmlichen Quantisierung nach dem Training integriert QAT den Prozess bereits während des Trainings, um die Genauigkeit zu erhalten.
Google stellt die optimierten Modelle über verschiedene Entwicklungsplattformen wie Ollama, LM Studio, MLX, Gemma.cpp und llama.cpp bereit. Nach Unternehmensangaben reduziert der QAT-Ansatz den Perplexitätsverlust um 54% im Vergleich zu Standardmethoden.
Die Optimierungen betreffen alle Gemma 3 Modelle, wobei selbst die 12B-Version jetzt auf Laptop-GPUs mit 8 GB Speicher laufen kann. Die kleinsten Modelle (4B und 1B) benötigen noch weniger Speicher.
Diese Entwicklung beseitigt eine wesentliche Hürde für die Demokratisierung von KI, indem sie moderne Modellleistung auf weit verbreiteter Konsumerhardware ermöglicht, anstatt spezialisierte Unternehmensausrüstung vorauszusetzen.