Google DiffusionGemma ist bis zu viermal schneller als herkömmliche

Google hat DiffusionGemma veröffentlicht, ein experimentelles KI-Modell mit einem grundlegend anderen Ansatz zur Textgenerierung. Brendan O’Donoghue und Sebastian Flennerhag schreiben im Google-Blog „The Keyword“, dass das Modell auf dedizierten GPUs bis zu viermal schneller Text erzeugt als herkömmliche große Sprachmodelle. Es steht unter einer Apache-2.0-Lizenz zur freien Verfügung.

Klassische Sprachmodelle arbeiten wie eine Schreibmaschine: Sie erzeugen ein Token nach dem anderen, von links nach rechts. DiffusionGemma schlägt einen anderen Weg ein. Das Modell entwirft zunächst einen ganzen Block von 256 Token gleichzeitig und verfeinert das Ergebnis anschließend in mehreren Durchläufen. Google vergleicht das mit dem Wechsel von der Schreibmaschine zur Druckerpresse.

Stärken und Grenzen im Überblick

Der Geschwindigkeitsvorteil zeigt sich vor allem bei der lokalen Nutzung auf einem einzelnen Gerät. Auf einer NVIDIA H100 erreicht das Modell über 1.000 Token pro Sekunde. Auf einer GeForce RTX 5090 für Verbraucher sind es noch über 700 Token pro Sekunde. In Cloud-Umgebungen mit vielen gleichzeitigen Anfragen schmilzt der Vorteil dagegen zusammen, und die Betriebskosten können steigen.

Das Modell basiert auf einer Mixture-of-Experts-Architektur mit 26 Milliarden Parametern. Bei der Verarbeitung werden jedoch nur 3,8 Milliarden Parameter aktiv genutzt. In quantisierter Form benötigt es maximal 18 GB Videospeicher und ist damit mit leistungsstarken Consumer-Grafikkarten kompatibel.

Google richtet DiffusionGemma an Entwicklerinnen und Entwickler, die an geschwindigkeitskritischen Aufgaben arbeiten: etwa an der Bearbeitung von Texten in Echtzeit, der Codevervollständigung oder nicht-linearen Inhaltsstrukturen. Da alle Token parallel erzeugt werden, kann jedes Token auf alle anderen im Block verweisen. Das erleichtert Aufgaben wie das Einfügen von Code-Lücken oder das Lösen von Sudoku-Rätseln. Für Anwendungen, bei denen die Ausgabequalität höchste Priorität hat, empfiehlt Google weiterhin das Standard-Modell Gemma 4. DiffusionGemma tausche bewusst etwas Genauigkeit gegen mehr Geschwindigkeit ein.

Die Modellgewichte sind auf Hugging Face verfügbar. Unterstützte Frameworks für den Betrieb sind MLX, vLLM und Hugging Face Transformers. Die Unterstützung für llama.cpp ist angekündigt.

Google DiffusionGemma ist bis zu viermal schneller als herkömmliche Sprachmodelle

Stärken und Grenzen im Überblick

Mehr zum Thema:

Stärken und Grenzen im Überblick

Bleib auf dem Laufenden

Mehr zum Thema: