Google DiffusionGemma ist bis zu viermal schneller als herkömmliche Sprachmodelle

Google hat DiffusionGemma veröffentlicht, ein experimentelles KI-Modell mit einem grundlegend anderen Ansatz zur Textgenerierung. Brendan O’Donoghue und Sebastian Flennerhag schreiben im Google-Blog „The Keyword“, dass das Modell auf dedizierten GPUs bis zu viermal schneller Text erzeugt als herkömmliche große Sprachmodelle. Es steht unter einer Apache-2.0-Lizenz zur freien Verfügung.

Klassische Sprachmodelle arbeiten wie eine Schreibmaschine: Sie erzeugen ein Token nach dem anderen, von links nach rechts. DiffusionGemma schlägt einen anderen Weg ein. Das Modell entwirft zunächst einen ganzen Block von 256 Token gleichzeitig und verfeinert das Ergebnis anschließend in mehreren Durchläufen. Google vergleicht das mit dem Wechsel von der Schreibmaschine zur Druckerpresse.

Stärken und Grenzen im Überblick

Der Geschwindigkeitsvorteil zeigt sich vor allem bei der lokalen Nutzung auf einem einzelnen Gerät. Auf einer NVIDIA H100 erreicht das Modell über 1.000 Token pro Sekunde. Auf einer GeForce RTX 5090 für Verbraucher sind es noch über 700 Token pro Sekunde. In Cloud-Umgebungen mit vielen gleichzeitigen Anfragen schmilzt der Vorteil dagegen zusammen, und die Betriebskosten können steigen.

Das Modell basiert auf einer Mixture-of-Experts-Architektur mit 26 Milliarden Parametern. Bei der Verarbeitung werden jedoch nur 3,8 Milliarden Parameter aktiv genutzt. In quantisierter Form benötigt es maximal 18 GB Videospeicher und ist damit mit leistungsstarken Consumer-Grafikkarten kompatibel.

Google richtet DiffusionGemma an Entwicklerinnen und Entwickler, die an geschwindigkeitskritischen Aufgaben arbeiten: etwa an der Bearbeitung von Texten in Echtzeit, der Codevervollständigung oder nicht-linearen Inhaltsstrukturen. Da alle Token parallel erzeugt werden, kann jedes Token auf alle anderen im Block verweisen. Das erleichtert Aufgaben wie das Einfügen von Code-Lücken oder das Lösen von Sudoku-Rätseln. Für Anwendungen, bei denen die Ausgabequalität höchste Priorität hat, empfiehlt Google weiterhin das Standard-Modell Gemma 4. DiffusionGemma tausche bewusst etwas Genauigkeit gegen mehr Geschwindigkeit ein.

Die Modellgewichte sind auf Hugging Face verfügbar. Unterstützte Frameworks für den Betrieb sind MLX, vLLM und Hugging Face Transformers. Die Unterstützung für llama.cpp ist angekündigt.

Bleib auf dem Laufenden

KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:

 

Weitere Infos …

Über den Autor

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (3. Ausgabe, Januar 2026)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklich gewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen

×