Google hat Gemma 4 12B veröffentlicht, ein multimodales Open Weights KI-Modell, das auf einem normalen Laptop mit 16 GB VRAM oder Unified Memory läuft. Das Modell ist kostenlos verfügbar und lässt sich vollständig offline betreiben, ohne Daten in die Cloud zu senden.
Gemma 4 12B basiert auf einer sogenannten „Unified“-Architektur: Im Gegensatz zu vielen anderen multimodalen KI-Systemen verarbeitet das Modell Bilder und Audio ohne separate Encoder-Module. Stattdessen fließen visuelle Daten und rohe Audiosignale direkt in das Sprachmodell ein. Google zufolge reduziert dieser Ansatz den Speicherbedarf und senkt die Antwortlatenz im Vergleich zu herkömmlichen Ansätzen.
Der Audio-Encoder entfällt dabei vollständig. Der Vision-Encoder wird durch ein schlankes Modul ersetzt, das lediglich eine einzelne Matrixmultiplikation durchführt. Laut Google lässt sich das gesamte multimodale System dadurch in einem einzigen Durchlauf optimieren.
Was das Modell leistet
Gemma 4 12B unterstützt ein Kontextfenster von 256.000 Token. Das bedeutet, es kann sehr lange Dokumente, Code-Repositories oder Meeting-Mitschnitte in einer einzigen Sitzung verarbeiten. Außerdem verfügt das Modell über einen eingebauten Reasoningmodus sowie native Unterstützung für Werkzeugaufrufe (Tool Use). Beides sind wichtige Grundlagen für autonome KI-Agenten.
Native Audio-Eingabe ist neu für ein mittelgroßes Gemma-Modell. Es kann bis zu 30 Sekunden Audio und bis zu 60 Sekunden Video verarbeiten. Für längere Aufnahmen müssen Inhalte aufgeteilt oder andere Lösungen genutzt werden.
Google gibt an, dass die Benchmark-Ergebnisse nahe an denen des größeren 26B-Mixture-of-Experts-Modells liegen, obwohl Gemma 4 12B weniger als die Hälfte des Speicherbedarfs hat.
So kannst Du das Modell nutzen
Mehrere Werkzeuge unterstützen das Modell ab sofort:
- Die Google AI Edge Gallery-App für macOS ermöglicht lokale Datenanalyse und Coding-Aufgaben. Das Modell kann Python-Skripte generieren und ausführen, Diagramme erstellen und Codefehler eigenständig korrigieren.
- Die Google AI Edge Eloquent-App für macOS nutzt Gemma 4 12B für Sprachdiktat und Textbearbeitung vollständig auf dem Gerät. Die neue Funktion „Voice Edit“ erlaubt es, markierten Text per Sprachbefehl umzuschreiben oder neu zu formatieren.
- Die LiteRT-LM CLI enthält nun einen
serve-Befehl, der den lokalen Rechner in einen API-kompatiblen LLM-Server verwandelt. Er funktioniert mit verbreiteten Werkzeugen wie Continue und Aider.
Die Modellgewichte sind auf Hugging Face und Kaggle verfügbar. Das Modell ist kompatibel mit gängigen Open-Source-Frameworks wie llama.cpp, MLX, vLLM und SGLang. Für den Cloud-Einsatz unterstützt Google das Modell über die Gemini Enterprise Agent Platform, Cloud Run und Google Kubernetes Engine.
Das Modell wird unter der Apache-2.0-Lizenz veröffentlicht, die eine breite kommerzielle und wissenschaftliche Nutzung erlaubt. Google hat zudem ein Gemma Skills Repository veröffentlicht, das Entwicklerinnen und Entwickler beim Aufbau agentischer Anwendungen unterstützt.
Für Unternehmen in regulierten Branchen wie dem Gesundheits- oder Finanzwesen, in denen das Senden von Daten an externe Dienste eingeschränkt ist, bietet das Modell einen konkreten Vorteil. VentureBeat weist darauf hin, dass diese Organisationen sensible Dokumente, Audio- und Bilddaten verarbeiten können, ohne dass Daten das Gerät verlassen.
Google gibt an, dass Gemma-Modelle inzwischen mehr als 150 Millionen Mal heruntergeladen wurden.
Quellen
- Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge – Google Developers Blog
- Introducing Gemma 4 12B: a unified, encoder-free multimodal model – Google Keyword Blog
- Google’s new open source Gemma 4 12B analyzes audio, video — and runs entirely locally on a typical 16GB enterprise laptop – VentureBeat
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
