Google stellt schnelle Text-KI mit Diffusion-Technologie vor

Google präsentierte auf seiner I/O-Entwicklerkonferenz Gemini Diffusion und markiert damit einen wichtigen Wandel in der Texterzeugung von KI-Modellen. Das experimentelle Modell nutzt Diffusion-Technologie anstelle des traditionellen Transformer-Ansatzes, der ChatGPT und ähnliche Systeme antreibt.

Der Hauptvorteil ist die Geschwindigkeit. Gemini Diffusion erzeugt Text mit 857 bis 2.000 Token pro Sekunde und damit vier- bis fünfmal schneller als Googles derzeit schnellstes öffentliches Modell. Simon Willison, der das System testete, berichtet, dass es eine interaktive HTML- und JavaScript-Chat-Anwendung innerhalb von Sekunden erstellt hat.

Wie sich Diffusion von traditioneller Text-KI unterscheidet

Traditionelle Text-KI-Modelle wie ChatGPT generieren Text Wort für Wort von links nach rechts. Jedes neue Wort hängt von allen vorherigen Wörtern ab, was den Prozess sequenziell und relativ langsam macht.

Diffusion-Modelle funktionieren anders. Sie beginnen mit zufälligem Kauderwelsch und verfeinern es schrittweise zu sinnvollem Text. Dadurch kann das Modell gleichzeitig an mehreren Textteilen arbeiten, was zu einem insgesamt höheren Tempo führt. Die Technik ähnelt eher dem Bildhauen als dem Schreiben.

Diffusion-Technologie trieb bislang Bildgenerierungs-Tools wie DALL-E, Stable Diffusion und viele andere an. Bis vor kurzem war sie nicht erfolgreich auf Textgenerierung in diesem Umfang angewendet worden.

Leistung und Einschränkungen

Google behauptet, Gemini Diffusion erreiche die Leistung seines Gemini 2.0 Flash-Lite-Modells bei fünffacher Geschwindigkeit. Das Unternehmen hebt besonders starke Leistungen bei Coding- und mathematischen reasoning-Aufgaben hervor.

Die Technologie hat jedoch auch Einschränkungen. Diffusion-Modelle können etwa nur Textsegmente fester Länge generieren und haben möglicherweise Schwierigkeiten mit längeren Geschichten, die einen natürlichen Fluss erfordern. Bei Coding-Aufgaben, wo Logik und Syntax wichtiger sind als narrativer Fluss, sind diese Einschränkungen weniger problematisch.

Auswirkungen auf die Branche

Die Entwicklung hat großes Interesse bei KI-Forschern und Entwicklern geweckt. Jack Rae von Google DeepMind nannte es einen „landmark moment“ und bemerkte, dass Text-Diffusion-Modelle zuvor bei der Qualität hinter traditionellen Ansätzen zurücklagen.

Stefano Ermon von der Stanford University, dessen Unternehmen Inception Labs früher dieses Jahr ein ähnliches Diffusion-Modell namens Mercury veröffentlichte, sagte, Googles Einstieg validiere die Richtung der diffusion-basierten Textgenerierung.

Das Modell könnte die Wettbewerbslandschaft zwischen Google, OpenAI, Anthropic und anderen KI-Unternehmen beeinflussen, besonders bei autonomen Coding-Agenten. Fragen zu Rechenkosten und realer Leistung bleiben jedoch bestehen.

Derzeit bleibt Gemini Diffusion ein experimentelles Forschungsprojekt mit begrenztem Zugang über eine Warteliste. Google hat keine Pläne für eine breitere öffentliche Veröffentlichung angekündigt.

Quellen: Simon Willison, Fortune

Über den Autor

Mehr zum Thema:

Bleib up-to-date:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Der aktuelle und umfassende Überblick für Marketing-Profis (2. Ausgabe, September 2025)

Der KI-Umbruch im Marketing ist in vollem Gange und ChatGPT steht als Plattform Nr. 1 im Zentrum. Aber wie behältst du den Überblick bei all den neuen Funktionen und Möglichkeiten? Wie setzt du ChatGPT wirklichgewinnbringend für deine Arbeit ein?

Der „ChatGPT-Kompass“ liefert dir einen fundierten, aktuellen und umfassenden Überblick über ChatGPT und seine Anwendungsmöglichkeiten im Marketing.

Mehr Informationen