Google stellt schnelle Text-KI mit Diffusion-Technologie vor

Google präsentierte auf seiner I/O-Entwicklerkonferenz Gemini Diffusion und markiert damit einen wichtigen Wandel in der Texterzeugung von KI-Modellen. Das experimentelle Modell nutzt Diffusion-Technologie anstelle des traditionellen Transformer-Ansatzes, der ChatGPT und ähnliche Systeme antreibt.

Der Hauptvorteil ist die Geschwindigkeit. Gemini Diffusion erzeugt Text mit 857 bis 2.000 Token pro Sekunde und damit vier- bis fünfmal schneller als Googles derzeit schnellstes öffentliches Modell. Simon Willison, der das System testete, berichtet, dass es eine interaktive HTML- und JavaScript-Chat-Anwendung innerhalb von Sekunden erstellt hat.

Wie sich Diffusion von traditioneller Text-KI unterscheidet

Traditionelle Text-KI-Modelle wie ChatGPT generieren Text Wort für Wort von links nach rechts. Jedes neue Wort hängt von allen vorherigen Wörtern ab, was den Prozess sequenziell und relativ langsam macht.

Diffusion-Modelle funktionieren anders. Sie beginnen mit zufälligem Kauderwelsch und verfeinern es schrittweise zu sinnvollem Text. Dadurch kann das Modell gleichzeitig an mehreren Textteilen arbeiten, was zu einem insgesamt höheren Tempo führt. Die Technik ähnelt eher dem Bildhauen als dem Schreiben.

Diffusion-Technologie trieb bislang Bildgenerierungs-Tools wie DALL-E, Stable Diffusion und viele andere an. Bis vor kurzem war sie nicht erfolgreich auf Textgenerierung in diesem Umfang angewendet worden.

Leistung und Einschränkungen

Google behauptet, Gemini Diffusion erreiche die Leistung seines Gemini 2.0 Flash-Lite-Modells bei fünffacher Geschwindigkeit. Das Unternehmen hebt besonders starke Leistungen bei Coding- und mathematischen reasoning-Aufgaben hervor.

Die Technologie hat jedoch auch Einschränkungen. Diffusion-Modelle können etwa nur Textsegmente fester Länge generieren und haben möglicherweise Schwierigkeiten mit längeren Geschichten, die einen natürlichen Fluss erfordern. Bei Coding-Aufgaben, wo Logik und Syntax wichtiger sind als narrativer Fluss, sind diese Einschränkungen weniger problematisch.

Auswirkungen auf die Branche

Die Entwicklung hat großes Interesse bei KI-Forschern und Entwicklern geweckt. Jack Rae von Google DeepMind nannte es einen „landmark moment“ und bemerkte, dass Text-Diffusion-Modelle zuvor bei der Qualität hinter traditionellen Ansätzen zurücklagen.

Stefano Ermon von der Stanford University, dessen Unternehmen Inception Labs früher dieses Jahr ein ähnliches Diffusion-Modell namens Mercury veröffentlichte, sagte, Googles Einstieg validiere die Richtung der diffusion-basierten Textgenerierung.

Das Modell könnte die Wettbewerbslandschaft zwischen Google, OpenAI, Anthropic und anderen KI-Unternehmen beeinflussen, besonders bei autonomen Coding-Agenten. Fragen zu Rechenkosten und realer Leistung bleiben jedoch bestehen.

Derzeit bleibt Gemini Diffusion ein experimentelles Forschungsprojekt mit begrenztem Zugang über eine Warteliste. Google hat keine Pläne für eine breitere öffentliche Veröffentlichung angekündigt.

Quellen: Simon Willison, Fortune

Mehr zum Thema:

Bleib up-to-date: