Google hat die Keynote seiner Entwicklerkonferenz „I/O“ wie erwartet dazu genutzt, Stärke beim Thema KI zu demonstrieren. Das Unternehmen hat dafür unter anderem neue KI-Modelle für verschiedenste Aufgaben vorgestellt. Einige werden direkt auf Android-Geräten laufen oder finden sich im Chrome-Browser. Andere hingegen nutzen Googles spezialisierte Server. Sie erstellen Text, Bilder, Musik oder auch Videoclips.
Außerdem wird sich die hauseigene KI „Gemini“ künftig noch häufiger in den Angeboten des Unternehmens finden.
Hier eine Übersicht einiger wesentlicher Neuerungen, die für Kreative von Interesse sein sollten:
Video: Veo ist eine kommende Video-KI, also eine Konkurrenz zu OpenAIs Sora. Ebenso wie Sora, ist Veo noch nicht allgemein zugänglich und es gibt kein Datum für die Veröffentlichung. Tatsächlich scheint Google eher zu planen, die KI als Feature in YouTube Shorts und andere Dienste zu integrieren.
Bilder: Imagen3 ist die neueste Version von Googles Bild-KI, also vergleichbar mit Dall-E, MidJourney oder Stable Diffusion. Auch Imagen3 ist noch nicht allgemein verfügbar.
Musik: Music AI Sandbox kann Loops passend zu einem Prompt erstellen, die sich dann für ein eigenes Stück weiterverwenden lassen. Auch hier gibt es kein offizielles Datum für die allgemeine Verfügbarkeit.
Google-Suche: KI-unterstützte Suchergebnisse hören jetzt nicht mehr auf den Namen „Search Generative Experience“ sondern „AI Overviews“. In den USA werden sie nun allgemein angeboten, aber trotzdem nicht bei allen Suchen. Die AI Overviews bieten Zusammenfassungen und Übersichten, die idealerweise zur Suchintention passen. Die Auswirkungen auf den Traffic von Google sind aktuell noch nicht abzusehen.
Updates für Google Gemini und mehr
Googles KI Gemini bietet zahlenden Nutzern demnächst die Möglichkeit, personalisierte Varianten zu erstellen, „Gems“ genannt. Wie es scheint, bezieht sich die Personalisierung aber nur darauf, wie sich der Chatbot verhält. Es wird nicht erwähnt, ob man dem Tool auch einen individuellen Datensatz als Wissensbasis mitgeben kann.
Gemini 1.5 Flash ist, wie der Name schon vermuten lässt, auf schnelle Antworten optimiert, ähnlich wie etwa Claude 3 Haiku. Eine Besonderheit: Auch die Flash-Variante kann bis zu 1 Million Token im Blick behalten.
Googles Chrome Browser wird bald mit dem KI-Modell Gemini Nano ausgeliefert. Entwickler können dann Anwendungen auf dieser Basis entwickeln, wie es etwa Google mit seiner „Help me write“-Funktion vormacht.
Ein Beispiel für die zahlreichen KI-Funktionen, die Google gezeigt hat: Gmail soll allerlei neue Tricks lernen. So lassen sich hier etwa Maildiskussionen zusammenfassen – auch über das Archiv hinweg.
Google stellt eine größere Variante ihrer frei verfügbaren KI-Modelle vor: Gemma 27B. Sie soll im Juni erhältlich sein.
Ein weiteres Mitglied der Gemma-Familie ist das auf visuellen Input spezialisierte PaliGemma.
Und dann war da noch …
Project Astra ist eine dieser beeindruckenden Demos, bei denen man nicht hundertprozentig weiß, wie das Endprodukt aussehen wird. Google führte es als einen KI-Assistenten vor, der Aufnahmen einer Kamera live analysiert und Fragen aller Art dazu beantworten kann. Neben einer Smartphone-App war in der Demo auch eine Brille zu sehen – Google Glass The Next Generation? Wann und in welcher Form Project Astra auf den Markt kommt, ist unbekannt.
Mein persönliches Fazit
Googles Tools mögen einzeln betrachtet (noch) nicht auf demselben Level sein wie manche Konkurrenten. Aber es ist offensichtlich, dass das Unternehmen hier viel investiert hat. In manchen Punkten ist es bereits an der Spitze, wenn es etwa um die Kontextlänge seiner KI-Assistenten geht. Zugleich zeigt sich, dass Google etwas hat, das OpenAI in dieser Form fehlt: ein etabliertes Ökosystem mit Produkten, die Hunderte von Millionen Menschen bereits jeden Tag nutzen.