Google hat die Einführung von Gemini 3 angekündigt, einer neuen Familie von KI-Modellen, die das Unternehmen als seine bisher „intelligentesten“ und leistungsfähigsten bezeichnet. Das Flaggschiff-Modell, Gemini 3 Pro, wurde sofort in mehreren wichtigen Google-Produkten verfügbar gemacht, darunter die Gemini-App und die Google Suche. Die Veröffentlichung signalisiert dabei den Vorstoß des Unternehmens, über textbasierte Konversationen hinauszugehen und KI durch interaktive Oberflächen und die automatisierte Ausführung mehrstufiger Aufgaben tiefer in die Arbeitsabläufe der Nutzer zu integrieren.
In einem Blogbeitrag bezeichnete Sundar Pichai, CEO von Google und Alphabet, die Veröffentlichung als das nächste Kapitel der „Gemini-Ära“, die fast zwei Jahre zuvor begann. Er betonte die hohe Akzeptanz der KI-Funktionen von Google und erklärte, dass die KI-Übersichten in der Suche inzwischen 2 Milliarden monatliche Nutzer haben und die Gemini-App die Marke von 650 Millionen monatlichen Nutzern überschreitet. Die Einführung von Gemini 3 wird als Höhepunkt früherer Fortschritte positioniert und kombiniert das multimodale Verständnis von Gemini 1 mit den in Gemini 2 eingeführten Fähigkeiten zu Reasoning und agentenähnlichem Verhalten.
Reasoning und multimodales Verständnis
Laut Google zeigt Gemini 3 Pro eine exzellente Leistung im Reasoning, wodurch das Modell mehr Tiefe und Nuancen in Nutzeranfragen erfassen kann. Das Unternehmen behauptet, dies führe zu hilfreicheren und prägnanteren Antworten, ohne dass detaillierte Prompts erforderlich seien. Eine bemerkenswerte Eigenschaft, die von Google hervorgehoben wird, ist eine Änderung im Ton des Modells: Seine Antworten werden als „intelligent, prägnant und direkt“ beschrieben, die „Klischees und Schmeicheleien gegen echte Einsicht eintauschen“. The Verge wertete dies als subtilen Seitenhieb gegen Konkurrenten wie OpenAIs ChatGPT, da Google auch erwähnte, dass das Modell „reduzierte Sycophancy“ zeige – ein Problem, bei dem Modelle dazu neigen, Nutzern übermäßig zuzustimmen.
Die Fähigkeiten des Modells sind „nativ multimodal“, was bedeutet, dass es von Grund auf dafür konzipiert wurde, Informationen aus verschiedenen Formaten wie Text, Bildern, Video, Audio und Code gleichzeitig zu verarbeiten und zu synthetisieren. Google lieferte mehrere Praxisbeispiele dafür: Ein Nutzer könnte ein Video seines Pickleball-Spiels für eine Analyse und einen generierten Trainingsplan zur Verfügung stellen oder Fotos von handgeschriebenen Familienrezepten in verschiedenen Sprachen hochladen, damit die KI sie entziffert, übersetzt und zu einem teilbaren Kochbuch zusammenstellt.
Mehrere Quellen berichteten, dass Gemini 3 Pro Spitzenwerte auf mehreren unabhängigen KI-Benchmarks erreichte. VentureBeat und TechCrunch hoben seine führende Position auf dem LMArena-Leaderboard hervor, einer Plattform, die Modelle auf der Grundlage menschlicher Präferenzen bewertet und auf der es als erstes Modell eine Elo-Bewertung von 1500 überschritt. Es setzte auch neue Rekorde bei Benchmarks, die Reasoning auf PhD-Niveau und fortgeschrittene Mathematik messen. Hinsichtlich der faktischen Genauigkeit, einem zentralen Anliegen bei generativer KI, gab Google an, dass Gemini 3 Pro beim SimpleQA Verified Benchmark einen Wert von 72,1 % erreichte. Die New York Times berichtete über diese Zahl und merkte an, dass sie zwar für ein solches Modell hoch sei, aber dennoch nicht perfekt.
Generative UI: Die KI baut ihre eigene Benutzeroberfläche
Eine zentrale Innovation, die bei der Einführung hervorgehoben wurde, ist das Konzept des „Generative UI“ oder generativer Interfaces. Wie in einem Paper von Google Research detailliert beschrieben, ermöglicht diese Fähigkeit dem KI-Modell, nicht nur Inhalte, sondern eine komplette interaktive Nutzererfahrung zu generieren, die auf einen bestimmten Prompt zugeschnitten ist. Anstatt Informationen in einem statischen Textblock zu liefern, kann Gemini 3 ein individuelles visuelles Layout im laufenden Betrieb entwerfen und programmieren.
Diese Funktion wird in zwei Hauptprodukten eingeführt:
- Im AI Mode der Google Suche, verfügbar für Abonnenten von Google AI Pro und Ultra in den USA, kann Gemini 3 dynamische Erlebnisse schaffen. Bei einer Anfrage zu einem komplexen wissenschaftlichen Thema wie dem „Dreikörperproblem“ kann es eine interaktive Simulation erstellen, bei der Nutzer Variablen verändern können. Bei einer Finanzfrage zu Hypotheken könnte es einen maßgeschneiderten Kreditrechner direkt in den Suchergebnissen erstellen.
- In der Gemini-App erscheint diese Technologie in Form von zwei Experimenten namens „Visual Layout“ und „Dynamic View“. Visual Layout präsentiert Informationen in einem immersiven Magazin-Stil, wie zum Beispiel bei der Erstellung eines visuellen Reiseplans für eine Reise nach Rom. Dynamic View geht noch einen Schritt weiter, indem es eine einzigartige, interaktive Benutzeroberfläche für einen Prompt programmiert. Als Beispiel wurde die Anfrage nach einer Galerie von Van Goghs Gemälden genannt: Sie führte zu einer interaktiven Seite, auf der Nutzer auf Kunstwerke tippen konnten, um mehr über sie zu erfahren.
Google erklärte, dass diese neuen Interface-Typen darauf ausgelegt sind, Informationen klarer, handlungsorientierter und ansprechender zu machen, sodass Nutzer Themen vertieft erkunden können.
Gemini Agent: Ein persönlicher Assistent für komplexe Aufgaben
Aufbauend auf dem verbesserten Reasoning des Modells und seiner Fähigkeit, Werkzeuge zu nutzen, führte Google eine experimentelle Funktion namens Gemini Agent ein. Diese Funktion ist zunächst für Abonnenten von Google AI Ultra in den USA über die Gemini-App verfügbar und als autonomer Agent konzipiert, der komplexe, mehrstufige Aufgaben im Auftrag eines Nutzers koordinieren und ausführen kann.
Durch die Verbindung mit anderen Google-Apps wie Gmail und Kalender kann Gemini Agent Anfragen bearbeiten, die mehrere Aktionen erfordern. Beispielsweise könnte ein Nutzer ihn bitten, den „Posteingang zu organisieren“, woraufhin der Agent wichtige E-Mails priorisiert und Antwortentwürfe zur Genehmigung vorbereitet. Ein komplexerer Prompt, wie die Buchung eines Mietwagens für eine bevorstehende Reise, würde den Agenten dazu veranlassen, Flugdetails aus der E-Mail des Nutzers zu finden, Mietwagenoptionen zu recherchieren, die dem Budget und den Kriterien entsprechen, und die Buchung zur endgültigen Bestätigung vorzubereiten. Google betonte, dass der Nutzer die Kontrolle behält, da der Agent so konzipiert ist, dass er vor wichtigen Aktionen wie einem Kauf eine Genehmigung einholt.
Entwicklerfunktionen und Marktkontext
Obwohl der Schwerpunkt auf verbraucherorientierten Funktionen lag, veröffentlichte Google auch Werkzeuge für Entwickler, um Anwendungen mit dem neuen Modell zu erstellen. Eine neue Plattform namens Google Antigravity wurde eingeführt, um ein kollaborativeres, „Agent-First“-Entwicklungserlebnis zu ermöglichen. Dies ist Teil von Googles Strategie, ein breiteres Ökosystem von KI-gestützten Anwendungen zu fördern.
Die Einführung von Gemini 3 stellt Google in direkten Wettbewerb mit anderen wichtigen Akteuren im KI-Bereich wie OpenAI und Anthropic, die in den letzten Monaten ebenfalls eigene Modell-Updates veröffentlicht haben. Die New York Times beschrieb die Situation als „KI-Wettrüsten“ und merkte an, dass die hohen Kosten für die Entwicklung dieser leistungsstarken Modelle von Investoren kritisch gesehen werden, die sich fragen, ob die Geschäftsanwendungen die immensen Ausgaben rechtfertigen können. Googles Fähigkeit, Gemini 3 direkt in Produkte mit riesigen bestehenden Nutzerbasen wie die Suche und die Gemini-App zu integrieren, verschafft dem Unternehmen jedoch einen erheblichen Vorteil bei der Verbreitung. Um die Akzeptanz weiter zu steigern, kündigte Google an, seinen Abo-Dienst Google AI Pro für ein Jahr kostenlos für College-Studenten in den USA anzubieten.
Quellen: Google Blog, Google Blog, Google Blog, Google Research, The Verge, New York Times, TechCrunch, VentureBeat
