Googles neuestes und leistungsfähigstes KI-Modell, Gemini 3 Pro, verfügt über erweiterte Fähigkeiten bei Aufgaben, die visuelles Verständnis erfordern. In einem Beitrag im Google Blog beschreibt das Unternehmen, wie das Modell visuelle Informationen aus verschiedenen Quellen verarbeitet und interpretiert.
Laut Google zeigt das Modell in mehreren Kernbereichen eine hohe Leistungsfähigkeit. Dazu gehören:
- Dokumentenanalyse: Das Modell kann unstrukturierte Dokumente interpretieren, einschließlich solcher mit handschriftlichem Text, komplexen Tabellen und wissenschaftlicher Notation.
- Räumliches Verständnis: Es kann Objekte und deren genaue Position in einem Bild erkennen, eine Funktion, die für Robotik oder Augmented Reality relevant ist.
- Bildschirm- und Videoverständnis: Gemini 3 Pro kann Computeraufgaben automatisieren, indem es Bildschirmelemente versteht. Zudem analysiert es Videos mit hoher Bildrate, um feine Details zu erfassen.
Google nennt mögliche Anwendungsfälle in den Bereichen Bildung, medizinische Bildanalyse und Finanzen.
In einer weiteren Mitteilung stellte Google zudem eine neue Funktion für seine zahlenden Abonnenten vor. Der „Gemini 3 Deep Think“-Modus ist ab sofort für Nutzer von Google AI Ultra verfügbar. Dieser Modus ist speziell darauf ausgelegt, komplexe Probleme aus Mathematik, Wissenschaft und Logik zu lösen. Google gibt an, dass die Funktion fortschrittliches paralleles Reasoning nutzt, um mehrere Lösungswege gleichzeitig zu untersuchen.
Quellen: Google Blog, Google Blog
