Der unabhängige Entwickler Simon Willison hat umfangreiche Tests des neuen Gemini 2.0 Flash Modells von Google durchgeführt und die Ergebnisse in seinem Blog dokumentiert. Das Modell zeigte demnach herausragende Fähigkeiten bei der Analyse komplexer Bilder. Bei einem Test mit einem chaotischen Pelikanbild lieferte es etwa präzise Beschreibungen der Vogelarten und ihrer Umgebung. In räumlichen Erkennungstests konnte das Modell erfolgreich Begrenzungsrahmen um mehrere Pelikane in überfüllten Bildern zeichnen.
Die Tests bestätigten auch die Fähigkeit des Modells, Python-Code zu schreiben und auszuführen. Eine wichtige Neuerung ist die Streaming-API, die Echtzeit-Kommunikation mit Audio- und Videoeingabe ermöglicht. Willison testete diese Funktion über die AI Studio-Plattform und bestätigte die Kompatibilität mit Chrome und Mobile Safari.
Die Bild- und Audio-Ausgabefunktionen sind noch nicht öffentlich verfügbar. Sie sollen Anfang 2025 eingeführt werden und versprechen verbesserte Möglichkeiten bei der Bildbearbeitung und Sprachsynthese.