Google hat die Funktion „Computer Use“ direkt in Gemini 3.5 Flash eingebaut. Mateo Quiros schreibt für The Keyword, Googles offiziellen Blog, dass diese Funktion bisher nur als separates Modell verfügbar war. Mit der Integration in das Haupt-Flash-Modell steht sie nun einem deutlich größeren Kreis von Entwicklern und Unternehmen offen.
Computer Use bedeutet: Das KI-Modell sieht den Bildschirminhalt, analysiert ihn und führt dann Aktionen in Browsern, mobilen Apps und Desktop-Software aus. Es übernimmt damit Aufgaben, die bisher eine menschliche Hand an Maus und Tastatur erforderten.
Konkrete Einsatzmöglichkeiten
Google nennt zwei praktische Beispiele: Das Modell könnte eine App analysieren und eine kategorisierte Liste ihrer Funktionen erstellen. Außerdem könnte es Dokumentationen auf Barrierefreiheitsprobleme prüfen. Darüber hinaus verweist das Unternehmen auf Anwendungen wie kontinuierliche Softwaretests und die Automatisierung von Wissensarbeit in professionellen Programmen.
Entwickler können die Funktion über die Gemini API und die Gemini Enterprise Agent Platform nutzen.
Sicherheit in Live-Umgebungen
Google erkennt an, dass KI-Agenten Risiken mit sich bringen, wenn sie auf echten Systemen agieren. Ein zentrales Problem ist Prompt Injection: Dabei versuchen schädliche Inhalte, den Agenten zu manipulieren und seine Aktionen zu übernehmen. Google begegnet diesem Risiko durch gezieltes Training des Modells. Für Unternehmenskunden stehen zusätzlich zwei optionale Schutzmaßnahmen bereit:
- Explizite Nutzerbestätigung vor sensiblen oder nicht rückgängig zu machenden Aktionen
- Automatischer Abbruch einer Aufgabe, wenn eine indirekte Prompt Injection erkannt wird
Google empfiehlt, diese Maßnahmen mit sicherer Sandbox-Umgebung, menschlicher Kontrolle und strengen Zugriffsrechten zu kombinieren. Das Unternehmen bezeichnet diesen mehrschichtigen Ansatz als „Defense-in-Depth“.
Bleib auf dem Laufenden
KI für Contentprofis: die neuesten Tools, Tipps und Trends. Alle 14 Tage in deine Inbox:
