Google integriert Computersteuerung direkt in Gemini 3.5 Flash

Google hat die Funktion „Computer Use“ direkt in Gemini 3.5 Flash eingebaut. Mateo Quiros schreibt für The Keyword, Googles offiziellen Blog, dass diese Funktion bisher nur als separates Modell verfügbar war. Mit der Integration in das Haupt-Flash-Modell steht sie nun einem deutlich größeren Kreis von Entwicklern und Unternehmen offen.

Computer Use bedeutet: Das KI-Modell sieht den Bildschirminhalt, analysiert ihn und führt dann Aktionen in Browsern, mobilen Apps und Desktop-Software aus. Es übernimmt damit Aufgaben, die bisher eine menschliche Hand an Maus und Tastatur erforderten.

Konkrete Einsatzmöglichkeiten

Google nennt zwei praktische Beispiele: Das Modell könnte eine App analysieren und eine kategorisierte Liste ihrer Funktionen erstellen. Außerdem könnte es Dokumentationen auf Barrierefreiheitsprobleme prüfen. Darüber hinaus verweist das Unternehmen auf Anwendungen wie kontinuierliche Softwaretests und die Automatisierung von Wissensarbeit in professionellen Programmen.

Entwickler können die Funktion über die Gemini API und die Gemini Enterprise Agent Platform nutzen.

Sicherheit in Live-Umgebungen

Google erkennt an, dass KI-Agenten Risiken mit sich bringen, wenn sie auf echten Systemen agieren. Ein zentrales Problem ist Prompt Injection: Dabei versuchen schädliche Inhalte, den Agenten zu manipulieren und seine Aktionen zu übernehmen. Google begegnet diesem Risiko durch gezieltes Training des Modells. Für Unternehmenskunden stehen zusätzlich zwei optionale Schutzmaßnahmen bereit:

Explizite Nutzerbestätigung vor sensiblen oder nicht rückgängig zu machenden Aktionen
Automatischer Abbruch einer Aufgabe, wenn eine indirekte Prompt Injection erkannt wird

Google empfiehlt, diese Maßnahmen mit sicherer Sandbox-Umgebung, menschlicher Kontrolle und strengen Zugriffsrechten zu kombinieren. Das Unternehmen bezeichnet diesen mehrschichtigen Ansatz als „Defense-in-Depth“.

Google integriert Computersteuerung direkt in Gemini 3.5 Flash

Konkrete Einsatzmöglichkeiten

Sicherheit in Live-Umgebungen

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen

Konkrete Einsatzmöglichkeiten

Sicherheit in Live-Umgebungen

Bleib auf dem Laufenden

Mehr zum Thema:

Neu vom Autor dieser Website: ChatGPT-Kompass für Marketing Content Creation

Mehr Informationen