Gemini 3.5 Flash kann nun Computer, Browser und Smartphones direkt bedienen und Aktionen ausführen.
In Kürze
- Native Computer‑Use: Modell sieht Inhalte und führt Aktionen aus
- Erleichtert Entwicklung von Agenten für Testing, Automatisierung und Formulararbeit
- Training gegen Prompt‑Injection und optionale Bestätigungs‑Schutzmechanismen
Google hat seinem großen Sprachmodell Gemini 3.5 Flash die Fähigkeit „Computer Use“ direkt eingebaut. Das Modell kann damit selbstständig Computer, Browser und Smartphones bedienen — also Inhalte sehen, verstehen und Aktionen ausführen. Bisher gab es diese Fähigkeit nur in einem separaten Modell (Gemini 2.5).
Was das praktisch bedeutet
Für Entwickler:innen öffnet sich damit ein direkterer Weg, sogenannte Agenten zu bauen: Programme, die im Browser, auf Mobilgeräten oder in Desktop‑Apps Aufgaben im Auftrag ausführen. Beispiele sind:
- kontinuierliches Software‑Testing
- Automatisierungen im Browser
- wiederkehrende Wissensarbeit, bei der das Modell Webseiten liest, Formulare ausfüllt oder Dateien verwaltet
Gemini 3.5 Flash konnte bereits externe Tools wie Suche oder Maps ansprechen; die native Computer‑Use‑Funktion macht solche Agenten einfacher und unmittelbarer umsetzbar.
Leistung im Vergleich
Im OSWorld‑Benchmark erzielt Gemini 3.5 Flash einen Wert von 78,4. Zum Vergleich:
- Gemini 3 Flash: 65,1
- GPT‑5.4 mini: 72,1
- GPT‑5.5: 78,7
- Anthropics Opus 4.8: 83,4 (an der Spitze)
Benchmarks sind standardisierte Tests zur Messung von Modellfähigkeiten und geben einen Überblick über Performanceunterschiede.
Sicherheitsmaßnahmen
Google nennt spezielles Training gegen Angriffe wie Prompt‑Injection — also Versuche, das Modell über manipulierte Eingaben zu steuern — sowie zwei optionale Schutzmechanismen. Diese können etwa vor kritischen Aktionen eine Bestätigung durch den Nutzer verlangen, um ungewollte Operationen zu verhindern.
Verfügbarkeit für Entwickler
Die Computer‑Use‑Funktion ist über die Gemini API und die Gemini Enterprise Agent Platform zugänglich. Google stellt zusätzlich folgende Ressourcen bereit:
- eine Demo‑Umgebung
- eine Referenz‑Implementierung
Damit können Entwickler:innen die neuen Möglichkeiten testen und integrieren.
Quelle
Quellen
- Quelle: Google
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




