Gemini 3.5 Flash steuert Browser und Apps – Agenten werden einfacher

26.06.2026 | Allgemein, KI

Gemini 3.5 Flash kann nun Computer, Browser und Smartphones direkt bedienen und Aktionen ausführen.

In Kürze

  • Native Computer‑Use: Modell sieht Inhalte und führt Aktionen aus
  • Erleichtert Entwicklung von Agenten für Testing, Automatisierung und Formulararbeit
  • Training gegen Prompt‑Injection und optionale Bestätigungs‑Schutzmechanismen

Google hat seinem großen Sprachmodell Gemini 3.5 Flash die Fähigkeit „Computer Use“ direkt eingebaut. Das Modell kann damit selbstständig Computer, Browser und Smartphones bedienen — also Inhalte sehen, verstehen und Aktionen ausführen. Bisher gab es diese Fähigkeit nur in einem separaten Modell (Gemini 2.5).

Was das praktisch bedeutet

Für Entwickler:innen öffnet sich damit ein direkterer Weg, sogenannte Agenten zu bauen: Programme, die im Browser, auf Mobilgeräten oder in Desktop‑Apps Aufgaben im Auftrag ausführen. Beispiele sind:

  • kontinuierliches Software‑Testing
  • Automatisierungen im Browser
  • wiederkehrende Wissensarbeit, bei der das Modell Webseiten liest, Formulare ausfüllt oder Dateien verwaltet

Gemini 3.5 Flash konnte bereits externe Tools wie Suche oder Maps ansprechen; die native Computer‑Use‑Funktion macht solche Agenten einfacher und unmittelbarer umsetzbar.

Leistung im Vergleich

Im OSWorld‑Benchmark erzielt Gemini 3.5 Flash einen Wert von 78,4. Zum Vergleich:

  • Gemini 3 Flash: 65,1
  • GPT‑5.4 mini: 72,1
  • GPT‑5.5: 78,7
  • Anthropics Opus 4.8: 83,4 (an der Spitze)

Benchmarks sind standardisierte Tests zur Messung von Modellfähigkeiten und geben einen Überblick über Performanceunterschiede.

Sicherheitsmaßnahmen

Google nennt spezielles Training gegen Angriffe wie Prompt‑Injection — also Versuche, das Modell über manipulierte Eingaben zu steuern — sowie zwei optionale Schutzmechanismen. Diese können etwa vor kritischen Aktionen eine Bestätigung durch den Nutzer verlangen, um ungewollte Operationen zu verhindern.

Verfügbarkeit für Entwickler

Die Computer‑Use‑Funktion ist über die Gemini API und die Gemini Enterprise Agent Platform zugänglich. Google stellt zusätzlich folgende Ressourcen bereit:

  • eine Demo‑Umgebung
  • eine Referenz‑Implementierung

Damit können Entwickler:innen die neuen Möglichkeiten testen und integrieren.

Quelle

Quellen

  • Quelle: Google
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…