Oppo stellt X‑OmniClaw vor: Open‑Source‑Agent führt Apps lokal auf Android aus

Oppo hat X‑OmniClaw vorgestellt: einen Open‑Source‑Agenten, der direkt auf Android‑Smartphones läuft und Kamera, Bildschirmdaten und Sprache kombiniert, um Aufgaben in echten Apps auszuführen – ohne jede Aktion in einer Cloud‑Virtualmaschine nachzubilden.

Was er anders macht

Statt eine virtuelle Android‑Instanz im Rechenzentrum zu betreiben, führt X‑OmniClaw die Kernlogik lokal auf dem Gerät aus. Cloud‑Sprachmodelle werden nur bei Bedarf für übergeordnete Schlussfolgerungen hinzugezogen. Das bedeutet: Zugang zu lokalen Sensoren wie Kamera und Mikrofon ist möglich, ohne alles durch einen entfernten Server zu schleusen. Code und Assets hat Oppo offen auf GitHub gestellt.

Wie das System sieht und handelt

X‑OmniClaw arbeitet mit drei Eingängen in einer Pipeline: Kamera‑Feed, Bildschirmdaten (Screenshots und UI‑Struktur) und Sprache werden gemeinsam ausgewertet. Ein Vision‑Language‑Modell interpretiert Szene und Nutzerwunsch und übersetzt das in eine strukturierte Absicht, die dann ausgeführt wird. Beispiel: Du filmst ein Produkt und fragst „Wie viel kostet das?“ — intern wird das in die Aktion „Preis dieses Produkts in der Shopping‑App suchen“ umgewandelt und die App wird durchsucht.

Gedächtnis und Datenschutzmechaniken

Fotos werden im Leerlauf komprimiert: Das System erzeugt kurze Beschreibungen von Objekten, Szenen und Ereignissen und speichert diese in einer Markdown‑Datei als durchsuchbares Gedächtnis. Vor dem Speichern filtert der Agent sensible Informationen heraus. Der Bericht warnt vor Upload‑Risiken bei Cloud‑Vision‑Diensten und nennt als nächsten Schritt, Rohbilder komplett auf dem Gerät zu halten und nur geräteinterne Modelle zu nutzen.

Wiederverwendbare Skills statt ständiger Neuberechnung

Statt Klickpfade bei jedem Mal neu zu berechnen, „klont“ X‑OmniClaw Nutzerverhalten und speichert es als wiederverwendbaren Skill. Der Agent extrahiert den Startpunkt einer App‑Seite und springt per Deeplink direkt dorthin, anstatt alle Klicks nochmals zu simulieren. Funktioniert das Deeplink‑Springen nicht, wechselt das System schrittweise zu einfacheren Methoden. Zur Erkennung anklickbarer Elemente kombiniert X‑OmniClaw XML‑Strukturinformationen der App‑Oberfläche, ein Grounding‑Modell (das visuelle und lokale Informationen mit Sprache/Aktionen verknüpft) und OCR, um auch bei werbelastigen oder dynamischen UI‑Layouts verlässlich Ziele anzusteuern.

Konkrete Demos

Preisvergleich: Kamera auf ein Produkt richten, Agent öffnet die Shopping‑App, scrollt, macht Screenshots und liest Preise und Verkaufszahlen per Vision‑Sprachmodell aus. Folgekommandos wie „öffne den zweiten Eintrag“ greifen ohne erneutes Grounding.

ScreenAvatar: Ein schwebender Assistent auf dem Bildschirm kann mehrere Aufgaben nacheinander erledigen, etwa Übungsaufgaben.

Foto‑Highlight: Auf Nachfrage sammelt das System alle Papageien‑Fotos, springt per Deeplink in eine Foto‑App und wählt Bilder automatisch für ein Highlight‑Album aus.

Rabattseite klonen: Einmalig wird der Weg zu einer tief verschachtelten Rabattseite geklont; später reicht eine Sprachaufforderung, um diese Unterseite wieder zu öffnen, selbst wenn keine öffentlichen Deeplinks existieren.

Technische Einordnung

X‑OmniClaw baut auf der quelloffenen HermesApp‑Basis auf und positioniert sich zwischen OpenClaw (stärker PC‑fokussiert) und dem Hermes Agent von Nous Research. Im Vergleich zu anderen Arbeiten: Google zeigte mit Gemma 4, dass lokal laufende Modelle agentisch handeln können; ByteDance’ UI‑TARS nutzt visuelle Informationen wie Screenshots und Koordinaten. X‑OmniClaw kombiniert die visuelle Herangehensweise mit strukturellen UI‑Infos (XML) und lokaler Ausführung, um Fehler bei dynamischen Oberflächen zu reduzieren.

Quelle

Quellen

Quelle: Oppo

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Apple macht Siri privater – automatische Löschoptionen in iOS 27

Mai 18, 2026 | Allgemein, KI

Apple macht Siri in iOS 27 privater: automatische Löschung von Chats.In KürzeChats: 30d / 1J / nieNutzt Googles GeminiWeniger Verlaufsdaten Apple will bei seinen KI-Funktionen stärker mit Privatsphäre punkten – und zwar schon in iOS 27. Laut Bloomberg-Reporter Mark...

Mistral warnt vor US‑KI‑Abhängigkeit in Europas Cyberabwehr

Mai 18, 2026 | Allgemein, KI

Europa droht Abhängigkeit bei Cyberabwehr von US‑KIs; Risiken für staatliche Systeme und strategische Kontrolle.In KürzeSprachmodelle können Angriffe planen und Exploits vorschlagenEU verhandelt mit OpenAI und Anthropic über frühen ModellzugangMistral mahnt...

OLG Düsseldorf: Wann KI‑Bilder Urheberrechtsschutz haben

Mai 18, 2026 | Allgemein, KI

OLG Düsseldorf: Urheberrecht bei KI‑Bildern.In KürzeMaschinenbilder meist ohne SchutzNur bei nachweisbarer LeistungPerspektive, Licht, Bildschnitt Wenn du dich fragst, wer die Rechte an Bildern hat, die komplett oder teilweise von KI erzeugt wurden: Das...

Oppo stellt X‑OmniClaw vor: Open‑Source‑Agent führt Apps lokal auf Android aus

In Kürze

Oppo hat X‑OmniClaw vorgestellt: einen Open‑Source‑Agenten, der direkt auf Android‑Smartphones läuft und Kamera, Bildschirmdaten und Sprache kombiniert, um Aufgaben in echten Apps auszuführen – ohne jede Aktion in einer Cloud‑Virtualmaschine nachzubilden.

Was er anders macht

Wie das System sieht und handelt

Gedächtnis und Datenschutzmechaniken

Wiederverwendbare Skills statt ständiger Neuberechnung

Konkrete Demos

Technische Einordnung

Quelle

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Apple macht Siri privater – automatische Löschoptionen in iOS 27

Mistral warnt vor US‑KI‑Abhängigkeit in Europas Cyberabwehr

OLG Düsseldorf: Wann KI‑Bilder Urheberrechtsschutz haben

Über uns

Dein Thema?

Pickert GmbH