X‑OmniClaw: Open‑Source‑Agent lokal auf Android.
In Kürze
- KI‑Logik läuft auf dem Gerät
- Nutzen von Kamera, Bildschirm und Sprache
- Komprimiertes, gefiltertes Gerätespeicher‑Gedächtnis
Oppo hat X‑OmniClaw vorgestellt: einen Open‑Source‑Agenten, der direkt auf Android‑Smartphones läuft und Kamera, Bildschirmdaten und Sprache kombiniert, um Aufgaben in echten Apps auszuführen – ohne jede Aktion in einer Cloud‑Virtualmaschine nachzubilden.
Was er anders macht
Statt eine virtuelle Android‑Instanz im Rechenzentrum zu betreiben, führt X‑OmniClaw die Kernlogik lokal auf dem Gerät aus. Cloud‑Sprachmodelle werden nur bei Bedarf für übergeordnete Schlussfolgerungen hinzugezogen. Das bedeutet: Zugang zu lokalen Sensoren wie Kamera und Mikrofon ist möglich, ohne alles durch einen entfernten Server zu schleusen. Code und Assets hat Oppo offen auf GitHub gestellt.
Wie das System sieht und handelt
X‑OmniClaw arbeitet mit drei Eingängen in einer Pipeline: Kamera‑Feed, Bildschirmdaten (Screenshots und UI‑Struktur) und Sprache werden gemeinsam ausgewertet. Ein Vision‑Language‑Modell interpretiert Szene und Nutzerwunsch und übersetzt das in eine strukturierte Absicht, die dann ausgeführt wird. Beispiel: Du filmst ein Produkt und fragst „Wie viel kostet das?“ — intern wird das in die Aktion „Preis dieses Produkts in der Shopping‑App suchen“ umgewandelt und die App wird durchsucht.
Gedächtnis und Datenschutzmechaniken
Fotos werden im Leerlauf komprimiert: Das System erzeugt kurze Beschreibungen von Objekten, Szenen und Ereignissen und speichert diese in einer Markdown‑Datei als durchsuchbares Gedächtnis. Vor dem Speichern filtert der Agent sensible Informationen heraus. Der Bericht warnt vor Upload‑Risiken bei Cloud‑Vision‑Diensten und nennt als nächsten Schritt, Rohbilder komplett auf dem Gerät zu halten und nur geräteinterne Modelle zu nutzen.
Wiederverwendbare Skills statt ständiger Neuberechnung
Statt Klickpfade bei jedem Mal neu zu berechnen, „klont“ X‑OmniClaw Nutzerverhalten und speichert es als wiederverwendbaren Skill. Der Agent extrahiert den Startpunkt einer App‑Seite und springt per Deeplink direkt dorthin, anstatt alle Klicks nochmals zu simulieren. Funktioniert das Deeplink‑Springen nicht, wechselt das System schrittweise zu einfacheren Methoden. Zur Erkennung anklickbarer Elemente kombiniert X‑OmniClaw XML‑Strukturinformationen der App‑Oberfläche, ein Grounding‑Modell (das visuelle und lokale Informationen mit Sprache/Aktionen verknüpft) und OCR, um auch bei werbelastigen oder dynamischen UI‑Layouts verlässlich Ziele anzusteuern.
Konkrete Demos
- Preisvergleich: Kamera auf ein Produkt richten, Agent öffnet die Shopping‑App, scrollt, macht Screenshots und liest Preise und Verkaufszahlen per Vision‑Sprachmodell aus. Folgekommandos wie „öffne den zweiten Eintrag“ greifen ohne erneutes Grounding.
- ScreenAvatar: Ein schwebender Assistent auf dem Bildschirm kann mehrere Aufgaben nacheinander erledigen, etwa Übungsaufgaben.
- Foto‑Highlight: Auf Nachfrage sammelt das System alle Papageien‑Fotos, springt per Deeplink in eine Foto‑App und wählt Bilder automatisch für ein Highlight‑Album aus.
- Rabattseite klonen: Einmalig wird der Weg zu einer tief verschachtelten Rabattseite geklont; später reicht eine Sprachaufforderung, um diese Unterseite wieder zu öffnen, selbst wenn keine öffentlichen Deeplinks existieren.
Technische Einordnung
X‑OmniClaw baut auf der quelloffenen HermesApp‑Basis auf und positioniert sich zwischen OpenClaw (stärker PC‑fokussiert) und dem Hermes Agent von Nous Research. Im Vergleich zu anderen Arbeiten: Google zeigte mit Gemma 4, dass lokal laufende Modelle agentisch handeln können; ByteDance’ UI‑TARS nutzt visuelle Informationen wie Screenshots und Koordinaten. X‑OmniClaw kombiniert die visuelle Herangehensweise mit strukturellen UI‑Infos (XML) und lokaler Ausführung, um Fehler bei dynamischen Oberflächen zu reduzieren.
Quelle
Quellen
- Quelle: Oppo
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




