Ein neues KI-Modell aus China kombiniert Bildanalyse, Code-Ausführung und Internetrecherche.
In Kürze
- DeepEyesV2 nutzt mehrere Werkzeuge für effektive Aufgabenbewältigung.
- Das Modell zeigt klare Vorteile gegenüber großen Mitbewerbern.
- Verfügbar auf Plattformen wie Hugging Face und GitHub.
Chinesische Forschende entwickeln DeepEyesV2
Chinesische Forschende von Xiaohongshu haben mit DeepEyesV2 ein neues KI-Modell entwickelt, das in der Lage ist, Bilder zu analysieren, Code auszuführen und im Internet nach Informationen zu suchen. Was dieses Modell besonders macht, ist die Kombination dieser Fähigkeiten, die es ihm ermöglicht, Herausforderungen besser zu meistern als viele seiner größeren Konkurrenten.
Zentrale Aspekte von DeepEyesV2
Ein zentraler Aspekt von DeepEyesV2 ist die geschickte Nutzung von Werkzeugen. Anstatt sich lediglich auf umfangreiches Wissen zu verlassen, koordiniert das Modell mehrere Fähigkeiten, um Aufgaben effektiver zu bewältigen. Zu Beginn des Trainings hatten die Forschenden zwar Schwierigkeiten, eine stabile Nutzung der Werkzeuge zu erreichen, doch mit einer cleveren zweistufigen Methode gelang es ihnen, das Verständnis für Bilder und die Nutzung der Werkzeuge zu verbessern. Diese Methode kombiniert Grundlagentraining mit einer anschließenden Verfeinerung durch Reinforcement Learning.
Hauptwerkzeugkategorien von DeepEyesV2
DeepEyesV2 ist mit drei Hauptwerkzeugkategorien ausgestattet, die speziell für multimodale Aufgaben entwickelt wurden:
- Code-Ausführung für Bild- und Datenanalysen
- Bildsuche zur Erkennung visueller Ähnlichkeiten
- Textsuche für zusätzliche Informationen
Diese Werkzeuge ermöglichen es dem Modell beispielsweise, eine Blumenart auf einem Foto zu identifizieren, indem es das Bild zuschneidet, im Netz nach ähnlichen Bildern sucht und alle gesammelten Informationen zusammenführt.
Vergleich mit Mitbewerbern
Im direkten Vergleich mit den größten Mitbewerbern zeigt DeepEyesV2 klare Vorteile, insbesondere bei Aufgaben, die mehrere Fähigkeiten erfordern. Das Modell beweist, dass ein gut organisiertes Set an Werkzeugen die Schwächen eines großen Modells ausgleichen kann. In Benchmarks, die die Verarbeitung von visuellen und textbasierten Inhalten testen, erzielt DeepEyesV2 bemerkenswerte Ergebnisse.
Zukunftsperspektiven für DeepEyesV2
Die Entwickler sind sich einig: Je besser das Modell in der Lage ist, seine Werkzeuge situationsgerecht einzusetzen, desto weniger Fehler werden gemacht. DeepEyesV2 könnte somit den Weg für eine verbesserte Zusammenarbeit von KI-Modellen mit intelligenten Werkzeugen ebnen – eine Strategie, die für die Weiterentwicklung im Bereich der künstlichen Intelligenz von Bedeutung sein könnte. Das Modell ist auf Plattformen wie Hugging Face und GitHub frei verfügbar, was eine kommerzielle Nutzung ermöglicht.
Quellen
- Quelle: Xiaohongshu
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




