Eine innovative Methode zur Teamarbeit von KI-Agenten könnte die Effizienz in komplexen Aufgaben erheblich steigern.
In Kürze
- Arbeitsteilung zwischen spezialisierten KI-Agenten
- Effizientere und stabilere Arbeitsweise durch Synchronisation
- Übertrifft herkömmliche Ansätze mit weniger Trainingsdaten
Innovative Methode M-GRPO zur Optimierung von KI-Agenten-Teams
Forscher am Imperial College London und der Ant Group haben eine innovative Methode namens M-GRPO entwickelt, die die Zusammenarbeit spezialisierter KI-Agenten in Teams optimiert. Im Gegensatz zu bisherigen Ansätzen, bei denen meist ein einzelner KI-Agent sowohl die Planung als auch die Ausführung übernimmt, setzt M-GRPO auf Arbeitsteilung. Hierbei übernehmen verschiedene Agenten spezifische Rollen, ähnlich wie in einem Unternehmen, um komplexe Aufgaben effizient zu lösen. So könnte ein Agent beispielsweise als Projektmanager fungieren, während andere sich auf spezielle Tools wie Websuche oder Datenanalyse konzentrieren.
Herausforderungen bei bestehenden Methoden
Die Wissenschaftler haben festgestellt, dass bestehende Methoden bei komplexen, mehrstufigen Prozessen oft an ihre Grenzen stoßen. Einzelne Agenten sind häufig nicht in der Lage, alle erforderlichen Fähigkeiten abzudecken, was zu Fehlern über lange Aufgabenketten hinweg führt.
Vorteile der M-GRPO-Methode
Genau hier setzt die M-GRPO-Methode an: Sie ermöglicht es, KI-Agenten unabhängig zu trainieren und deren Lernerfahrungen zu synchronisieren. Das Ergebnis? Eine effizientere und stabilere Arbeitsweise der Agenten.
Ein besonders effektives Merkmal des M-GRPO-Systems ist die „vertikale“ Struktur, in der ein Hauptagent die Führung übernimmt und die Arbeit der Sub-Agenten koordiniert. Dieser Ansatz wird auch von der Firma Anthropic genutzt und hat sich als äußerst wirkungsvoll erwiesen.
Das M-GRPO-Framework
Das M-GRPO-Framework geht zudem auf die Herausforderungen des gemeinsamen Trainings von KI-Agenten ein, indem es die bewährte GRPO-Methode anpasst. Es ermöglicht eine Bewertung der Agenten im Kontext ihrer spezifischen Aufgaben und sorgt für ein ausgewogenes, effektives Training, selbst wenn die Agenten auf verschiedenen Servern arbeiten. In Tests hat das M-GRPO-System herkömmliche Ansätze übertroffen und benötigte dabei weniger Trainingsdaten, um überzeugende Ergebnisse zu liefern.
Praxistest und Verfügbarkeit
In der Praxis hat sich das System beispielsweise bei einer Recherche-Aufgabe zu invasiven Fischarten als besonders effektiv erwiesen. Hier konnte es präzisere Anweisungen an die Sub-Agenten geben, was zu besseren Ergebnissen führte. Für alle, die tiefer in die Materie eintauchen möchten, ist das gesamte System auf GitHub verfügbar.
Quellen
- Quelle: Imperial College London und Ant Group
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




