Studie: Viele KI‑Agenten ziehen internes Training statt belegbarer Webquellen heran; bei aktuellen Fakten fällt die Genauigkeit deutlich.
In Kürze
- Agenten nutzen häufig internes Wissen
- Live‑Benchmarks zeigen starke Einbrüche
- Forscher fordern dynamische Tests und evidenzbasiertes Training
Wenn KI‑Agenten im Web „suchen“, heißt das offenbar nicht automatisch, dass sie neue Fakten zuverlässig aufspüren. Forschende vom Harbin Institute of Technology und der chinesischen Plattform Xiaohongshu haben überprüft, wie gut führende KI‑Suchagenten wirklich recherchieren — und kommen zu einem klaren Befund: Viele Modelle greifen lieber auf ihr internes Trainingswissen zurück, statt aktiv Belege aus dem Netz zu nutzen. Sobald Aufgaben aktuelles Wissen verlangen, bricht die Leistung deutlich ein.
Was die Studie konkret zeigt
- Benchmark‑Performance: Auf dem gängigen Mehrstufen‑Benchmark BrowseComp erzielten mehrere Spitzmodelle hohe Werte, darunter GPT‑5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek‑V4‑Pro und Kimi‑K2.6. BrowseComp wurde so aufgebaut, dass echte Mehrquellen‑Recherche nötig ist.
- Intrinsic Knowledge Dependence (IKD): Die Forschenden prägen den Begriff IKD für das Verhalten, dass Agenten oft intern gespeichertes Wissen abrufen, statt wirklich zu recherchieren.
- Closed‑Book‑Test: Als alle Suchwerkzeuge deaktiviert wurden, blieben die Werte teilweise hoch. MiniMax M2.5 löste 44,5 % der BrowseComp‑Aufgaben aus dem Gedächtnis; Kimi K2.6 erreichte in der chinesischen Version (BrowseComp‑ZH) 62 %. Viele Aufgaben waren also schon ohne Webzugriff lösbar.
- Suche ohne Belege verunsichert: In einem zweiten Test blieb die Suchschnittstelle aktiv, die Suchergebnisse enthielten aber keine unterstützenden Dokumente. Dann fielen die Modelle deutlich zurück: MiniMax von 44,5 % auf 8,0 %, Kimi‑K2.6 von 25,5 % auf 2,3 %. Die fehlende Bestätigung durch Treffer führte zu schlechterer Performance als ganz ohne Internetzugang.
- Suchpfade und Evidenznutzung: Mehr als die Hälfte der Suchanfragen stützt sich auf die interne Argumentation der Modelle statt auf gefundene Treffer. Selbst wenn passende Belege in den Resultaten vorhanden waren, wurden sie in weniger als einem Drittel der Fälle in die Antwort übernommen — die Agenten handeln also häufiger modell‑ als evidenzgeleitet.
LiveBrowseComp — ein zeitabhängiger Test
Um echtes Browsen zu prüfen, entwickelten die Forschenden LiveBrowseComp: 335 Fragen, die jeweils mindestens ein Faktum aus den 90 Tagen vor Erstellung verlangen. Als Quellen dienten laufend aktualisierte Listen (Filme, Spiele, Sicherheitslücken, Erdbeben). Weit bekannte globale Ereignisse wurden aussortiert; übrig blieben eher unbekannte, aber verifizierbare Fakten. Menschen benötigen für LiveBrowseComp ähnlich viel Zeit und erreichen vergleichbare Lösungsraten wie bei BrowseComp — die Aufgaben sind demnach nicht grundsätzlich schwerer; der Unterschied entsteht, weil die Gedächtnis‑Abkürzung wegfällt.
Ergebnisse auf LiveBrowseComp
- Im Closed‑Book‑Setting: lagen alle Modelle unter 2 % Genauigkeit.
- Mit aktivierten Werkzeugen: sanken die Werte meist um 25–40 Prozentpunkte gegenüber BrowseComp.
- Die Rangfolge der Modelle verschiebt sich deutlich: Spitzenreiter auf statischen Benchmarks (etwa GLM 5.1) fallen zurück, andere (z. B. DeepSeek v3.2) rücken vor. Das legt nahe, dass klassische Bestenlisten oft eher das bereits vorhandene Wissen eines Modells widerspiegeln als seine echte Suchfähigkeit.
- Verhaltensänderung: Auf BrowseComp lösen Agenten viele Aufgaben mit wenigen Schritten (Bestätigung aus dem Gedächtnis). Auf LiveBrowseComp werden die Suchpfade länger und explorativer — ein Hinweis darauf, dass hier tatsächlich recherchiert werden muss.
Empfehlungen und Kontext aus der Studie
Die Autor:innen schlagen vor, Agenten‑Evaluationen standardmäßig mit dynamischen, zeitabhängigen Benchmarks wie LiveBrowseComp durchzuführen. Außerdem plädieren sie dafür, Trainingssignale zu entwickeln, die evidenzbasiertes Recherchieren belohnen, anstatt Raten oder nachträgliche Verifizierung zu fördern. Frühere Arbeiten adressieren ähnliche Phänomene: Eine Studie der Peking University beschrieb das Phänomen der „Attribution Hallucination“ — richtige Antworten mit falschen Belegstellen —, und das Tool CiteAudit zeigte, dass erfundene Quellen bereits in wissenschaftlichen Arbeiten auftauchen können, weil Modelle Halluzinationen in Referenzen nicht zuverlässig erkennen.
Warum das relevant ist
Für Anwendungen, die aktuelle und überprüfbare Informationen verlangen — etwa Sicherheit, Forschung oder Journalismus — ist es wichtig zu wissen, dass Webzugriff allein nicht gleichbedeutend mit verlässlicher Recherche ist. Die Studie macht deutlich, dass viele Agenten stark auf internes Wissen bauen und Suchergebnisse oft nur zur Bestätigung nutzen.
Quellen
- Quelle: Harbin Institute of Technology / Xiaohongshu
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




