KI‑Suchagenten bevorzugen internes Wissen statt echte Webrecherche

Was die Studie konkret zeigt

Benchmark‑Performance: Auf dem gängigen Mehrstufen‑Benchmark BrowseComp erzielten mehrere Spitzmodelle hohe Werte, darunter GPT‑5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek‑V4‑Pro und Kimi‑K2.6. BrowseComp wurde so aufgebaut, dass echte Mehrquellen‑Recherche nötig ist.

Intrinsic Knowledge Dependence (IKD): Die Forschenden prägen den Begriff IKD für das Verhalten, dass Agenten oft intern gespeichertes Wissen abrufen, statt wirklich zu recherchieren.

Closed‑Book‑Test: Als alle Suchwerkzeuge deaktiviert wurden, blieben die Werte teilweise hoch. MiniMax M2.5 löste 44,5 % der BrowseComp‑Aufgaben aus dem Gedächtnis; Kimi K2.6 erreichte in der chinesischen Version (BrowseComp‑ZH) 62 %. Viele Aufgaben waren also schon ohne Webzugriff lösbar.

Suche ohne Belege verunsichert: In einem zweiten Test blieb die Suchschnittstelle aktiv, die Suchergebnisse enthielten aber keine unterstützenden Dokumente. Dann fielen die Modelle deutlich zurück: MiniMax von 44,5 % auf 8,0 %, Kimi‑K2.6 von 25,5 % auf 2,3 %. Die fehlende Bestätigung durch Treffer führte zu schlechterer Performance als ganz ohne Internetzugang.

Suchpfade und Evidenznutzung: Mehr als die Hälfte der Suchanfragen stützt sich auf die interne Argumentation der Modelle statt auf gefundene Treffer. Selbst wenn passende Belege in den Resultaten vorhanden waren, wurden sie in weniger als einem Drittel der Fälle in die Antwort übernommen — die Agenten handeln also häufiger modell‑ als evidenzgeleitet.

LiveBrowseComp — ein zeitabhängiger Test

Um echtes Browsen zu prüfen, entwickelten die Forschenden LiveBrowseComp: 335 Fragen, die jeweils mindestens ein Faktum aus den 90 Tagen vor Erstellung verlangen. Als Quellen dienten laufend aktualisierte Listen (Filme, Spiele, Sicherheitslücken, Erdbeben). Weit bekannte globale Ereignisse wurden aussortiert; übrig blieben eher unbekannte, aber verifizierbare Fakten. Menschen benötigen für LiveBrowseComp ähnlich viel Zeit und erreichen vergleichbare Lösungsraten wie bei BrowseComp — die Aufgaben sind demnach nicht grundsätzlich schwerer; der Unterschied entsteht, weil die Gedächtnis‑Abkürzung wegfällt.

Ergebnisse auf LiveBrowseComp

Im Closed‑Book‑Setting: lagen alle Modelle unter 2 % Genauigkeit.

Mit aktivierten Werkzeugen: sanken die Werte meist um 25–40 Prozentpunkte gegenüber BrowseComp.

Die Rangfolge der Modelle verschiebt sich deutlich: Spitzenreiter auf statischen Benchmarks (etwa GLM 5.1) fallen zurück, andere (z. B. DeepSeek v3.2) rücken vor. Das legt nahe, dass klassische Bestenlisten oft eher das bereits vorhandene Wissen eines Modells widerspiegeln als seine echte Suchfähigkeit.

Verhaltensänderung: Auf BrowseComp lösen Agenten viele Aufgaben mit wenigen Schritten (Bestätigung aus dem Gedächtnis). Auf LiveBrowseComp werden die Suchpfade länger und explorativer — ein Hinweis darauf, dass hier tatsächlich recherchiert werden muss.

Empfehlungen und Kontext aus der Studie

Die Autor:innen schlagen vor, Agenten‑Evaluationen standardmäßig mit dynamischen, zeitabhängigen Benchmarks wie LiveBrowseComp durchzuführen. Außerdem plädieren sie dafür, Trainingssignale zu entwickeln, die evidenzbasiertes Recherchieren belohnen, anstatt Raten oder nachträgliche Verifizierung zu fördern. Frühere Arbeiten adressieren ähnliche Phänomene: Eine Studie der Peking University beschrieb das Phänomen der „Attribution Hallucination“ — richtige Antworten mit falschen Belegstellen —, und das Tool CiteAudit zeigte, dass erfundene Quellen bereits in wissenschaftlichen Arbeiten auftauchen können, weil Modelle Halluzinationen in Referenzen nicht zuverlässig erkennen.

Warum das relevant ist

Für Anwendungen, die aktuelle und überprüfbare Informationen verlangen — etwa Sicherheit, Forschung oder Journalismus — ist es wichtig zu wissen, dass Webzugriff allein nicht gleichbedeutend mit verlässlicher Recherche ist. Die Studie macht deutlich, dass viele Agenten stark auf internes Wissen bauen und Suchergebnisse oft nur zur Bestätigung nutzen.

Quellen

Quelle: Harbin Institute of Technology / Xiaohongshu

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Juni 20, 2026 | Allgemein, KI

Münchner Gericht stuft KI‑generierte Kurzantworten in der Google‑Suche als eigenständige Inhalte ein und macht Google dafür direkt haftbar.In KürzeGericht: KI‑Übersichten sind redaktionelle InhalteAuslöser: Zwei Verlage fälschlich mit Betrug in Verbindung...

Norwegen schränkt generative KI in Schulen massiv ein

Juni 20, 2026 | Allgemein, KI

Norwegen schränkt generative KI im Unterricht stark ein.In Kürze1–7: generative KI verbotenSek I: nur mit LehraufsichtGesetz & mehr Bücher geplant Norwegen macht in den Klassenräumen einen klaren Schnitt: Generative KI‑Tools sind in der Grundschule künftig weitgehend...

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Juni 20, 2026 | Allgemein, KI

Google Cloud plant eine „souveräne“ Cloud in Deutschland: Betrieb durch Thales, Preview läuft, Verfügbarkeit Ende 2026.In KürzeThales verwahrt kryptografische Schlüssel und betreibt die Plattform.Drei Stufen: Data Boundary, Dedicated (Deutschland),...

KI‑Suchagenten bevorzugen internes Wissen statt echte Webrecherche

In Kürze

Was die Studie konkret zeigt

LiveBrowseComp — ein zeitabhängiger Test

Ergebnisse auf LiveBrowseComp

Empfehlungen und Kontext aus der Studie

Warum das relevant ist

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Münchner Gericht: Google haftbar für KI‑Kurzantworten

Norwegen schränkt generative KI in Schulen massiv ein

Google Cloud bringt „souveräne“ Cloud nach Deutschland – Thales betreibt, Start bis 2026

Über uns

Dein Thema?

Pickert GmbH