Studie zeigt: KI-Sprachmodelle kämpfen mit langen Texten

13.02.2025 | KI

Eine neue Studie beleuchtet die Herausforderungen aktueller KI-Sprachmodelle bei langen Texten.

In Kürze

  • 12 KI-Modelle, darunter GPT-4o und Llama-3.3-70B, getestet.
  • Leistungsabfall bei Texten über 2.000 Token.
  • NOLIMA-Test könnte neue Standards für KI-Bewertung setzen.

Neue Studie zur Leistungsfähigkeit aktueller KI-Sprachmodelle

Eine neue Studie von Forscher:innen der LMU München, dem Munich Center for Machine Learning und Adobe Research hat interessante Erkenntnisse über die Leistungsfähigkeit aktueller KI-Sprachmodelle hervorgebracht. Dabei wurden 12 Modelle, darunter bekannte Namen wie GPT-4o und Llama-3.3-70B, einem Benchmark-Test namens NOLIMA unterzogen. Ziel war es, zu prüfen, wie gut diese Modelle mit langen Texten umgehen können, ohne sich auf wörtliche Übereinstimmungen zu stützen.

Ergebnisse der Studie

Die Ergebnisse sind aufschlussreich: Sobald die Textlänge 2.000 bis 8.000 Token überschreitet, sinkt die Leistung der Modelle erheblich. Bei Kontexten von 32.000 Token erreichen die meisten Modelle nur noch die Hälfte ihrer ursprünglichen Leistungsfähigkeit. Der Grund dafür liegt in der Überlastung eines zentralen Mechanismus, der dafür verantwortlich ist, lange Texte aufmerksam zu verfolgen.

Leistungsabfall bei längeren Texten

Selbst spezialisierte Reasoning-Modelle, die bei kurzen Texten nahezu fehlerfrei arbeiten, zeigen bei längeren Texten von 32.000 Token eine Genauigkeit von unter 50 Prozent. Zwar helfen Techniken wie Chain-of-Thought-Prompting ein wenig, um die Leistung zu steigern, doch sie können den dramatischen Leistungsabfall nicht vollständig aufhalten.

Praktische Folgen und Zukunftsperspektiven

Die Studie verdeutlicht, dass viele aktuelle KI-Modelle oft auf oberflächliche Hinweise angewiesen sind und bei längeren Texten schnell an ihre Grenzen stoßen. Dies könnte weitreichende praktische Folgen haben, insbesondere für Suchmaschinen, die mit großen Textmengen arbeiten müssen. Der NOLIMA-Test könnte sich als neuer Maßstab etablieren, um die Fähigkeiten von KI-Modellen in solchen Szenarien zu bewerten und deren Weiterentwicklung voranzutreiben.

Quellen

  • Quelle: LMU München, Munich Center for Machine Learning, Adobe Research
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…

Nvidia öffnet Warp: Python-Framework jetzt Open Source

Nvidia öffnet Warp: Python-Framework jetzt Open Source

Nvidia hat sein Python-Framework Warp unter die Open-Source-Lizenz Apache 2 gestellt und reagiert damit auf Community-Kritik.In KürzeWarp wandelt Python-Funktionen in Echtzeit in Code um.Das Framework unterstützt sowohl x86- als auch CUDA-GPUs.Integration in...