Kann KI Junior‑Investmentbanker ersetzen? BankerToolBench zeigt klare Grenzen

27.04.2026 | Allgemein, KI

Offener Benchmark prüft KI-Agenten an realen Junior‑Banker‑Aufgaben – viele Fehler, kaum sofort einsetzbare Ergebnisse.

In Kürze

  • 100 Aufgaben, 5.700 Entwicklungsstunden
  • GPT‑5.4 bestes Modell, nur 2% vollständig korrekt
  • Häufige Fehler: Formeln, Logik, Halluzinationen

Kann eine KI die Arbeit von Junior-Investmentbankern übernehmen?

Forscher von Handshake AI und der McGill University legen jetzt einen offenen Benchmark vor, der genau das prüft: BankerToolBench. Für die Studie wurden rund 500 aktive und ehemalige Banker aus Häusern wie Goldman Sachs, JPMorgan, Morgan Stanley und Lazard eingebunden. 172 von ihnen entwickelten die Aufgaben — insgesamt flossen etwa 5.700 Arbeitsstunden in die Konstruktion des Tests.

Was im Benchmark steckt

  • Umfang: 100 realistische Aufgaben, die typische Deliverables eines Junior-Bankers abbilden. Eine Aufgabe entspricht im Schnitt fünf Stunden menschlicher Arbeit; einige Tasks sind deutlich aufwändiger und dauerten bis zu 21 Stunden.
  • Erwartete Ergebnisse: funktionierende Excel-Finanzmodelle (mit Formeln), PowerPoint-Präsentationen, PDF-Reports und Word-Memos — also genau das, was Analysten an Vorgesetzte oder Kunden schicken würden.
  • Datenzugriff: Die Agenten mussten Quellen durchsuchen, Marktdatenplattformen anfragen und Pflichtveröffentlichungen auswerten. Pro Aufgabe konnten bis zu 539 Anfragen an die KI gestellt werden; 97 % dieser Aufrufe waren Tool- oder Code-Ausführungen (also externe Dienste oder Skripte).

Wie die Prüfung bewertet wurde

  • Bewertungsmetriken: Jedes Ergebnis lief durch ein Raster mit im Schnitt 150 Einzelkriterien — darunter technische Korrektheit, Kundentauglichkeit, Nachvollziehbarkeit und Konsistenz.
  • Automatische Prüfinstanz: Der Verifier heißt Gandalf und basiert auf Gemini 3 Flash Preview. Gandalf stimmte in 88,2 % der Fälle mit menschlichen Bewertungen überein; der Konsens zwischen zwei menschlichen Gutachtern lag bei 84,6 %.

Die Ergebnisse im Überblick

  • Kein Modell lieferte ein Ergebnis, das Banker ohne Änderungen direkt an Kunden weitergegeben hätten.
  • Spitzenreiter war GPT-5.4: 16 % seiner Outputs galten als brauchbarer Ausgangspunkt; verlangt man drei konsistente Durchläufe, sinkt dieser Anteil auf 13 %. Nur bei 2 % der Aufgaben erfüllte GPT-5.4 alle kritisch gewichteten Kriterien. Bei Gemini 2.5 Pro lag dieser Wert bei 0 %.
  • Getestete Modelle umfassten unter anderem GPT-5.2, GPT-5.4, Claude Opus 4.5/4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, Qwen-3.5-397B und GLM-5.

Typische Fehlerbilder

  • Hauptfehler: 41 % Code- und Formel-Fehler (etwa Aufrufe nicht-existenter Funktionen oder gelöschte fehlerhafte Zeilen), 27 % fachliche Logikfehler (z. B. falsche Zuordnung von Synergien), 18 % abgebrochene Datenabfragen und 13 % Halluzinationen (erfundene Zahlen).
  • Konkrete Beispiele:
    • Excel-Modelle, in denen Kennzahlen als feste Werte statt als Formeln eingetragen wurden (Szenarioanalysen damit nicht möglich).
    • Widersprüchliche Zahlen auf unterschiedlichen Folien.
    • Falsche Format- oder Farbwahl im Vergleich zum Briefing.
    • Erfundene klinische Studiendaten, nachdem Datenbanken keine Treffer lieferten.
  • Schwierige Aufgaben: PowerPoint-Deliverables schnitten tendenziell besser ab als Excel-Modelle. Besonders problematisch waren Debt-Capital-Markets-Aufgaben, M&A-Modelle und Kapitalstruktur-Tabellen.

Weiterentwicklung und Training

BankerToolBench lässt sich auch zum Training der Modelle einsetzen (Reinforcement Learning). Erste Experimente zeigten, dass Methoden wie Dr. GRPO und DPO die Leistung einiger Qwen-Modelle um das 3- bis 13-fache steigerten — allerdings aus einem sehr niedrigen Ausgangsniveau.

Einschränkungen des Benchmarks

  • Fokus auf US-Daten, keine vertraulichen Deal-Daten und keine Abbildung realer, iterativer Teamarbeit in Banken. Trotz dieser Grenzen bezeichnet das Team BankerToolBench als eine der detailliertesten Prüfungen, ob KI anspruchsvolle Finanzarbeit übernehmen kann.
  • Offenheit: Die Datensätze, das Bewertungsraster und der Verifier sind öffentlich verfügbar.

Einordnung im Markt

Die Resultate korrespondieren mit anderen Untersuchungen, die niedrige Genauigkeit bei finanziellen Analysen mit einigen großen Modellen fanden (z. B. Vals.ai). Forschungsteams kritisieren außerdem, dass viele bisherige Agenten-Benchmarks zu stark auf Programmieraufgaben fokussiert sind und wirtschaftlich relevante Bereiche wie Finanzen zu wenig abdecken.

Anbieter reagieren: Anthropic etwa hat Funktionen vorgestellt, mit denen Claude automatisch zwischen Excel und PowerPoint wechselt und Marktdatendienste wie FactSet, MSCI und LSEG direkt anbindet.

Die Studie liefert detaillierte Einblicke in Fehlerarten, Leistungsgrenzen und Trainingspotenzial von KI-Agenten im Investmentbanking — und stellt Tools sowie Bewertungsgrundlagen öffentlich zur Verfügung.

Quellen

  • Quelle: Handshake AI / McGill University
  • Der ursprüngliche Artikel wurde hier veröffentlicht
  • Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

💡Über das Projekt KI News Daily

Dieser Artikel wurde vollständig mit KI generiert und ist Teil des Projektes KI News Daily der Pickert GmbH.

Wir arbeiten an der ständigen Verbesserung der Mechanismen, können aber leider Fehler und Irrtümer nicht ausschließen. Sollte dir etwas auffallen, wende dich bitte umgehend an unseren Support und feedback[at]pickert.io

Vielen Dank! 🙏

Das könnte dich auch interessieren…