Kann KI Junior‑Investmentbanker ersetzen? BankerToolBench zeigt klare Grenzen

Kann eine KI die Arbeit von Junior-Investmentbankern übernehmen?

Forscher von Handshake AI und der McGill University legen jetzt einen offenen Benchmark vor, der genau das prüft: BankerToolBench. Für die Studie wurden rund 500 aktive und ehemalige Banker aus Häusern wie Goldman Sachs, JPMorgan, Morgan Stanley und Lazard eingebunden. 172 von ihnen entwickelten die Aufgaben — insgesamt flossen etwa 5.700 Arbeitsstunden in die Konstruktion des Tests.

Was im Benchmark steckt

Umfang: 100 realistische Aufgaben, die typische Deliverables eines Junior-Bankers abbilden. Eine Aufgabe entspricht im Schnitt fünf Stunden menschlicher Arbeit; einige Tasks sind deutlich aufwändiger und dauerten bis zu 21 Stunden.

Erwartete Ergebnisse: funktionierende Excel-Finanzmodelle (mit Formeln), PowerPoint-Präsentationen, PDF-Reports und Word-Memos — also genau das, was Analysten an Vorgesetzte oder Kunden schicken würden.

Datenzugriff: Die Agenten mussten Quellen durchsuchen, Marktdatenplattformen anfragen und Pflichtveröffentlichungen auswerten. Pro Aufgabe konnten bis zu 539 Anfragen an die KI gestellt werden; 97 % dieser Aufrufe waren Tool- oder Code-Ausführungen (also externe Dienste oder Skripte).

Wie die Prüfung bewertet wurde

Bewertungsmetriken: Jedes Ergebnis lief durch ein Raster mit im Schnitt 150 Einzelkriterien — darunter technische Korrektheit, Kundentauglichkeit, Nachvollziehbarkeit und Konsistenz.

Automatische Prüfinstanz: Der Verifier heißt Gandalf und basiert auf Gemini 3 Flash Preview. Gandalf stimmte in 88,2 % der Fälle mit menschlichen Bewertungen überein; der Konsens zwischen zwei menschlichen Gutachtern lag bei 84,6 %.

Die Ergebnisse im Überblick

Kein Modell lieferte ein Ergebnis, das Banker ohne Änderungen direkt an Kunden weitergegeben hätten.

Spitzenreiter war GPT-5.4: 16 % seiner Outputs galten als brauchbarer Ausgangspunkt; verlangt man drei konsistente Durchläufe, sinkt dieser Anteil auf 13 %. Nur bei 2 % der Aufgaben erfüllte GPT-5.4 alle kritisch gewichteten Kriterien. Bei Gemini 2.5 Pro lag dieser Wert bei 0 %.

Getestete Modelle umfassten unter anderem GPT-5.2, GPT-5.4, Claude Opus 4.5/4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, Qwen-3.5-397B und GLM-5.

Typische Fehlerbilder

Hauptfehler: 41 % Code- und Formel-Fehler (etwa Aufrufe nicht-existenter Funktionen oder gelöschte fehlerhafte Zeilen), 27 % fachliche Logikfehler (z. B. falsche Zuordnung von Synergien), 18 % abgebrochene Datenabfragen und 13 % Halluzinationen (erfundene Zahlen).

Konkrete Beispiele:

Excel-Modelle, in denen Kennzahlen als feste Werte statt als Formeln eingetragen wurden (Szenarioanalysen damit nicht möglich).
Widersprüchliche Zahlen auf unterschiedlichen Folien.
Falsche Format- oder Farbwahl im Vergleich zum Briefing.
Erfundene klinische Studiendaten, nachdem Datenbanken keine Treffer lieferten.

Schwierige Aufgaben: PowerPoint-Deliverables schnitten tendenziell besser ab als Excel-Modelle. Besonders problematisch waren Debt-Capital-Markets-Aufgaben, M&A-Modelle und Kapitalstruktur-Tabellen.

Einschränkungen des Benchmarks

Fokus auf US-Daten, keine vertraulichen Deal-Daten und keine Abbildung realer, iterativer Teamarbeit in Banken. Trotz dieser Grenzen bezeichnet das Team BankerToolBench als eine der detailliertesten Prüfungen, ob KI anspruchsvolle Finanzarbeit übernehmen kann.

Offenheit: Die Datensätze, das Bewertungsraster und der Verifier sind öffentlich verfügbar.

Einordnung im Markt

Die Resultate korrespondieren mit anderen Untersuchungen, die niedrige Genauigkeit bei finanziellen Analysen mit einigen großen Modellen fanden (z. B. Vals.ai). Forschungsteams kritisieren außerdem, dass viele bisherige Agenten-Benchmarks zu stark auf Programmieraufgaben fokussiert sind und wirtschaftlich relevante Bereiche wie Finanzen zu wenig abdecken.

Anbieter reagieren: Anthropic etwa hat Funktionen vorgestellt, mit denen Claude automatisch zwischen Excel und PowerPoint wechselt und Marktdatendienste wie FactSet, MSCI und LSEG direkt anbindet.

Die Studie liefert detaillierte Einblicke in Fehlerarten, Leistungsgrenzen und Trainingspotenzial von KI-Agenten im Investmentbanking — und stellt Tools sowie Bewertungsgrundlagen öffentlich zur Verfügung.

Quellen

Quelle: Handshake AI / McGill University

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

Claude-Nutzer in den USA deutlich wohlhabender als andere KI-Anwender

Apr. 27, 2026 | Allgemein, KI

Neue Umfrage: KI-Nutzung variiert stark nach Haushaltseinkommen.In Kürze80% der Claude-Nutzer leben in Haushalten mit >100.000 US$.Unter Gutverdienern ist ChatGPT mit 37% am beliebtesten.44% der Gutverdiener nutzen gar keine KI; Leistungsunterschiede können ökonomisch...

Palantir legt 22‑Thesen‑Manifest vor – Software als staatliche ‚Hard Power‘

Apr. 27, 2026 | Allgemein, KI

Palantir veröffentlicht ein 22‑Thesen‑Manifest, das Technologie als Grundlage nationaler Macht und konkrete staatliche Maßnahmen fordert.In KürzeManifest positioniert Palantir als sicherheitspolitischen Akteur und richtet sich an Politiker und BehördenForderungen:...

OpenAI bezahlt Expert:innen für Suche nach ChatGPT‑5.5‑Biosicherheits‑Jailbreak

Apr. 27, 2026 | Allgemein, KI

OpenAI lädt Expert:innen ein, gezielt Schutzlücken in ChatGPT 5.5 für gefährliche Bio‑Anfragen zu testen.In KürzeGesucht: ein "universal jailbreak" für fünf sensible BiosicherheitsfragenBewerbung 23.4.–22.6., Tests 28.4.–27.7., NDA PflichtPrämie bis 25.000 USD;...

Kann KI Junior‑Investmentbanker ersetzen? BankerToolBench zeigt klare Grenzen

In Kürze

Kann eine KI die Arbeit von Junior-Investmentbankern übernehmen?

Was im Benchmark steckt

Wie die Prüfung bewertet wurde

Die Ergebnisse im Überblick

Typische Fehlerbilder

Weiterentwicklung und Training

Einschränkungen des Benchmarks

Einordnung im Markt

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

Claude-Nutzer in den USA deutlich wohlhabender als andere KI-Anwender

Palantir legt 22‑Thesen‑Manifest vor – Software als staatliche ‚Hard Power‘

OpenAI bezahlt Expert:innen für Suche nach ChatGPT‑5.5‑Biosicherheits‑Jailbreak

Über uns

Dein Thema?

Pickert GmbH