Offener Benchmark prüft KI-Agenten an realen Junior‑Banker‑Aufgaben – viele Fehler, kaum sofort einsetzbare Ergebnisse.In Kürze100 Aufgaben, 5.700 EntwicklungsstundenGPT‑5.4 bestes Modell, nur 2% vollständig korrektHäufige Fehler: Formeln, Logik, Halluzinationen Kann eine KI die Arbeit von...




