CAISI stuft Deepseek V4 Pro als deutlich hinter US-Modellen ein, kritisiert politische Tendenzen und lobt günstigere Betriebskosten.
In Kürze
- ~8 Monate Rückstand
- Mathe stark, Cybersicherheit schwach
- Günstiger Betrieb als GPT‑5.4
Die US-Behörde CAISI, Teil des NIST, hat dem neuen chinesischen KI-Modell Deepseek V4 Pro in internen Tests nur geringe Chancen gegen die führenden US-Modelle eingeräumt: Ihr Ergebnis lautet, das Modell liege ungefähr acht Monate hinter den Spitzensystemen aus den USA. CAISI kritisiert außerdem, dass manche Aussagen aus China politisch motiviert wirkten.
Was CAISI geprüft hat
CAISI testete Deepseek V4 Pro in mehreren Fähigkeitsbereichen:
- Cybersicherheit
- Softwareentwicklung
- Mathematik
- Naturwissenschaften
- abstraktes Denken
Dabei kommt die Behörde zu differenzierten Bewertungen: In Mathematik sei Deepseek V4 beinahe gleichauf mit den besten US-Modellen, in abstraktem Denken, Cybersicherheit und Softwareentwicklung zeige es jedoch Leistung auf dem Niveau des älteren GPT-5.
Konflikt mit Herstellerangaben
Deepseek selbst hatte in einem technischen Bericht ein anderes Bild gezeichnet und behauptet, mit Modellen wie Opus 4.6 oder GPT-5.4 auf Augenhöhe zu sein. CAISI hingegen berichtet in den internen Tests von schlechteren Ergebnissen als in Deepseeks eigener Darstellung. Damit klaffen Herstellerkommunikation und die US-Behörde messbar auseinander.
Unabhängige Messungen sagen etwas anderes
Mehrere unabhängige Messreihen widersprechen dem CAISI-Schluss, dass ein wachsender Rückstand bestehe. Laut diesen Untersuchungen bleibt der Abstand zwischen chinesischen und US-Modellen etwa konstant, statt zuzunehmen.
Preis-Leistungs-Wertung
Ein klarer Vorteil für Deepseek V4: die Kosten. Bei fünf von sieben Vergleichen war der Betrieb des Modells günstiger als beim vergleichbaren GPT-5.4 mini. Das Preisargument gewinnt an Bedeutung, weil KI-Modelle länger laufen, mehr Aufgaben übernehmen sollen und die Preise für Spitzensysteme tendenziell steigen.
Ökonomische Unsicherheit
Ökonom:innen und Forscher:innen warnen, dass es an robusten Messinstrumenten fehlt, um Produktivitätsgewinne durch KI verlässlich den Betriebskosten gegenüberzustellen. Nachgelagerte Effekte — etwa Lernen und Weiterbildung, Qualitätskontrollen oder Fehlerkorrektur — sind schwer zu quantifizieren. Deshalb kann ein günstigeres Modell mit ausreichender Leistung wirtschaftlich attraktiver sein als das leistungsstärkste, aber sehr teure System.
Wie OpenAI darauf reagiert
Bei OpenAI wirkt CEO Sam Altman zwiegespalten: Er spricht sich für günstigere und schnellere Modelle aus, legt aber zugleich großen Wert darauf, dass die Systeme „schlauer“ werden. Die Idee dahinter ist, dass leistungsfähigere Modelle sich selbst verbessern und so die Entwicklung beschleunigen könnten. OpenAI, Anthropic und auch verschiedene chinesische Hersteller berichten, dass ihre eigenen Modelle bereits zur Beschleunigung ihrer Entwicklungsprozesse beigetragen hätten.
Quellen
- Quelle: Center for AI Standards and Innovation (CAISI)
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




