CAISI: Deepseek V4 Pro liegt rund acht Monate hinter US-Spitzen-KIs

Was CAISI geprüft hat

CAISI testete Deepseek V4 Pro in mehreren Fähigkeitsbereichen:

Cybersicherheit

Softwareentwicklung

Mathematik

Naturwissenschaften

abstraktes Denken

Dabei kommt die Behörde zu differenzierten Bewertungen: In Mathematik sei Deepseek V4 beinahe gleichauf mit den besten US-Modellen, in abstraktem Denken, Cybersicherheit und Softwareentwicklung zeige es jedoch Leistung auf dem Niveau des älteren GPT-5.

Konflikt mit Herstellerangaben

Deepseek selbst hatte in einem technischen Bericht ein anderes Bild gezeichnet und behauptet, mit Modellen wie Opus 4.6 oder GPT-5.4 auf Augenhöhe zu sein. CAISI hingegen berichtet in den internen Tests von schlechteren Ergebnissen als in Deepseeks eigener Darstellung. Damit klaffen Herstellerkommunikation und die US-Behörde messbar auseinander.

Preis-Leistungs-Wertung

Ein klarer Vorteil für Deepseek V4: die Kosten. Bei fünf von sieben Vergleichen war der Betrieb des Modells günstiger als beim vergleichbaren GPT-5.4 mini. Das Preisargument gewinnt an Bedeutung, weil KI-Modelle länger laufen, mehr Aufgaben übernehmen sollen und die Preise für Spitzensysteme tendenziell steigen.

Ökonomische Unsicherheit

Ökonom:innen und Forscher:innen warnen, dass es an robusten Messinstrumenten fehlt, um Produktivitätsgewinne durch KI verlässlich den Betriebskosten gegenüberzustellen. Nachgelagerte Effekte — etwa Lernen und Weiterbildung, Qualitätskontrollen oder Fehlerkorrektur — sind schwer zu quantifizieren. Deshalb kann ein günstigeres Modell mit ausreichender Leistung wirtschaftlich attraktiver sein als das leistungsstärkste, aber sehr teure System.

Wie OpenAI darauf reagiert

Bei OpenAI wirkt CEO Sam Altman zwiegespalten: Er spricht sich für günstigere und schnellere Modelle aus, legt aber zugleich großen Wert darauf, dass die Systeme „schlauer“ werden. Die Idee dahinter ist, dass leistungsfähigere Modelle sich selbst verbessern und so die Entwicklung beschleunigen könnten. OpenAI, Anthropic und auch verschiedene chinesische Hersteller berichten, dass ihre eigenen Modelle bereits zur Beschleunigung ihrer Entwicklungsprozesse beigetragen hätten.

Quellen

Quelle: Center for AI Standards and Innovation (CAISI)

Der ursprüngliche Artikel wurde hier veröffentlicht

Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.

KI-Modell erzielt bessere Erst-Triage als zwei internistische Oberärzt:innen

Mai 4, 2026 | Allgemein, KI

Studie: Sprachmodell übertrifft bei Erst-Triage zwei internistische Oberärzt:innen.In Kürzeo1: 67% exakte/nahe DiagnosenÄrzt:innen: 55% bzw. 50%Forscher warnen: prospektive Tests nötig Stell dir vor, ein Sprachmodell stellt in der Notaufnahme häufiger eine passende...

„This is fine“-Hund in KI‑Anzeige: Künstler droht mit Klage

Mai 4, 2026 | Allgemein, KI

Der „This is fine“-Comic wurde offenbar ohne Genehmigung in einer U‑Bahn‑Anzeige eines KI‑Startups genutzt.In KürzeKünstler KC Green nennt die Nutzung „Diebstahl“Artisan sagt, man habe Kontakt aufgenommen und Gespräche geplantPräzedenzfall Matt Furie zeigt:...

Musk: HW3‑Hardware in älteren Teslas reicht nicht für echtes FSD

Mai 4, 2026 | Allgemein, KI

Musk gesteht: HW3-Computer in älteren Teslas sind zu schwach für unbeaufsichtigtes Full‑Self‑Driving. Käufer sind verärgert, juristische Initiativen laufen.In KürzeHW3 hat nur rund ein Achtel der Speicherbandbreite von HW4Tesla bietet vergünstigte Upgrades;...

CAISI: Deepseek V4 Pro liegt rund acht Monate hinter US-Spitzen-KIs

In Kürze

Was CAISI geprüft hat

Konflikt mit Herstellerangaben

Unabhängige Messungen sagen etwas anderes

Preis-Leistungs-Wertung

Ökonomische Unsicherheit

Wie OpenAI darauf reagiert

💡Über das Projekt KI News Daily

Das könnte dich auch interessieren…

KI-Modell erzielt bessere Erst-Triage als zwei internistische Oberärzt:innen

„This is fine“-Hund in KI‑Anzeige: Künstler droht mit Klage

Musk: HW3‑Hardware in älteren Teslas reicht nicht für echtes FSD

Über uns

Dein Thema?

Pickert GmbH