Coinbase stellt intern auf GLM 5.2 und Kimi 2.7 um, halbiert KI‑Kosten trotz steigender Token‑Nutzung.
In Kürze
- Default: GLM 5.2 & Kimi 2.7
- Caching erhöht Trefferquote 5→60%
- Agenten treiben Tokenverbrauch
Coinbase stellt intern auf chinesische KI-Modelle um — Kosten halbiert, Nutzung steigt
Coinbase hat seine internen KI-Standards auf chinesische Modelle umgestellt: GLM 5.2 und Kimi 2.7 sind jetzt die Default-Optionen. Entwickler in der Firma dürfen nach wie vor jedes Modell wählen, heißt es von Coinbase — praktisch relevant ist das aber kaum: 91 Prozent der Kolleg:innen hatten ihre bisherigen Nutzungslimits zuvor sowieso nie ausgeschöpft.
Warum der Wechsel?
Ein klarer Sparauftrag. CEO Brian Armstrong sagt, die Rechnung stimme: Die Ausgaben seien halbiert worden, obwohl die Nutzung von sogenannten Tokens weiter ansteige. Tokens sind die Abrechnungseinheiten bei Sprachmodellen — kurz gesagt, je mehr Text das Modell verarbeitet oder erzeugt, desto mehr Tokens werden verbraucht.
Automatisches Routing, Caching, schlanker Kontext
Technisch setzt Coinbase auf ein automatisches Routing: Anfragen werden basierend auf Aufgabe, Preis und Caching an das jeweils passende Modell weitergeleitet.
- Aufgabe
- Preis
- Caching
Vor allem Caching bewirkt hier viel — die Trefferquote stieg von fünf auf 60 Prozent, nachdem Antworten zwischengespeichert wurden. Das spart Anfragen und damit Kosten.
Entwickler sollen außerdem den Kontext schlank halten und für neue Fragestellungen frische Sitzungen starten, eine Praxis, die oft als Context‑Engineering bezeichnet wird. So reduziert man unnötigen Tokenverbrauch und verbessert die Effizienz der Modelle.
Mehr Tokens — wegen agentischer Reasoning‑Modelle
Die Token‑Nutzung ist zuletzt deutlich gestiegen; Coinbase führt diesen Anstieg unter anderem auf das Auftauchen agentischer Reasoning‑Modelle zurück — Modelle, die selbstständig komplexe Planungsschritte ausführen, Beispiele wären GPT‑5.x‑Thinking oder Opus 4.5. Solche Modelle können deutlich mehr Tokens verbrauchen, weil sie intern viele Schritte und Zwischenergebnisse erzeugen.
Transparenz statt Limits
Coinbase macht den Verbrauch einzelner Entwickler transparent, beschränkt ihn aber nicht automatisch. Die Firma verlangt jedoch, dass höhere Ausgaben mit messbaren Effekten belegt werden. Das unterscheidet die aktuelle Regelung von früheren Incentives wie dem sogenannten „Tokenmaxxing“, bei dem hoher Tokenverbrauch intern als Anerkennung galt.
Breiterer Markttrend und Preisdruck
Der Wechsel bei Coinbase reiht sich in einen größeren Trend ein: Immer mehr Firmen testen chinesische Modelle als günstigere Alternative zu westlichen Anbietern. Ein Gründer von Lindy berichtete von ähnlichen Tests, und auch Snowflake prüft chinesische Optionen statt teurer Modelle von OpenAI oder Anthropic. Das erhöht den Preisdruck auf westliche KI‑Provider und könnte Geschäftsmodelle insbesondere im Vorfeld geplanter Börsengänge beeinflussen.
Marktdetails: OpenAI vs. Anthropic
Berichten zufolge tobt ein Preiswettbewerb zwischen OpenAI und Anthropic. OpenAIs GPT‑5.6‑Sol kostet demnach genauso viel wie GPT‑5.5, soll aber token‑effizienter sein als Claudes Varianten „Fable“ und „Mythos“. Zudem bietet OpenAI zwei abgespeckte Varianten von GPT‑5.6 an: geringere Leistung, deutlich niedrigere Kosten — eine Antwort auf die Nachfrage nach günstigeren Inferenzoptionen.
Quellen
- Quelle: Coinbase
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




