LLM chinois : 61% du trafic OpenRouter et 17x moins chers

LLMActualités

LLM chinois : 61% du trafic OpenRouter et 17x moins chers

MiniMax, DeepSeek et Kimi trustent 61% des tokens sur OpenRouter en 2026. Analysez l'impact sur votre stratégie LLM d'entreprise.

Gabriel Morel

Auteur spécialisé veille IA, LLM et agents IA

12 avril 20265 min de lecture

Parler de ce sujet avec Webotit

En bref

En février 2026, les LLM chinois (MiniMax, DeepSeek, Kimi, GLM-5) captent 61% des tokens consommés sur OpenRouter — contre 1,2% en octobre 2024. MiniMax M2.5 coûte 0,30$/M tokens en entrée contre 5$/M pour Claude Opus, soit 17x moins cher à performances quasi-identiques sur SWE-bench.

De 1,2% à 61% en 18 mois : une bascule sans précédent

En octobre 2024, les modèles chinois représentaient 1,2% des tokens consommés sur OpenRouter (plateforme d'agrégation d'API LLM qui permet de comparer et utiliser des dizaines de modèles via une interface unique). En mars 2025, après le lancement de DeepSeek V3, ce chiffre a franchi les 10%. Au troisième trimestre 2025, Kimi K2 et MiniMax l'ont poussé au-delà de 25%.¹

Février 2026 : 61%. Les modèles chinois occupent les trois premières places du classement.²

Ce n'est pas un accident. C'est une stratégie. Les labos chinois (MiniMax, Zhipu AI, Moonshot AI, Alibaba Cloud) ont fait un choix clair : inonder le marché avec des modèles open-weight à prix cassés, puis monétiser via l'infrastructure et les services cloud.

Le résultat ? Un glissement massif dans la chaîne de valeur de l'IA. Les entreprises qui consomment des LLM via API migrent vers des fournisseurs qui facturent 10 à 20 fois moins cher. Et les performances suivent.

MiniMax M2.5 : le rapport qualité-prix qui embarrasse les géants

Regardons les chiffres de près.³

Modèle	Coût entrée ($/M tokens)	Coût sortie ($/M tokens)	SWE-bench Verified
Claude Opus 4.6	5,00	25,00	80,8%
GPT-5.4	2,50	—	~78%
MiniMax M2.5	0,30	1,10	80,2%
GLM-5	~0,40	~1,50	77,8%

MiniMax M2.5 (modèle développé par la startup chinoise MiniMax, spécialisée dans les LLM multimodaux) atteint 80,2% sur SWE-bench Verified. Claude Opus : 80,8%. L'écart : 0,6 point. La différence de prix : ×17.

Pour un DSI qui déploie un chatbot relation client traitant 1 million de requêtes par mois, la facture API passe de ~45 000$/mois (Claude) à ~2 600$/mois (MiniMax). À qualité perçue quasi-identique par l'utilisateur final.

La question n'est plus « les modèles chinois sont-ils assez bons ? ». Elle est devenue : « pourquoi payez-vous encore 17 fois plus ? »

Souveraineté des données : le vrai frein — et ses solutions

Répondons à l'objection évidente. Oui, MiniMax est chinois. Oui, les données transitent par des serveurs situés hors de l'UE. Et oui, le RGPD et les exigences de conformité sectorielle (ACPR pour l'assurance, HDS pour la santé) posent un problème réel.

Trois options concrètes pour les entreprises françaises :

API via OpenRouter (hébergement US) : acceptable pour des cas d'usage non sensibles, données anonymisées
Self-hosting : MiniMax et DeepSeek proposent des poids téléchargeables. Déploiement sur infrastructure française (OVHcloud, Scaleway). Conformité RGPD maîtrisée.
Architecture hybride : modèle chinois self-hosté pour le volume, modèle frontier (Claude, GPT-5) via API pour les cas complexes nécessitant des garanties contractuelles

Webotit.ai, spécialiste français de l'IA conversationnelle pour les ETI, conçoit ses architectures d'agents IA sur ce principe : le bon modèle au bon endroit, avec la bonne gouvernance. Un grand groupe mutualiste n'a pas les mêmes contraintes qu'un e-commerçant. L'architecture doit refléter ce niveau de nuance.

La guerre des prix ne fait que commencer

Alibaba a lancé Qwen3-Max et Qwen3.5-Medium en février 2026. Zhipu AI a poussé GLM-5 au sommet du classement BenchLM chinois. Kimi (Moonshot AI) génère désormais plus de revenus à l'international qu'en Chine.⁴

Et MiniMax n'a pas dit son dernier mot : le M2.7, sorti le 18 mars 2026, pousse encore les performances vers le haut.

Face à cette offensive, les labos américains réagissent. OpenAI a lancé le « Flex compute » — un tarif réduit de 30% sur les heures creuses. Google brade Gemini Flash à 0,30$/M tokens. Anthropic reste immobile sur ses prix, pariant sur la qualité et la confiance.

Résultat prévisible : les prix vont continuer de chuter. Le coût moyen par million de tokens a baissé de ~80% entre 2024 et 2026.³ Un contrat API signé aujourd'hui à 5$/M tokens sera obsolète dans 6 mois. Construisez votre architecture IA avec cette trajectoire en tête.

Ce qu'il faut retenir

Ce que ça change pour votre entreprise

Si vous dirigez la relation client d'un grand groupe mutualiste ou d'un e-commerçant français, cette guerre des prix vous concerne directement. Le coût de votre chatbot IA peut se diviser par 5 à 10 — si vous choisissez le bon fournisseur et la bonne architecture.

Mais le prix n'est pas tout. La latence, la conformité, le support technique, la capacité à fine-tuner sur vos données métier : ces critères restent déterminants. Un modèle à 0,30$/M tokens qui ne respecte pas la réglementation ACPR ne vaut rien pour un assureur.

L'enjeu n'est pas de passer au « tout chinois ». C'est de construire une stratégie multi-modèles qui exploite la compression des prix sans sacrifier la gouvernance. Les ETI qui structurent leur stack IA autour de cette logique dès maintenant capteront un avantage coût durable.

Vous voulez cartographier vos cas d'usage par modèle optimal ? Estimez votre ROI en 2 minutes.

Conclusion

Les LLM chinois ne sont plus des outsiders. Ce sont les modèles les plus utilisés au monde, par le volume. Et leur avance économique — ×17 moins cher pour des performances équivalentes — va forcer l'ensemble du marché à s'aligner.

Je suis convaincu que d'ici fin 2026, aucune ETI française sérieuse ne fonctionnera avec un seul fournisseur LLM. L'approche multi-modèles deviendra aussi naturelle que le multi-cloud l'est devenu pour l'infrastructure.

La vraie question pour un DSI français : pas « quel modèle est le meilleur ? » mais « combien de modèles dois-je orchestrer, et comment ? »

Découvrez comment orchestrer une équipe d'agents IA multi-modèles.

Questions frequentes

Les LLM chinois sont-ils conformes au RGPD pour une entreprise française ?

Via API (serveurs hors UE), non sans mesures complémentaires. En self-hosting sur infrastructure française (OVHcloud, Scaleway), les modèles open-weight comme MiniMax et DeepSeek deviennent conformes car les données ne quittent pas le territoire. L'architecture hybride self-host + API permet de combiner performance et conformité.

MiniMax M2.5 est-il vraiment aussi bon que Claude Opus ?

Sur SWE-bench Verified, MiniMax M2.5 atteint 80,2% contre 80,8% pour Claude Opus 4.6 — un écart de 0,6 point. Pour les interactions client standard (FAQ, suivi de dossier), la différence est imperceptible. Pour le raisonnement complexe multi-étapes, Claude conserve un avantage mesurable.

Quel LLM chinois choisir pour un chatbot d'entreprise en 2026 ?

MiniMax M2.5 pour le meilleur ratio qualité-prix en volume. DeepSeek V3.2 pour le raisonnement mathématique et logique. Qwen3-Max pour le multilinguisme avancé. Le choix dépend du cas d'usage, du budget et des exigences de conformité sectorielle.

Comment migrer vers un LLM chinois sans risque opérationnel ?

Commencez par un déploiement parallèle sur 10% du trafic non sensible. Mesurez la qualité perçue (CSAT, taux de résolution) pendant 4 à 6 semaines. Si les KPI sont stables, élargissez progressivement. Conservez le modèle frontier comme fallback pour les cas complexes.

Sources et references

LLM chinoisMiniMaxDeepSeekOpenRouterstratégie LLM