GLM-5, Kimi K2.5, DeepSeek V3.2 : les LLM chinois mènent
GLM-5, Kimi K2.5, DeepSeek V3.2 : les LLM chinois mènent
Analysez comment les LLM chinois open-weight dépassent GPT-5.4 sur les benchmarks et ce que ça implique pour votre stratégie IA multi-modèles.
Sommaire
- Les LLM chinois ne rattrapent plus. Ils mènent.
- Kimi K2.5 : le meilleur codeur du monde est chinois
- DeepSeek V3.2 : la licence MIT change tout
- La Chine mise sur l'open-weight. Les États-Unis ferment.
- Censure et souveraineté : le vrai débat
- Ce qu'il faut retenir
- Ce que ça change pour votre entreprise
- Conclusion
Parler de ce sujet avec Webotit
GLM-5 de Zhipu AI atteint un ELO de 1 451 sur Chatbot Arena, à égalité avec GPT-5.4. Kimi K2.5 de Moonshot AI affiche 76,8 % sur SWE-bench Verified et 99,0 sur HumanEval. DeepSeek V3.2, sous licence MIT, score 89,3 sur AIME 2025. Les LLM chinois open-weight dépassent désormais les modèles américains fermés sur la majorité des benchmarks.
Les LLM chinois ne rattrapent plus. Ils mènent.
Pendant des années, le récit était simple : OpenAI et Anthropic innovent, la Chine copie avec 6 mois de retard. Ce récit est mort.
GLM-5 (Reasoning) de Zhipu AI trône au sommet du classement open-weight avec un score de 82 sur les benchmarks composites — à égalité avec GPT-5.4.1 Sur Chatbot Arena, le standard de préférence humaine, GLM-5 atteint un ELO de 1 451. Kimi K2.5 suit à 1 447. Deux modèles chinois dans le top 3 mondial.
Ce n'est pas un accident. C'est une stratégie.
Kimi K2.5 : le meilleur codeur du monde est chinois
Moonshot AI a construit Kimi K2.5 comme un modèle nativement multimodal et agentique : 1 000 milliards de paramètres totaux, 32 milliards actifs, entraîné sur 15 000 milliards de tokens mixtes vision-texte.1
Les chiffres qui comptent :
- SWE-bench Verified : 76,8 % — supérieur à Claude Opus 4.6 (65,3 %) et GPT-5.4 (58,7 %)1
- HumanEval : 99,0 — le plus haut score jamais enregistré, tous modèles confondus1
- LiveCodeBench : 85 — performance élite en génération de code temps réel
Pour les équipes qui déploient des agents IA capables d'exécuter des tâches complexes, ces chiffres ne sont pas abstraits. Un modèle qui résout 76,8 % des bugs logiciels réels contre 58,7 % pour GPT-5.4, c'est un agent deux fois plus fiable en production.
DeepSeek V3.2 : la licence MIT change tout
DeepSeek V3.2 n'est pas le plus performant du trio. Il est le plus stratégique.
Score AIME 2025 : 89,3. GPQA Diamond : 79,9. Taux d'hallucination : 6,3 % — le plus bas du marché.2 Performant, fiable, et surtout : distribué sous licence MIT.
La licence MIT signifie que n'importe quelle entreprise française peut télécharger, modifier, déployer et commercialiser ce modèle sans restriction. Pas de licence « communautaire » ambiguë comme Llama. Pas de clause de taille d'entreprise. Pas de redevance.
Pour un grand groupe mutualiste qui veut héberger son LLM sur site pour des raisons RGPD, DeepSeek V3.2 devient le choix rationnel. 671 milliards de paramètres en Mixture-of-Experts, déployable sur 8 GPU H100.
La Chine mise sur l'open-weight. Les États-Unis ferment.
Le contraste est saisissant. Pendant que Meta abandonne l'open source avec Muse Spark (voir notre article du jour), les laboratoires chinois ouvrent tout.
MiniMax a fait son entrée en bourse à Hong Kong en janvier 2026. Son action a doublé le premier jour.3 Le marché valide la stratégie open-weight chinoise.
La raison ? L'open-weight est une arme de distribution massive. DeepSeek V3 a été téléchargé plus de 2 millions de fois sur Hugging Face. Chaque téléchargement crée un développeur familier avec l'architecture DeepSeek. Chaque développeur familier devient un prescripteur.
Pour les ETI françaises, la conséquence est directe : la dépendance à un fournisseur américain unique n'est plus justifiable. Les alternatives open-weight chinoises sont au même niveau — parfois au-dessus — sur les benchmarks. Et elles coûtent zéro en licence.
Censure et souveraineté : le vrai débat
Objection légitime : un modèle chinois, c'est un modèle censuré. Oui. Sur les sujets politiques (Tiananmen, Taiwan, Xinjiang), les modèles chinois refusent systématiquement de répondre.4
Mais pour un chatbot qui traite des demandes d'assurance ? Pour un agent qui qualifie des leads e-commerce ? La censure politique n'impacte pas les cas d'usage B2B. Zéro.
Le vrai risque est ailleurs : la dépendance technique. Si les États-Unis imposent de nouvelles sanctions sur l'export de modèles chinois — comme ils l'ont fait sur les puces — les entreprises qui auraient basé leur stack sur DeepSeek pourraient se retrouver coincées.
Notre recommandation : stratégie multi-modèles. DeepSeek V3.2 pour le self-hosting RGPD. Claude ou GPT pour les cas nécessitant un fournisseur sous juridiction occidentale. Webotit.ai, spécialiste français des chatbots et agents IA, déploie déjà cette approche multi-fournisseurs pour ses clients ETI et Grands Comptes.
Ce qu'il faut retenir
- GLM-5 = GPT-5.4 sur Chatbot Arena (ELO 1 451 vs 1 451) — le top mondial n'est plus exclusivement américain
- Kimi K2.5 domine le code : SWE-bench 76,8 %, HumanEval 99,0 — aucun modèle américain ne fait mieux
- DeepSeek V3.2 sous MIT : le meilleur ratio performance/liberté pour le self-hosting en entreprise
- MiniMax IPO doublée : le marché finance la stratégie open-weight chinoise
- Stratégie recommandée : multi-modèles (chinois open-weight + américain fermé) pour couvrir souveraineté et conformité
Ce que ça change pour votre entreprise
Si vous êtes DSI d'une ETI française dans l'assurance, la banque ou la santé, vous avez trois options :
- Rester sur GPT/Claude en API — performant, mais dépendant et coûteux en tokens.
- Self-hoster DeepSeek V3.2 sous MIT — souverain, performant, gratuit en licence, mais nécessite de l'infra GPU.
- Approche hybride — le choix rationnel. API pour le front-office, self-hosted pour les données sensibles.
Ne laissez pas le réflexe « modèle américain = meilleur » vous coûter 3× le prix nécessaire. Les benchmarks ont changé. Votre stratégie devrait aussi.
Conclusion
Les LLM chinois open-weight sont les meilleurs modèles disponibles en libre accès en avril 2026. Ignorer cette réalité par réflexe géopolitique est une erreur de DSI, pas une position de principe.
Vous voulez évaluer quel modèle convient à votre cas d'usage — et à quel coût ?
Estimez votre ROI en 2 minutes.
Questions frequentes
Les LLM chinois sont-ils vraiment meilleurs que GPT-5.4 ?
Sur les benchmarks de code (SWE-bench, HumanEval), oui. Kimi K2.5 dépasse GPT-5.4 de 18 points sur SWE-bench Verified. Sur les préférences humaines (Chatbot Arena), GLM-5 est à égalité avec GPT-5.4 à 1 451 ELO. La domination dépend du cas d'usage.
Peut-on déployer DeepSeek V3.2 en France en conformité RGPD ?
Oui. DeepSeek V3.2 est distribué sous licence MIT. Vous pouvez le télécharger, l'héberger sur vos serveurs en France, et le modifier librement. Aucune donnée ne transite vers la Chine si vous l'hébergez vous-même. La conformité RGPD dépend de votre infrastructure, pas du modèle.
Quel matériel faut-il pour héberger DeepSeek V3.2 ?
DeepSeek V3.2 utilise une architecture Mixture-of-Experts (671B paramètres totaux, ~37B actifs). Il tourne sur un cluster de 8 GPU H100 (80 Go VRAM chacun) avec quantification FP8. Le coût matériel est de l'ordre de 200 000–300 000 € pour un serveur dédié.
La censure des modèles chinois pose-t-elle problème en entreprise ?
Pour les cas d'usage B2B (relation client, qualification de leads, traitement de sinistres), la censure politique des modèles chinois n'a aucun impact. Elle concerne des sujets géopolitiques absents des interactions professionnelles. Le risque réel est la dépendance technique en cas de sanctions.