DeepSeek V4 open source : 80,6% SWE-bench pour ÷7 le prix
DeepSeek V4 open source : 80,6% SWE-bench pour ÷7 le prix
DeepSeek V4-Pro sort sous licence MIT : 80,6% SWE-bench, 1,6T paramètres, 3,48$/M tokens contre 25$ pour Claude. L'open source rattrape les modèles fermés.
DeepSeek a publié V4-Pro et V4-Flash le 24 avril 2026 sous licence MIT. V4-Pro (1,6T paramètres, 49B actifs) atteint 80,6% sur SWE-bench Verified — à 0,2 point de Claude Opus 4.6 — pour 3,48$/M tokens en sortie contre 25$ chez Anthropic. Architecture hybride CSA/HCA : ÷4 les FLOPs, ÷10 le cache KV par rapport à V3.
80,6% SWE-bench sous licence MIT : le fait accompli
Le 24 avril 2026, DeepSeek a publié deux modèles : V4-Pro (1,6 trillion de paramètres, 49 milliards actifs) et V4-Flash (284 milliards de paramètres, 13 milliards actifs). Les deux sont sous licence MIT — pas Apache 2.0, MIT.1
La différence compte. MIT est la licence open source la plus permissive qui existe. Zéro restriction commerciale. Zéro obligation de contribution. Vous téléchargez les poids, vous déployez, vous facturez vos clients.
Sur SWE-bench Verified, le benchmark de référence pour la résolution autonome de bugs logiciels, V4-Pro atteint 80,6%.2 Claude Opus 4.6 est à 80,8%. L'écart : 0,2 point. Pour un modèle gratuit, déployable sur vos serveurs.
V4-Flash, la version légère, affiche 78% sur le même benchmark pour 0,14$/M tokens en sortie.2 Un dixième du prix de Claude Sonnet.
Les poids sont disponibles sur Hugging Face.3 Ce ne sont pas des promesses. C'est du code téléchargeable.
L'architecture hybride qui divise les coûts d'inférence
DeepSeek V4 introduit un mécanisme d'attention hybride combinant CSA (Compressed Sparse Attention — technique qui ne calcule l'attention que sur les tokens pertinents) et HCA (Heavily Compressed Attention — compression aggressive du contexte historique).2
Le modèle compresse intelligemment les informations qu'il garde en mémoire pendant une conversation longue. Les gains mesurés sur un contexte de 1 million de tokens :
- ÷4 les FLOPs par token (27% de V3)
- ÷10 le cache KV (10% de V3)
Traduction business : vous faites tourner V4-Pro sur une infrastructure 4 fois moins puissante que V3 pour une qualité équivalente. Ou vous servez 4 fois plus de requêtes simultanées sur le même matériel.
Pour un DSI qui chiffre un projet de chatbot ou d'agents IA, cette compression change le TCO. Un cluster de 8 GPU A100 qui servait 50 conversations simultanées avec V3 en gère 200 avec V4.
3,48$ contre 25$ : l'arbitrage que chaque DSI doit faire
Via l'API DeepSeek, V4-Pro coûte 3,48$/M tokens en sortie. Claude Opus 4.6 coûte 25$/M. GPT-5.4 se situe à 15$/M.2
Le ratio : ÷7 face à Claude, ÷4 face à GPT-5.4.
À performances quasi-identiques sur SWE-bench, la question n'est plus technique. Elle est politique et réglementaire. DeepSeek est une entreprise chinoise. Les données transitent-elles par des serveurs en Chine ? La licence MIT vous autorise à déployer sur vos propres serveurs en France — mais avez-vous l'infrastructure GPU pour le faire ?
Deux scénarios pour une ETI française :
Scénario 1 — API DeepSeek directe. Coût minimal, performance maximale. Le trafic traverse des serveurs chinois. Inadapté pour l'assurance (contraintes ACPR), la santé (HDS), ou tout secteur manipulant des données personnelles sensibles.
Scénario 2 — Déploiement on-premise MIT. Vous téléchargez les poids, vous les déployez sur une infrastructure souveraine (OVH, Scaleway, Outscale). Coût d'infrastructure supérieur, contrôle total sur les données. Le ratio prix/performance reste imbattable par rapport aux modèles fermés.
L'open source chinois à parité : pas un accident, une tendance
Il y a 18 mois, les modèles open source affichaient 15 à 20 points de retard sur les modèles fermés. Aujourd'hui, l'écart est de 0,2 point.2
DeepSeek V4 n'est pas isolé. GLM-5.1 a battu GPT-5.4 sur SWE-bench Pro sous licence MIT.4 Les modèles chinois captent 54% du trafic mondial sur OpenRouter, contre moins de 2% il y a 18 mois.5
Les labs chinois investissent massivement en architecture (MoE, attention hybride) pour compenser les restrictions américaines sur les puces. Le résultat : des modèles plus efficients qui tournent sur du matériel moins puissant. La contrainte a engendré l'innovation.
Pour les fournisseurs de modèles fermés — OpenAI, Anthropic, Google — la pression sur les prix ne fera que s'accentuer. Pour les entreprises utilisatrices, c'est une aubaine : le coût d'accès à l'IA frontière chute trimestre après trimestre.
DeepSeek V4 est plus intéressant que GPT-5.4 pour les ETI françaises qui veulent garder le contrôle de leur infrastructure. Non pas parce qu'il est meilleur — les deux sont au coude-à-coude — mais parce qu'il est libre et 4 fois moins cher en API.
Ce qu'il faut retenir
Ce que ça change pour votre entreprise
Si vous budgétez un projet de chatbot, callbot ou agents IA pour 2026-2027, DeepSeek V4 redessine la grille tarifaire.
Un leader français de l'e-commerce qui fait tourner 500 000 conversations par mois sur Claude dépense environ 125 000€ en tokens. Avec V4-Pro en API directe, la facture tombe à 18 000€. En déploiement on-premise, le coût se déplace vers l'infrastructure — mais reste inférieur de 40 à 60%.
Webotit.ai, spécialiste français de l'IA conversationnelle pour ETI et grands comptes, intègre des architectures multi-modèles : un modèle léger pour le tri et la qualification, un modèle lourd pour la résolution complexe. DeepSeek V4-Flash (0,14$/M) en qualification, V4-Pro (3,48$/M) en résolution : le combo divise les coûts d'inférence par 5 sans sacrifier la qualité.
Le déploiement on-premise nécessite des compétences MLOps. Comptez 2 à 4 ingénieurs dédiés et un budget GPU de 150K€ à 500K€ selon le volume. Simulez votre retour sur investissement.
Conclusion
DeepSeek V4 n'est pas un modèle "presque aussi bon" qu'on utilise faute de budget. C'est un modèle qui rivalise point par point avec Claude Opus 4.6 — et qui coûte 7 fois moins cher.
Nous pensons que les modèles open source pèseront plus de 50% des déploiements enterprise d'ici fin 2027. La licence MIT lève le dernier verrou juridique. Le souverain devient accessible.
La question n'est pas de choisir entre open source et closed source. C'est de construire une architecture multi-modèle qui utilise chacun là où il excelle.
Découvrez comment orchestrer des agents IA multi-modèles.
Questions frequentes
Quelle différence entre DeepSeek V4-Pro et V4-Flash ?
V4-Pro est le modèle complet : 1,6T paramètres (49B actifs), 80,6% SWE-bench, 3,48$/M tokens. V4-Flash est la version légère : 284B paramètres (13B actifs), 78% SWE-bench, 0,14$/M tokens. Les deux sont sous licence MIT avec l'architecture hybride CSA/HCA.
Peut-on déployer DeepSeek V4 en France sans risque RGPD ?
Oui, via le déploiement on-premise. La licence MIT permet d'héberger le modèle sur une infrastructure souveraine (OVH, Scaleway, Outscale) sans transmettre de données à DeepSeek. L'utilisation de l'API DeepSeek directe implique un transit par des serveurs chinois — déconseillé pour les données personnelles sensibles.
DeepSeek V4 est-il vraiment aussi performant que Claude Opus 4.6 ?
Sur SWE-bench Verified, V4-Pro atteint 80,6% contre 80,8% pour Claude Opus 4.6 — un écart de 0,2 point. Claude Opus 4.7, sorti le 16 avril 2026, monte à 87,6%. L'écart se creuse sur les tâches les plus complexes, mais reste marginal pour la majorité des cas d'usage enterprise.
Combien coûte un déploiement on-premise de DeepSeek V4 ?
Comptez entre 150K€ et 500K€ de budget GPU initial (8 à 32 GPU A100/H100), plus 2 à 4 ingénieurs MLOps. Le coût par token en on-premise est 30 à 50% inférieur à l'API Claude pour un volume supérieur à 100 millions de tokens par mois.