DeepSeek rend son rabais de 75 % permanent sur V4-Pro

LLMActualités

DeepSeek rend son rabais de 75 % permanent sur V4-Pro

DeepSeek transforme sa remise de 75 % en prix de liste permanent sur V4-Pro (22 mai 2026). Ce que cela change pour une stratégie multi-LLM en ETI.

Louis-Clément Schiltz

CEO & Founder, Webotit.ai

25 mai 20269 min de lecture

Parler de ce sujet avec Webotit

En bref

Le 22 mai 2026, DeepSeek a rendu permanent son rabais de 75 % sur V4-Pro : 0,87 $ par million de tokens en sortie contre 3,48 $ au lancement, et 0,003625 $ en cache hit. Pour une PME ou ETI française, un prix bas devenu permanent n'est plus un test de laboratoire : c'est un paramètre d'achat qui justifie de raisonner en stack multi-LLM par tâche, pas en fournisseur unique.

Un prix promotionnel devenu prix de liste

Le 22 mai 2026, DeepSeek a annoncé que la remise de 75 % en cours sur l'API V4-Pro, initialement programmée pour expirer le 31 mai, devenait son prix de liste officiel.¹² Concrètement, l'entrée passe à 0,435 $ par million de tokens en cache miss, 0,003625 $ en cache hit, et la sortie à 0,87 $, contre 1,74 $ et 3,48 $ au lancement du modèle quatre semaines plus tôt.³

Ce détail compte. Tant que la baisse était promotionnelle, une DSI pouvait tester DeepSeek en laboratoire sans rien changer à sa stratégie d'achat. Un rabais qui devient socle change la nature de l'arbitrage. Le prix bas est désormais le prix de référence du marché, pas une opération marketing calibrée pour gagner trois mois de couverture presse.

L'écart avec les acteurs occidentaux ne se lit plus en pourcentages, mais en ordres de grandeur. Selon les benchmarks d'Artificial Analysis relayés par CNBC, faire tourner une même charge d'évaluation coûte 4 811 $ sur le modèle le plus capable d'Anthropic (Claude), 3 357 $ sur celui d'OpenAI (ChatGPT) et 1 071 $ sur DeepSeek.⁴ Soit un Claude environ 4,5 fois plus cher que DeepSeek sur la même tâche. Cet écart n'est plus une anomalie de courbe. C'est le nouveau plancher commercial.

Pourquoi l'écart ne va pas se résorber avant 12 à 18 mois

Une question revient en CODIR : « Si DeepSeek baisse à 0,87 $, Anthropic et OpenAI vont s'aligner. Pourquoi bouger maintenant ? »

La réponse tient en trois faits datés.

Anthropic a bouclé une Série G de 30 milliards de dollars à 380 milliards de valorisation post-money en février 2026, menée par GIC et Coatue.⁵ Le 22 mai, Bloomberg rapporte que l'entreprise prépare un tour supplémentaire dépassant 30 milliards qui viserait 900 milliards.⁶ OpenAI a déposé son dossier d'introduction confidentiel auprès de la SEC le 22 mai également, pour une cotation visée au quatrième trimestre 2026 dans une fourchette de 852 à 1 000 milliards de dollars.⁷

Or, ces deux entreprises construisent leur argumentaire pré-IPO sur un postulat simple : un moat de capacité et de marge sur le segment entreprise. CNBC le formule sans détour : la décote chinoise menace directement les valorisations attendues, parce qu'elle érode exactement le terrain où OpenAI et Anthropic doivent défendre leur prix.⁴

Conséquence pratique pour une PME ou une ETI française. Pendant les 12 à 18 mois qui viennent, ni Anthropic ni OpenAI n'ont un intérêt évident à valider un alignement public sur les prix DeepSeek : cela fragiliserait le récit servi aux investisseurs. Ils baisseront probablement, mais sur des segments choisis, par paliers, et avec contrepartie d'engagement.

C'est le moment utile pour une PME ou une ETI. Pas pour migrer en bloc, mais pour poser calmement la question d'une stack multi-LLM par tâche.

Multi-LLM par tâche : la règle de routage 60-30-10

Le piège, en 2026, est de raisonner « quel modèle on signe » au lieu de « quelle tâche envoie quoi ». Une PME qui choisit un seul fournisseur s'exposera mécaniquement au prochain reprice. L'approche défendable est un routage par criticité métier.

Une règle de cadrage qui tient en COMEX : 60 % du volume sur le modèle le moins cher capable de traiter la tâche, 30 % sur un modèle premium pour le critique, 10 % sur un modèle souverain européen pour ce qui touche aux données régulées ou stratégiques.

Sur un chatbot relation client, cela peut se lire ainsi, à titre d'illustration :

Les demandes répétitives — horaires, suivi de commande, FAQ, prise de rendez-vous — partent sur un modèle à bas coût comme DeepSeek V4 Flash ou V4-Pro selon la complexité, avec un cache de réponses agressif.
Les demandes complexes — réclamation, litige, contrat — partent sur un modèle premium type Claude Sonnet ou GPT-5.5, parce qu'on accepte de payer plus cher pour réduire le risque d'erreur.
Les demandes qui touchent à des données sensibles (KYC, dossier médical, contrat ACPR) partent sur un modèle souverain comme Mistral Medium 3.5 en SaaS hébergé en France ou en self-hosted, pour ne pas faire transiter de PII via un acteur extra-UE.

La condition technique : une couche d'orchestration qui décide en temps réel, mesure la qualité par segment de trafic et bascule un volume entier si un fournisseur défaille. C'est exactement l'objet d'une démarche d'orchestration d'agents IA métier, le métier d'un acteur français de l'IA conversationnelle comme Webotit.

Cette couche doit aussi se traduire en chantiers opérationnels : chatbot entreprise pour les flux écrits, callbot IA pour la voix, mailbot IA pour l'email entrant, et ROI agent IA pour arbitrer le coût par tâche. La baisse DeepSeek ne vaut quelque chose que si elle fait baisser le coût d'un workflow client complet, pas seulement le coût d'un token.

Ce que ça change pour une entreprise française

Aucun chiffre client réel n'est nécessaire pour saisir l'effet : il suffit de raisonner au conditionnel, secteur par secteur.

Un assureur soumis à l'ACPR. Supposons un agent conversationnel qui tourne aujourd'hui à 100 % sur un modèle premium unique. En basculant les demandes répétitives vers un modèle à bas coût, en gardant le premium pour les réclamations et en confinant les dossiers sensibles sur un modèle souverain, la part « modèle » de la facture peut mécaniquement baisser — dans quelle proportion, seul un test sur trafic réel le dira. Le vrai sujet n'est pas le pourcentage affiché : c'est l'éligibilité réglementaire du segment routé vers DeepSeek, qui interdit en pratique d'y envoyer des données identifiantes. Pour un assureur, cela suppose une couche de pseudonymisation avant routage et une journalisation complète de ce qui sort vers où. Ce n'est pas un changement de prompt, c'est un chantier d'ingénierie et de conformité.

Une banque privée avec des callbots entrants. La voix temps réel s'appuie sur des modèles speech-to-speech qui sortent d'un autre catalogue : la baisse DeepSeek ne touche pas directement ce moteur. En revanche, la couche de raisonnement post-appel — résumé, qualification, création de tâche dans le CRM — peut basculer sur un modèle à bas coût comme V4-Pro. L'économie potentielle dépend entièrement du volume et du mix réels ; ce qui est certain, c'est que le sujet mérite d'être posé en COMEX, pas enterré.

Une direction e-commerce. Le SAV multicanal est un centre de coût. Une règle 60-30-10 appliquée au chatbot d'automatisation du support client et au mailbot de qualification des e-mails entrants réduit la part LLM de la facture. Mais le gain le plus intéressant n'est pas comptable : quand le coût marginal d'un contact traité par l'IA baisse, la DSI peut accepter d'ouvrir l'agent à des cas plus complexes — relance proactive, prévention de churn, post-achat. C'est l'effet d'élargissement du périmètre, plus structurant que le pur sourcing.

Ces trois lectures restent hypothétiques par construction : les seules quantifications solides viennent d'exemples publics. CNBC rapporte ainsi que le CEO de la startup Lindy a basculé 100 % de son trafic depuis Claude vers DeepSeek et a vu « la courbe de coût s'effondrer ».⁴ C'est un cas revendiqué publiquement, pas une projection — et c'est précisément le type de preuve qu'il faut exiger avant d'engager un changement de stack.

Trois vigilances opérationnelles avant le COMEX

Trois points qu'un DSI doit cadrer avant de signer un changement de stack.

D'abord, la souveraineté des données. DeepSeek est un acteur chinois. Pour une banque ACPR, un assureur, un OIV ou un opérateur santé HDS, envoyer du contenu identifiant via l'API publique DeepSeek est juridiquement risqué, indépendamment du prix. Trois options sérieuses : pseudonymisation systématique en amont du routage, déploiement du modèle en self-hosted sur infrastructure européenne (les poids V4 sont sous licence MIT), ou interdiction nette d'envoyer certains segments vers DeepSeek. Ce n'est pas une opinion politique, c'est une exigence opposable.

Ensuite, la dépendance opérationnelle. Une stack multi-LLM ne tient que si elle est instrumentée. Sans observabilité par modèle, sans mesure du score qualité par segment de trafic, sans alerte sur les bascules, vous remplacez un risque tarifaire par un risque de qualité silencieuse. L'étude Sinch de mai 2026 rappelle que 74 % des entreprises ayant déployé un agent IA de service client l'ont retiré en production — pas pour le coût LLM, mais pour défaut d'intégration et de mesure.⁸ Le routage par tâche n'a de valeur que si vous savez en sortir.

Enfin, le calendrier. Les baisses qui viendront côté Anthropic et OpenAI seront vraisemblablement annoncées de façon ciblée, en parallèle de leur parcours pré-IPO. Un directeur des achats qui documente l'arbitrage dès maintenant peut préparer un engagement de volume conditionnel sur DeepSeek et s'en servir comme levier de renégociation à la prochaine revue de contrat Anthropic ou OpenAI. L'objectif n'est pas de courir après une échéance artificielle, mais de garder l'initiative sur le sujet avant que les conditions de marché ne se figent.

Pour estimer le retour sur investissement d'un agent IA multi-LLM sur vos volumes réels, l'exercice se fait avec une période de mesure sur trafic réel, pas sur des hypothèses.

Ce qu'il faut retenir

Conclusion

La baisse permanente de DeepSeek n'est pas une bonne nouvelle ponctuelle. C'est un signal sur la structure de marché des LLM. Le prix est désormais une variable d'achat, pas un postulat de roadmap fournisseur.

L'arbitrage qui se joue en CODIR n'est pas « DeepSeek ou Claude ». C'est « comment je construis une stack qui tient si demain un fournisseur double ses prix ou si un autre disparaît ». La règle de routage par tâche est la réponse opérationnelle la plus robuste. Le reste, ce sont des paris.

Vous voulez cadrer une stack multi-LLM par tâche pour vos agents IA métier ou pour absorber les pics d'appels avec un callbot ? Parlez à un expert Webotit.

Questions frequentes

DeepSeek V4-Pro est-il vraiment utilisable en production pour une entreprise française ?

Oui sur le segment qui ne traite pas de données régulées ou identifiantes : FAQ, orientation, support technique générique, traitement de texte interne, qualification de contenu public. Non pour les données ACPR, HDS, OIV ou couvertes par un secret professionnel sans pseudonymisation en amont ou déploiement self-hosted sur infrastructure européenne. Les poids V4 sont sous licence MIT, ce qui autorise le self-hosted, mais demande une vraie ingénierie d'inférence.

Quel est le prix exact de DeepSeek V4-Pro après le 22 mai 2026 ?

0,435 $ par million de tokens en cache miss, 0,003625 $ en cache hit et 0,87 $ par million de tokens en sortie, contre 1,74 $ et 3,48 $ au lancement du modèle le 24 avril 2026. La remise de 75 % qui devait expirer le 31 mai est devenue le prix de liste permanent.

Anthropic et OpenAI vont-ils s'aligner sur les prix DeepSeek ?

Pas publiquement à court terme. Anthropic prépare une nouvelle levée visant 900 milliards de dollars de valorisation et OpenAI a déposé son dossier d'IPO le 22 mai 2026 pour une cotation au quatrième trimestre. Les deux entreprises ont besoin de défendre leur marge auprès des investisseurs pendant leur parcours d'introduction. Des baisses viendront probablement, mais ciblées et conditionnelles à des engagements de volume, d'où l'intérêt pour une ETI de garder l'initiative sur le sujet dès maintenant.

Comment construire une stack multi-LLM par tâche sans casser la qualité ?

Trois conditions techniques. Une couche d'orchestration qui choisit le modèle par type de demande, avec règles de bascule explicites. Un cache de réponses sur les 30 à 40 % de questions répétées, pour faire chuter le coût d'inférence réel. Une observabilité par modèle qui mesure la qualité, la latence et le coût par segment de trafic, avec alerte si un modèle dérive. Sans ces trois briques, le multi-LLM se traduit par une qualité instable et une fausse économie.

Quelle est la différence entre la baisse DeepSeek et la guerre des prix LLM de 2025 ?

La guerre des prix de 2025 a été une suite de remises promotionnelles et de modèles « mini » à bas coût, mais les modèles haut de gamme — GPT-4, Claude Opus, Gemini Pro — restaient à un prix plancher élevé. En 2026, DeepSeek transforme une promotion en prix de liste permanent sur un modèle qui rivalise avec ces hauts de gamme sur les benchmarks de raisonnement et de code. Ce n'est plus une bataille entre modèles d'entrée. C'est un repositionnement de la frontière premium.

Sources et references

DeepSeek V4guerre des prix LLMmulti-LLMETI FranceAnthropicOpenAI

Articles associés

LLM

DeepSeek V4 sort à 0,14$/M tokens : la guerre des prix LLM

DeepSeek V4 Pro et Flash sortent en open source. À 0,14$/M tokens, le coût d'inférence chute de ÷35 face à GPT-5.5 pour les agents IA.

Lire

LLM

GPT-5.4 vs Gemini 3.1 : la guerre des prix LLM profite aux ETI

Analysez la chute de 80% des prix API des LLM en 2026 et son impact concret sur les projets chatbot et agents IA des entreprises françaises.

Lire

Illustration éditoriale : Bpifrance choisit Mistral pour ses collaborateurs, signal souverain pour les PME et ETI

LLM

Bpifrance choisit Mistral : signal souverain pour PME et ETI

Bpifrance déploie Le Chat de Mistral à tous ses collaborateurs. Pourquoi ce signal public change l'arbitrage IA des PME et ETI françaises en 2026.

Lire