Aller au contenu principal
Retour à Chinois
LLMActualités

DeepSeek -75 % permanent : repenser votre stack LLM en 90 jours

DeepSeek rend son rabais de 75 % permanent sur V4-Pro le 22 mai 2026. Voici comment une PME ou ETI française doit refondre sa stack LLM par tâche.

Louis-Clément Schiltz
CEO & Founder, Webotit.ai
9 min de lecture

Parler de ce sujet avec Webotit

En bref

Le 22 mai 2026, DeepSeek a transformé son rabais promotionnel de 75 % en prix de liste permanent sur V4-Pro : 0,87 $ par million de tokens en sortie contre 3,48 $ au lancement, et 0,003625 $ en cache hit. Pour une PME ou ETI française, ce n'est plus un test — c'est le moment de rebâtir une stack multi-LLM par tâche avant la roadshow OpenAI.

Un prix promotionnel devenu prix de liste

Le 22 mai 2026, DeepSeek a annoncé que la remise de 75 % en cours sur l'API V4-Pro, initialement programmée pour expirer le 31 mai, devenait son prix de liste officiel.12 Concrètement, l'entrée passe à 0,003625 $ par million de tokens en cache hit et la sortie à 0,87 $, contre une fourchette de 0,0145 $ à 3,48 $ au lancement du modèle quatre semaines plus tôt.3

Ce détail compte. Tant que la baisse était promotionnelle, une DSI pouvait tester DeepSeek en laboratoire sans rien changer à sa stratégie d'achat. Un rabais qui devient socle change la nature de l'arbitrage. Le prix bas est désormais le prix de référence du marché, pas une opération marketing chinoise pour gagner trois mois de couverture presse.

L'écart avec les acteurs occidentaux ne se lit plus en pourcentages, mais en ordres de grandeur. Selon les benchmarks d'Artificial Analysis relayés par CNBC, faire tourner une charge d'évaluation complète coûte 4 811 $ sur Claude, 3 357 $ sur ChatGPT et 1 071 $ sur DeepSeek.4 Soit un Claude environ 4,5 fois plus cher que la meilleure alternative chinoise sur la même tâche. Cet écart n'est plus une anomalie de courbe. C'est le nouveau plancher commercial.

Pourquoi l'écart ne va pas se résorber avant 12 à 18 mois

Une question revient en CODIR : « Si DeepSeek baisse à 0,87 $, Anthropic et OpenAI vont s'aligner. Pourquoi bouger maintenant ? »

La réponse tient en trois faits datés.

Anthropic vient de boucler une Série G de 30 milliards de dollars à 380 milliards de valorisation post-money en février 2026, menée par GIC et Coatue.5 Le 22 mai, Bloomberg rapporte que l'entreprise prépare un tour supplémentaire dépassant 30 milliards qui viserait 900 milliards.6 OpenAI a déposé son dossier d'introduction confidentiel auprès de la SEC le 22 mai également, pour une cotation visée au quatrième trimestre 2026 dans une fourchette de 852 à 1 000 milliards de dollars.7

Or, ces deux entreprises construisent leur argumentaire pré-IPO sur un postulat simple : un moat de capacité et de marge sur le segment entreprise. CNBC le formule sans détour : la décote chinoise menace directement les valorisations attendues, parce qu'elle érode exactement le terrain où OpenAI et Anthropic doivent défendre leur prix.4

Conséquence pratique pour une PME ou une ETI française. Pendant les 12 à 18 mois qui viennent, ni Anthropic ni OpenAI n'ont intérêt à valider un alignement public sur les prix DeepSeek. Cela casserait le récit servi aux investisseurs. Ils baisseront, mais sur des segments choisis, par paliers, et avec contrepartie d'engagement.

C'est la fenêtre opérationnelle de la PME et de l'ETI. Pas pour migrer en bloc, pour rebâtir une stack multi-LLM par tâche.

Multi-LLM par tâche : la règle de routage 60-30-10

Le piège, en 2026, est de raisonner « quel modèle on signe » au lieu de « quelle tâche envoie quoi ». Une PME qui choisit un seul fournisseur s'exposera mécaniquement au prochain reprice. L'approche défendable est un routage par criticité métier.

Une règle de cadrage qui tient en COMEX : 60 % du volume sur le modèle le moins cher capable de traiter la tâche, 30 % sur un modèle premium pour le critique, 10 % sur un modèle souverain européen pour ce qui touche aux données régulées ou stratégiques.

Concrètement, sur un chatbot relation client à 12 000 contacts par mois :

  • Les 60 % de demandes répétitives — horaires, suivi de commande, FAQ, prise de rendez-vous — partent sur DeepSeek V4 Flash ou V4-Pro selon la complexité, avec un cache de réponses agressif.
  • Les 30 % de demandes complexes — réclamation, litige, contrat — partent sur Claude Sonnet ou GPT-5.5, parce qu'on accepte de payer plus cher pour réduire le risque d'erreur.
  • Les 10 % qui touchent à des données sensibles (KYC, dossier médical, contrat ACPR) partent sur Mistral Medium 3.5 en SaaS hébergé en France ou en self-hosted, pour ne pas faire transiter de PII via un acteur extra-UE.

La condition technique : une couche d'orchestration qui décide en temps réel, mesure la qualité par segment de trafic et bascule un volume entier si un fournisseur défaille. C'est exactement le métier d'orchestrer une équipe d'agents IA métier chez Webotit.

Cette couche doit aussi se traduire en chantiers opérationnels : chatbot entreprise pour les flux écrits, callbot IA pour la voix, mailbot IA pour l'email entrant, et ROI agent IA pour arbitrer le coût par tâche. La baisse DeepSeek ne vaut quelque chose que si elle fait baisser le coût d'un workflow client complet, pas seulement le coût d'un token.

Ce que ça change pour une entreprise française

Trois cas concrets, vus de la DSI ou du COMEX.

Cas 1 — Assureur ETI ACPR, 1 500 collaborateurs, 18 000 contacts SAV par mois. Aujourd'hui, l'agent IA conversationnel tourne à 100 % sur Claude Sonnet 4.6. Coût par contact : environ 0,12 € en moyenne, soit 2 160 € par mois côté tokens, hors infrastructure. Avec un routage 60 % DeepSeek V4-Pro (questions répétitives) + 30 % Claude Sonnet (réclamations) + 10 % Mistral Medium 3.5 (dossiers sensibles), la facture tokens chute à environ 850 € par mois, soit 60 % d'économie sur la couche modèle. Reste à valider l'éligibilité ACPR sur le segment DeepSeek, qui interdit en pratique d'y envoyer des données identifiantes. Pour un assureur, cela suppose une couche de pseudonymisation avant routage et une journalisation complète de ce qui sort vers où. Ce n'est pas un sujet trivial. C'est un chantier de quatre à six semaines, pas un changement de prompt.

Cas 2 — Banque privée 8 000 collaborateurs, callbots entrants 24/7 pour la prise de rendez-vous et la qualification. La voix est aujourd'hui adossée à GPT Realtime ou Mistral Voxtral. Le coût d'inférence par minute reste élevé. La baisse DeepSeek ne touche pas directement le moteur voix temps réel — ces modèles speech-to-speech sortent d'un autre catalogue. Mais la couche de raisonnement post-appel (résumé, qualification, création de tâche dans le CRM) peut basculer sur V4-Pro pour 70 à 80 % d'économie. Pour un volume de 25 000 appels par mois, cela représente plusieurs milliers d'euros annuels, et surtout une fenêtre pour libérer du budget vers l'enrichissement métier au lieu de payer le moteur. Cela vaut la peine de poser le sujet en COMEX cette semaine, pas dans trois mois.

Cas 3 — Direction e-commerce d'un retailer français, 300 collaborateurs, 12 000 contacts par mois sur chat, e-mail et téléphone. Le SAV est le centre de coût. La règle 60-30-10 appliquée au chatbot d'automatisation du support client et au mailbot de qualification des e-mails entrants divise la facture LLM par trois sur 12 mois. Mais le vrai gain n'est pas là. Le vrai gain est que la DSI peut maintenant accepter d'ouvrir l'agent à des cas plus complexes — relance proactive, prévention de churn, post-achat — parce que le coût marginal d'un contact traité par l'IA s'écroule. C'est l'effet d'élargissement du périmètre, pas le pur sourcing.

Trois vigilances opérationnelles avant le COMEX

Trois points qu'un DSI doit cadrer avant de signer un changement de stack.

D'abord, la souveraineté des données. DeepSeek est un acteur chinois. Pour une banque ACPR, un assureur, un OIV ou un opérateur santé HDS, envoyer du contenu identifiant via l'API publique DeepSeek est juridiquement risqué, indépendamment du prix. Trois options sérieuses : pseudonymisation systématique en amont du routage, déploiement du modèle en self-hosted sur infrastructure européenne (les poids V4 sont sous licence MIT), ou interdiction nette d'envoyer certains segments vers DeepSeek. Ce n'est pas une opinion politique, c'est une exigence opposable.

Ensuite, la dépendance opérationnelle. Une stack multi-LLM ne tient que si elle est instrumentée. Sans observabilité par modèle, sans mesure du score qualité par segment de trafic, sans alerte sur les bascules, vous remplacez un risque tarifaire par un risque de qualité silencieuse. L'étude Sinch de mai 2026 rappelle que 74 % des entreprises ayant déployé un agent IA de service client l'ont retiré en production — pas pour le coût LLM, mais pour défaut d'intégration et de mesure.8 Le routage par tâche n'a de valeur que si vous savez en sortir.

Enfin, le calendrier. Les baisses qui viendront côté Anthropic et OpenAI seront annoncées d'ici la fin du troisième trimestre, en parallèle de la roadshow OpenAI. Si vous attendez, vous perdez la fenêtre de renégociation. Si vous bougez en juin-juillet, votre directeur des achats peut documenter l'arbitrage, signer un engagement de volume conditionnel sur DeepSeek et utiliser ce levier pour décrocher 15 à 25 % de remise sur le contrat Anthropic ou OpenAI à la prochaine revue. Ce levier ne sera plus disponible une fois les annonces tombées.

Pour estimer le retour sur investissement d'un agent IA multi-LLM sur vos volumes réels, l'exercice se fait en quatre à six semaines avec une période de mesure sur trafic réel, pas sur des hypothèses.

Ce qu'il faut retenir

Conclusion

La baisse permanente de DeepSeek n'est pas une bonne nouvelle ponctuelle. C'est un signal sur la structure de marché des LLM. Le prix est désormais une variable d'achat, pas un postulat de roadmap fournisseur.

L'arbitrage qui se joue en CODIR cette semaine n'est pas « DeepSeek ou Claude ». C'est « comment je construis une stack qui tient si demain un fournisseur double ses prix ou si un autre dépose le bilan ». La règle de routage par tâche est la seule réponse opérationnelle. Le reste, ce sont des paris.

Vous voulez cadrer une stack multi-LLM par tâche pour vos agents IA métier ou pour absorber les pics d'appels avec un callbot ? Parlez à un expert Webotit.

Questions frequentes

DeepSeek V4-Pro est-il vraiment utilisable en production pour une entreprise française ?

Oui sur le segment qui ne traite pas de données régulées ou identifiantes : FAQ, orientation, support technique générique, traitement de texte interne, qualification de contenu public. Non pour les données ACPR, HDS, OIV ou couvertes par un secret professionnel sans pseudonymisation en amont ou déploiement self-hosted sur infrastructure européenne. Les poids V4 sont sous licence MIT, ce qui autorise le self-hosted, mais demande une vraie ingénierie d'inférence.

Quel est le prix exact de DeepSeek V4-Pro après le 22 mai 2026 ?

0,003625 $ par million de tokens en cache hit, 0,87 $ par million de tokens en sortie, contre une fourchette de 0,0145 $ à 3,48 $ au lancement du modèle le 24 avril 2026. La remise de 75 % qui devait expirer le 31 mai est devenue le prix de liste permanent.

Anthropic et OpenAI vont-ils s'aligner sur les prix DeepSeek ?

Pas publiquement à court terme. Anthropic boucle une nouvelle levée à 900 milliards de dollars de valorisation et OpenAI a déposé son dossier d'IPO le 22 mai 2026 pour une cotation au quatrième trimestre. Les deux entreprises ont besoin de défendre leur marge auprès des investisseurs jusqu'à la roadshow. Les baisses viendront, mais ciblées et conditionnelles à des engagements de volume — d'où la fenêtre de renégociation des 90 prochains jours pour les ETI.

Comment construire une stack multi-LLM par tâche sans casser la qualité ?

Trois conditions techniques. Une couche d'orchestration qui choisit le modèle par type de demande, avec règles de bascule explicites. Un cache de réponses sur les 30 à 40 % de questions répétées, pour faire chuter le coût d'inférence réel. Une observabilité par modèle qui mesure la qualité, la latence et le coût par segment de trafic, avec alerte si un modèle dérive. Sans ces trois briques, le multi-LLM se traduit par une qualité instable et une fausse économie.

Quelle est la différence entre la baisse DeepSeek et la guerre des prix LLM de 2025 ?

La guerre des prix de 2025 a été une suite de remises promotionnelles et de modèles « mini » à bas coût, mais les modèles haut de gamme — GPT-4, Claude Opus, Gemini Pro — restaient à un prix plancher élevé. En 2026, DeepSeek transforme une promotion en prix de liste permanent sur un modèle qui rivalise avec ces hauts de gamme sur les benchmarks de raisonnement et de code. Ce n'est plus une bataille entre modèles d'entrée. C'est un repositionnement de la frontière premium.

Sources et references

  1. [1]Reuters via TradingView — China's DeepSeek to make permanent 75% price cut on flagship V4-Pro AI model (23 mai 2026)
  2. [2]Engadget — DeepSeek permanently reduces the price of its flagship V4 model by 75 percent
  3. [3]DeepSeek API Docs — Models & Pricing (V4-Pro et V4-Flash, prix officiels)
  4. [4]CNBC — Cheap AI could derail OpenAI and Anthropic's IPOs (20 mai 2026, benchmarks Artificial Analysis)
  5. [5]Anthropic — Series G de 30 milliards à 380 milliards post-money (février 2026)
  6. [6]Bloomberg — Anthropic to Close Over 30 Billion Round at 900 Billion Valuation (22 mai 2026)
  7. [7]CNBC — OpenAI to confidentially file for IPO as soon as Friday (20 mai 2026)
  8. [8]Sinch — AI Production Paradox 2026 : 74 % des entreprises ont retiré un agent IA de service client en production
DeepSeek V4guerre des prix LLMmulti-LLMETI FranceAnthropicOpenAI