Scaleway-Vsora-ZML : la chaîne IA souveraine ferme côté silicium
Scaleway-Vsora-ZML : la chaîne IA souveraine ferme côté silicium
Scaleway déploiera les premiers serveurs Jotunn8 de Vsora. La chaîne IA souveraine française se referme du silicium au cloud pour les DSI sous DORA.
Sommaire
- Le 18 juin 2026 à VivaTech : la chaîne IA souveraine ferme côté silicium
- Vsora Jotunn8 : ce que la puce propose face à NVIDIA et AMD
- Le rôle de ZML, le maillon logiciel qu'on oublie toujours
- Ce que ça change pour une entreprise française
- Mes recommandations Webotit pour cadrer vos arbitrages d'inférence 2027
- Ce qu'il faut retenir
- Conclusion
Parler de ce sujet avec Webotit
Le 18 juin 2026 à VivaTech, la Région Île-de-France, Scaleway, Vsora et ZML signent un accord pour déployer la première offre cloud d'inférence IA souveraine basée sur le processeur français Jotunn8. Scaleway s'engage à valider l'architecture en production avec 3 200 TFLOPS par puce et 50 % d'énergie en moins. La chaîne IA souveraine française couvre enfin du silicium à l'inférence.
Le 18 juin 2026 à VivaTech : la chaîne IA souveraine ferme côté silicium
Hier soir, sur le stand de la Région Île-de-France à VivaTech, quatre acteurs ont signé un accord qui change la carte des fournisseurs IA évaluables par une DSI française. La Région Île-de-France, Scaleway, Vsora et ZML s'engagent à déployer en Île-de-France la première offre cloud d'inférence IA basée sur un processeur conçu en France.1
Vsora est une entreprise fabless de semi-conducteurs fondée en 2015 à Meudon-la-Forêt, dans les Hauts-de-Seine. Elle a levé 46 millions de dollars en avril 2025 auprès d'Otium, Omnes Capital, Adélie Capital et du fonds European Innovation Council pour porter en production Jotunn8, son processeur d'inférence IA pour datacenter.2 Le tape-out a été réalisé en seconde moitié 2025 chez TSMC sur le nœud 5 nm avec packaging CoWoS multi-chips.3 Les premiers exemplaires de silicium sortent des fonderies depuis le premier trimestre 2026.4
Hier, Scaleway s'engage publiquement à intégrer Jotunn8 dans ses propres serveurs, à valider l'architecture en production sur ses datacenters et à la commercialiser à ses clients sous forme de Model-as-a-Service.1 ZML, éditeur d'une pile d'inférence open source écrite en Zig sur OpenXLA et MLIR, assure le portage logiciel des principaux modèles vers la nouvelle architecture.1 La Région Île-de-France apporte la commande publique structurante et la coordination industrielle.5
Il y a 48 heures, Bull, Foxconn et NVIDIA confirmaient l'assemblage du Vera Rubin NVL72 à Angers — j'en parlais hier sous l'angle DORA pour les banques. Avec l'accord Scaleway-Vsora-ZML, l'histoire change de nature. À Angers, on assemble du silicium NVIDIA en France. À Meudon, on conçoit du silicium en France. Ce sont deux étapes différentes de la chaîne souveraine. Pour une direction des risques, ce sont aussi deux degrés différents d'indépendance.
Vsora Jotunn8 : ce que la puce propose face à NVIDIA et AMD
Jotunn8 vise un seul usage : l'inférence en datacenter pour les LLM et les agents multimodaux. Pas l'entraînement.
Les chiffres communiqués par Vsora et son partenaire d'industrialisation GUC fin mai 2026 sont précis. Chaque puce délivre 3 200 TFLOPS de calcul utile à un taux d'utilisation supérieur à 50 %.3 Elle embarque 288 Go de mémoire HBM3e directement intégrée au package.3 Vsora annonce une consommation énergétique inférieure de 50 % à celle des puces concurrentes les plus performantes du marché pour un volume de tokens équivalent.3
Concrètement, l'argument que Khaled Maalej, CEO de Vsora, défend depuis dix-huit mois auprès des opérateurs cloud européens est simple. Sur une charge d'inférence LLM réelle — pas un benchmark synthétique — la facture d'électricité d'un datacenter européen pèse plus lourd que dans la Silicon Valley. Diviser par deux la consommation énergétique pour le même débit de tokens, c'est donc diviser par deux une ligne directe du compte de résultat d'un opérateur cloud.
Pour un DSI français, l'argument ne se prend pas tel quel. Il a besoin de chiffres de production sur ses propres modèles, mesurés en latence, en débit utile et en coût total. C'est précisément ce que Scaleway s'engage à livrer en validant l'architecture en environnement de production, sur des charges client réelles.1 La grille tarifaire commerciale n'est pas encore publiée. Les premières instances Jotunn8 en accès managé Scaleway Model-as-a-Service sont annoncées pour 2027.
L'enjeu industriel dépasse Vsora. Si Scaleway publie en 2027 un coût par million de tokens sur un Mistral Small 4 hébergé sur Jotunn8 qui se compare favorablement à un GPT-5 sur Azure ou un Claude Mythos sur AWS, l'argument bascule. Une banque sous DORA, une mutuelle sous ACPR, un industriel sous NIS2 acquièrent un fournisseur alternatif évaluable, financièrement défendable et politiquement portable.
Le rôle de ZML, le maillon logiciel qu'on oublie toujours
C'est le détail qui pose problème quand un éditeur de puce annonce un nouveau silicium : la pile logicielle. CUDA verrouille l'écosystème NVIDIA depuis quinze ans. ROCm chez AMD reste un chantier permanent. Toute alternative crédible doit livrer la même fluidité de portage des modèles open source qu'un développeur attend de PyTorch sur H100.
ZML est une jeune entreprise européenne qui développe une pile d'inférence open source écrite en Zig, posée sur OpenXLA, MLIR et Bazel.6 Elle est conçue pour faire tourner les mêmes modèles indifféremment sur GPU NVIDIA, AMD, ou sur les nouveaux accélérateurs comme TPU, Cerebras ou Vsora.6 Dans l'accord d'hier, ZML est chargée d'assurer le portage des principaux modèles open source de Hugging Face vers Jotunn8 et de fournir l'environnement d'exécution managé que Scaleway exposera à ses clients.1
Pour une DSI qui a déjà des charges Mistral Small 4, Llama 4 Maverick ou Qwen 3.6 en production sur Scaleway, ZML promet une bascule sans réécriture applicative. Le même code, la même API, une puce différente derrière. Si la promesse tient, Scaleway-Vsora-ZML devient un drop-in remplacement potentiel pour une partie des charges d'inférence aujourd'hui sur AWS, Azure ou Google Cloud.
C'est aussi pour cela que le maillon ZML compte autant que la puce. Un Jotunn8 sans pile logicielle robuste serait un démonstrateur académique. Un Jotunn8 avec ZML et Scaleway derrière devient un produit cloud.
Ce que ça change pour une entreprise française
Trois situations que je vois remonter cette semaine auprès des équipes Webotit.
Banque privée régionale, 2 200 collaborateurs, supervision ACPR et BCE. La direction des risques opérationnels prépare sa revue annuelle DORA pour septembre. Le contrat OpenAI Enterprise signé en 2025 arrive à terme en mars 2027. Hier, la cartographie ICT mentionnait deux fournisseurs IA évaluables (OpenAI sur Azure, Anthropic sur AWS) et deux alternatives théoriques (Mistral on-premise, Le Chat Enterprise). Aujourd'hui, la même cartographie peut ajouter une troisième ligne réellement actionnable : un service cloud d'inférence opéré par Scaleway, sur du matériel conçu en France, avec une pile logicielle open source documentée. La clause de portabilité que le directeur juridique veut écrire dans l'avenant 2026 a maintenant un destinataire crédible.
Assureur santé ETI, 4 500 salariés, déploiement chatbot relation adhérent en production. Le coût d'inférence du chatbot d'assistance adhérents que nous opérons pour cette typologie de mutuelle représente entre 8 % et 12 % du coût total du programme, en facturation Azure OpenAI. La direction du contrôle de gestion a fait remonter en mai un objectif de baisse de 20 % du coût d'exploitation annuel. Si Scaleway publie en 2027 un coût par million de tokens compétitif sur Mistral hébergé sur Jotunn8, la bascule d'un volume de conversations standard vers la stack Scaleway-Vsora devient un dossier d'arbitrage à présenter au COMEX. Pas tout le volume. Le volume reproductible et bien typé, là où la qualité de réponse est stabilisée et la latence acceptable au-dessus de 200 millisecondes.
Industriel agroalimentaire, 1 800 salariés, déploiement mailbot Webotit pour la qualification des emails fournisseurs. Le DSI est sous pression budgétaire depuis le rachat de la filiale par un fonds en mars. Tout euro de cloud non justifié est coupé. La bascule d'une charge de classification d'emails fournisseurs et de génération de réponses contractuelles vers un opérateur cloud français, avec un argument énergétique mesurable et une facture en euros sans risque FX, devient une victoire facile à présenter au CFO. C'est exactement le profil de charge que Vsora cible : volume élevé, modèle compact, contraintes RGPD fortes, sensibilité au coût marginal.
Dans les trois cas, je ne dis pas qu'il faut basculer. Je dis qu'il faut rouvrir la grille des fournisseurs évaluables avant de signer le moindre renouvellement d'ici à mars 2027.
Mes recommandations Webotit pour cadrer vos arbitrages d'inférence 2027
Trois mouvements à engager d'ici fin juillet 2026.
Premier mouvement, ajoutez Scaleway-Vsora-ZML à votre cartographie des fournisseurs IA dans la revue annuelle DORA, ACPR ou NIS2. Pas comme fournisseur opérationnel — il ne l'est pas encore. Comme fournisseur évaluable en option de portabilité. Cela renforce le dossier devant le superviseur et oblige le fournisseur historique à négocier des clauses contractuelles plus ouvertes.
Deuxième mouvement, lancez un POC d'inférence Mistral ou Llama sur Scaleway Model-as-a-Service dès maintenant, sur un cas d'usage non critique. L'instance Jotunn8 n'est pas encore disponible, mais Scaleway propose déjà aujourd'hui des instances H100 et GH200 en facturation à la seconde, et vous aurez la priorité d'accès aux nouvelles instances dès leur ouverture en 2027. Trois mois de POC suffisent pour produire les chiffres comparatifs latence, débit, coût et qualité qu'il vous faudra présenter en CODIR au quatrième trimestre.
Troisième mouvement, refaites passer votre calculateur de retour sur investissement IA avec deux hypothèses de coût d'inférence : la grille actuelle hyperscaler et une grille hypothétique 30 % moins chère en stack souveraine. Sur un déploiement de chatbot relation client ou mailbot de qualification à volume soutenu, la sensibilité du business case au coût d'inférence est forte. Mesurer le delta avant le renouvellement de votre contrat hyperscaler vous donne un levier de négociation immédiat, indépendamment de la bascule effective vers Vsora.
Si vous voulez en discuter, parlez-en à nos équipes spécialisées en agents IA gouvernables pour ETI françaises ou cadrez l'arbitrage avec notre équipe banques sous DORA ou notre équipe assurances sous ACPR.
Ce qu'il faut retenir
- 18 juin 2026 à VivaTech : Région Île-de-France, Scaleway, Vsora et ZML signent l'accord pour déployer la première offre cloud d'inférence IA souveraine française
- Vsora Jotunn8 : 3 200 TFLOPS par puce, 288 Go HBM3e, gravure TSMC 5 nm, consommation énergétique inférieure de 50 % aux puces concurrentes du marché
- ZML : pile d'inférence open source en Zig, OpenXLA et MLIR, qui assure le portage des modèles Hugging Face vers Jotunn8 sans réécriture applicative côté client
- Calendrier réaliste : premiers serveurs Jotunn8 en validation production chez Scaleway en 2026 H2, accès managé Model-as-a-Service ouvert aux clients en 2027
- Fenêtre de décision : revue annuelle DORA, ACPR et NIS2 au quatrième trimestre, renouvellements de contrats hyperscaler 2027 négociables dès septembre 2026
Conclusion
L'accord du 18 juin n'éteint pas le monopole NVIDIA sur l'IA. Il ouvre une deuxième porte. À Angers, l'État français reprend la main sur l'assemblage du silicium NVIDIA. À Meudon et bientôt sur les datacenters Scaleway en Île-de-France, c'est le silicium lui-même qui est conçu en France et opéré sous marque française. Ce sont deux degrés d'indépendance distincts. Une banque sous DORA, une mutuelle sous ACPR, un industriel sous NIS2 peuvent désormais documenter une vraie portabilité en deux étapes, pas un faux exit.
Pour les DSI qui renégocient un contrat hyperscaler entre septembre 2026 et mars 2027, c'est la première fois depuis quinze ans qu'un fournisseur alternatif crédible se chiffre et se signe. La question utile en CODIR n'est plus « est-ce que je bascule », mais « combien de tokens je peux porter en deux étapes vers une stack souveraine sans casser la qualité de service ».
Questions frequentes
Vsora Jotunn8 est-il disponible commercialement aujourd'hui ?
Pas en accès managé client. Les premiers exemplaires de silicium Jotunn8 sortent des fonderies TSMC depuis le premier trimestre 2026. Scaleway s'engage à valider l'architecture en environnement de production sur ses propres datacenters Île-de-France au second semestre 2026, puis à ouvrir les premières instances managées Model-as-a-Service à ses clients en 2027. Une DSI française peut d'ores et déjà demander à Scaleway une priorité d'accès à la phase pilote.
Quelle différence concrète avec l'annonce Bull-Foxconn-NVIDIA du 17 juin sur le Vera Rubin NVL72 ?
Bull-Foxconn assemble en France des plateformes NVIDIA composées de silicium américain. Scaleway-Vsora-ZML conçoit en France un silicium d'inférence français et l'opère sur un cloud français. Les deux annonces sont complémentaires : l'une renforce la couche assemblage matériel souverain, l'autre attaque le verrou de conception du silicium. Pour DORA Article 28, ce sont deux degrés différents d'indépendance que vous pouvez documenter dans votre cartographie ICT.
Le coût par token d'une inférence sur Jotunn8 sera-t-il vraiment plus bas qu'un GPU NVIDIA H100 ?
Vsora annonce une consommation énergétique inférieure de 50 % à celle des puces concurrentes pour un débit de tokens équivalent. La grille tarifaire commerciale Scaleway n'est pas publiée à ce stade. La vérité économique se mesurera début 2027 sur vos propres charges en production. Un DSI averti prépare aujourd'hui un POC comparatif Scaleway H100 contre Scaleway Jotunn8 pour la phase pilote, plutôt que de prendre l'argument pour acquis.
Quels modèles open source pourrai-je déployer sur Scaleway-Vsora dès 2027 ?
ZML assure le portage de la bibliothèque Hugging Face sur Jotunn8, avec une priorité annoncée sur les modèles français et européens : Mistral Small 4 et Medium 3, Llama 4 Maverick, et Qwen 3.6 pour les charges de coding. Le portage se fait sans modification applicative côté client : la même API d'inférence que sur GPU NVIDIA, exposée par Scaleway Model-as-a-Service.
Une PME ou ETI française qui ne fait pas de gros volumes d'inférence est-elle concernée ?
Oui, à condition que le déploiement IA porte sur un cas d'usage à volume soutenu : chatbot relation client à plusieurs milliers de conversations par jour, mailbot de qualification à plusieurs milliers d'emails traités par jour, agent métier de selfcare. En dessous d'un seuil de volume, le coût d'inférence ne pèse pas assez lourd dans le compte de résultat pour justifier la bascule. Au-dessus, l'arbitrage devient un dossier à présenter au CFO, avec ou sans contrainte réglementaire DORA ou NIS2.
Sources et references
Articles associés

Bull-Foxconn Angers : Vera Rubin rouvre l'arbitrage stack IA 2027
Bull, Foxconn et NVIDIA assemblent dès 2026 H2 le Vera Rubin NVL72 à Angers, 120 M€ d'investissement. Décryptage pour DSI, banques et industriels FR.
Lire
Mistral à 20 Md€ : ce que la levée change pour les banques sous DORA
Bloomberg confirme 3 Md€ levés à 20 Md€ de valo, le 17 juin Mensch et Huang sont à VivaTech avec Macron. Décryptage de l'impact sur les contrats LLM DORA.
Lire
Cerebras IPO à 35 Md$ : la fin du monopole GPU sur l'inférence
Cerebras dépose son S-1 au Nasdaq à 35 Md$ avec 510 M$ de revenus et un contrat OpenAI de 20 Md$. La puce wafer-scale défie le monopole GPU sur l'inférence.
Lire