Cerebras IPO à 35 Md$ : la fin du monopole GPU sur l'inférence
Cerebras IPO à 35 Md$ : la fin du monopole GPU sur l'inférence
Cerebras dépose son S-1 au Nasdaq à 35 Md$ avec 510 M$ de revenus et un contrat OpenAI de 20 Md$. La puce wafer-scale défie le monopole GPU sur l'inférence.
Cerebras a déposé son S-1 le 17 avril 2026 pour une IPO au Nasdaq (CBRS) visant 35 Md$ de valorisation. La startup affiche 510 M$ de revenus 2025 (+76%) et un contrat cadre OpenAI de 20 Md$+. Son WSE-3 (4 000 milliards de transistors) stocke les modèles en SRAM, éliminant le goulot mémoire des GPU et promettant ÷5 le débit d'inférence.
Un S-1 qui révèle trois signaux stratégiques
Cerebras Systems a déposé son document d'introduction en bourse (S-1 — déclaration obligatoire auprès du régulateur financier américain qui détaille finances, risques et stratégie) le 17 avril 2026, visant une cotation au Nasdaq sous le symbole CBRS.1
Trois chiffres racontent l'histoire.
510 M$ de revenus en 2025, en hausse de 76% sur un an.1 Ce n'est plus un labo de R&D. C'est une entreprise commerciale qui vend du matériel à des hyperscalers.
Un contrat cadre de 20 Md$+ avec OpenAI pour 750 MW de capacité d'inférence, extensible à 2 GW.1 Le plus gros consommateur mondial de GPU achète de l'inférence à une entreprise qui ne fabrique pas de GPU. Le signal est limpide.
Une valorisation cible de 35 Md$ avec environ 3 Md$ levés en IPO — une prime de 60% sur la Series H à 23 Md$ de février 2026.2
900 000 cœurs sur une seule puce : anatomie du WSE-3
Cerebras ne fabrique pas de GPU. L'entreprise conçoit des puces à l'échelle du wafer (wafer-scale — une puce qui occupe l'intégralité d'un disque de silicium, soit 46 000 mm², contre 826 mm² pour le H100 de NVIDIA).
Le WSE-3 (Wafer-Scale Engine 3) embarque 4 000 milliards de transistors et 900 000 cœurs IA.3 Le chiffre qui compte réellement : toute la mémoire est en SRAM, directement sur la puce. Les poids du modèle y sont stockés intégralement.
Pourquoi c'est décisif ? Sur un GPU classique, l'inférence passe son temps à transférer des données entre la mémoire HBM et les cœurs de calcul. Ce transfert est le goulot d'étranglement n°1 de la vitesse de réponse. En stockant tout en SRAM, Cerebras l'élimine.
Résultat : la bande passante mémoire du WSE-3 est des milliers de fois supérieure à celle du GPU le plus rapide.3 Les tokens sortent beaucoup plus vite. Pour un chatbot ou un callbot en production, la latence de réponse chute.
L'inférence est le vrai champ de bataille — pas l'entraînement
Depuis 2022, l'attention se concentre sur l'entraînement. Qui a le plus gros cluster ? Combien de GPU ? Quelle facture d'électricité ?
La réalité opérationnelle est différente. Le coût quotidien de l'IA en production, c'est l'inférence. Chaque requête, chaque conversation, chaque appel API. Un chatbot qui traite 1 million de conversations par mois ne s'entraîne pas. Il infère. En continu.
Le marché de l'inférence IA dépassera celui de l'entraînement dès 2027.3 NVIDIA l'a compris : sa dernière architecture Vera Rubin intègre le Groq 3 LPX, un accélérateur d'inférence spécialisé qui revendique 35x de débit par mégawatt.4
Le partenariat AWS-Cerebras pour Amazon Bedrock utilise une architecture "désagrégée" : AWS Trainium gère le prefill (la compréhension de la requête), Cerebras CS-3 gère le decode (la génération de la réponse). Gain annoncé : ÷5 le débit token à matériel constant.5
L'inférence est en train de devenir un marché multi-fournisseurs. Le monopole GPU se fissure.
Trois conséquences à 18 mois pour les entreprises
Cerebras à 35 Md$, c'est la première validation boursière d'une alternative crédible à NVIDIA sur l'inférence. Pas un FPGA de niche. Un système que le plus gros client IA au monde achète pour 20 milliards.
1. Le coût de l'inférence va continuer à baisser. La concurrence entre NVIDIA (Vera Rubin + Groq LPX), Cerebras (WSE-3), AMD (MI400) et les puces custom (Google TPU v6, Amazon Trainium 3) crée une pression déflationniste. Chaque trimestre sera moins cher que le précédent pour les entreprises consommatrices d'IA.
2. Le multi-hardware devient la norme. AWS avec Cerebras, Google avec ses TPU, Azure avec AMD et NVIDIA. Le choix du matériel d'inférence deviendra un paramètre d'optimisation, pas une contrainte subie.
3. Le on-premise redevient compétitif. Si le coût du matériel d'inférence chute et que l'offre se diversifie, les ETI qui veulent garder leurs données sur site retrouvent un avantage économique. Un industriel du CAC 40 pourrait acheter des nœuds d'inférence spécialisés plutôt que de tout envoyer dans le cloud.
Ce qu'il faut retenir
Ce que ça change pour votre entreprise
Pour un DSI d'ETI française dans l'assurance ou la banque, cette IPO ne change rien à court terme. Vous n'achèterez pas de WSE-3 demain matin.
Ce qui change, c'est la trajectoire des prix. Si vous budgétez un projet de chatbot IA, d'agents autonomes ou de mailbot pour 2027, prévoyez une baisse de 30 à 50% du coût d'inférence par rapport aux tarifs actuels. La concurrence hardware rend cette projection réaliste.
Webotit.ai, spécialiste français de l'IA conversationnelle, construit ses architectures pour être agnostiques au fournisseur d'inférence. Le modèle tourne sur Claude, GPT, Mistral ou DeepSeek selon le cas d'usage — et demain sur l'infrastructure qui offre le meilleur ratio coût/latence.
Pour une ETI qui traite 200 000 conversations par mois, une baisse de 30% du coût d'inférence représente 40K€ à 80K€ d'économie annuelle. Pas négligeable quand le sujet remonte au COMEX.
Vous voulez savoir combien coûterait un projet d'IA conversationnelle sur votre périmètre ? Estimez votre ROI.
Conclusion
Cerebras à 35 milliards en bourse, c'est le signal que l'inférence IA n'est plus un marché captif de NVIDIA. C'est un marché ouvert, compétitif, et déflationniste.
Pour les entreprises qui déploient des chatbots, callbots et agents IA, c'est une excellente nouvelle. Le coût de l'intelligence baisse. La question n'est plus "avez-vous les moyens de l'IA ?" — c'est "avez-vous les moyens d'attendre ?"
Parler à un expert pour dimensionner votre projet IA.
Questions frequentes
Qu'est-ce que Cerebras et pourquoi son IPO compte ?
Cerebras Systems conçoit des puces d'inférence IA à l'échelle du wafer (46 000 mm²), radicalement différentes des GPU NVIDIA. Son IPO au Nasdaq à 35 Md$ est la première validation boursière d'une alternative crédible au monopole GPU pour l'inférence de modèles de langage.
En quoi le WSE-3 est-il différent d'un GPU NVIDIA ?
Le WSE-3 stocke l'intégralité des poids du modèle en SRAM sur la puce, éliminant le transfert mémoire qui ralentit les GPU. Sa bande passante mémoire est des milliers de fois supérieure au H100. Les tokens sont générés beaucoup plus vite lors de l'inférence.
Cerebras est-il accessible aux entreprises françaises ?
Pas directement pour l'instant. L'accès se fera via AWS Bedrock mi-2026, où le CS-3 sera proposé comme option d'inférence. Les ETI françaises utilisant Bedrock en bénéficieront sans acheter de matériel. Le gain annoncé : ÷5 le débit par rapport au GPU seul.
Le monopole de NVIDIA sur l'IA est-il vraiment menacé ?
Sur l'entraînement, NVIDIA reste dominant. Sur l'inférence, la concurrence s'intensifie : Cerebras (WSE-3), AMD (MI400), Google (TPU v6), Amazon (Trainium 3). Le contrat OpenAI de 20 Md$ avec Cerebras montre que même le plus gros client GPU au monde diversifie ses sources d'inférence.