AWS + Cerebras : l'inférence désagrégée arrive sur Bedrock

Décryptez le partenariat AWS-Cerebras qui promet 5× plus de tokens par seconde sur Bedrock et ce que ça change pour les DSI français.

Louis-Clément Schiltz

CEO & Founder, Webotit.ai

23 avril 20265 min de lecture

Chargement des disponibilités…

En bref

AWS et Cerebras ont annoncé un partenariat pour déployer l'inférence désagrégée sur Amazon Bedrock : AWS Trainium gère le prefill, Cerebras CS-3 gère le decode, avec 5× plus de capacité token à hardware constant. Pour les ETI françaises, c'est la promesse de diviser par 3 à 5 le coût d'inférence de leurs agents IA.

L'inférence coûte plus cher que l'entraînement — et personne n'en parle

Les dirigeants français parlent de "coût du LLM". Ils pensent entraînement. Ils ont tort.

En production, 78% de la facture IA vient de l'inférence — chaque requête utilisateur, chaque appel API, chaque réponse de chatbot.¹ Un agent IA conversationnel qui traite 50 000 conversations par mois génère des millions de tokens. Le coût unitaire par token dicte la rentabilité du projet.

Le 13 mars 2026, AWS et Cerebras ont annoncé un partenariat qui attaque ce problème de front.² L'architecture : séparer les deux phases de l'inférence — le prefill (compréhension de la requête) et le decode (génération de la réponse) — sur des puces spécialisées différentes.

Résultat mesuré : 5× plus de capacité token dans le même footprint matériel.³

Comment fonctionne l'inférence désagrégée

L'inférence LLM (Large Language Model — modèle de langage de grande taille qui génère du texte) comporte deux phases distinctes. Le prefill traite l'ensemble du contexte d'entrée en parallèle. Le decode génère les tokens de sortie un par un, séquentiellement.

Chaque phase a des besoins hardware opposés. Le prefill exige de la puissance de calcul brute. Le decode exige de la bande passante mémoire.

L'architecture AWS-Cerebras attribue chaque phase à la puce qui l'exécute le mieux. AWS Trainium optimise le prefill. Le Cerebras CS-3 avec son WSE-3 (Wafer Scale Engine — puce monolithique de la taille d'un wafer entier) optimise le decode.²

Le WSE-3 embarque 900 000 cœurs et 21 pétaoctets/seconde de bande passante mémoire agrégée — 7 000× celle d'un H100 NVIDIA.⁴ Sur Llama 3.1 405B, Cerebras atteint 969 tokens par seconde en decode — 75× plus rapide que les GPU des hyperscalers.⁵

Ce n'est pas un benchmark de laboratoire. C'est la vitesse que vos agents IA pourraient atteindre en production sur Bedrock.

Ce que ça change pour le coût de vos agents IA

Prenons un exemple concret. Un chatbot relation client d'un assureur français traite 45 000 conversations par mois. Chaque conversation génère en moyenne 2 000 tokens (entrée + sortie). Total : 90 millions de tokens mensuels.

Sur GPT-4o via Azure aujourd'hui : environ 450€/mois en tokens de sortie seuls. Acceptable. Mais passez à un système multi-agents avec RAG (Retrieval-Augmented Generation — technique qui injecte des documents vérifiés dans le contexte du LLM pour éviter les hallucinations), raisonnement en chaîne et vérification croisée : le volume de tokens explose à 500 millions par mois. La facture grimpe à 2 500€/mois — rien que pour l'inférence.

L'inférence désagrégée AWS-Cerebras promet de diviser ce coût par 3 à 5. Pas en dégradant la qualité. En optimisant le hardware pour chaque phase du calcul.

Pour les ETI françaises qui hésitent à passer d'un chatbot simple à une architecture multi-agents, le coût d'inférence était le frein principal. Ce frein est en train de sauter.

La guerre de l'inférence remplace la guerre de l'entraînement

Le marché bascule. NVIDIA a acquis Groq pour 20 Md$ fin 2025. Cerebras vise une IPO au deuxième trimestre 2026 à 35 Md$ de valorisation.⁶ SambaNova a dévoilé le SN50 en février 2026 avec des performances revendiquées 5× supérieures aux GPU.

Chaque hyperscaler construit ses propres puces d'inférence. Google avec TPU Trillium v6. AWS avec Trainium et Inferentia. Microsoft avec Maia.

Le message : l'entraînement des modèles est un problème résolu pour les géants. L'inférence — rapide, peu coûteuse, à l'échelle — est le nouveau champ de bataille. Et c'est celui qui détermine si votre projet IA passe du pilote à la production.

Cerebras sera le premier fournisseur de puces alternatives accessible directement via Bedrock.² AWS proposera aussi Amazon Nova sur hardware Cerebras d'ici fin 2026. Un signal clair : même AWS admet que ses propres puces ne suffisent pas pour tous les cas d'usage.

Ce qu'il faut retenir

Ce que ça change pour votre entreprise

Si votre entreprise utilise déjà AWS, ce partenariat change l'équation de vos projets IA. Concrètement.

Un acteur majeur du e-commerce français qui fait tourner un chatbot sur Bedrock avec Claude peut, dès le déploiement du hardware Cerebras, voir ses temps de réponse passer de 3 secondes à moins d'une seconde — sans changer une ligne de code. Juste en activant le bon endpoint.

Webotit.ai, spécialiste français des chatbots et agents IA pour les ETI, construit ses architectures sur un principe de portabilité. Nos agents IA fonctionnent sur plusieurs fournisseurs d'inférence : AWS Bedrock, Azure, GCP. Quand le coût d'inférence baisse de 80%, les cas d'usage jusque-là non rentables — relecture automatique de contrats, tri intelligent de mails, qualification de leads par téléphone — deviennent viables.

Vous voulez chiffrer l'impact de l'inférence rapide sur votre cas d'usage ? Estimez votre ROI en 2 minutes.

Conclusion

L'inférence désagrégée n'est pas une curiosité technique. C'est le déblocage qui va faire passer l'IA d'entreprise du pilote perpétuel à la production rentable. Les DSI qui attendent "que les coûts baissent" n'ont plus d'excuse : ils baissent. Maintenant.

Reste une question : allez-vous déployer vos agents IA à ce nouveau coût — ou laisser vos concurrents le faire avant vous ?

Découvrez comment nos callbots automatisent les appels entrants avec un coût d'inférence maîtrisé.

Questions frequentes

Qu'est-ce que l'inférence désagrégée en IA ?

L'inférence désagrégée sépare les deux phases du traitement LLM — le prefill (compréhension du contexte d'entrée) et le decode (génération de la réponse) — sur des puces spécialisées différentes. AWS Trainium optimise le prefill, Cerebras CS-3 optimise le decode. Cette séparation permet des gains de vitesse de 5× à hardware constant.

Quand l'inférence Cerebras sera-t-elle disponible sur Amazon Bedrock ?

AWS et Cerebras ont annoncé le partenariat le 13 mars 2026. Le déploiement sur Bedrock est prévu "dans les prochains mois". Amazon Nova sur hardware Cerebras arrivera d'ici fin 2026. Les clients AWS n'auront pas à changer d'infrastructure — un nouveau endpoint Bedrock suffira.

Combien coûte l'inférence IA pour un chatbot d'entreprise en 2026 ?

Pour un chatbot traitant 45 000 conversations/mois (≈90 millions de tokens), comptez 300 à 500€/mois sur les modèles actuels. Un système multi-agents avec RAG et raisonnement en chaîne multiplie ce volume par 5 à 10. L'inférence désagrégée promet de diviser ces coûts par 3 à 5.

Le Cerebras CS-3 est-il plus rapide qu'un GPU NVIDIA H100 ?

Oui. Le WSE-3 de Cerebras atteint 2 100 tokens/seconde sur Llama 3.2 70B et 969 tokens/seconde sur Llama 3.1 405B — respectivement 20× et 75× plus rapide que les GPU H100 des hyperscalers. La bande passante mémoire de 21 pétaoctets/seconde du WSE-3 est 7 000× celle d'un H100.

Sources et references

AWSCerebrasBedrockinférence IAinfrastructure cloudWSE-3