Meta achète des millions de CPU Amazon pour ses agents IA

Meta signe un deal multi-milliards avec AWS pour les puces Graviton5 ARM. Le basculement vers l'inférence CPU redéfinit l'infrastructure IA.

Louis-Clément Schiltz

CEO & Founder, Webotit.ai

25 avril 20265 min de lecture

Chargement des disponibilités…

En bref

Meta a signé un contrat de 3 à 5 ans avec AWS pour des dizaines de millions de cœurs Graviton5 (CPU ARM, 192 cœurs, 3 nm). Ce deal multi-milliards confirme un basculement structurel : l'inférence IA représente ≈66% des dépenses calcul IA en 2026, et les agents IA tournent mieux sur CPU que sur GPU.

Meta ne veut plus de GPU pour faire tourner ses agents

Le 24 avril 2026, Meta a signé un contrat de 3 à 5 ans avec AWS portant sur des dizaines de millions de cœurs Graviton5.¹ Le montant : plusieurs milliards de dollars.²

Pourquoi c'est surprenant ? Meta possède l'un des plus grands parcs de GPU au monde. Des centaines de milliers de H100 et B200 NVIDIA. Suffisant pour entraîner Llama 4 et ses variantes.

Mais pour faire tourner ses agents IA en production, Meta choisit des CPU ARM.

Le Graviton5 n'est pas un GPU. C'est un processeur classique, redessiné par Amazon : 192 cœurs, gravure 3 nm, +25% de performance par rapport à son prédécesseur.³ Il excelle dans les tâches parallèles à faible intensité calcul — le profil type des agents IA en inférence.

Le message est clair. Les GPU servent à entraîner les modèles. Les CPU les font travailler.

L'inférence dévore les budgets IA — et les DSI français le constatent

Les analystes projettent que l'inférence représentera ≈66% des dépenses totales en calcul IA d'ici fin 2026.⁴ Un renversement. Jusqu'en 2024, l'entraînement dominait les budgets.

Aujourd'hui, chaque requête d'un chatbot consume des tokens. Chaque appel API d'un agent aussi. Chaque réponse d'un callbot qui qualifie les appels entrants génère des tokens en sortie. Le coût unitaire par token dicte la rentabilité du projet.

Un chatbot d'assurance qui traite 50 000 conversations par mois produit des millions de tokens. Un directeur financier d'ETI ne s'intéresse pas à la VRAM du GPU. Il regarde le coût par conversation résolue.

Meta l'a compris. Ses agents IA — recommandation, modération, assistant commercial — ne font pas de calcul matriciel lourd. Ils orchestrent des appels d'API, routent des requêtes, génèrent du texte court. Du travail de CPU. Pas de GPU.

ARM + IA agentique : pourquoi cette architecture s'impose

Les CPU ARM ont un avantage structurel pour l'inférence : le rapport performance par watt. Un Graviton5 consomme ≈30% d'énergie en moins qu'un processeur x86 équivalent pour les charges de travail cloud.³

Pour les agents IA, c'est un calcul de TCO (Total Cost of Ownership — coût total incluant matériel, énergie et maintenance). Un agent qui tourne 24/7 pendant 3 ans — la facture énergétique pèse autant que le matériel.

L'architecture agentique typique fonctionne ainsi :

L'agent reçoit une requête (texte ou voix)
Il route vers le bon sous-modèle (classification)
Il appelle le LLM pour générer une réponse
Il vérifie la réponse contre une base de connaissances (RAG)
Il exécute l'action (appel API, mise à jour CRM)

Les étapes 1, 2, 4 et 5 sont des tâches CPU. Seule l'étape 3 nécessite un accélérateur. Et même pour l'étape 3, les modèles compacts (7B-13B paramètres) tournent sur CPU avec des bibliothèques comme llama.cpp.

Webotit.ai déploie ses agents IA pour les ETI françaises sur des architectures similaires. La logique d'orchestration — le cerveau de l'agent — ne nécessite pas de GPU. Le LLM, oui. Mais le LLM ne représente qu'une fraction du temps de traitement total.

Le signal pour les DSI : revoir l'architecture d'infrastructure IA

Une instance ARM Graviton sur AWS coûte ≈20% de moins qu'une instance x86 équivalente, à performance égale.³ Sur un parc de 50 agents IA tournant 24/7, l'économie annuelle se chiffre en dizaines de milliers d'euros.

La migration n'est pas transparente. Il faut recompiler pour ARM. Mais la plupart des frameworks IA (Python, Node.js, les runtimes LLM) sont compatibles depuis 2025. Le coût de migration est ponctuel. L'économie est récurrente.

Meta fait le calcul à l'échelle de milliards d'utilisateurs. Une ETI française fait le même calcul à l'échelle de milliers de conversations par jour. Le ratio est identique.

Ce qu'il faut retenir

Ce que ça change pour votre entreprise

Si vous dirigez la DSI d'un groupe d'assurance ou d'un réseau de distribution, ce deal Meta-Amazon est un signal. Vous avez peut-être budgété votre infrastructure IA autour des GPU — H100, A100, instances p5 AWS. C'est pertinent pour la R&D et le fine-tuning.

Mais vos agents en production — le chatbot qui répond aux assurés, le callbot qui qualifie les appels, le mailbot qui trie les réclamations — n'ont pas besoin de GPU. Ils ont besoin de CPU rapides, disponibles et économiques.

Le calcul concret : sur un parc de 50 agents IA tournant 24/7, passer d'instances x86 à ARM économise ≈20% de la facture compute. Ce n'est pas un changement technologique spectaculaire. C'est un changement de facture. Et en entreprise, la facture commande.

Conclusion

Meta ne fait pas d'expérimentation. Meta déploie à l'échelle. Quand l'entreprise qui possède le plus de GPU au monde choisit des CPU ARM pour ses agents IA, le signal est sans ambiguïté.

L'ère du "tout GPU" est terminée. L'ère de l'infrastructure spécialisée par usage commence.

Vos agents IA tournent-ils sur la bonne infrastructure ? Parler à un expert Webotit.

Questions frequentes

Pourquoi Meta utilise des CPU plutôt que des GPU pour ses agents IA ?

Les agents IA passent la majorité de leur temps sur des tâches d'orchestration : routage de requêtes, appels d'API, vérification de bases de données. Ces tâches sont CPU-bound. Seule la génération de texte par le LLM nécessite un accélérateur, et les modèles compacts (7B-13B params) tournent sur CPU avec llama.cpp.

Qu'est-ce que le Graviton5 d'Amazon ?

Le Graviton5 est un processeur ARM conçu par Amazon pour AWS. Il embarque 192 cœurs, est gravé en 3 nm, et offre +25% de performance par rapport au Graviton4. Il consomme ≈30% d'énergie en moins que les processeurs x86 équivalents pour les charges cloud.

Une ETI française peut-elle utiliser des instances ARM pour ses agents IA ?

Oui. Les instances Graviton sont disponibles sur AWS dans la région Paris (eu-west-3). Elles coûtent ≈20% de moins que les instances x86 équivalentes. La migration nécessite de recompiler pour ARM, mais la plupart des frameworks IA Python et Node.js sont déjà compatibles.

Faut-il abandonner les GPU pour l'IA en entreprise ?

Non. Les GPU restent indispensables pour l'entraînement de modèles et l'inférence de très grands LLM (100B+ paramètres). La stratégie optimale combine GPU pour le fine-tuning et les modèles lourds, et CPU ARM pour l'orchestration des agents et l'inférence de modèles compacts.

Sources et references

MetaAmazon Graviton5CPU ARMinférence IAagents IAinfrastructure cloud