Google TPU 8 et Gemini Enterprise : la fin de Vertex AI

Infrastructure IA

Google TPU 8 et Gemini Enterprise : la fin de Vertex AI

Google lance TPU 8 en deux puces et remplace Vertex AI par Gemini Enterprise Agent Platform. Analysez l'impact pour vos projets IA.

Louis-Clément Schiltz

CEO & Founder, Webotit.ai

24 avril 20265 min de lecture

Parler de ce sujet avec Webotit

En bref

Google Cloud Next 2026 acte la fin de Vertex AI, remplacé par Gemini Enterprise Agent Platform (2 800+ entreprises, 8 millions de sièges). Le TPU 8 se scinde en deux puces : TPU 8t pour le training (3x plus rapide) et TPU 8i pour l'inférence (80% meilleur rapport prix/performance).

Vertex AI est mort. Gemini Enterprise Agent Platform le remplace.

Google a officiellement retiré la marque Vertex AI lors de Cloud Next 2026, le 22 avril.¹ Le nouveau nom : Gemini Enterprise Agent Platform. Pas un simple rebranding — un changement d'architecture.

Vertex AI était un atelier ML. Gemini Enterprise Agent Platform est un centre de commandes pour agents IA. La plateforme gère la construction, le déploiement, la gouvernance et l'optimisation des agents à grande échelle.²

Les chiffres parlent d'eux-mêmes : 2 800+ entreprises clientes, 8 millions de sièges vendus, et une croissance de 40% des utilisateurs actifs payants au T1 2026.¹ Google ne teste plus. Google déploie.

Pourquoi ça compte pour un DSI français ? Parce que la plateforme donne accès à 200+ modèles via Model Garden — pas seulement Gemini. Vous pouvez exécuter Claude, Llama 4, Mistral Medium 3 et GPT-5.5 depuis une seule interface de gouvernance.²

TPU 8 : Google coupe sa puce en deux

La décision la plus structurante de Cloud Next 2026 : le TPU 8 n'existe pas. Ce sont deux puces distinctes.³

TPU 8t — la puce d'entraînement. Conçue pour former des modèles massifs. Elle offre 3x les performances de la génération précédente. Les superpods montent jusqu'à 9 600 puces interconnectées, avec 2 pétaoctets de mémoire haute bande passante.³ C'est la puce pour les labs qui entraînent des modèles frontier.

TPU 8i — la puce d'inférence. Conçue pour servir des millions d'agents simultanés. Elle connecte 1 152 TPU dans un seul pod, avec 3x plus de SRAM intégrée pour réduire la latence. Résultat : 80% d'amélioration du rapport prix/performance et 2x plus d'efficacité énergétique par watt.⁴

La logique est simple. Entraîner un modèle, c'est un coût ponctuel. Servir des agents 24/7, c'est un coût récurrent. En séparant les deux, Google optimise chaque maillon de la chaîne.

L'inférence devient le champ de bataille — pas le training

Cette scission TPU 8t/8i confirme un mouvement structurel : l'inférence remplace le training comme poste de dépense principal.

L'inférence représente la majorité de la facture IA d'une entreprise — souvent ≥70% selon les estimations du secteur. Requêtes chatbot, appels callbot, emails traités par un mailbot : chaque token servi pèse sur le budget. L'entraînement du modèle ne représente qu'une fraction du coût total de possession.

Google n'est pas seul à l'avoir compris. AWS intègre les puces Cerebras sur Bedrock pour l'inférence désagrégée.⁶ NVIDIA a racheté Groq pour 20 milliards de dollars.⁷ Cerebras vise une IPO à 23 milliards de dollars, portée par la demande en inférence rapide.⁵

Trois acteurs majeurs qui investissent des dizaines de milliards dans l'inférence au même trimestre. Ce n'est pas une coïncidence. C'est un signal de marché.

Pour un DSI français, le message est direct : négociez vos contrats cloud sur le coût d'inférence, pas sur le coût de training. C'est là que se joue votre rentabilité IA.

2 800 entreprises utilisent déjà Gemini Enterprise Agent Platform

La croissance de 40% d'utilisateurs payants en un trimestre mérite attention.¹ Ce rythme signifie que les agents IA ne sont plus en phase d'expérimentation chez les grands comptes. Ils sont en production.

La plateforme propose un modèle "mission control" : un tableau de bord unifié pour gouverner tous vos agents IA, quel que soit le modèle sous-jacent. Monitoring, coûts, compliance, performance — tout centralisé.

C'est exactement ce que demandent les directions générales françaises. Pas "plus d'IA", mais "plus de contrôle sur l'IA". C'est une demande de fond chez les ETI et grands groupes français. Les agents IA en production nécessitent une gouvernance structurée, pas un énième POC sans suivi.

Google l'a compris. Le naming est stratégique : "Enterprise Agent Platform", pas "AI Studio" ni "ML Workbench". Le vocabulaire cible les COMEX, pas les data scientists.

Gemini 3.1 Pro, Lyria 3, Gemma 4 : le catalogue s'étoffe

Cloud Next 2026 a aussi livré du concret côté modèles :

Gemini 3.1 Pro : dernière version du modèle frontier de Google, avec des gains sur le raisonnement multi-étapes
Gemini 3.1 Flash Image : génération d'images intégrée dans la suite Gemini
Lyria 3 : modèle de génération musicale IA
Gemma 4 : modèle open-source, successeur de Gemma 3²

Mais le vrai produit, c'est la plateforme. Les modèles changent tous les mois. La plateforme qui les orchestre, les gouverne et les optimise — c'est elle qui fidélise les clients.

Un chatbot de relation client déployé sur Gemini Enterprise Agent Platform peut basculer de Gemini 3.1 Pro à Claude Opus 4.7 en changeant une ligne de configuration. Sans refaire l'intégration. Sans recertifier le workflow. C'est ça, la valeur d'une plateforme agentique.

Ce qu'il faut retenir

Ce que ça change pour votre entreprise

Si vous êtes sur Google Cloud, la migration Vertex AI → Gemini Enterprise Agent Platform devrait être transparente selon Google.¹ L'important, c'est ce que la nouvelle plateforme débloque : gouvernance multimodèles, monitoring centralisé, et surtout accès au TPU 8i qui peut réduire vos coûts d'inférence jusqu'à ~40% selon la charge et la stack.⁴

Si vous n'êtes pas sur Google Cloud, le signal reste pertinent. La tendance générale est à la baisse des coûts d'inférence chez tous les fournisseurs cloud — AWS, Google et Azure ajustent leurs offres pour capter les workloads agentiques. Chaque point de réduction sur le coût par token rend un nouveau cas d'usage rentable.

Un acteur majeur de l'e-commerce français qui automatise ses emails avec un mailbot peut maintenant étendre l'agent aux réponses chat, aux FAQ dynamiques et à la qualification de leads — sans exploser le budget d'inférence.

Vous voulez chiffrer l'impact de ces baisses de coûts sur votre relation client ? Estimez votre ROI en 2 minutes.

Conclusion

Google ne vend plus du machine learning. Google vend du contrôle sur les agents IA. Le rebranding Vertex AI → Gemini Enterprise Agent Platform n'est pas cosmétique — c'est un repositionnement stratégique vers les COMEX.

Le TPU 8 scindé en training/inférence confirme que l'inférence dicte désormais la rentabilité des projets IA. Les entreprises qui négocient leurs contrats cloud sur ce critère prennent une longueur d'avance.

2 800 entreprises ont déjà fait le choix. La question pour les DSI français : êtes-vous encore en train de comparer des modèles, ou êtes-vous en train de gouverner des agents ?

Parlez à un expert Webotit pour structurer votre gouvernance IA.

Questions frequentes

Quelle différence entre Vertex AI et Gemini Enterprise Agent Platform ?

Vertex AI était une plateforme de machine learning généraliste. Gemini Enterprise Agent Platform est un centre de commandes spécialisé dans la construction, le déploiement et la gouvernance d'agents IA à grande échelle. La nouvelle plateforme intègre 200+ modèles et un monitoring centralisé.

TPU 8t et TPU 8i : laquelle choisir pour mon entreprise ?

Le TPU 8i. La quasi-totalité des entreprises consomment de l'inférence, pas du training. Le TPU 8i offre 80% de meilleur rapport prix/performance et 2x plus d'efficacité énergétique. Le TPU 8t s'adresse aux labs qui entraînent des modèles de plusieurs centaines de milliards de paramètres.

Gemini Enterprise Agent Platform fonctionne-t-il avec des modèles non-Google ?

Oui. Via Model Garden, la plateforme donne accès à 200+ modèles : Claude (Anthropic), Llama 4 (Meta), Mistral Medium 3, et d'autres. L'avantage est de gouverner tous ces modèles depuis une interface unique.

Quel est l'impact du TPU 8i sur le coût des chatbots IA ?

Le TPU 8i peut réduire le coût d'inférence jusqu'à ~40% par rapport à la génération précédente, selon Google. Pour un chatbot traitant 200 000 conversations par mois, cela représente une économie de 2 000$ à 4 000$/mois selon le modèle utilisé et la longueur des échanges.

Sources et references

Google CloudTPU 8Geminiinfrastructure IAagents IA