MAI-Voice-2 : ce que la voix native Azure change pour un callbot ETI
MAI-Voice-2 : ce que la voix native Azure change pour un callbot ETI
Microsoft lance MAI-Voice-2 le 2 juin 2026 : voix native Azure à 22 $/M caractères, 18 langues dont français, latence sub-300 ms. Ce que ça change vraiment.
Sommaire
- Ce que Microsoft a annoncé exactement le 2 juin 2026
- 22 dollars par million de caractères : ce que cela facture vraiment
- Real-time voice agents Copilot Studio : la couche d'au-dessus
- Trois scénarios français : à qui MAI-Voice-2 sert vraiment
- Ce que MAI-Voice-2 ne change pas : la couche métier
- Ce que ça change pour une entreprise française
Parler de ce sujet avec Webotit
Microsoft a annoncé MAI-Voice-2 le 2 juin 2026 à Build : voix native Azure en 18 langues dont le français, latence sub-300 ms, prix 22 $ par million de caractères en preview Foundry. Pour une DSI d'ETI sous Azure, c'est un benchmark obligatoire avant de signer une stack callbot, mais pas un remplaçant de la couche métier.
Si vous êtes une ETI française sous Azure et que vous avez un projet callbot ouvert ou en cours d'arbitrage cette semaine, la question a changé entre fin mai et aujourd'hui.
Microsoft ne se contente plus d'orchestrer des modèles tiers. Microsoft veut posséder la couche voix de son propre Copilot.
Ce que Microsoft a annoncé exactement le 2 juin 2026
À Build 2026, l'équipe MAI Superintelligence a dévoilé sept modèles internes. Trois concernent la voix et la parole : MAI-Voice-2 pour la synthèse, MAI-Voice-2 Flash pour le temps réel, et MAI-Transcribe-1.5 pour la reconnaissance.1
MAI-Voice-2 supporte 18 langues, dont le français de France, l'allemand, l'italien, l'espagnol d'Espagne et du Mexique, le portugais du Brésil et du Portugal, le néerlandais, le chinois simplifié et le hindi.2 Il accepte le clonage de voix à partir de 5 à 60 secondes d'audio de référence, gère des personas de locuteur définies et permet le code-switching entre langues à l'intérieur d'une même génération.
La variante Flash vise un temps avant premier paquet audio inférieur à 300 millisecondes en streaming.3 Pour comparaison, c'est dans le même ordre de grandeur que GPT-Realtime d'OpenAI et qu'ElevenLabs Conversational.
Le modèle est facturé 22 dollars par million de caractères dans Azure AI Foundry, en preview ouverte à tous les clients Azure qui ont une licence Copilot.1 La GA est annoncée pour le troisième trimestre 2026, sans date précise pour l'Europe et sans grille Foundry détaillée par région.
22 dollars par million de caractères : ce que cela facture vraiment
22 dollars par million de caractères, ce n'est pas un chiffre à comparer brut à un tarif par minute ou par token. Voici ce que ça représente en charge utile.
Un appel callbot moyen en assurance ou en banque dure 3 à 5 minutes. Sur ces 5 minutes, la voix synthétisée du callbot occupe environ 50 % du temps de parole, soit 2 à 3 minutes de TTS. À une cadence française parlée standard de 800 à 1 200 caractères par minute, vous synthétisez 2 000 à 3 600 caractères par appel.
Au tarif Foundry, un appel coûte donc entre 4 et 8 centimes de dollar en TTS seul. Sur un volume de 10 000 appels par mois, vous êtes entre 400 et 800 dollars de TTS. Pour une mutuelle qui traite 50 000 contacts entrants par mois, on passe à 2 000 à 4 000 dollars par mois sur la couche TTS uniquement.
Ces chiffres ne couvrent ni la reconnaissance vocale (MAI-Transcribe-1.5 ou Azure Speech), ni le LLM de décision (GPT-5.5, MAI-Thinking-1 ou un modèle tiers), ni la téléphonie SIP, ni l'orchestration. La voix nette de Microsoft, ce n'est que la dernière brique de la chaîne. La facture totale d'un callbot reste dominée par le LLM, comme nous l'avons décortiqué dans la stack callbot 2026.
À ce prix, MAI-Voice-2 se positionne sous ElevenLabs Multilingual v3 (35 $/M caractères au tarif Enterprise) et au-dessus de Google Cloud Text-to-Speech Neural2 (16 $/M caractères). Sur le seul critère prix, c'est un benchmark intéressant. Sur les critères qui pèsent vraiment — qualité prosodie française, robustesse au bruit téléphonique, support des accents francophones non métropolitains — le verdict ne tombera qu'après vos propres tests d'écoute.
Real-time voice agents Copilot Studio : la couche d'au-dessus
Le sujet n'est pas seulement le modèle. C'est la couche d'orchestration que Microsoft assemble autour.
Le 27 avril 2026, Microsoft a annoncé la disponibilité générale des Real-time voice agents dans Copilot Studio, en Amérique du Nord, sur Dynamics 365 Contact Center.4 L'architecture est explicitement speech-to-speech avec interruption (barge-in) et raisonnement temps réel, sur les cinq cas d'usage standards d'un contact center : facturation, prise de commande, vérification d'éligibilité, prise et déplacement de rendez-vous, gestion de compte ou d'adhésion.
Le contexte client est conservé automatiquement lors d'une escalade vers un agent humain. C'est exactement le pattern que les directions relation client demandent depuis trois ans, et que la majorité des plateformes voix tierces gèrent encore mal.
Microsoft revendique que plus de 80 % des entreprises du Fortune 500 ont au moins un agent Copilot Studio en activité.4 En clair : si vous êtes une ETI ou un grand groupe français déjà engagé sur Microsoft 365, Dynamics 365 ou Power Platform, votre direction métier va vous demander un POC voix Microsoft cette année. C'est désormais une question de mois, plus d'années.
Mais la GA n'est pour l'instant que nord-américaine. Pas de date publique pour la France. Pas de grille tarifaire par siège annoncée. Pas de couverture francophone Dynamics 365 Contact Center confirmée.
Trois scénarios français : à qui MAI-Voice-2 sert vraiment
Voici comment nous voyons remonter les trois cas concrets chez des prospects ETI cette semaine.
Cas 1 — Distributeur français de matériaux, 1 800 salariés, Dynamics 365 Contact Center déjà en place. L'équipe relation client traite 40 000 appels SAV par mois sur quatre langues européennes. Le POC MAI-Voice-2 Flash en preview Foundry est à lancer dès cette semaine, parallèlement à la stack actuelle. Vous validez la qualité prosodie française sur 200 appels, vous mesurez la latence end-to-end sur votre SIP, vous comparez le coût total avec votre TTS actuel. C'est gratuit en termes de risque produit, et la donnée brute vous arme pour l'arbitrage budgétaire H2 2026.
Cas 2 — Mutuelle santé de 800 salariés, sur Azure Communication Services, sans Dynamics 365. Le callbot adhérent traite 8 000 appels par mois sur trois flux : remboursements, désaffiliation, prise de rendez-vous médical. Ici la preview Foundry suffit techniquement, mais MAI-Voice-2 ne résout aucun des trois sujets qui décident vraiment du déploiement : connexion sécurisée au SI adhérent, conformité ACPR sur les données de santé, et orchestration métier des transferts vers un conseiller humain. La couche modèle ne fait que 15 % du chemin.
Cas 3 — Industriel français du CAC 40, déjà équipé d'un callbot custom sur ElevenLabs et Deepgram. Pas de bascule cette année. MAI-Voice-2 entre comme TTS de secours dans la stratégie multifournisseurs, pour éviter une dépendance à un seul éditeur de voix. Concrètement : un router voix en sortie de LLM qui choisit ElevenLabs en routine et MAI-Voice-2 en débordement ou sur des langues moins bien servies. La logique est la même que pour le multiLLM côté texte. Le coût et la résilience priment, pas la fidélité à une marque.
Ce que MAI-Voice-2 ne change pas : la couche métier
Voici le piège classique quand un grand acteur sort un modèle voix de qualité.
L'équipe achat regarde le prix par caractère, l'équipe DSI regarde la latence, l'équipe métier regarde la démo, et tout le monde oublie que la voix n'est que 20 % d'un callbot qui tient en production.
Les 80 % restants, c'est la connaissance métier. Le callbot d'une banque doit savoir reconnaître une demande d'opposition de carte d'un signalement de fraude. Le callbot d'une mutuelle doit distinguer un remboursement courant d'un dossier de tiers payant. Le callbot d'un distributeur e-commerce doit raccrocher un retour produit à un statut de commande dans le WMS. Aucun de ces sujets n'est résolu par un modèle voix natif Azure.
Ce qui reste à construire après MAI-Voice-2 : l'orchestration métier, les guardrails sur le périmètre du callbot, la connexion sécurisée au SI, le routage vers un humain compétent, la mesure du taux de résolution réel, et la conduite du changement côté équipes terrain. Soit 6 à 12 mois de travail spécialisé, quelle que soit la couche voix choisie.
C'est précisément le rôle que joue Webotit sur la couche agents IA d'orchestration, et c'est le sujet qu'il faut chiffrer avant de signer une stack callbot complète.
Ce que ça change pour une entreprise française
Trois recommandations concrètes en CODIR cette semaine.
Pour une DSI sous stack Microsoft 365 et Dynamics 365 : ouvrir un POC MAI-Voice-2 dans Foundry sous 15 jours. Ne signez pas d'engagement avec un éditeur de voix tiers avant d'avoir mesuré la qualité française. Les Real-time voice agents de Copilot Studio arrivent en Europe dans les trimestres à venir, et vous devez préparer votre cartographie de modèles voix éligibles.
Pour une direction relation client ou expérience client : MAI-Voice-2 n'est pas un produit prêt à déployer. C'est un modèle de base que Microsoft empaquette dans Copilot Studio. La question n'est pas « est-ce qu'on bascule sur Microsoft voix ? », mais « est-ce qu'on construit notre couche métier sur Copilot Studio ou sur une stack indépendante ? ». La réponse dépend de votre dépendance Azure existante, de votre conformité sectorielle et de votre besoin de portabilité multicloud.
Pour un DAF qui doit arbitrer un budget callbot H2 2026 : intégrez la baisse probable du coût TTS dans vos hypothèses, mais ne capitalisez pas la totalité de l'économie. Le coût LLM, le coût d'orchestration et le coût d'intégration métier ne baissent pas avec MAI-Voice-2. La couche voix native rejoint la même logique de facturation à la consommation que nous avons documentée pour Claude Code Agent SDK le 15 juin 2026 : forfait sur la couche humaine, consommation sur la couche agent.
Webotit reste éditeur français spécialisé sur les callbots multilingues et la couche d'orchestration métier qui va autour. Notre approche est agnostique sur le modèle voix : nous benchmarkons MAI-Voice-2 dès cette semaine sur nos cas clients en assurance, en mutuelle et en banque.
La voix native Azure va devenir un standard de marché en 12 mois. Le débat ne porte plus sur la qualité du TTS, il porte sur le contrôle de la couche métier.
Vous avez un projet callbot à arbitrer cette semaine ou un POC à cadrer avant la fin du trimestre ? Discutez-en avec nos équipes Webotit pour comparer Copilot Studio, ElevenLabs et une stack indépendante sur votre cas réel — sans pitch, avec les chiffres.
- 22 $/M caractères : prix de MAI-Voice-2 en preview Foundry, en dessous d'ElevenLabs et au-dessus de Google Cloud TTS.
- Sub-300 ms : latence avant premier paquet audio en streaming pour la variante Flash, viable pour le temps réel téléphonique.
- 18 langues dont français : couverture suffisante pour un callbot multilingue européen, à valider sur la qualité prosodie réelle.
- GA Q3 2026 : Real-time voice agents en GA NA depuis avril 2026, pas de date publique pour la France.
- 80 % de la valeur reste métier : MAI-Voice-2 ne traite ni l'orchestration, ni la conformité, ni l'intégration SI.
Questions frequentes
Qu'est-ce que MAI-Voice-2 et en quoi diffère-t-il d'Azure Speech ?
MAI-Voice-2 est le modèle de synthèse vocale interne développé par l'équipe MAI Superintelligence de Microsoft, annoncé à Build 2026. Il vise à remplacer progressivement les voix Azure Speech existantes par un modèle natif Microsoft, avec voice cloning intégré, 18 langues dont le français et une intégration directe à Copilot Studio. Azure Speech reste disponible pour la rétrocompatibilité, mais Microsoft pousse MAI-Voice-2 comme nouveau standard.
Le français est-il vraiment supporté par MAI-Voice-2 ?
Oui. La page officielle Microsoft AI liste explicitement le français parmi les 18 langues de MAI-Voice-2, aux côtés de l'allemand, l'italien, l'espagnol, le portugais et le néerlandais. La qualité prosodie française doit être validée par vos propres tests d'écoute sur vos cas d'usage, en conditions téléphoniques et avec votre vocabulaire métier.
Quel est le vrai coût d'un callbot construit sur MAI-Voice-2 ?
À 22 $ par million de caractères, MAI-Voice-2 représente environ 4 à 8 centimes par appel de 4 minutes en TTS uniquement. Pour un volume de 10 000 appels par mois, comptez 400 à 800 dollars de TTS. La voix ne représente que 15 à 25 % de la facture totale d'un callbot : le LLM de décision, la téléphonie SIP, la transcription et l'orchestration métier dominent le coût final.
Faut-il abandonner sa stack callbot actuelle pour MAI-Voice-2 ?
Pas avant d'avoir mesuré trois points. La qualité prosodie française sur 200 appels réels. La latence end-to-end avec votre téléphonie SIP. Le coût total intégré, pas le seul coût TTS. Pour une ETI sous Dynamics 365, le POC en preview Foundry s'impose sous 15 jours. Pour un grand groupe avec callbot custom, MAI-Voice-2 entre en multi-fournisseurs, pas en remplacement.
Quand MAI-Voice-2 sera-t-il en GA en France et en Europe ?
Microsoft annonce la GA pour le troisième trimestre 2026, sans date précise par région. Les Real-time voice agents de Copilot Studio sont en GA en Amérique du Nord depuis avril 2026 sur Dynamics 365 Contact Center, avec une expansion européenne annoncée sans calendrier ferme. Comptez 6 à 12 mois avant une couverture francophone complète sur la couche orchestration.
Sources et references
Articles associés

Stack callbot 2026 : LLM, STT, TTS, Speech-to-Speech
Stack callbot 2026 : comparer SIP, STT, LLM, TTS et orchestration pour choisir une architecture robuste, mesurable et maintenable.
Lire
Voice agents : endpointing, barge-in et S2S en prod
Guide 2026 pour concevoir un voice agent qui tient à l’échelle : pipeline STT/LLM/TTS, endpointing, barge-in, Realtime S2S, et téléphonie (Twilio).
Lire
GPT-Realtime-2 : OpenAI met le raisonnement dans le callbot
GPT-Realtime-2 sort le 7 mai 2026 avec contexte 128K, 5 niveaux de raisonnement et la Realtime API en GA. Ce qu'un DSI français doit cadrer avant de signer.
Lire