Xiaomi MiMo : évolution publique des modèles 2023-2026

IA ConversationnelleArticle cluster

Xiaomi MiMo : évolution publique des modèles 2023-2026

La trace publique de MiMo est surtout lisible à partir de 2025: MiMo-7B, MiMo-V2-Flash, puis V2-Pro, Omni et TTS en 2026.

Gabriel Morel

Auteur spécialisé veille IA, LLM et agents IA

4 mai 20265 min de lecture

Parler de ce sujet avec Webotit

En bref

La trajectoire publique vérifiable de Xiaomi MiMo ne remonte pas clairement à 2023 dans les sources officielles consultées. Le signal documenté apparaît surtout avec MiMo-7B, puis avec MiMo-V2-Flash, MiMo-V2-Pro, MiMo-V2-Omni et MiMo-V2-TTS. Pour une entreprise, le vrai signal est la montée rapide vers l’agentique, le multimodal et la voix.

Introduction

Le nom “Xiaomi MiMo” peut donner l’impression d’un long historique de recherche déjà bien stabilisé. Les sources officielles consultées au 25 mars 2026 racontent plutôt autre chose: une trajectoire publique récente, rapide et très active, mais dont la partie antérieure à 2025 n’est pas clairement établie dans les pages officielles que j’ai pu vérifier.¹²

Je ne retrouve pas de ligne publique officielle claire qui remonte solidement à 2023 pour la famille modèle telle qu’elle est présentée aujourd’hui. En revanche, je retrouve un ancrage documenté en 2025 avec le dépôt MiMo, puis un premier grand saut fin 2025 avec MiMo-V2-Flash, puis une nouvelle vague le 18 mars 2026 avec MiMo-V2-Pro, MiMo-V2-Omni et MiMo-V2-TTS.¹²³

1. Le socle visible en 2025 : MiMo-7B

Le dépôt GitHub XiaomiMiMo/MiMo donne le premier socle robuste que l’on peut dater. Le dépôt montre un démarrage de fichiers autour du 29 avril 2025 et une mise à jour du README / technical report le 5 juin 2025. Le rapport parle de MiMo-7B comme d’une série de modèles “born for reasoning tasks”.¹

Ce qu’il faut retenir:

le projet public est déjà orienté reasoning ;
la logique de post-training est importante ;
le scope initial est textuel et raisonnement d’abord ;
la montée en gamme vers l’agentique n’est pas encore la même qu’en 2026.

Le dépôt explique aussi que MiMo-7B est une série de modèles entraînés from scratch, avec un modèle de base, du SFT et du RL. Autrement dit, la stratégie publique commence par la capacité de raisonnement, pas par la simple diffusion d’un chat multimodal.

2. Le basculement fin 2025 : MiMo-V2-Flash

Le 16 décembre 2025, Xiaomi publie MiMo-V2-Flash. C’est le premier signal vraiment massif de montée en puissance publique. Le billet officiel le décrit comme un modèle de fondation rapide, efficace, orienté reasoning, coding et agentic scenarios, avec une disponibilité globale via Hugging Face, API Platform et AI Studio.²

Les chiffres sont clairs:

309B paramètres totaux ;
15B actifs ;
fenêtre de contexte 256k ;
architecture MoE ;
prix affiché autour de $0.1 par million de tokens d’entrée et $0.3 pour la sortie ;
vitesse annoncée à 150 tokens/s.²

La leçon entreprise est simple: Xiaomi ne présente pas MiMo-V2-Flash comme un simple modèle de labo. Le modèle est pensé pour la production, les workflows agentiques et le débit. C’est probablement la première version qui mérite un vrai suivi opérationnel.

3. La vague du 18 mars 2026

Le 18 mars 2026, Xiaomi publie sur son site trois modèles majeurs:

MiMo-V2-Pro
MiMo-V2-Omni
MiMo-V2-TTS³

Cette date est importante parce qu’elle marque un changement de nature. On ne parle plus seulement d’un modèle de reasoning. On parle d’un écosystème plus large:

Modèle	Rôle public	Signal principal
MiMo-V2-Pro	Flagship foundation model pour workloads agentiques	Orchestration de workflows complexes
MiMo-V2-Omni	Modèle omni-modal	Image, vidéo, audio, texte et tool calling
MiMo-V2-TTS	Speech synthesis model	Voix expressive pour agents
MiMo-V2-Flash	Modèle rapide et économique	Reasoning et agentic à coût plus faible

Le site officiel et les pages produits montrent clairement cette progression: de l’agentique texte vers l’omni-modal, puis vers la voix. Pour un lecteur entreprise, c’est le vrai signal: Xiaomi MiMo cherche à couvrir la chaîne complète du dialogue, de la perception à l’action, puis à l’expression vocale.³⁴

4. Ce que dit cette trajectoire sur la stratégie produit

La trajectoire publique de MiMo indique trois choses.

Premièrement, Xiaomi ne cherche pas seulement un bon modèle de chat. Le dépôt, le blog et les pages 2026 montrent une obsession pour les tâches agentiques, le raisonnement et l’exécution.

Deuxièmement, la famille s’élargit vite. MiMo-V2-Flash vise le débit et l’efficience. MiMo-V2-Pro cible les workflows complexes. MiMo-V2-Omni veut relier perception et action. MiMo-V2-TTS ajoute la voix et l’expressivité.²³

Troisièmement, la base publique reste jeune. Cela n’est pas un défaut en soi, mais cela doit être dit. Si vous cherchez une plateforme dont l’historique public remonte clairement sur plusieurs années, MiMo n’offre pas encore la profondeur d’archives d’autres acteurs plus anciens.

5. Ce qu’il faut regarder en priorité en 2026

En 2026, les modèles Xiaomi MiMo à suivre vraiment ne sont pas ceux qui ont le plus de bruit, mais ceux qui montrent un rôle distinct:

MiMo-V2-Flash si vous voulez le meilleur couple coût / débit ;
MiMo-V2-Pro si vous voulez l’agentique pur, le contexte long et l’orchestration ;
MiMo-V2-Omni si vous avez besoin d’image, de vidéo, d’audio et d’action ;
MiMo-V2-TTS si la voix expressive devient un avantage produit.²³

Le point de vigilance est la maturité réelle. MiMo-V2-Flash a une documentation riche et une publication datée du 16 décembre 2025. MiMo-V2-Pro, MiMo-V2-Omni et MiMo-V2-TTS datent du 18 mars 2026. C’est récent. Il faut donc garder une lecture prudente sur le retour d’expérience long terme, les pratiques de support et la stabilité de production.²³

6. Où Webotit place ce signal

Chez Webotit, cette trajectoire est intéressante pour trois raisons. D’abord, elle montre qu’un modèle conversationnel peut devenir une base d’orchestration. Ensuite, elle prouve que la voix redevient un sujet sérieux pour l’agent conversationnel. Enfin, elle rappelle que le multimodal n’est pas un gadget, mais une manière de rapprocher perception et action.

Un Chatbot Relation Client ou un Callbot Relation Client n’a pas besoin d’être “gros” pour être utile. En revanche, les Agents IA Back-Office et les parcours hybrides gagnent à suivre ces progrès, surtout quand il faut traiter des dossiers plus complexes, des médias variés ou des réponses vocales plus naturelles.

Conclusion

La meilleure lecture de Xiaomi MiMo au 25 mars 2026 n’est pas “ils sont partout depuis 2023”. La lecture honnête est: la trace publique est surtout lisible à partir de 2025, puis elle accélère très fortement entre le 16 décembre 2025 et le 18 mars 2026. Cette vitesse dit quelque chose de la stratégie: reasoning, agentic, multimodal, voice. C’est cette courbe-là qu’il faut suivre.

7. Ce qu’il faut encore prouver

La trajectoire MiMo est déjà assez nette pour justifier une veille sérieuse, mais elle ne dispense pas d’une lecture prudente. Le point le plus important, pour un acheteur, est de distinguer ce qui relève d’une vitrine produit récente et ce qui constitue déjà un portefeuille exploitable avec assez de recul.

C’est exactement pour cela que l’article d’évolution doit rester rigoureux sur ses dates. Xiaomi MiMo devient crédible à partir d’une fenêtre publique surtout visible entre fin 2025 et mars 2026. Cela suffit pour un benchmark ciblé. Cela ne suffit pas pour inventer une profondeur historique antérieure qui n’est pas documentée dans les sources primaires.

FAQ : Xiaomi MiMo

Q1 : MiMo existe-t-il publiquement depuis 2023 ?

R : Je ne retrouve pas de trajectoire modèle clairement documentée par les sources officielles consultées avant 2025. Je préfère donc parler d’une trajectoire publique vérifiable à partir de 2025.

Q2 : Quel est le premier modèle vraiment important ?

R : MiMo-7B, parce qu’il pose le socle reasoning et le cadre public du projet, mais MiMo-V2-Flash est le premier vrai saut de gamme visible fin 2025.

Q3 : Pourquoi MiMo-V2-Flash compte autant ?

R : Parce qu’il combine vitesse, coût très bas, contexte long et capacité agentique dans une forme déjà crédible pour la production.

Q4 : Quel modèle marque le changement de génération en 2026 ?

R : MiMo-V2-Pro pour l’agentique, MiMo-V2-Omni pour le multimodal et MiMo-V2-TTS pour la voix. Ces trois pages sont datées du 18 mars 2026.

Sources et references

IA conversationnellemodèlesXiaomi MiMomultimodal

Articles associés

IA Conversationnelle

Google Gemini : ce qu’il faut retenir en 2026

Gemini n’est plus seulement un nouveau modèle de langage. C’est désormais une famille de modèles, de produits et d’intégrations Google à distinguer clairement.

Lire

Interface ChatGPT et usages professionnels

IA Conversationnelle

ChatGPT : ce qu’il faut savoir et comment l’utiliser utilement

ChatGPT n’est plus un simple chatbot démo. En 2026, c’est un produit, plusieurs modes et plusieurs usages à distinguer clairement.

Lire

Assistant multimodal combinant texte, image et audio

IA Conversationnelle

IA multimodale OpenAI : usages métier et héritage de GPT-4

Ce que l’IA multimodale change vraiment pour les chatbots et assistants: images, audio, temps réel, documents et parcours client.

Lire