Mistral Small 4 : 119B open-source, 256k — le DSI peut bouger

Mistral Small 4 arrive en MoE 119B Apache 2.0 avec 256k de contexte. Voici ce qu'un DSI français peut en faire dès demain matin.

Gabriel Morel

Auteur spécialisé veille IA, LLM et agents IA

15 avril 20264 min de lecture

Parler de ce sujet avec Webotit

En bref

Mistral Small 4 est un MoE de 119B paramètres (6B actifs), sous licence Apache 2.0, avec 256k de contexte et reasoning configurable. Pour un DSI français, c'est le premier modèle souverain qui tient tête aux frontières US sur du self-hosting GPU raisonnable — sans envoyer un seul token à l'étranger.

Un modèle unique qui remplace trois appels d'API

Vous jonglez encore entre GPT-5 pour le raisonnement, un modèle pas cher pour le chat, et un autre pour la vision ? Vous allez pouvoir arrêter.

Mistral Small 4 est sorti en mars 2026 avec une promesse simple : un seul modèle pour l'instruct, le reasoning, le multimodal et l'agentique.¹ Le développeur règle le reasoning_effort à l'inférence, sans changer d'endpoint. Fin du routeur interne entre "fast model" et "thinking model".

La bascule est rare dans l'industrie. La plupart des éditeurs US poussent l'inverse : des familles séparées qui multiplient les intégrations. Mistral choisit l'économie de cognition pour les équipes produit. Nous pensons que c'est le bon pari pour les ETI françaises qui n'ont pas dix ingénieurs ML à dédier au routage de modèles.

119B paramètres, mais 6B actifs : l'économie GPU change

Le cœur technique est un Mixture-of-Experts avec 128 experts et 4 experts actifs par token. Résultat : 119B paramètres au total, mais seulement 6B activés par inférence.²

Concrètement ? Un H100 unique tient la charge en FP8. Deux H100 en FP16. Pour un établissement qui tourne aujourd'hui sur un cluster de 8 à 16 GPU pour faire tourner un Llama 70B, Mistral Small 4 divise la facture d'infrastructure par deux ou trois — à qualité comparable.

Mistral annonce 3x plus de requêtes par seconde qu'un Small 3 optimisé throughput, et une réduction de latence end-to-end de 40% sur les benchmarks maison.¹ Les chiffres éditeur restent des chiffres éditeur. Mais l'architecture MoE est vérifiable : moins de paramètres actifs = moins de FLOPs = moins d'euros de GPU-heure.

256k tokens de contexte : le RAG n'est plus obligatoire

256 000 tokens de fenêtre de contexte. Pour situer : c'est environ 500 pages A4 de texte, ou la totalité des conditions générales d'une compagnie d'assurance moyenne.

Ce que ça change pour le RAG (Retrieval-Augmented Generation — technique qui injecte des documents pertinents dans le prompt pour éviter les hallucinations) : dans 60 à 70% des cas d'usage d'entreprise, vous pouvez passer en "long-context direct" plutôt que monter une infrastructure vectorielle.

Un CHU que nous accompagnons voulait indexer ses protocoles de soins dans une base Pinecone. Avec Small 4, l'ensemble des protocoles d'un service tient dans le contexte. Zero chunking, zero embedding, zero vector DB. La latence monte — mais le coût d'intégration s'effondre.

Ce n'est pas toujours le bon choix. Au-delà de 500K tokens de corpus, le RAG vectoriel reste incontournable. Mais pour 90% des chatbots métier B2B, 256k de contexte tue la complexité.

Apache 2.0 : la souveraineté n'est plus un argument marketing

La licence Apache 2.0 autorise le self-hosting, la modification, le fine-tuning, et la redistribution commerciale sans royalties. C'est le seul modèle de cette taille sorti en 2026 avec ce niveau de permissivité, à l'exception de Qwen 3.5 et GLM-5.

Pour une compagnie d'assurance soumise à l'ACPR, une mutuelle sous contrôle du CNIL, un industriel sous réglementation NIS2, c'est ça qui compte. Pas la qualité du français (bonne mais pas supérieure à GPT-5) ni les benchmarks MMLU (corrects mais pas top 3).

Le fait, c'est que vous pouvez déployer Small 4 sur un GPU OVH à Gravelines ou Roubaix, garantir aux métiers que zéro token ne quitte le territoire, et cocher la case "souveraineté" dans la grille d'analyse de risque. Sans supplier un account manager d'OpenAI pour un contrat DPA qui fait jurisprudence.

92% des DSI français placent la souveraineté des données parmi leurs trois priorités IA 2026, selon le baromètre Wavestone Cigref.³ Un modèle Apache 2.0 de qualité frontière, c'est leur problème numéro un qui se débloque.

Ce qu'il faut retenir

Ce que ça change pour votre entreprise

Si vous êtes DSI d'une ETI entre 500 et 5000 salariés, Mistral Small 4 doit entrer en POC dans les 4 à 6 semaines. Trois cas d'usage prioritaires :

Chatbot interne RH/IT : FAQ enrichies par contexte long, réponses en français natif, coût d'inférence divisé par 3 versus GPT-5.
Assistant documentaire : analyse de contrats, appels d'offres, rapports — le 256k context élimine la brique RAG.
Pré-qualification commerciale : agents IA qui lisent un brief client entier avant de générer une réponse.

La question n'est pas "Small 4 bat-il GPT-5 ?". Il ne le bat pas sur tous les benchmarks. La question est "Qui me donne 80% de la qualité avec 100% de la souveraineté et 30% du coût ?". Aujourd'hui, Mistral Small 4 est seul sur cette ligne.

Chez Webotit, nous travaillons avec les grandes ETI françaises pour déployer des chatbots qui exploitent le meilleur compromis qualité/souveraineté/coût. Small 4 change notre stack par défaut pour les secteurs régulés (assurance, santé, banque).

Conclusion

Mistral Small 4 n'est pas juste un modèle de plus. C'est le signal qu'un éditeur français peut sortir une brique frontière sous Apache 2.0 — sans supplier Bercy pour une subvention. Les DSI français ont enfin leur filet de sécurité technique face au lock-in américain.

Vous voulez évaluer si Mistral Small 4 tient la charge sur votre cas d'usage ? Estimez votre ROI en 2 minutes.

Questions frequentes

Mistral Small 4 peut-il remplacer GPT-5 dans une entreprise française ?

Sur du chatbot métier B2B en français, oui dans 70 à 80% des cas. GPT-5 reste devant sur le raisonnement complexe multi-étapes et le code génération bleeding-edge. Pour tout le reste — FAQ, qualification, assistance documentaire — Small 4 atteint un niveau équivalent avec la souveraineté en plus.

Quelle infrastructure GPU faut-il pour déployer Mistral Small 4 ?

Un H100 unique en FP8 fait tourner le modèle en production pour 100 à 300 requêtes par seconde. Deux H100 en FP16 donnent plus de marge. Chez OVH à Gravelines, cela représente un coût d'infrastructure de 30 à 60 K€ par an selon l'usage.

Mistral Small 4 est-il compatible RGPD et ACPR ?

Oui, dès lors qu'il est hébergé sur un cloud souverain (OVH, Outscale, Scaleway) ou on-premise. La licence Apache 2.0 autorise cet hébergement sans contrat commercial avec Mistral. Les directives ACPR de 2025 sur l'IA sont compatibles avec ce modèle d'hébergement.

Quand privilégier Mistral Small 4 plutôt qu'un RAG classique ?

Dès que votre corpus fait moins de 500K tokens (environ 1000 pages). Au-delà, une architecture vectorielle reste plus efficace. En dessous, le contexte long natif de Small 4 supprime la complexité d'ingestion, d'embedding et de recherche.

Sources et references

MistralLLM françaisopen sourcesouveraineté