Mistral OCR 4 : un conteneur on-premise pour vos mutuelles et banques
Mistral OCR 4 : un conteneur on-premise pour vos mutuelles et banques
Mistral OCR 4 sort le 23 juin 2026 en API et en conteneur on-premise : l'arbitrage que vos DSI assurance, mutuelle et banque doivent trancher avant la rentrée.
Parler de ce sujet avec Webotit
Le 23 juin 2026, Mistral AI publie OCR 4 sur son API et sous forme de conteneur on-premise. Pour une mutuelle santé sous HDS, une banque sous DORA ou un assureur dommages, l'arbitrage qui revient au CODIR n'est plus le choix du moteur OCR : c'est qui héberge les pièces jointes sensibles, et à quel coût.
Ce que Mistral a vraiment livré le 23 juin
Mistral AI a annoncé OCR 4 le 23 juin 2026, simultanément sur quatre canaux : l'API Mistral, Document AI dans Mistral AI Studio, Amazon SageMaker et Microsoft Foundry.12 Le modèle se déploie aussi en un seul conteneur installable dans une infrastructure cliente, sans que les documents quittent le périmètre.13
Le prix annoncé est de 4 dollars pour 1 000 pages via l'API, ramené à 2 dollars pour 1 000 pages avec la remise Batch-API de 50 %.4 Le modèle couvre 170 langues réparties sur 10 familles linguistiques.12
Côté performance, les chiffres revendiqués par Mistral sont sourcés et tombent au-dessus des concurrents testés :
- 72 % de préférence moyenne en blind tests contre les principaux OCR et document-AI du marché, sur plus de 600 documents réels en 12 langues.15
- 93,07 sur OmniDocBench et 85,20 sur OlmOCRBench, les deux benchmarks publics de référence pour la compréhension de documents.14
- Sur un dataset financier dense en graphiques et tableaux, OCR 4 atteint une précision équivalente aux meilleurs parseurs agentiques à environ 8× moins cher et 17× plus rapide.1
Le modèle ne renvoie pas un flux de texte. Il renvoie une représentation typée : bounding boxes au niveau du paragraphe, classification du bloc (titre, tableau, équation, signature, formulaire), score de confiance par page et par mot, et sortie structurée en Markdown.16
Pourquoi c'est un sujet de CODIR maintenant, pas dans six mois
Pour une mutuelle santé ETI de 1 200 collaborateurs sous HDS, un arrêt de travail scanné, un certificat médical ou un devis optique transitent aujourd'hui par une chaîne fragile : boîte mail générique, OCR cloud d'un fournisseur américain, copie résiduelle dans un bucket S3, ré-injection dans le SI métier. Chaque maillon est un point d'audit ACPR et HDS.
Avec OCR 4 en conteneur, ce flux peut rester intra-muros. Le document ne sort jamais du datacenter HDS de l'hébergeur. Le modèle est un binaire, pas un endpoint réseau. Cela ne supprime pas l'audit, mais cela en change la nature : on parle d'un modèle hébergé sous contrat de sous-traitance HDS, pas d'une API externe à requalifier en transfert international de données.
Pour une banque privée régionale qui renouvelle son KYC ou un contrat LLM Enterprise au Q4 2026, la séquence d'actualité de juin colore l'arbitrage. La coupure imposée à Anthropic le 12 juin sur Fable 5 et Mythos 5 a démontré qu'un État américain peut éteindre un modèle frontière sans préavis client. Pour un acteur sous DORA, exposer son pipeline d'extraction documentaire à ce risque est un choix qui se documente devant le comité des risques.
Le 25 juin 2026, l'Île-de-France soumet à sa séance plénière une stratégie data centers qui doit miser sur la chaîne Scaleway + Vsora + ZML pour bâtir une pile IA souveraine du silicium au logiciel.7 Quel que soit le résultat du vote, OCR 4 s'installe dans cette pile. C'est ce qui rend l'arbitrage moins théorique qu'il y a six mois.
Le piège : confondre on-premise et conformité
Un conteneur on-premise ne vous met pas spontanément en conformité. Il ouvre une option, il ne la solde pas.
Trois pièges qu'une DSI doit lever avant de pousser OCR 4 en production :
- Le poste GPU. OCR 4 est compact mais reste un modèle multimodal. Un déploiement sérieux sur une mutuelle qui traite 200 000 pages par mois demande un dimensionnement réaliste (GPU H100 ou équivalent souverain, mémoire vidéo suffisante pour les batchs PDF longs). L'économie de l'API à 2 dollars par 1 000 pages devient un avantage marginal si l'infra interne coûte trois fois plus.
- L'évaluation métier. Un benchmark public ne dit rien de votre stock de PDF mal scannés des années 2010, de vos formulaires manuscrits de centres de gestion, ou de vos décomptes de Sécurité sociale. Construisez un golden set de 200 à 500 documents internes par type, mesurez OCR 4 contre votre stack actuelle (Google Document AI, AWS Textract, Mistral OCR 3) sur vos vrais cas, pas sur OmniDocBench.16
- L'enchaînement métier. OCR 4 sort du texte typé. Il ne décide pas ce qu'il faut faire de ce texte. Le mailbot qui qualifie l'email, l'agent IA qui ouvre un sinistre, la boucle HITL qui demande la pièce manquante : tout cela reste à orchestrer. C'est le travail que nos équipes de mailbots et d'agents IA industrialisent chez des assureurs et mutuelles français.
Et OCR 4 ne traite pas la voix, ni le vocal qualifié. Pour un appel entrant qui contient un numéro de contrat, c'est un callbot avec STT et NLU qui reste en première ligne.
Trois cas sectoriels français concrets
Mutuelle santé ETI, 1 500 collaborateurs, sous ACPR + HDS, 350 000 pièces jointes par an. Le backlog email se concentre sur trois types : arrêts de travail, devis optique et dentaire, justificatifs de remboursement. Aujourd'hui, 30 % des pièces sont rebasculées en HITL parce que l'OCR cloud actuel rate les tableaux dentaires complexes. Avec OCR 4 en conteneur, le score de confiance par bloc permet de baisser le taux HITL sur les devis structurés. Premier KPI à viser : ramener le HITL devis optique de 30 % à moins de 12 % avant la revue annuelle ACPR de novembre, en couplant OCR 4 à un mailbot qui qualifie l'email entrant et instruit la pièce.
Assurance dommages ETI régionale, 800 collaborateurs, contraintes DORA Article 28. La chaîne sinistres alimentaires sous 500 € est manuelle parce que les déclarations arrivent en photo de smartphone, parfois floues, avec ticket de caisse et photo du produit défectueux. OCR 4 classe les blocs (en-tête commerçant, lignes d'article, montant total, signature) et renvoie des scores de confiance utilisables. Cas d'usage à cadrer avant fin août : pousser deux workflows en production supervisée, l'un sur les sinistres alimentaires sous 500 €, l'autre sur les déclarations de dégâts des eaux, pour préparer la revue DORA Article 28 d'octobre.
Banque privée régionale, KYC entrant. Les justificatifs (RIB, pièce d'identité, justificatif de domicile, K-bis) arrivent par email et par portail. La double exigence porte sur la résidence des données (jurisprudence ACPR sur les transferts hors UE) et sur la traçabilité du contrôle de cohérence. OCR 4 typé renvoie une preuve d'extraction par bloc, donc auditable. Couplé à un agent IA qui croise les blocs extraits avec les bases internes, il rend le contrôle de cohérence rejouable et journalisé. C'est cette double propriété qui fait la différence dans une revue de conformité.
Ce que ça change pour une entreprise française
Pour une DSI sous DORA, ACPR ou HDS, OCR 4 vous donne pour la première fois une combinaison cohérente : modèle français, conteneur on-premise, sortie typée auditable, prix unitaire bas via l'API si vous voulez démarrer en SaaS avant de basculer.
Concrètement, trois décisions tombent dans les 90 jours :
- Cartographier les trois flux documentaires qui passent encore par un OCR cloud américain et chiffrer le coût de bascule (GPU, intégration, tests, formation).
- Construire un golden set interne de 200 à 500 documents par type et mesurer OCR 4 contre votre stack actuelle avant la rentrée. Pas de décision sans mesure sur vos propres documents.
- Inscrire OCR 4 dans la clause de portabilité de votre prochain contrat LLM Enterprise. Si le modèle frontière qui pilote vos agents est suspendu demain comme Claude Fable 5 le 12 juin, vous voulez que l'extraction documentaire continue, indépendamment.
Pour une PME e-commerce française qui traite des factures fournisseurs et des bons de livraison étrangers, la promesse est plus simple : un OCR français multilingue à un coût défendable, sans envoyer les factures à un cloud américain. C'est un sujet de contrôle de gestion autant que de DSI.
Webotit.ai accompagne des mutuelles, assureurs et banques sur ces chaînes documentaires depuis huit ans. Nous combinons OCR, mailbot et agents IA pour transformer un flux email entrant en sinistre instruit ou en KYC validé, avec citations et traces. OCR 4 entre dans cette pile comme une option, pas comme une religion.
Ce qu'il faut retenir
- 23 juin 2026 : Mistral OCR 4 sort sur API, AWS SageMaker, Microsoft Foundry et en conteneur on-premise.1
- 170 langues, 4 $ pour 1 000 pages (2 $ en Batch), 72 % de préférence en blind tests, 93,07 sur OmniDocBench.14
- Pour une mutuelle sous HDS, le conteneur change la nature de l'audit : modèle sous sous-traitance HDS plutôt qu'API externe à requalifier.
- Trois décisions CODIR à prendre avant la rentrée : cartographier les flux cloud US, construire un golden set, inscrire OCR 4 dans la clause de portabilité du prochain contrat LLM Enterprise.
- OCR 4 n'est pas un sinistre instruit ni un KYC validé. C'est une brique typée qu'un mailbot ou un agent IA orchestre derrière.
Conclusion
OCR 4 ne révolutionne rien. Il consolide un arbitrage que vos DSI et directions des risques repoussaient depuis dix-huit mois : sortir les flux documentaires sensibles d'un OCR cloud américain sans perdre en qualité ni exploser le budget.
La vraie question n'est plus quel OCR choisir. C'est quel mailbot, quel agent IA et quelle boucle HITL vous mettez derrière, pour qu'un email entrant devienne un sinistre instruit ou un KYC validé, et pas seulement du texte propre dans un fichier JSON.
Vous voulez voir comment un mailbot Webotit et OCR 4 instruisent un sinistre simple ou qualifient une pièce KYC chez un assureur français ? Découvrez nos solutions de mailbots ou estimez le ROI de votre bascule.
Questions frequentes
Quel est le prix de Mistral OCR 4 par rapport à AWS Textract ou Google Document AI ?
Mistral OCR 4 est annoncé à 4 dollars pour 1 000 pages via l'API, et 2 dollars pour 1 000 pages en Batch-API.4 AWS Textract et Google Document AI restent facturés à la page et à la fonctionnalité (tables, formulaires), avec des paliers de volume. Sur des documents complexes denses en tableaux, Mistral revendique un coût d'environ 8 fois inférieur aux parseurs agentiques testés, à précision équivalente.1 Mesurez sur vos vrais documents avant de basculer.
Mistral OCR 4 est-il compatible HDS pour une mutuelle santé ?
OCR 4 se déploie en conteneur on-premise dans une infrastructure cliente, ce qui permet de l'héberger chez un hébergeur HDS sans envoyer les documents à une API externe.13 La conformité HDS reste à la charge de l'hébergeur et de la chaîne contractuelle complète. Le modèle facilite l'arbitrage, il ne le solde pas.
Quelles langues Mistral OCR 4 supporte-t-il ?
Mistral OCR 4 couvre 170 langues réparties sur 10 familles linguistiques, avec une attention particulière sur les langues rares et peu représentées dans les datasets traditionnels.12 Cela couvre les besoins d'un assureur ou d'une banque française qui reçoit des justificatifs en arabe, en portugais ou en mandarin.
Quelles sont les performances de Mistral OCR 4 sur les benchmarks publics ?
OCR 4 atteint 93,07 sur OmniDocBench et 85,20 sur OlmOCRBench, deux benchmarks publics de référence pour la compréhension de documents.14 En blind test sur plus de 600 documents réels en 12 langues, des annotateurs indépendants préfèrent OCR 4 dans 72 % des cas en moyenne contre les principaux OCR et document-AI du marché.1
Faut-il abandonner son OCR actuel pour basculer sur Mistral OCR 4 ?
Non, pas tant que vous n'avez pas mesuré sur vos propres documents. Construisez un golden set interne de 200 à 500 documents par type (arrêts de travail, devis, factures, K-bis) et testez OCR 4 contre votre stack actuelle. La décision de bascule doit s'appuyer sur ce mesurage, pas sur le seul score OmniDocBench.
Sources et references
Articles associés

Anthropic coupe : ce que ça change pour vos contrats LLM en France
L'interdiction US Fable 5 et Mythos 5 du 12 juin oblige toute ETI française à rouvrir ses clauses LLM. Anatomie d'une fenêtre d'arbitrage de 90 jours.
Lire
Mistral à 20 Md€ : ce que la levée change pour les banques sous DORA
Bloomberg confirme 3 Md€ levés à 20 Md€ de valo, le 17 juin Mensch et Huang sont à VivaTech avec Macron. Décryptage de l'impact sur les contrats LLM DORA.
Lire
Mistral Medium 3 : le LLM français qui coche la case EU AI Act
Décryptez Mistral Medium 3 lancé le 9 avril 2026 — open weights, conformité EU AI Act native, et ce que ça change pour les ETI françaises régulées.
Lire