Classification mailbot : routage d’intents + active learning (N1→N2)

MailbotArticle cluster

Classification mailbot : routage d’intents + active learning (N1→N2)

Mailbot classification : utiliser intents et active learning pour mieux router les emails, réduire le backlog et fiabiliser le support.

Pierre Tonon

Tech Writer (ML & Agents), Webotit.ai

5 mars 20269 min de lecture

Parler de ce sujet avec Webotit

En bref

Un bon mailbot commence par classer : intention, priorité, risque et destination. Sans ce routage, vous faites soit une IA timide (qui escalade tout), soit une IA téméraire (qui répond à tout). La stratégie 2026 : une taxonomie hiérarchique, un mode unknown intent (quand ça ne matche rien), des seuils de confiance qui pilotent N1/N2/HITL, et une boucle d’active learning pour transformer les escalades en données d’entraînement.¹

La classification : le GPS de votre support (et pas un “petit modèle de tri”)

Si vous ne deviez investir que dans une seule brique d’un mailbot, je mettrais une pièce sur celle-ci.

Pas parce qu’elle fait rêver.

Mais parce qu’elle évite l’enfer opérationnel : les e-mails qui partent au mauvais endroit, les SLA explosés, les équipes qui se renvoient la balle et, au bout du compte, le client qui écrit “bonjour ???” pour la 4e fois.

La classification n’est pas seulement “mettre une étiquette”.

En production, elle répond à quatre questions très concrètes :

De quoi parle cet e-mail ? (intention, ou ensemble d’intentions)
À quel point c’est urgent ? (priorité/SLA)
À quel point c’est risqué ? (juridique, fraude, PII, action irréversible)
Qui doit s’en occuper ? (route : N1 auto, N2 contextualisé, ou HITL)

N1/N2/HITL : la classification pilote la réalité (pas la démo)

Je reprends un modèle simple (et robuste) :

N1 : compréhension + réponses standard + collecte d’infos manquantes
N2 : identification + personnalisation + actions backoffice (avec garde-fous)
HITL : escalade quand la confiance est insuffisante, ou quand le risque monte

La classification est la télécommande qui décide :

“on répond automatiquement”,
“on répond mais on personnalise”,
“on prépare un brouillon pour validation”,
“on escalade, maintenant”.

Autrement dit, la question n’est pas “le modèle est-il bon ?” mais :

“Avec quel niveau de confiance je peux automatiser cette catégorie, dans ce contexte ?”

Et ça, ce n’est pas une question de magie. C’est une question de design.

Taxonomie : le piège de la liste infinie (et comment en sortir vivant)

La plupart des taxonomies meurent d’une mort bête : elles grandissent comme une to-do list.

“Ah, on a eu un mail sur X, ajoutons une catégorie X.”

Six mois plus tard :

83 catégories,
des labels qui se chevauchent,
des équipes qui ne sont jamais d’accord,
et un mailbot qui hésite comme un GPS dans un tunnel.

1) Le bon réflexe : hiérarchiser

Commencez large, puis affinez.

Exemple (très générique) :

Support
- bug / incident
- facturation
- accès / compte
Commercial
- demande de démo
- réponse à prospection
- partenariat
Juridique & conformité
- mise en demeure
- RGPD (accès/suppression)
- fraude / usurpation

Pourquoi ça marche ?

Parce que vous pouvez déjà router au niveau “Support/Commercial/Juridique” avec très peu de risque.
Et seulement ensuite, utiliser un modèle plus fin pour distinguer “facturation” vs “accès”.

2) Multi-label (oui, un e-mail peut être deux choses à la fois)

Un mail peut contenir :

une question facturation,
et une menace de résiliation,
et une pièce jointe sensible.

Si vous forcez un seul label, vous perdez une partie de la vérité.

Pattern efficace :

intent principal (route),
intents secondaires (signals),
risk flags (garde-fous),
missing info (questions de clarification).

3) La catégorie la plus importante : “unknown”

Elle ne fait pas joli en démo. Elle sauve votre prod.

“Unknown intent” signifie :

le mail ne ressemble à rien de connu,
ou il est trop ambigu,
ou le modèle n’est pas sûr,
ou les infos manquent.

Plutôt que d’inventer, le mailbot doit :

demander une précision,
créer un ticket,
ou escalader.

Comment router sans se tromper : confiance, seuils, et “coût d’erreur”

En machine learning, on adore l’accuracy.

En support, l’accuracy est un indicateur… mais la vérité, c’est le coût d’erreur.

Se tromper entre “question sur une facture” et “question sur un délai” : pas grave.
Se tromper entre “résiliation” et “bug mineur” : vous perdez un client.
Se tromper entre “fraude” et “demande standard” : vous perdez beaucoup plus qu’un client.

La stratégie robuste :

calculer un score de confiance,
appliquer des seuils par intent (pas un seuil unique),
pondérer par risque et irréversibilité.

Le routage comme une table de décision

Le plus simple à opérer est souvent le plus simple à expliquer :

Signal	Exemple	Décision	Pourquoi c’est sain
Confiance élevée + risque faible	Changement d’adresse (avec preuve)	Auto N1/N2	Gain de temps + faible blast radius
Confiance moyenne	Question floue, thread long	Brouillon + HITL	On apprend sans casser l’expérience
Risque élevé (flag)	Fraude, juridique, santé	Escalade immédiate	On protège la marque et la conformité
Unknown intent	Message atypique / ambigu	Clarification ou queue “triage”	On évite la réponse au hasard

Quelle techno pour classer ? (règles, ML, LLM, hybride)

On peut classifier un e-mail de plusieurs façons. Le bon choix dépend de :

volume,
diversité des intents,
langue,
exigences de conformité,
et budget.

Comparatif sans romantisme

Approche	Forces	Limites	Quand c’est le bon choix
Règles (regex/keywords)	Très rapide, transparent	Fragile, maintenance infinie	1ère couche : risque/juridique, stop words, routage simple
ML classique (SVM/fastText)	Bon coût/latence, stable	Moins flexible, besoin de dataset	Intents fréquentes et stables, volume important
LLM en mode classifieur	Zéro-shot, multilingue, gère le flou	Coût, variabilité, nécessite garde-fous	Long tail, intents rares, cold start
Hybride (règles + ML + LLM)	Robuste, contrôlable	Plus de design	Production à grande échelle (la vraie vie)

Où les modèles 2026 entrent en jeu

Pour le routage par LLM, vous avez le choix :

API commerciales : OpenAI, Anthropic, Google, Mistral… (pratique, rapide).²³⁴⁵
Open weights : Llama 4 et compagnie (souveraineté, coût stable… mais ops GPU).⁶

Et oui, ça compte — surtout si votre classification est appelée sur chaque e-mail.
Mais rappelez-vous : une taxonomy propre + des seuils propres, c’est souvent un meilleur ROI qu’un “upgrade de modèle”.

Active learning : transformer l’escalade en moteur d’amélioration (sans ruiner l’équipe)

Un mailbot apprend de deux façons :

“à froid” (en entraînant/ajustant sur un dataset),
“à chaud” (en exploitant le feedback humain).

L’active learning est la discipline qui transforme “les cas difficiles” en “données de training” de manière efficace.¹

Concrètement, l’idée est presque triviale :

au lieu d’étiqueter au hasard,
vous étiquetez ce qui vous apprend le plus.

Qu’est-ce qui “apprend le plus” ?

Trois familles classiques :

Uncertainty sampling : le modèle hésite → on label.
Diversity sampling : le modèle voit toujours la même chose → on cherche des cas différents.
Error-driven sampling : les erreurs qui coûtent cher → priorité absolue.

L’escalade HITL comme queue d’annotation

Si vous avez déjà une file HITL (et vous devriez), vous avez déjà :

des cas incertains,
des cas risqués,
des cas hors scope.

Autrement dit : votre dataset se fabrique tout seul.

Le trick, c’est de capturer proprement :

l’intent finale (label humain),
la justification (si possible),
les champs extraits,
et les raisons d’escalade (confiance, risque, missing info).

Un “label” qui vaut de l’or : la raison de non-automatisation

Quand un humain prend la main, ne capturez pas seulement le résultat.

Capturez aussi le “pourquoi” :

“trop ambigu”,
“règle business non couverte”,
“pièce jointe illisible”,
“conflit de sources”,
“risque juridique”.

Ce sont vos futures fonctionnalités :

meilleure taxonomy,
meilleur RAG,
meilleure extraction pièces jointes,
meilleure détection de risque.

Drift : quand le monde bouge (et que votre mailbot le découvre en dernier)

Même avec une taxonomy propre, vous aurez un autre phénomène : le changement.

Nouveaux produits, nouvelle tarification, nouvelle promo, nouvelle réglementation, nouvelle fraude, nouveau canal (“on a tout centralisé dans support@”), nouvelle équipe… Votre boîte mail est un organisme vivant. Elle mute.

Le drift en support se voit rarement comme une grande annonce. Il se voit comme une accumulation :

plus d’“unknown” qu’avant,
des temps de traitement qui remontent,
un agent qui dit “c’est bizarre, j’ai 10 mails comme ça aujourd’hui”,
et un routage qui commence à “sentir la poussière”.

Signaux simples à monitorer (sans faire un doctorat)

Taux d’unknown par semaine (et par source)
Top confusions (A ↔ B) : “facturation” vs “résiliation”, “partenariat” vs “spam”
Distribution des intents (si une intent passe de 3% à 20%, il se passe quelque chose)
Escalades HITL par motif (ambiguïté, risque, pièces jointes, conflit de sources)

Réponse opérationnelle (la version utile)

Mettre un owner sur la taxonomy (sinon personne n’ose la toucher).
Faire un rituel court : 30 minutes/semaine sur les erreurs + unknown.
Promouvoir/déprécier des intents (comme un produit) au lieu d’empiler.
Déclencher une mini-campagne de labelling quand un pattern apparaît (active learning ciblé).

Implémentation : un blueprint simple qui tient en prod

L’objectif est d’avoir un routage explicable (par une phrase) et opérable (par une équipe).

Définir 10–20 intents “macro”

Commencez par une hiérarchie simple. Mesurez 2 semaines. Ajustez. Évitez la taxonomy “encyclopédie” au départ.

Ajouter risk flags indépendants

Juridique, fraude, PII, action irréversible… Ce ne sont pas des intents, ce sont des garde-fous.

Définir des seuils par intent

“Résiliation” n’a pas le même seuil acceptable que “mot de passe”. Vous automatisez d’abord là où le blast radius est faible.

Créer une file HITL et instrumenter

Chaque escalade devient un exemple. Capturez labels + raisons + temps de traitement.

Lancer l’active learning (petit) et itérer

Chaque semaine : top erreurs, intents “unknown”, confusion matrix, nouveaux exemples. Ajustez la taxonomy avant de changer de modèle.

Cas d’usage : assureur, marketing, prospection (le routage change tout)

Assurance : “sinistres@” n’est pas une catégorie, c’est une jungle

Un assureur reçoit :

déclarations de sinistres (avec pièces),
demandes de suivi,
contestations,
fraude,
RGPD,
et parfois… des sujets qui n’ont rien à voir (mais qui arrivent quand même).

La classification utile n’est pas “sinistre oui/non”.

C’est :

type de sinistre (auto, habitation, santé),
étape (déclaration, pièces manquantes, suivi),
risque (fraude, juridique),
urgence (dommages corporels).

Et à chaque fois : un seuil qui pilote l’automatisation.

Marketing / creators : votre inbox est une place de marché

Si vous gérez des faceless channels (TikTok/YouTube), votre boîte mail ressemble souvent à :

offres de sponsoring,
demandes de partenariat,
notifications de plateforme,
droits d’auteur / DMCA,
factures et paperasse.

Le routage vous permet de :

répondre vite aux bons deals,
filtrer le bruit,
escalader le juridique,
et ne pas laisser un “bonjour, on vous propose un CPA très sérieux” dévorer votre journée.

Prospection commerciale : classifier les réponses, sinon vous vendez à des fantômes

L’outbound efficace n’est pas seulement “envoyer”.

C’est traiter les réponses :

intéressé,
pas maintenant,
stop (désinscription),
transfère à un collègue,
“qui êtes-vous ?”

Sans classification, vous créez :

des relances maladroites,
de la friction,
et des plaintes (deliverability, réputation).

Conclusion : la classification est une discipline de décision

Un mailbot fiable n’est pas un générateur de texte.

C’est un système de décision :

taxonomy qui tient,
unknown intent assumé,
seuils de confiance,
escalade HITL,
et active learning pour apprendre.

Si vous faites ça, vous pouvez changer de modèle 2026 sans tout casser.

Si vous ne faites pas ça, le meilleur modèle du monde vous donnera juste des réponses… au mauvais endroit.

Checklist “routing ready”

Taxonomie hiérarchique (macro → micro)
Unknown intent + clarification
Multi-label + risk flags séparés
Seuils par intent (blast radius)
File HITL instrumentée (labels + raisons)
Active learning hebdo (erreurs + drift)
Observabilité (confusion, temps de traitement, escalades)

FAQ

Questions frequentes

Faut-il un dataset dès le départ ?

Pas forcément. Vous pouvez démarrer avec une taxonomy macro + un routeur LLM, puis collecter les escalades HITL comme dataset. Le piège est de ne pas instrumenter : sans labels, vous ne progressez pas.

Pourquoi les seuils doivent être par intent ?

Parce que le coût d’erreur varie. Automatiser “réinitialisation mot de passe” à 90% peut être ok. Automatiser “résiliation” au même seuil peut être catastrophique.

Comment éviter la taxonomy qui explose ?

Hiérarchie + multi-label + unknown. Et surtout : résister au réflexe “ajouter une catégorie pour chaque cas”. Le plus souvent, un risk flag ou un champ extrait résout mieux le problème.

Sources et references

classificationroutingactive-learningtriageN1N2HITL

Articles associés

Mailbot

Mailbot IA : le guide complet (N1, N2, escalade, pièces jointes)

Mailbot IA : support N1/N2, escalade, pièces jointes et actions back-office pour réduire le backlog et accélérer les réponses.

Lire

Mailbot

Mailbot en production : du POC au mailbot qui tient la charge

Pourquoi un mailbot 'wahou' en démo échoue en prod, et comment piloter SLA, temps de réponse, escalade et qualité à l’échelle.

Lire

Mailbot

Human-in-the-loop mailbot : files, seuils, UI, escalade (2026)

Design HITL pour mailbots : auto-send vs draft vs escalade, seuils de confiance, files de validation, UI reviewer, feedback loop et anti-surcharge.

Lire