Définition complète
L'apprentissage supervisé est une méthode de machine learning où le modèle apprend à partir d'exemples étiquetés (données + réponse attendue). On lui montre des milliers de paires (entrée, sortie attendue) et il apprend à prédire la sortie pour de nouvelles entrées. Exemples : classification de spam (emails + label spam/non-spam), prédiction de prix (caractéristiques maison + prix), détection d'intention de chatbot (phrases + intentions). C'est la forme de ML la plus utilisée en entreprise.
Questions fréquentes
Comment l'apprentissage supervisé est-il utilisé dans les chatbots ?
Les chatbots classiques utilisent l'apprentissage supervisé pour : la détection d'intention (phrases étiquetées par intention), l'extraction d'entités (textes annotés avec les entités), et la classification de sentiment. Le modèle apprend des exemples fournis par les concepteurs ou extraits des conversations réelles. Les LLM modernes réduisent ce besoin mais l'approche reste pertinente pour des classifieurs rapides et économiques.
Combien d'exemples faut-il pour l'apprentissage supervisé ?
La quantité dépend de la complexité de la tâche et du modèle. Règles générales : pour un classifieur d'intentions, 50-200 exemples par classe. Pour du fine-tuning de BERT, quelques centaines à milliers. Les LLM en few-shot fonctionnent avec 5-20 exemples. Plus les classes sont proches ("annuler" vs "modifier"), plus il faut d'exemples pour les distinguer.
Quels sont les pièges de l'apprentissage supervisé ?
Les pièges courants : données déséquilibrées (90% d'une classe, 10% de l'autre), overfitting (le modèle mémorise au lieu d'apprendre), labels incohérents (des annotateurs qui désaccordent), et distribution différente en production (les vrais utilisateurs écrivent différemment des exemples d'entraînement). La qualité des données et une validation rigoureuse sont essentielles.