Définition complète
Le preprocessing (prétraitement) regroupe les opérations de nettoyage et de transformation des données brutes avant leur utilisation par un modèle de machine learning. Pour le texte : normalisation (minuscules, accents), suppression des stopwords, tokenisation, lemmatisation. Pour les images : redimensionnement, normalisation des pixels. La qualité du preprocessing impacte directement les performances du modèle. Dans les pipelines modernes, certains preprocessings sont intégrés aux modèles (les LLM tokenisent eux-mêmes).
Questions fréquentes
Quelles étapes de preprocessing pour un chatbot ?
Le preprocessing d'un chatbot peut inclure : normalisation du texte (minuscules, suppression de caractères spéciaux), correction orthographique, expansion des abréviations ("rdv" → "rendez-vous"), détection et masquage des données personnelles (pour le logging), et segmentation des phrases. Les LLM modernes nécessitent moins de preprocessing car ils gèrent les variations linguistiques, mais la normalisation reste utile.
Le preprocessing est-il encore nécessaire avec les LLM ?
Les LLM réduisent le besoin de preprocessing linguistique classique (ils gèrent majuscules, fautes, variations). Cependant, un preprocessing reste utile pour : masquer les données sensibles, limiter la longueur des entrées, nettoyer le HTML/markdown, et normaliser les formats spécifiques (dates, numéros). Le preprocessing passe du traitement linguistique au traitement métier.
Comment préserver les informations importantes lors du preprocessing ?
Le risque du preprocessing est de perdre des informations utiles. Bonnes pratiques : conserver les entités nommées même si on normalise le reste, préserver les nombres et dates intacts, garder la structure (paragraphes, listes), et documenter les transformations appliquées. Pour les cas critiques, fournir la version brute et prétraitée au modèle peut aider.