Définition complète
La lemmatisation est une technique NLP qui ramene les mots a leur forme de base (lemme) : 'mangeons', 'mangeait', 'mange' deviennent 'manger'. Contrairement au stemming (troncature brutale), la lemmatisation utilise le contexte grammatical et un dictionnaire pour produire de vrais mots. Elle normalise le texte avant l'analyse, reduisant la variabilite linguistique. C'est une étape de preprocessing classique pour la classification de texte et la recherche.
Questions fréquentes
Quelle différence entre lemmatisation et stemming ?
Le stemming coupe les suffixes mecaniquement : 'mangeons' -> 'mang'. La lemmatisation utilise l'analyse morphologique : 'mangeons' -> 'manger'. Le stemming est plus rapide mais produit parfois des non-mots. La lemmatisation est plus précise mais plus lente. Pour le français, la lemmatisation est généralement preferable car le stemming gère mal les irregularites grammaticales.
Pourquoi la lemmatisation est-elle utile pour les chatbots ?
La lemmatisation aide les chatbots classiques (pre-LLM) a reconnaitre que 'je voudrais' et 'je veux' expriment la même intention. Elle reduit le nombre d'exemples nécessaires a l'entraînément en normalisant les variantes. Les LLM modernes ont moins besoin de lemmatisation explicite car ils ont appris les relations morphologiques, mais elle reste utile pour la recherche et l'indexation.
Quels outils pour la lemmatisation en français ?
Les principaux outils de lemmatisation française sont : spaCy (modèle fr_core_news_sm), Stanza (Stanford NLP), TreeTagger, et Lefff (lexique morphologique). spaCy est le plus utilise pour sa facilite d'integration. La qualité depend du modèle et du domaine (le vocabulaire technique peut ne pas être reconnu). Les LLM peuvent aussi faire de la lemmatisation a la demande.