Définition complète
Le NLG (Natural Language Generation) est la branche du NLP permettant aux machines de produire du texte en langage naturel compréhensible par les humains. Cela va de la génération de phrases simples à partir de données structurées jusqu'à la rédaction de textes complets et cohérents. Les LLM excellent en NLG, produisant du texte fluide et contextuel. Applications : réponses de chatbot, génération de rapports, résumés automatiques, création de contenu.
Questions fréquentes
Comment fonctionne la génération de texte par les LLM ?
Les LLM génèrent du texte token par token. À chaque étape, le modèle calcule la probabilité de chaque mot possible étant donné le contexte (prompt + mots déjà générés), et en sélectionne un. Le paramètre "température" contrôle la créativité : basse = déterministe, haute = plus aléatoire. Ce processus auto-régressif produit des textes fluides car le modèle a appris les patterns linguistiques sur des milliards de textes.
Comment contrôler le style et le ton du texte généré ?
Le contrôle du style passe par : des instructions explicites dans le prompt ("Réponds de façon formelle et concise"), des exemples du style attendu (few-shot), le fine-tuning sur des exemples de la marque, et les paramètres d'inférence (température, top_p). Pour les chatbots d'entreprise, nous définissons généralement un "ton de voix" dans le prompt système, testé sur des échantillons variés.
Quels sont les risques du NLG automatique ?
Les risques du NLG incluent : les hallucinations (génération de fausses informations), le manque de cohérence sur de longs textes, les biais hérités des données d'entraînement, et la difficulté à garantir la conformité (le modèle peut dire des choses non autorisées). Pour les applications critiques, nous combinons NLG avec des garde-fous : validation de règles, templates contraints, et revue humaine.