Définition complète
Le RAG (Retrieval-Augmented Generation) est une architecture qui enrichit un grand modèle de langage avec des connaissances externes récupérées à la volée. Au lieu de s'appuyer uniquement sur ce que le LLM a mémorisé lors de son entraînement, le système recherche d'abord des informations pertinentes dans une base documentaire, puis fournit ces extraits au LLM pour générer sa réponse. Cela permet des réponses à jour, spécifiques au domaine, traçables, et avec moins d'hallucinations. Le RAG est devenu le standard pour les chatbots d'entreprise.
Questions fréquentes
Comment fonctionne le RAG en pratique ?
Le RAG suit 4 étapes : 1) La question utilisateur est convertie en embedding (vecteur numérique). 2) Une recherche sémantique trouve les passages les plus similaires dans la base documentaire indexée. 3) Ces passages sont injectés dans le prompt du LLM comme contexte. 4) Le LLM génère une réponse basée sur ces sources. Le résultat : une réponse contextuelle et vérifiable.
Quels sont les avantages du RAG par rapport au fine-tuning ?
Le RAG offre : des mises à jour instantanées (modifier un document suffit, pas besoin de ré-entraîner), une traçabilité des sources (nous savons d'où vient l'information), un coût moindre (pas d'entraînement), et une flexibilité (changer la base documentaire sans toucher au modèle). Le fine-tuning est préférable pour changer le style ou le comportement profond du modèle.
Quelles sont les limites du RAG ?
Les limites du RAG incluent : la qualité dépend de la base documentaire (garbage in, garbage out), la recherche peut rater des passages pertinents (recall imparfait), la fenêtre de contexte limite le nombre de documents injectables, et les documents trop longs peuvent diluer l'attention du modèle. Une bonne stratégie de chunking et des embeddings de qualité sont essentiels.