Définition complète
La generation augmentee par reçuperation (RAG - Retrieval-Augmented Generation) est une architecture qui combine un grand modèle de langage avec un système de recherche documentaire. Avant de générer une réponse, le système recherche des passages pertinents dans une base de connaissances, puis les fournit au LLM comme contexte. Cela permet des réponses a jour, spécifiques au domaine, et tracables. RAG est devenu le standard pour les chatbots d'entreprise.
Questions fréquentes
Comment fonctionne le RAG en pratique ?
Le RAG suit 4 étapes : 1) La question utilisateur est convertie en embedding (vecteur numerique), 2) Une recherche sémantique trouve les passages les plus similaires dans la base documentaire, 3) Ces passages sont injectes dans le prompt envoye au LLM, 4) Le LLM génère une réponse basée sur ces sources. Le résultat est une réponse contextuelle et verifiable.
Quels sont les avantages du RAG par rapport au fine-tuning ?
Le RAG offre : des mises a jour instantanees (modifier un document suffit), une tracabilite des sources (nous savons d'ou vient l'information), pas besoin de re-entraînér le modèle, et un cout moindre. Le fine-tuning est preferable pour changer le style ou le ton du modèle. Souvent, nous combinons les deux : fine-tuning pour le format, RAG pour le contenu.
Quelles sont les limites du RAG ?
Les limites du RAG incluent : la qualité depend de la base documentaire (garbage in, garbage out), la recherche peut rater des passages pertinents (recall imparfait), la fenêtre de contexte limite le nombre de documents injectables, et les documents tres longs peuvent diluer l'attention du modèle. Une bonne chunking strategy et des embeddings de qualité sont essentiels.