Aller au contenu principal
Retour à Technique
ChatbotArticle cluster

RAG pour chatbot : guide 2026 (anti-hallucination)

Comprendre le RAG (Retrieval-Augmented Generation) et le mettre en production : sources, chunking, embeddings, évaluation et garde-fous.

Pierre Tonon
Senior Tech Writer (IA conversationnelle), Webotit.ai
9 min de lecture
Réservation

Réservez votre diagnostic IA

Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.

45 min · Gratuit · Réponse sous 24h

Voir les disponibilités
En bref

Le RAG (Retrieval-Augmented Generation) est la technique qui permet à un chatbot IA de répondre à partir de vos documents (contrats, FAQ, procédures) au lieu d'improviser. On récupère d'abord des passages pertinents via une recherche (souvent vectorielle), puis le LLM rédige la réponse en s'appuyant sur ces sources. Résultat : moins d'hallucinations, plus de traçabilité, et un chatbot B2B beaucoup plus fiable.

Le RAG, c’est quoi (sans le folklore)

Imaginez un stagiaire brillant. Très brillant. Mais qui a un défaut : il a horreur de dire “je ne sais pas”.

Vous lui demandez : “Notre offre Premium inclut-elle la garantie X en Belgique ?”

S'il a lu le document, il répond juste. S'il ne l'a pas lu, il répond quand même. Avec aplomb. C'est humain. C'est dangereux. C'est aussi… exactement le comportement d'un LLM sans garde-fou.

Le RAG, c'est la méthode qui transforme ce stagiaire en collègue fiable : avant de répondre, il va ouvrir le bon dossier, lire les bons paragraphes, puis vous répondre en s'appuyant dessus.

Techniquement, le RAG a été formalisé dans la littérature scientifique comme une approche “retrieve + generate” : on récupère des documents pertinents, puis on génère la réponse à partir de ces documents.1

Anthropic résume le même principe de manière très “produit” : le RAG sert à donner à un modèle des informations externes, pertinentes et récentes, pour améliorer la qualité des réponses et réduire les hallucinations.2

Pourquoi le RAG est devenu la norme des chatbots B2B (en 2026)

Dans un chatbot grand public, une réponse “à peu près” est parfois tolérable. Dans un chatbot B2B, c'est une facture.

Le RAG répond à trois problèmes concrets :

1) L’exactitude “métier” (et pas “internet”)

Votre entreprise est un univers parallèle.

Votre “contrat” n'est pas un contrat générique : c'est votre contrat, avec vos exceptions, vos définitions, vos délais, vos clauses. Un modèle peut être excellent… et totalement hors-sol.

Le RAG ancre la réponse dans vos sources.

2) La traçabilité (le nerf de la guerre)

Quand une réponse est contestée, la question n'est pas “qui a raison”. La question est : “sur quoi s'appuie-t-on ?”

Avec RAG, vous pouvez :

  • afficher les sources,
  • logguer les passages utilisés,
  • auditer les réponses.

3) La mise à jour (la réalité, pas la promesse)

La mise à jour d'un modèle n'est pas instantanée. La mise à jour d'une base documentaire, si.

Le RAG vous donne une boucle de mise à jour plus proche des équipes métier : on corrige un document, on republie, et le chatbot répond mieux. Sans “réentraîner le cerveau”.

Comment fonctionne un RAG (le film en 6 scènes)

On va faire simple, mais pas simpliste.

1

Ingestion : vos docs entrent en cuisine

On collecte les sources : PDF, pages internes, FAQ, tickets support, scripts d'appels, conditions générales. On normalise le texte (nettoyage, OCR si besoin) et on garde la provenance (URL, version, date).

2

Chunking : on découpe intelligemment

Un document n'est pas avalé d'un bloc. On le découpe en “chunks” (segments) qui doivent être assez petits pour être précis, mais assez grands pour garder le contexte.

3

Embeddings : on transforme le texte en coordonnées

Chaque chunk est converti en vecteur numérique via un modèle d'embeddings. C'est ce qui permet la recherche sémantique (retrouver “garantie annulation” même si l'utilisateur écrit “remboursement si je renonce”).

4

Retrieval : on retrouve les meilleurs passages

À la question de l'utilisateur, on calcule aussi un embedding, puis on récupère les chunks les plus proches (top-k). On peut ajouter des filtres (pays, produit, date) et du reranking pour améliorer la pertinence.

5

Augmentation : on construit le contexte du prompt

On assemble : instruction système, historique minimal, question, chunks récupérés (avec leurs sources). On garde un budget de tokens sain.

6

Generation : le LLM répond (en restant sur les rails)

Le modèle génère la réponse en s'appuyant sur les passages. L'idéal : il cite les sources, signale les incertitudes et demande une précision si les documents ne suffisent pas.

Chunking : l’art de découper sans massacrer le sens

Le chunking, c'est comme découper une baguette.

Trop gros : vous ne pouvez pas faire des tartines propres. Trop petit : ça devient des miettes, et vous perdez le goût.

En pratique, un bon chunking respecte :

  • la structure (titres, sections),
  • les unités de sens (définitions + exceptions),
  • les références (articles, clauses).

Approche recommandée en entreprise :

  1. Découpage par titres (H2/H3) quand c'est possible.
  2. Découpage par paragraphes.
  3. Recollage quand un chunk est trop court (sinon retrieval trop “bruité”).

Et surtout : gardez les métadonnées (source, section, date). La vérité sans provenance, c'est une rumeur.

Le RAG, en vrai, c’est 4 décisions (pas une incantation)

Quand on dit “on va faire du RAG”, on a l'impression d'avoir pris une décision. En fait, on a surtout prononcé une formule magique.

Le RAG, ce sont quatre décisions concrètes :

  1. Quelles sources ? Certaines sources sont “haute confiance” (contrats validés, procédures), d'autres sont “bruitées” (tickets support, notes internes). Vous n'appliquez pas la même politique.
  2. Quel périmètre d'accès ? Un chatbot RH n'a pas accès à la même base qu'un chatbot support. Même si “ce serait pratique”. C'est là que le RBAC et les filtres par métadonnées sauvent des carrières.
  3. Quel niveau d'explication ? L'utilisateur veut-il une réponse courte, ou une réponse qui explique pourquoi ? Dans certains secteurs, l'explication fait partie du service (et de la confiance).
  4. Quelle stratégie d'échec ? Quand la base ne contient pas la réponse, vous voulez une phrase honnête, un chemin alternatif (formulaire, agent), et un logging pour combler le trou de connaissance.

Ce cadre vous évite le RAG “décoratif” : celui qui existe, mais qui ne change pas vraiment la fiabilité.

Embeddings, vector DB, reranking : le trio de la pertinence

On parle beaucoup de “vector database” parce que ça sonne comme un film de science-fiction. Mais l'idée est simple : on veut une recherche qui comprenne le sens.

Dans le RAG moderne, vous voyez souvent :

  • une recherche vectorielle (sémantique),
  • parfois combinée à une recherche keyword (lexicale),
  • puis un reranking (reclassement) plus coûteux mais plus précis.

Vous pouvez construire cette chaîne avec différents stacks (provider embeddings, vector store, framework). LangChain, par exemple, documente des patterns RAG et des composants pour construire ce pipeline.3

Recherche hybride : le meilleur des deux mondes (souvent)

La recherche vectorielle est excellente pour les paraphrases (“je veux annuler”, “je renonce”, “je me rétracte”). La recherche keyword est excellente pour les identifiants (“article 7.2”, “garantie Z12”, “référence 8391”).

En entreprise, on a souvent… les deux dans la même phrase.

Donc la recherche hybride (vector + keyword) est une stratégie très courante :

  • elle augmente le rappel (on trouve plus de candidats),
  • puis le reranking améliore la précision (on met les bons passages en haut).

Le RAG n'est pas un sprint. C'est un triathlon : retrieval, reranking, génération. Si votre retrieval est mauvais, vous forcez le LLM à faire du théâtre d'impro.

RAG et hallucinations : ce que ça résout… et ce que ça ne résout pas

Le RAG réduit fortement les hallucinations, mais il ne les élimine pas par décret.

Voici trois hallucinations “spéciales RAG” :

1) Hallucination de citation

Le modèle cite une source… mais la source ne dit pas ça.

Solution :

  • forcer des citations exactes (extraits),
  • logguer les passages,
  • ajouter une vérification automatique (post-processing).

2) Hallucination de généralisation

Le doc dit “cas A”. Le modèle répond “cas A + B + C”.

Solution : prompts stricts, et instructions “si ce n'est pas dans les sources, dis-le”.

3) Hallucination de collage

Vous injectez des passages contradictoires (deux versions de contrat), le modèle “moyenne” et invente une synthèse.

Solution : gouvernance documentaire (versioning), filtres, métadonnées, et règles de priorité.

Le prompt RAG : votre “contrat” avec le modèle

Les gens pensent que le prompt, c'est un texte. En production, le prompt, c'est une politique.

Voici un template minimal qui marche souvent très bien (à adapter) :

SYSTEM:
Tu es un assistant B2B. Règle absolue : réponds uniquement à partir des SOURCES fournies.
Si les SOURCES ne contiennent pas l'information : dis-le clairement et propose une action (poser une question, escalader, lien utile).
Ne devine jamais. Ne cite jamais une source que tu n'as pas.
 
USER:
Question: {question_utilisateur}
 
SOURCES:
{sources_rag_avec_ids_et_liens}
 
CONTRAINTES:
- Ton: {style_guide}
- Format: {format_attendu}

Ce prompt ne rend pas votre chatbot parfait. Il rend votre chatbot auditable.

Et si vous voulez aller plus loin sur les prompts, vous pouvez aussi lire des guides de bonnes pratiques comme ceux d'OpenAI et d'Anthropic (qui insistent notamment sur la clarté des instructions et la gestion des cas d'incertitude).78

Le point sécurité : prompt injection et données sensibles

Dès que vous donnez au chatbot des documents internes, vous ouvrez une surface d'attaque.

L'OWASP a documenté des risques typiques pour les applis LLM, dont la prompt injection et l'exfiltration de données.4

Et AWS résume très bien le problème : un attaquant peut tenter de manipuler l'IA pour qu'elle ignore vos instructions et révèle des informations ou exécute des actions non souhaitées.5

Concrètement, votre RAG doit :

  • filtrer les documents accessibles selon le contexte (RBAC),
  • éviter de mettre des secrets dans la base,
  • limiter les outils/actions que le modèle peut déclencher,
  • tracer et surveiller les comportements anormaux.

Debugging RAG : 10 symptômes, 10 remèdes

Le RAG en production a un comportement typique : il marche très bien… sauf quand il rencontre la vraie vie.

Voici un playbook rapide :

  • Symptôme : le chatbot répond “à côté”. Remède : problème de retrieval. Inspectez les top-k chunks; ajustez chunking/embeddings; ajoutez un reranker.
  • Symptôme : le chatbot répond “correct, mais trop général”. Remède : sources trop larges. Réduisez la taille des chunks, ajoutez des métadonnées, et forcez la réponse à citer un passage précis.
  • Symptôme : le chatbot “sur-cite” (trop de sources, trop long). Remède : limitez top-k, résumez les sources avant génération, imposez un format concis.
  • Symptôme : le chatbot invente malgré les sources. Remède : prompt plus strict + post-check (si une affirmation n'apparaît dans aucune source, rejeter).
  • Symptôme : contradictions entre deux docs. Remède : gouvernance documentaire (versionning + priorité), filtres sur date/version.
  • Symptôme : réponses obsolètes après mise à jour. Remède : pipeline d'indexation (rebuild/incremental), purge cache, invalidation.

Le réflexe à acquérir : debugger le RAG comme un moteur de recherche, pas comme un “cerveau”.

Évaluer un RAG : la partie que tout le monde remet à “plus tard”

En 2026, “ça a l'air bien” n'est plus un test.

Vous voulez mesurer :

  • retrieval : est-ce qu'on récupère les bons passages ?
  • groundedness : est-ce que la réponse est ancrée dans les sources ?
  • helpfulness : est-ce que c'est utile et actionnable ?

RAGAS propose une approche et des métriques orientées évaluation RAG (groundedness, pertinence, etc.).6

Sans rentrer dans une usine à gaz, vous pouvez démarrer par :

  1. Un dataset de 50 questions réelles.
  2. Une vérité terrain (réponse attendue, sources).
  3. Un scoring humain simple (0/1/2).
  4. Un logging systématique (question, chunks, réponse).
50questions réelles suffisent souvent pour un premier benchmark RAGSource : Règle de pouce (démarrage), à adapter à votre criticité

Quel modèle utiliser avec un RAG ?

La bonne nouvelle : le RAG vous permet de décorréler la connaissance (vos docs) du style (le modèle).

En pratique :

  • un modèle “très fort” peut être surdimensionné si votre retrieval est excellent,
  • un modèle “moyen” peut devenir très bon si vos sources et votre prompt sont impeccables.

Pour un panorama des modèles 2026, lisez : Modèles IA 2026 pour chatbot.

Checklist “zéro à héros” pour lancer un RAG

Voici une checklist à imprimer mentalement :

  • Définir vos sources (et leur propriétaire métier).
  • Mettre en place un versioning documentaire (sinon : contradictions).
  • Choisir une stratégie de chunking (et la tester).
  • Ajouter des métadonnées (pays, produit, date, section).
  • Mesurer retrieval + groundedness dès la V1.
  • Ajouter des garde-fous (prompt injection, RBAC, logs).
  • Prévoir un mode “je ne sais pas” + escalade humaine.

Si vous retenez une seule idée : le RAG est une discipline, pas une option “IA”. C'est de la gestion de connaissance + de l'architecture + un soupçon de psychologie utilisateur (“je veux une réponse, mais je veux surtout une réponse fiable”).

Et c'est aussi une excellente nouvelle : parce que ça veut dire que vous pouvez progresser par itérations, comme sur n'importe quel produit. Améliorer une source. Ajuster un chunking. Ajouter un filtre. Refaire un benchmark. Les gains s'accumulent.

FAQ

Questions frequentes

Le RAG remplace-t-il le fine-tuning ?

Non. Le RAG sert surtout à accéder à des connaissances externes (vos documents) et à réduire les hallucinations. Le fine-tuning sert plutôt à ajuster un comportement, un format ou un style sur un domaine donné. Dans beaucoup de chatbots B2B, on commence par RAG avant d'envisager un fine-tuning.

Dois-je forcément utiliser une vector database ?

Pas forcément. Mais dès que vous avez beaucoup de documents et des formulations variées, la recherche sémantique (souvent via embeddings + vector store) devient très utile. On peut aussi hybrider avec du keyword search.

Comment éviter que le chatbot invente ?

En combinant RAG + prompts stricts (“si ce n'est pas dans les sources, dis-le”) + vérifications (post-processing) + gouvernance documentaire. Le RAG réduit le problème, mais la fiabilité est un système, pas une option.

Sources et references

  1. [1]Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”.
  2. [2]Anthropic, “RAG for projects”.
  3. [3]LangChain, “RAG” documentation.
  4. [4]OWASP, “Top 10 for LLM Applications”.
  5. [5]AWS, “Prompt Injection Attacks: What, Why & How”.
  6. [6]RAGAS, documentation / repo.
  7. [7]OpenAI, “Prompt engineering best practices” (docs).
  8. [8]Anthropic, “Prompt engineering” (best practices).
RAGLLMarchitecture chatbotanti-hallucinationknowledge base

Solutions associées