Glossaire de l'Intelligence Artificielle

Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.

Q2 termes

Quantization (Quantification)

La quantization réduit la précision des poids d'un modèle pour diminuer sa taille et accélérer l'inférence.

Définition complète

La quantization (quantification) est une technique d'optimisation qui réduit la précision numérique des poids d'un modèle de machine learning. Au lieu de stocker les poids en float32 (32 bits), nous utilisons float16, int8, ou même int4 (4 bits). Cela réduit la taille du modèle (÷2 à ÷8), accélère l'inférence, et diminue la consommation mémoire et énergie. La quantization permet de déployer des LLM sur des GPU moins puissants ou même des CPU, avec une légère perte de qualité.

Ouvrir la page dédiée

Questions fréquentes

Quel est l'impact de la quantization sur la qualité du modèle ?

La quantization bien réalisée a un impact minimal sur la qualité : les modèles quantifiés en 8 bits perdent généralement moins de 1% de performance. En 4 bits (GPTQ, GGML), la perte peut atteindre 1-5% selon le modèle et la tâche. Pour la plupart des applications, cette perte est acceptable vu les gains en vitesse et coût. Les modèles récents (Llama 2, Mistral) supportent bien la quantization.

Comment déployer un LLM quantifié ?

Pour déployer un LLM quantifié : choisissez un format de quantization (GGUF pour llama.cpp, GPTQ pour GPU, AWQ pour vLLM), téléchargez une version pré-quantifiée du modèle (Hugging Face en propose beaucoup), et utilisez un framework compatible (llama.cpp, text-generation-inference, vLLM). La quantization à la volée est aussi possible mais moins optimisée que les modèles pré-quantifiés.

La quantization est-elle utile pour les API cloud ?

Pour les utilisateurs d'API (OpenAI, Anthropic), la quantization est gérée en interne par le fournisseur - pas de choix côté client. La quantization devient pertinente quand vous auto-hébergez des modèles : elle permet de faire tourner Llama 70B sur une seule GPU au lieu de plusieurs, réduisant les coûts d'infrastructure. C'est aussi essentiel pour le déploiement sur edge devices.

Voir aussi :llm inference lora deployment

Articles associés

Fine-tuning vs RAG : personnaliser un chatbot (2026)Modèles IA 2026 : lesquels pour un chatbot B2B ?RAG pour chatbot : guide 2026 (anti-hallucination)

Question Answering (QA)

Le Question Answering est la tâche IA consistant à répondre automatiquement à des questions en langage naturel.

Définition complète

Le Question Answering (QA) est une tâche de traitement du langage naturel où le système répond à des questions posées en langage humain. Il existe plusieurs types de QA : extractif (extraire la réponse d'un texte fourni), génératif (générer une réponse), et open-domain (répondre à partir de connaissances générales). Le QA est au cœur des chatbots, des FAQ intelligentes, et des assistants de recherche. Les LLM excellent en QA grâce à leur capacité à comprendre et générer du langage naturel.

Ouvrir la page dédiée

Questions fréquentes

Quelle différence entre QA extractif et génératif ?

Le QA extractif sélectionne un passage du texte source comme réponse (surligner une phrase). Le QA génératif produit une nouvelle réponse en reformulant ou synthétisant l'information. Le RAG combine les deux : il extrait des passages pertinents (extractif) puis les utilise pour générer une réponse (génératif). Le génératif est plus flexible mais plus risqué (hallucinations possibles).

Comment le QA est-il utilisé dans les chatbots d'entreprise ?

Les chatbots d'entreprise utilisent le QA pour : répondre aux questions sur les produits/services (FAQ), fournir des informations à partir de la documentation interne (RAG), extraire des données de documents ("Quel est le montant de cette facture ?"), et assister les agents humains en suggérant des réponses. Le QA transforme une base de connaissances statique en assistant interactif.

Comment évaluer la qualité d'un système de QA ?

L'évaluation du QA utilise des métriques comme : Exact Match (réponse exactement correcte), F1-score (recouvrement partiel), BLEU/ROUGE (similarité avec la réponse de référence), et des évaluations humaines (pertinence, complétude). Pour le QA génératif, on évalue aussi la fidélité aux sources (pas d'hallucination). Les datasets benchmark (SQuAD, Natural Questions) permettent de comparer les modèles.

Voir aussi :rag chatbot nlp llm

Chatbot Relation Client

Articles associés

NLP vs LLM : choisir la techno pour votre chatbot (2026)Chatbot IA : le guide entreprise (2026)Callbot IA : le guide entreprise (2026)

Un terme vous manque ?

Reservez votre diagnostic IA

Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.

45 minutes de cadrage
Entierement gratuit
Reponse sous 24h

Chargement des disponibilités…