Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.
La quantization réduit la précision des poids d'un modèle pour diminuer sa taille et accélérer l'inférence.
La quantization (quantification) est une technique d'optimisation qui réduit la précision numérique des poids d'un modèle de machine learning. Au lieu de stocker les poids en float32 (32 bits), nous utilisons float16, int8, ou même int4 (4 bits). Cela réduit la taille du modèle (÷2 à ÷8), accélère l'inférence, et diminue la consommation mémoire et énergie. La quantization permet de déployer des LLM sur des GPU moins puissants ou même des CPU, avec une légère perte de qualité.
La quantization bien réalisée a un impact minimal sur la qualité : les modèles quantifiés en 8 bits perdent généralement moins de 1% de performance. En 4 bits (GPTQ, GGML), la perte peut atteindre 1-5% selon le modèle et la tâche. Pour la plupart des applications, cette perte est acceptable vu les gains en vitesse et coût. Les modèles récents (Llama 2, Mistral) supportent bien la quantization.
Pour déployer un LLM quantifié : choisissez un format de quantization (GGUF pour llama.cpp, GPTQ pour GPU, AWQ pour vLLM), téléchargez une version pré-quantifiée du modèle (Hugging Face en propose beaucoup), et utilisez un framework compatible (llama.cpp, text-generation-inference, vLLM). La quantization à la volée est aussi possible mais moins optimisée que les modèles pré-quantifiés.
Pour les utilisateurs d'API (OpenAI, Anthropic), la quantization est gérée en interne par le fournisseur - pas de choix côté client. La quantization devient pertinente quand vous auto-hébergez des modèles : elle permet de faire tourner Llama 70B sur une seule GPU au lieu de plusieurs, réduisant les coûts d'infrastructure. C'est aussi essentiel pour le déploiement sur edge devices.
Le Question Answering est la tâche IA consistant à répondre automatiquement à des questions en langage naturel.
Le Question Answering (QA) est une tâche de traitement du langage naturel où le système répond à des questions posées en langage humain. Il existe plusieurs types de QA : extractif (extraire la réponse d'un texte fourni), génératif (générer une réponse), et open-domain (répondre à partir de connaissances générales). Le QA est au cœur des chatbots, des FAQ intelligentes, et des assistants de recherche. Les LLM excellent en QA grâce à leur capacité à comprendre et générer du langage naturel.
Le QA extractif sélectionne un passage du texte source comme réponse (surligner une phrase). Le QA génératif produit une nouvelle réponse en reformulant ou synthétisant l'information. Le RAG combine les deux : il extrait des passages pertinents (extractif) puis les utilise pour générer une réponse (génératif). Le génératif est plus flexible mais plus risqué (hallucinations possibles).
Les chatbots d'entreprise utilisent le QA pour : répondre aux questions sur les produits/services (FAQ), fournir des informations à partir de la documentation interne (RAG), extraire des données de documents ("Quel est le montant de cette facture ?"), et assister les agents humains en suggérant des réponses. Le QA transforme une base de connaissances statique en assistant interactif.
L'évaluation du QA utilise des métriques comme : Exact Match (réponse exactement correcte), F1-score (recouvrement partiel), BLEU/ROUGE (similarité avec la réponse de référence), et des évaluations humaines (pertinence, complétude). Pour le QA génératif, on évalue aussi la fidélité aux sources (pas d'hallucination). Les datasets benchmark (SQuAD, Natural Questions) permettent de comparer les modèles.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilités