Définition complète
La quantization (quantification) est une technique d'optimisation qui réduit la précision numérique des poids d'un modèle de machine learning. Au lieu de stocker les poids en float32 (32 bits), nous utilisons float16, int8, ou même int4 (4 bits). Cela réduit la taille du modèle (÷2 à ÷8), accélère l'inférence, et diminue la consommation mémoire et énergie. La quantization permet de déployer des LLM sur des GPU moins puissants ou même des CPU, avec une légère perte de qualité.
Questions fréquentes
Quel est l'impact de la quantization sur la qualité du modèle ?
La quantization bien réalisée a un impact minimal sur la qualité : les modèles quantifiés en 8 bits perdent généralement moins de 1% de performance. En 4 bits (GPTQ, GGML), la perte peut atteindre 1-5% selon le modèle et la tâche. Pour la plupart des applications, cette perte est acceptable vu les gains en vitesse et coût. Les modèles récents (Llama 2, Mistral) supportent bien la quantization.
Comment déployer un LLM quantifié ?
Pour déployer un LLM quantifié : choisissez un format de quantization (GGUF pour llama.cpp, GPTQ pour GPU, AWQ pour vLLM), téléchargez une version pré-quantifiée du modèle (Hugging Face en propose beaucoup), et utilisez un framework compatible (llama.cpp, text-generation-inference, vLLM). La quantization à la volée est aussi possible mais moins optimisée que les modèles pré-quantifiés.
La quantization est-elle utile pour les API cloud ?
Pour les utilisateurs d'API (OpenAI, Anthropic), la quantization est gérée en interne par le fournisseur - pas de choix côté client. La quantization devient pertinente quand vous auto-hébergez des modèles : elle permet de faire tourner Llama 70B sur une seule GPU au lieu de plusieurs, réduisant les coûts d'infrastructure. C'est aussi essentiel pour le déploiement sur edge devices.