Définition complète
L'inference est la phase ou un modèle de machine learning deja entraîné est utilise pour générer des predictions ou des réponses sur de nouvelles données. C'est l'utilisation quotidienne du modèle, par opposition a l'entraînément qui est sa phase d'apprentissage. Pour un chatbot, chaque requête utilisateur declenche une inference. Le cout et la latence d'inference sont des metriques cles pour les déploiements en production. L'inference peut s'executer sur CPU, GPU, ou via API cloud.
Questions fréquentes
Quelle est la différence entre entraînément et inference ?
L'entraînément est la phase d'apprentissage : le modèle ajuste ses paramêtres sur des données d'exemple (couteux, long, GPU nécessaire). L'inference est la phase d'utilisation : le modèle applique ce qu'il a appris pour répondre a de nouvelles requêtes (rapide, peut tourner sur CPU pour les petits modèles). L'entraînément se fait une fois, l'inference se fait a chaque utilisation.
Comment optimiser les couts d'inference ?
L'optimisation des couts d'inference passe par : le choix du plus petit modèle suffisant, la quantization (reduire la précision des poids), le batching (grouper les requêtes), le caching des réponses frequentes, l'utilisation de GPU moins couteux ou de CPU quand possible, et les solutions serverless qui facturent a l'usage. Pour les gros volumes, l'auto-hébergément peut être plus economique que les API.
Quelle latence d'inference pour un chatbot ?
Pour une bonne expérience utilisateur, la latence d'inference d'un chatbot doit rester sous 2-3 secondes pour une réponse complète. Les LLM en streaming peuvent commencer a afficher des tokens apres 200-500ms. La latence depend du modèle (plus grand = plus lent), de l'infrastructuré (GPU vs CPU), et de la longueur de la réponse. Le streaming masque la latence percue.