Définition complète
La latence en IA mesure le temps ecoule entre l'envoi d'une requête et l'obtention de la réponse. Pour un chatbot, c'est le delai entre le message de l'utilisateur et l'affichage de la réponse. Pour un callbot, c'est le temps avant que le système parle apres que l'utilisateur ait fini. Une latence elevee degrade l'expérience utilisateur. Elle depend du modèle (taille, complexite), de l'infrastructuré (GPU, réseau), et de la longueur de la réponse.
Questions fréquentes
Quelle latence est acceptable pour un chatbot ?
Les utilisateurs attendent une réponse en moins de 3 secondes pour un chatbot textuel. Au-dela, ils percoivent un delai gene. L'ideal est sous 2 secondes. Le streaming (affichage progressif des tokens) masque la latence totale : montrer les premiers mots apres 500ms rend l'attente de 3-4 secondes acceptable. Pour les callbots, la latence doit rester sous 1 seconde pour une conversation naturelle.
Comment reduire la latence d'un chatbot ?
Pour reduire la latence : choisir un modèle plus petit si la tache le permet, utiliser des GPU plus puissants ou l'inference optimisee (TensorRT, vLLM), hébergér les modèles proche des utilisateurs (edge), cacher les réponses frequentes, streamer les réponses, et optimiser les appels API en parallele (RAG + LLM). Le trade-off est souvent entre qualité et latence.
Quelle est la latence typique des différents LLM ?
Les latences varient selon la taille et la complexité du modèle : les modèles compacts offrent ~200-500ms pour le premier token, les modèles de raisonnement avancés montent à 1-3s. Les modèles auto-hébergés optimisés peuvent descendre sous 200ms. Ces chiffres dépendent de la longueur du prompt, de la charge serveur, et de la localisation. Les modèles plus grands et plus précis ont généralement plus de latence.