Question 1

Quelle latence est acceptable pour un chatbot ?

Accepted Answer

Les utilisateurs attendent une réponse en moins de 3 secondes pour un chatbot textuel. Au-dela, ils percoivent un delai gene. L'ideal est sous 2 secondes. Le streaming (affichage progressif des tokens) masque la latence totale : montrer les premiers mots apres 500ms rend l'attente de 3-4 secondes acceptable. Pour les callbots, la latence doit rester sous 1 seconde pour une conversation naturelle.

Question 2

Comment reduire la latence d'un chatbot ?

Accepted Answer

Pour reduire la latence : choisir un modèle plus petit si la tache le permet, utiliser des GPU plus puissants ou l'inference optimisee (TensorRT, vLLM), hébergér les modèles proche des utilisateurs (edge), cacher les réponses frequentes, streamer les réponses, et optimiser les appels API en parallele (RAG + LLM). Le trade-off est souvent entre qualité et latence.

Question 3

Quelle est la latence typique des différents LLM ?

Accepted Answer

Les latences varient selon la taille et la complexité du modèle : les modèles compacts offrent ~200-500ms pour le premier token, les modèles de raisonnement avancés montent à 1-3s. Les modèles auto-hébergés optimisés peuvent descendre sous 200ms. Ces chiffres dépendent de la longueur du prompt, de la charge serveur, et de la localisation. Les modèles plus grands et plus précis ont généralement plus de latence.

Question 4

Quelle différence entre lemmatisation et stemming ?

Accepted Answer

Le stemming coupe les suffixes mecaniquement : 'mangeons' -> 'mang'. La lemmatisation utilise l'analyse morphologique : 'mangeons' -> 'manger'. Le stemming est plus rapide mais produit parfois des non-mots. La lemmatisation est plus précise mais plus lente. Pour le français, la lemmatisation est généralement preferable car le stemming gère mal les irregularites grammaticales.

Question 5

Pourquoi la lemmatisation est-elle utile pour les chatbots ?

Accepted Answer

La lemmatisation aide les chatbots classiques (pre-LLM) a reconnaitre que 'je voudrais' et 'je veux' expriment la même intention. Elle reduit le nombre d'exemples nécessaires a l'entraînément en normalisant les variantes. Les LLM modernes ont moins besoin de lemmatisation explicite car ils ont appris les relations morphologiques, mais elle reste utile pour la recherche et l'indexation.

Question 6

Quels outils pour la lemmatisation en français ?

Accepted Answer

Les principaux outils de lemmatisation française sont : spaCy (modèle fr_core_news_sm), Stanza (Stanford NLP), TreeTagger, et Lefff (lexique morphologique). spaCy est le plus utilise pour sa facilite d'integration. La qualité depend du modèle et du domaine (le vocabulaire technique peut ne pas être reconnu). Les LLM peuvent aussi faire de la lemmatisation a la demande.

Question 7

Comment fonctionne un LLM ?

Accepted Answer

Un LLM est un réseau de neurones Transformer entraîné a predire le prochain token d'un texte. En voyant des milliards de phrases, il apprend la grammaire, les faits, et les patterns de raisonnement. En inference, il génère du texte token par token, chaque token étant predit en fonction de tout ce qui precede. Les LLM modernes ajoutent un fine-tuning avec feedback humain (RLHF) pour mieux suivre les instructions.

Question 8

Quels sont les LLM les plus performants en 2024 ?

Accepted Answer

Les principaux fournisseurs de LLM sont : OpenAI, Anthropic (Claude), Google (Gemini), Meta (Llama, open source) et Mistral AI. Chaque fournisseur fait évoluer rapidement ses modèles — les classements changent à chaque nouvelle génération. Pour le français spécifiquement, Mistral et Claude montrent d'excellentes performances. Le 'meilleur' dépend du cas d'usage, des contraintes de latence, de coût et de confidentialité.

Question 9

Quelles sont les limites des LLM ?

Accepted Answer

Les LLM ont des limites : hallucinations (invention d'informations), connaissance figee a la date d'entraînément, difficultes avec le calcul et la logique formelle, couts potentiellement eleves, risques de biais herites des données, et absence de comprehension reelle (ils predisent des tokens, ils ne 'pensent' pas). Le RAG, les outils externes, et la supervision humaine attenuent ces limites.

Question 10

Pourquoi LoRA est-il important pour les entreprises ?

Accepted Answer

LoRA democratise le fine-tuning : une entreprise peut adapter un LLM open source (Llama, Mistral) a son domaine sans datacenter ni budget colossal. Fine-tuner Llama 7B avec LoRA nécessite ~16 Go de VRAM (une seule GPU) vs des centaines de Go en full fine-tuning. Cela ouvre la personnalisation des LLM aux PME et équipes avec des ressources limitees.

Question 11

Comment fonctionne LoRA techniquement ?

Accepted Answer

LoRA decompose les mises a jour des poids en produits de matrices de rang faible. Au lieu de modifier une matrice W (millions de paramêtres), nous ajoutons BA où A et B sont de petites matrices. L'entraînément se fait uniquement sur A et B. En inference, on fusionne les poids LoRA avec le modèle original. Nous pouvons même charger différents adaptateurs LoRA selon le cas d'usage.

Question 12

LoRA vs Fine-tuning complet : quelle différence de résultats ?

Accepted Answer

LoRA atteint généralement 90-95% de la performance du fine-tuning complet pour une fraction du cout. Pour des adaptations legères (ton, vocabulaire métier), la différence est negligeable. Pour des taches tres différentes du pre-training, le fine-tuning complet reste superieur. En pratique, LoRA est souvent le meilleur rapport qualité/cout/temps pour les cas d'usage entreprise.

Question 13

Pourquoi le langage naturel est-il difficile a traiter pour les machines ?

Accepted Answer

Le langage naturel est ambigu (mots a multiples sens), contextuel (le sens depend de ce qui precede), implicite (beaucoup de non-dit), et variable (fautes, abbreviations, registres). 'Il fait un temps de chien' ne parle pas d'animaux. Les machines doivent apprendre ces subtilites, ce qui explique pourquoi le NLP a longtemps ete un defi. Les LLM ont fait un bond en avant en apprenant ces patterns sur des corpus massifs.

Question 14

Qu'est-ce que le NLU et le NLG ?

Accepted Answer

NLU (Natural Language Understanding) est la comprehension du langage : détecter l'intention, extraire les entites, comprendre le sens. NLG (Natural Language Generation) est la generation de langage : produire du texte comprehensible et naturel. Un chatbot utilise NLU pour comprendre la question et NLG pour formuler la réponse. Les LLM combinent les deux dans une même architecture.

Question 15

Les IA comprennent-elles vraiment le langage ?

Accepted Answer

Debat philosophique actif. Les LLM produisent des résultats impressionnants mais ne 'comprennent' pas au sens humain : ils predisent des patterns statistiques sans expérience vecue ni conscience. Ils peuvent parler de douleur sans la ressentir. Cependant, pour les applications pratiques (chatbots, traduction), cette distinction importe peu : ce qui compte est la qualité des résultats, pas la nature de la comprehension.

Glossaire de l'Intelligence Artificielle

Latence

Définition complète

Questions fréquentes

Articles associés

Lemmatisation

Définition complète

Questions fréquentes

Articles associés

LLM (Large Language Model)

Définition complète

Questions fréquentes

Articles associés

LoRA (Low-Rank Adaptation)

Définition complète

Questions fréquentes

Articles associés

Langage Naturel

Définition complète

Questions fréquentes

Articles associés

Un terme vous manque ?

Reservez votre diagnostic IA

Glossaire de l'Intelligence Artificielle

Latence

Définition complète

Questions fréquentes

Articles associés

Lemmatisation

Définition complète

Questions fréquentes

Articles associés

LLM (Large Language Model)

Définition complète

Questions fréquentes

Articles associés

LoRA (Low-Rank Adaptation)

Définition complète

Questions fréquentes

Articles associés

Langage Naturel

Définition complète

Questions fréquentes

Articles associés

Un terme vous manque ?

Reservez votre diagnostic IA