Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.
La latence est le delai entre l'envoi d'une requête et la reception de la réponse d'un système IA.
La latence en IA mesure le temps ecoule entre l'envoi d'une requête et l'obtention de la réponse. Pour un chatbot, c'est le delai entre le message de l'utilisateur et l'affichage de la réponse. Pour un callbot, c'est le temps avant que le système parle apres que l'utilisateur ait fini. Une latence elevee degrade l'expérience utilisateur. Elle depend du modèle (taille, complexite), de l'infrastructuré (GPU, réseau), et de la longueur de la réponse.
Les utilisateurs attendent une réponse en moins de 3 secondes pour un chatbot textuel. Au-dela, ils percoivent un delai gene. L'ideal est sous 2 secondes. Le streaming (affichage progressif des tokens) masque la latence totale : montrer les premiers mots apres 500ms rend l'attente de 3-4 secondes acceptable. Pour les callbots, la latence doit rester sous 1 seconde pour une conversation naturelle.
Pour reduire la latence : choisir un modèle plus petit si la tache le permet, utiliser des GPU plus puissants ou l'inference optimisee (TensorRT, vLLM), hébergér les modèles proche des utilisateurs (edge), cacher les réponses frequentes, streamer les réponses, et optimiser les appels API en parallele (RAG + LLM). Le trade-off est souvent entre qualité et latence.
Les latences varient selon la taille et la complexité du modèle : les modèles compacts offrent ~200-500ms pour le premier token, les modèles de raisonnement avancés montent à 1-3s. Les modèles auto-hébergés optimisés peuvent descendre sous 200ms. Ces chiffres dépendent de la longueur du prompt, de la charge serveur, et de la localisation. Les modèles plus grands et plus précis ont généralement plus de latence.
La lemmatisation reduit les mots a leur forme canonique (lemme) pour normaliser le texte.
La lemmatisation est une technique NLP qui ramene les mots a leur forme de base (lemme) : 'mangeons', 'mangeait', 'mange' deviennent 'manger'. Contrairement au stemming (troncature brutale), la lemmatisation utilise le contexte grammatical et un dictionnaire pour produire de vrais mots. Elle normalise le texte avant l'analyse, reduisant la variabilite linguistique. C'est une étape de preprocessing classique pour la classification de texte et la recherche.
Le stemming coupe les suffixes mecaniquement : 'mangeons' -> 'mang'. La lemmatisation utilise l'analyse morphologique : 'mangeons' -> 'manger'. Le stemming est plus rapide mais produit parfois des non-mots. La lemmatisation est plus précise mais plus lente. Pour le français, la lemmatisation est généralement preferable car le stemming gère mal les irregularites grammaticales.
La lemmatisation aide les chatbots classiques (pre-LLM) a reconnaitre que 'je voudrais' et 'je veux' expriment la même intention. Elle reduit le nombre d'exemples nécessaires a l'entraînément en normalisant les variantes. Les LLM modernes ont moins besoin de lemmatisation explicite car ils ont appris les relations morphologiques, mais elle reste utile pour la recherche et l'indexation.
Les principaux outils de lemmatisation française sont : spaCy (modèle fr_core_news_sm), Stanza (Stanford NLP), TreeTagger, et Lefff (lexique morphologique). spaCy est le plus utilise pour sa facilite d'integration. La qualité depend du modèle et du domaine (le vocabulaire technique peut ne pas être reconnu). Les LLM peuvent aussi faire de la lemmatisation a la demande.
Un LLM est un modèle d'IA entraîné sur de vastes corpus de texte, capable de comprendre et générer du langage naturel.
Un LLM (Large Language Model où Grand Modele de Langage) est un réseau de neurones profond entraîné sur d'enormes quantités de texte (des milliards de mots) pour predire le prochain mot dans une sequence. Cette capacité leur permet de générer du texte coherent, répondre a des questions, resumer, traduire, et executer des taches variees via des instructions en langage naturel. Les modèles d'OpenAI, Anthropic, Google, Meta et Mistral sont des exemples de LLM. Ils ont revolutionne l'IA conversationnelle.
Un LLM est un réseau de neurones Transformer entraîné a predire le prochain token d'un texte. En voyant des milliards de phrases, il apprend la grammaire, les faits, et les patterns de raisonnement. En inference, il génère du texte token par token, chaque token étant predit en fonction de tout ce qui precede. Les LLM modernes ajoutent un fine-tuning avec feedback humain (RLHF) pour mieux suivre les instructions.
Les principaux fournisseurs de LLM sont : OpenAI, Anthropic (Claude), Google (Gemini), Meta (Llama, open source) et Mistral AI. Chaque fournisseur fait évoluer rapidement ses modèles — les classements changent à chaque nouvelle génération. Pour le français spécifiquement, Mistral et Claude montrent d'excellentes performances. Le 'meilleur' dépend du cas d'usage, des contraintes de latence, de coût et de confidentialité.
Les LLM ont des limites : hallucinations (invention d'informations), connaissance figee a la date d'entraînément, difficultes avec le calcul et la logique formelle, couts potentiellement eleves, risques de biais herites des données, et absence de comprehension reelle (ils predisent des tokens, ils ne 'pensent' pas). Le RAG, les outils externes, et la supervision humaine attenuent ces limites.
LoRA est une technique de fine-tuning efficace qui adapte un LLM avec un nombre reduit de paramêtres.
LoRA (Low-Rank Adaptation) est une méthode de fine-tuning efficace des grands modèles de langage. Au lieu de modifier tous les paramêtres du modèle (couteux), LoRA ajoute de petites matrices entraînées aux couches existantes. Cela reduit drastiquement la memoire et le temps de fine-tuning (10-100x moins de paramêtres a entraînér) tout en maintenant des performances comparables. LoRA permet de personnaliser des LLM sur du materiel grand public.
LoRA democratise le fine-tuning : une entreprise peut adapter un LLM open source (Llama, Mistral) a son domaine sans datacenter ni budget colossal. Fine-tuner Llama 7B avec LoRA nécessite ~16 Go de VRAM (une seule GPU) vs des centaines de Go en full fine-tuning. Cela ouvre la personnalisation des LLM aux PME et équipes avec des ressources limitees.
LoRA decompose les mises a jour des poids en produits de matrices de rang faible. Au lieu de modifier une matrice W (millions de paramêtres), nous ajoutons BA où A et B sont de petites matrices. L'entraînément se fait uniquement sur A et B. En inference, on fusionne les poids LoRA avec le modèle original. Nous pouvons même charger différents adaptateurs LoRA selon le cas d'usage.
LoRA atteint généralement 90-95% de la performance du fine-tuning complet pour une fraction du cout. Pour des adaptations legères (ton, vocabulaire métier), la différence est negligeable. Pour des taches tres différentes du pre-training, le fine-tuning complet reste superieur. En pratique, LoRA est souvent le meilleur rapport qualité/cout/temps pour les cas d'usage entreprise.
Le langage naturel est la langue humaine quotidienne, par opposition aux langages formels ou de programmation.
Le langage naturel désigne les langues utilisees par les humains pour communiquer au quotidien (français, anglais, etc.), par opposition aux langages formels (mathematiques, programmation). Le traitement du langage naturel (NLP) est le domaine de l'IA qui permet aux machines de comprendre, interpreter et générer du langage naturel. C'est le fondement des chatbots, de la recherche vocale, de la traduction automatique et des assistants virtuels.
Le langage naturel est ambigu (mots a multiples sens), contextuel (le sens depend de ce qui precede), implicite (beaucoup de non-dit), et variable (fautes, abbreviations, registres). 'Il fait un temps de chien' ne parle pas d'animaux. Les machines doivent apprendre ces subtilites, ce qui explique pourquoi le NLP a longtemps ete un defi. Les LLM ont fait un bond en avant en apprenant ces patterns sur des corpus massifs.
NLU (Natural Language Understanding) est la comprehension du langage : détecter l'intention, extraire les entites, comprendre le sens. NLG (Natural Language Generation) est la generation de langage : produire du texte comprehensible et naturel. Un chatbot utilise NLU pour comprendre la question et NLG pour formuler la réponse. Les LLM combinent les deux dans une même architecture.
Debat philosophique actif. Les LLM produisent des résultats impressionnants mais ne 'comprennent' pas au sens humain : ils predisent des patterns statistiques sans expérience vecue ni conscience. Ils peuvent parler de douleur sans la ressentir. Cependant, pour les applications pratiques (chatbots, traduction), cette distinction importe peu : ce qui compte est la qualité des résultats, pas la nature de la comprehension.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilités