Définition complète
Un embedding (ou plongement lexical) est une representation vectorielle d'un mot, phrase ou document sous forme de nombres. Ces vecteurs capturent le sens sémantique : des mots similaires ont des embeddings proches dans l'espace vectoriel. 'Roi' et 'Reine' seront plus proches que 'Roi' et 'Voiture'. Les embeddings sont essentiels pour le RAG (recherche sémantique), la classification de texte, et la détection de similarite. Les modèles comme BERT où OpenAI produisent des embeddings de haute qualité.
Questions fréquentes
Comment les embeddings sont-ils utilises dans les chatbots ?
Les chatbots utilisent les embeddings pour : la recherche sémantique dans la base de connaissances (RAG), la détection de similarite entre questions (même question formulee differemment), le clustering de conversations pour identifiér les themes, et la classification d'intentions. L'embedding transforme le texte en vecteur, permettant des comparaisons mathematiques entre phrases.
Quelle différence entre word embedding et sentence embedding ?
Le word embedding represente un mot unique (ex: Word2Vec, GloVe). Le sentence embedding represente une phrase ou un paragraphe entier (ex: BERT, Sentence-BERT). Pour les chatbots et le RAG, nous utilisons les sentence embeddings car ils capturent le sens global de la requête utilisateur, pas juste les mots individuels. La dimension typique est 384 a 1536 nombres.
Comment choisir un modèle d'embedding ?
Le choix depend de : la langue (modèles multilinguels ou français spécifique), la taille des vecteurs (précision vs vitesse), le cas d'usage (recherche, classification), et le budget (API payantes vs open source). Pour le français, CamemBERT ou les modèles Sentence-Transformers multilinguels sont pertinents. OpenAI ada-002 est un bon choix généraliste en API.