Définition complète
La tokenisation est le processus de découpage d'un texte en unités élémentaires appelées tokens. Pour les LLM, ce ne sont pas toujours des mots : les mots courants forment un token, les mots rares sont découpés en sous-parties. L'algorithme le plus utilisé est BPE (Byte-Pair Encoding). La tokenisation détermine comment le modèle "voit" le texte et impacte les coûts (facturation au token) et les limites de contexte. Un texte français utilise généralement plus de tokens qu'un texte anglais équivalent.
Questions fréquentes
Pourquoi le français utilise-t-il plus de tokens que l'anglais ?
Les tokenizers sont souvent entraînés sur des corpus à dominante anglaise. Les mots anglais courants forment un seul token, tandis que les mots français peuvent être découpés. Exemple : "aujourd'hui" = 2-3 tokens. De plus, les accents et caractères spéciaux peuvent consommer des tokens supplémentaires. En moyenne, le français utilise 20-40% plus de tokens que l'anglais pour un contenu équivalent.
Comment estimer le nombre de tokens d'un texte ?
Règle générale : 1 token ≈ 4 caractères anglais, 3 caractères français, ou 0.75 mot. Des outils précis existent : tiktoken (OpenAI, en ligne ou Python), les tokenizers de Hugging Face. Pour un devis précis, utilisez le tokenizer du modèle cible car chaque modèle a son propre vocabulaire. Les limites de contexte sont en tokens, pas en mots.
La tokenisation impacte-t-elle la qualité des réponses ?
Oui, marginalement. Les mots rares découpés en sous-tokens sont moins bien représentés que les mots fréquents. Les termes techniques très spécifiques peuvent être mal compris. Cependant, les LLM modernes gèrent bien ces cas. L'impact principal est sur le coût et la limite de contexte : un vocabulaire métier dense consomme plus de tokens, laissant moins de place pour le contexte.