Définition complète
Un token (jeton) est l'unite elementaire de texte qu'un modèle de langage traite. Ce n'est pas exactement un mot : les mots courants forment un token, les mots rares ou longs sont decoupes en plusieurs tokens. En moyenne, 1 token represente environ 4 caracteres en anglais, 3 en français. Les LLM facturent a l'usage en tokens (input + output). Comprendre la tokenisation aide a optimiser les couts et a gérer la limite de contexte des modèles.
Questions fréquentes
Pourquoi les LLM utilisent-ils des tokens plutot que des mots ?
Les tokens offrent un equilibre entre vocabulaire fixe et couverture linguistique. Un vocabulaire de mots complets serait immense (millions). La tokenisation (BPE, SentencePiece) crée un vocabulaire fixe (32K-100K tokens) capable de representer n'importe quel texte, y compris les mots rares ou inconnus. 'anticonstitutionnellement' devient plusieurs tokens, mais peut être traite sans problème.
Comment estimer le nombre de tokens d'un texte ?
En règle générale : 1 token = 4 caracteres anglais, 3 caracteres français, ou 0.75 mot. 1000 tokens representent environ 750 mots ou une page A4. OpenAI fournit un tokenizer en ligne (tiktoken). Les limites varient : les LLM récents acceptent jusqu'à 128K tokens de contexte ou plus. Attention : les prompts système et l'historique de conversation consomment aussi des tokens.
Comment le comptage de tokens impacte-t-il les couts ?
Les API LLM facturent par million de tokens (input + output separes). Les tarifs varient de quelques dollars à plusieurs dizaines de dollars par million de tokens selon le modèle et le fournisseur. Un chatbot traitant 10 000 conversations/mois de 500 tokens chacune consomme 5M tokens. Optimisez en : réduisant la taille des prompts système, évitant l'historique inutile, choisissant le modèle adapté à la complexité.