Jeton (Token) : définition IA

Définition complète

Un token (jeton) est l'unite elementaire de texte qu'un modèle de langage traite. Ce n'est pas exactement un mot : les mots courants forment un token, les mots rares ou longs sont decoupes en plusieurs tokens. En moyenne, 1 token represente environ 4 caracteres en anglais, 3 en français. Les LLM facturent a l'usage en tokens (input + output). Comprendre la tokenisation aide a optimiser les couts et a gérer la limite de contexte des modèles.

Questions fréquentes

Pourquoi les LLM utilisent-ils des tokens plutot que des mots ?

Les tokens offrent un equilibre entre vocabulaire fixe et couverture linguistique. Un vocabulaire de mots complets serait immense (millions). La tokenisation (BPE, SentencePiece) crée un vocabulaire fixe (32K-100K tokens) capable de representer n'importe quel texte, y compris les mots rares ou inconnus. 'anticonstitutionnellement' devient plusieurs tokens, mais peut être traite sans problème.

Comment estimer le nombre de tokens d'un texte ?

En règle générale : 1 token = 4 caracteres anglais, 3 caracteres français, ou 0.75 mot. 1000 tokens representent environ 750 mots ou une page A4. OpenAI fournit un tokenizer en ligne (tiktoken). Les limites varient : les LLM récents acceptent jusqu'à 128K tokens de contexte ou plus. Attention : les prompts système et l'historique de conversation consomment aussi des tokens.

Comment le comptage de tokens impacte-t-il les couts ?

Les API LLM facturent par million de tokens (input + output separes). Les tarifs varient de quelques dollars à plusieurs dizaines de dollars par million de tokens selon le modèle et le fournisseur. Un chatbot traitant 10 000 conversations/mois de 500 tokens chacune consomme 5M tokens. Optimisez en : réduisant la taille des prompts système, évitant l'historique inutile, choisissant le modèle adapté à la complexité.

Jeton (Token)

Définition complète

Questions fréquentes

Un terme vous manque ?

Réservez votre diagnostic IA

Jeton (Token)

Définition complète

Questions fréquentes

Un terme vous manque ?

Réservez votre diagnostic IA