Plus de 100 termes IA expliqués clairement pour les décideurs. Chaque définition répond directement à la question que vous vous posez, sans jargon inutile.
Un token est l'unite de texte de base traitee par un modèle de langage, généralement un mot ou une partie de mot.
Un token (jeton) est l'unite elementaire de texte qu'un modèle de langage traite. Ce n'est pas exactement un mot : les mots courants forment un token, les mots rares ou longs sont decoupes en plusieurs tokens. En moyenne, 1 token represente environ 4 caracteres en anglais, 3 en français. Les LLM facturent a l'usage en tokens (input + output). Comprendre la tokenisation aide a optimiser les couts et a gérer la limite de contexte des modèles.
Les tokens offrent un equilibre entre vocabulaire fixe et couverture linguistique. Un vocabulaire de mots complets serait immense (millions). La tokenisation (BPE, SentencePiece) crée un vocabulaire fixe (32K-100K tokens) capable de representer n'importe quel texte, y compris les mots rares ou inconnus. 'anticonstitutionnellement' devient plusieurs tokens, mais peut être traite sans problème.
En règle générale : 1 token = 4 caracteres anglais, 3 caracteres français, ou 0.75 mot. 1000 tokens representent environ 750 mots ou une page A4. OpenAI fournit un tokenizer en ligne (tiktoken). Les limites varient : les LLM récents acceptent jusqu'à 128K tokens de contexte ou plus. Attention : les prompts système et l'historique de conversation consomment aussi des tokens.
Les API LLM facturent par million de tokens (input + output separes). Les tarifs varient de quelques dollars à plusieurs dizaines de dollars par million de tokens selon le modèle et le fournisseur. Un chatbot traitant 10 000 conversations/mois de 500 tokens chacune consomme 5M tokens. Optimisez en : réduisant la taille des prompts système, évitant l'historique inutile, choisissant le modèle adapté à la complexité.
JSON-LD est un format de données structurées que les moteurs de recherche et les IA utilisent pour comprendre le contenu des pages.
JSON-LD (JavaScript Object Notation for Linked Data) est un format de données structurées recommande par Google pour enrichir les pages web d'informations sémantiques. Integre dans le HTML, il permet aux moteurs de recherche et aux systèmes IA de comprendre le contenu de la page : type d'article, auteur, FAQ, produit avec prix, avis. C'est essentiel pour le SEO moderne et le GEO (Generative Engine Optimization) car les IA s'appuient sur ces données structurées pour générer leurs réponses.
Les moteurs IA (ChatGPT, Perplexity, Gemini) exploitent les données structurées pour comprendre les pages qu'ils citent. JSON-LD fournit des informations claires : 'ceci est une FAQ', 'voici l'auteur expert', 'ce produit coute X euros'. Sans données structurées, l'IA doit interpreter le contenu HTML brut, avec plus de risques d'erreur. JSON-LD augmente les chances d'être cite correctement.
Les schemas les plus impactants sont : FAQPage (questions-réponses pour les featured snippets), Article/BlogPosting (contenu editorial avec auteur et date), Product (e-commerce avec prix et avis), Organization (information sur l'entreprise), HowTo (tutoriels pas a pas), et LocalBusiness (commerces locaux). Chaque schema correspond a un type de rich snippet potentiel.
JSON-LD s'ajoute dans une balise <script type='application/ld+json'> dans le <head> ou le <body>. Les CMS modernes (WordPress, Next.js) offrent des plugins ou composants. Outils de validation : Google Rich Results Test, Schema.org Validator. Chaque page peut contenir plusieurs blocs JSON-LD pour différents schemas. L'implementation est invisible pour l'utilisateur mais visible pour les robots.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisee.
Un expert Webotit analyse vos flux, identifie les quick-wins et vous propose une feuille de route personnalisée.
45 min · Gratuit · Réponse sous 24h
Voir les disponibilités