Définition complète
Le Transformer est une architecture de réseau de neurones introduite en 2017 ("Attention Is All You Need") qui a révolutionné le traitement du langage naturel. Sa caractéristique clé est le mécanisme d'attention qui permet de modéliser les relations entre tous les mots d'une phrase, quelle que soit leur distance. Les Transformers sont massivement parallélisables, permettant l'entraînement sur d'énormes corpus. GPT, BERT, Claude, Llama, et la plupart des LLM modernes sont basés sur cette architecture.
Questions fréquentes
Pourquoi le Transformer a-t-il révolutionné le NLP ?
Avant le Transformer, les modèles RNN/LSTM traitaient le texte séquentiellement, ce qui limitait le parallélisme et la capacité à capturer les dépendances longues. Le mécanisme d'attention du Transformer permet de relier directement des mots distants ("Le chat que j'ai vu hier... dort"). La parallélisation massive permet l'entraînement sur des milliards de mots, menant aux LLM actuels.
Comment fonctionne le mécanisme d'attention ?
L'attention calcule, pour chaque mot, l'importance de tous les autres mots du contexte. Chaque mot génère trois vecteurs : Query (ce que je cherche), Key (ce que je représente), Value (ma contribution). Le score d'attention = Query × Key, normalisé, puis multiplié par Value. Cela permet au modèle de "regarder" différents endroits du texte selon le besoin. Le multi-head attention répète ce processus plusieurs fois en parallèle.
Quelles sont les limitations du Transformer ?
Les Transformers ont des limitations : la mémoire croît quadratiquement avec la longueur du texte (coût d'attention), ce qui limite le contexte. Les fenêtres de 128K tokens des modèles récents nécessitent des optimisations (FlashAttention, sparse attention). Ils sont aussi très gourmands en calcul et en données d'entraînement. Des architectures alternatives émergent (State Space Models, Mamba) pour adresser ces limites.