Définition complète
Le pre-training (pré-entraînement) est la phase initiale d'entraînement d'un grand modèle de langage sur d'énormes volumes de texte (des milliards de mots issus d'Internet, livres, articles). Le modèle apprend la structure du langage, les faits du monde, et les patterns de raisonnement. Cette phase est extrêmement coûteuse (millions de dollars, mois de calcul). Le pre-training produit un modèle de base (foundation model) qui peut ensuite être adapté par fine-tuning à des tâches spécifiques.
Questions fréquentes
Pourquoi le pre-training est-il si coûteux ?
Le pre-training nécessite : des téraoctets de données textuelles nettoyées, des milliers de GPU pendant des semaines à mois, et une ingénierie complexe (parallélisation, stabilité). les plus grands LLM coûtent des dizaines à centaines de millions de dollars en calcul. C'est pourquoi seules quelques entreprises (OpenAI, Google, Meta, Anthropic) pré-entraînent des LLM de pointe. Les autres utilisent ces modèles via API ou fine-tuning.
Quelle différence entre pre-training et fine-tuning ?
Le pre-training apprend des capacités générales sur des données massives et diverses. Le fine-tuning adapte ce modèle pré-entraîné à une tâche ou domaine spécifique avec des données ciblées (plus petites). Analogie : le pre-training donne une éducation générale, le fine-tuning enseigne un métier. Le fine-tuning est 100 à 1000 fois moins coûteux que le pre-training.
Peut-on faire du pre-training en entreprise ?
Le pre-training from scratch est hors de portée de la plupart des entreprises (coût, expertise, données). Cependant, le "continued pre-training" (reprendre l'entraînement d'un modèle existant sur des données sectorielles) est envisageable pour les grandes organisations avec des données propriétaires massives. Pour la majorité, le fine-tuning ou le prompting suffisent pour adapter les LLM existants.