Définition complète
L'overfitting (surapprentissage) est un phénomène où un modèle de machine learning mémorise les données d'entraînement au lieu d'apprendre des patterns généralisables. Le modèle performe excellemment sur les données d'entraînement mais échoue sur de nouvelles données. C'est comme un étudiant qui mémorise les réponses du QCM sans comprendre le cours. L'overfitting est un risque majeur en ML, combattu par la régularisation, le dropout, la validation croisée, et l'augmentation de données.
Questions fréquentes
Comment détecter l'overfitting ?
L'overfitting se détecte en comparant les performances sur les données d'entraînement vs les données de test. Si le modèle a 99% d'accuracy en entraînement mais 60% en test, il y a overfitting. Les courbes d'apprentissage révèlent aussi le problème : l'erreur de test commence à remonter alors que l'erreur d'entraînement continue de baisser.
Comment prévenir l'overfitting ?
Les techniques anti-overfitting incluent : augmenter la quantité de données d'entraînement, utiliser la régularisation (L1, L2), appliquer le dropout (désactivation aléatoire de neurones), arrêt précoce (early stopping), validation croisée, et réduire la complexité du modèle. Le data augmentation (créer des variations des données) aide aussi. Le choix dépend du contexte et du type de modèle.
L'overfitting concerne-t-il les LLM ?
Les LLM pré-entraînés ont peu de risque d'overfitting grâce à leur énorme volume de données. Le risque apparaît lors du fine-tuning avec peu d'exemples : le modèle peut sur-spécialiser. Pour le prévenir : utilisez suffisamment d'exemples variés, appliquez la régularisation, et évaluez sur un jeu de test séparé. LoRA réduit naturellement le risque en limitant les paramètres modifiés.