Définition complète
Un hyperparamètre est une variable de configuration d'un modèle de machine learning definie avant le debut de l'entraînement, par opposition aux paramètres du modèle qui sont appris pendant l'entraînement. Exemples : le learning rate (vitesse d'apprentissage), le nombre de couches du réseau, la taille des lots (batch size). Le choix des hyperparamètres impacte fortement les performances du modèle. L'optimisation d'hyperparamètres (hyperparameter tuning) est une étape cle du ML.
Questions fréquentes
Quelle différence entre paramètre et hyperparamètre ?
Les paramètres sont appris par le modèle pendant l'entraînement (les poids du réseau de neurones). Les hyperparamètres sont definis par le data scientist avant l'entraînement et controlent comment l'apprentissage se deroule (learning rate, architecture). Analogie : si le modèle est un etudiant, les paramètres sont ce qu'il apprend, les hyperparamètres sont la méthode pedagogique.
Quels sont les hyperparamètres les plus importants ?
Les hyperparamètres critiques varient selon le modèle. Pour le deep learning : learning rate (le plus sensible), nombre d'epochs, batch size, dropout rate. Pour les LLM en inference : temperature (creativite), top_p (diversite), max_tokens (longueur). Un learning rate trop haut fait diverger l'entraînement, trop bas le rend trop lent.
Comment optimiser les hyperparamètres ?
L'optimisation d'hyperparamètres utilise : la recherche en grille (tester toutes les combinaisons), la recherche aleatoire (echantillonner au hasard), l'optimisation bayesienne (apprendre des essais precedents), ou des outils automatises (Optuna, Ray Tune). En pratique, nous commençons par des valeurs standards de la litterature, puis on affine iterativement. C'est couteux en temps de calcul.