Définition complète
Une fonction d'activation est une fonction mathematique appliquee a la sortie de chaque neurone dans un réseau de neurones. Elle introduit de la non-linearite, permettant au réseau de modeliser des relations complexes. Sans fonction d'activation, un réseau profond serait equivalent a un simple modèle lineaire. Les fonctions courantes sont ReLU, Sigmoid, Tanh et GELU. Le choix de la fonction d'activation impacte la vitesse d'apprentissage et les performances du modèle.
Questions fréquentes
Pourquoi les fonctions d'activation sont-elles nécessaires ?
Sans fonction d'activation, chaque couche du réseau effectue une transformation lineaire. La composition de transformations lineaires reste lineaire. Les fonctions d'activation brisent cette linearite, permettant au réseau d'approximer n'importe quelle fonction continue (theoreme d'approximation universelle). C'est ce qui donne au deep learning sa puissance de modelisation.
Quelle est la fonction d'activation la plus utilisee ?
ReLU (Rectified Linear Unit) domine depuis 2012 : f(x) = max(0, x). Elle est simple, rapide a calculer, et evite le problème du gradient qui disparait. Pour les LLM modernes (GPT, etc.), GELU (Gaussian Error Linear Unit) est preferee car elle offre des gradients plus doux. Sigmoid et Tanh sont encore utilisees pour des couches spécifiques (sorties de classification).
En quoi cela concerne-t-il les décideurs ?
Les décideurs n'ont pas besoin de choisir les fonctions d'activation (c'est le travail des data scientists), mais comprendre leur role aide a saisir pourquoi le deep learning fonctionne. C'est aussi un point technique qui peut emerger lors de discussions avec des équipes techniques ou lors de l'evaluation de fournisseurs IA qui optimisent leurs architectures.