Définition complète
La température est un hyperparamètre qui contrôle le caractère aléatoire des réponses d'un LLM. Une température basse (0-0.3) produit des réponses déterministes et conservatrices, idéales pour les tâches factuelles. Une température haute (0.7-1.0) introduit plus de variabilité et de créativité, utile pour la génération créative. À température 0, le modèle choisit toujours le token le plus probable ; à température élevée, il explore des options moins probables.
Questions fréquentes
Quelle température utiliser pour un chatbot d'entreprise ?
Pour un chatbot d'entreprise, une température basse (0.1-0.3) est généralement recommandée : elle produit des réponses cohérentes, factuelles, et prévisibles. Évitez la température 0 stricte qui peut donner des réponses trop rigides. Pour des cas créatifs (suggestions de produits, reformulations), vous pouvez monter à 0.5-0.7. Testez sur vos cas d'usage réels pour trouver le bon équilibre.
Température et top_p : quelle différence ?
Température et top_p contrôlent tous deux l'aléatoire mais différemment. La température modifie les probabilités de tous les tokens. Top_p (nucleus sampling) ne considère que les tokens dont la probabilité cumulée atteint p (ex: 0.9 = les tokens qui représentent 90% de la probabilité). En pratique, on règle l'un ou l'autre, pas les deux. Top_p est plus prévisible, température plus intuitive.
Une température élevée augmente-t-elle les hallucinations ?
Oui, une température élevée peut augmenter les hallucinations car le modèle explore des prédictions moins probables, potentiellement incorrectes. Pour les applications où la factualité est critique, gardez une température basse. Le RAG avec température basse est la combinaison recommandée pour minimiser les hallucinations tout en permettant des réponses naturelles.