Définition complète
LoRA (Low-Rank Adaptation) est une méthode de fine-tuning efficace des grands modèles de langage. Au lieu de modifier tous les paramêtres du modèle (couteux), LoRA ajoute de petites matrices entraînées aux couches existantes. Cela reduit drastiquement la memoire et le temps de fine-tuning (10-100x moins de paramêtres a entraînér) tout en maintenant des performances comparables. LoRA permet de personnaliser des LLM sur du materiel grand public.
Questions fréquentes
Pourquoi LoRA est-il important pour les entreprises ?
LoRA democratise le fine-tuning : une entreprise peut adapter un LLM open source (Llama, Mistral) a son domaine sans datacenter ni budget colossal. Fine-tuner Llama 7B avec LoRA nécessite ~16 Go de VRAM (une seule GPU) vs des centaines de Go en full fine-tuning. Cela ouvre la personnalisation des LLM aux PME et équipes avec des ressources limitees.
Comment fonctionne LoRA techniquement ?
LoRA decompose les mises a jour des poids en produits de matrices de rang faible. Au lieu de modifier une matrice W (millions de paramêtres), nous ajoutons BA où A et B sont de petites matrices. L'entraînément se fait uniquement sur A et B. En inference, on fusionne les poids LoRA avec le modèle original. Nous pouvons même charger différents adaptateurs LoRA selon le cas d'usage.
LoRA vs Fine-tuning complet : quelle différence de résultats ?
LoRA atteint généralement 90-95% de la performance du fine-tuning complet pour une fraction du cout. Pour des adaptations legères (ton, vocabulaire métier), la différence est negligeable. Pour des taches tres différentes du pre-training, le fine-tuning complet reste superieur. En pratique, LoRA est souvent le meilleur rapport qualité/cout/temps pour les cas d'usage entreprise.