Découvrez comment LoRA affine efficacement les grands modèles d'IA tels que YOLO, en réduisant les coûts et en permettant un déploiement en périphérie avec des ressources minimales.
LoRA (Low-Rank Adaptation) est une technique efficace utilisée pour adapter de grands modèles d'apprentissage machine (ML) pré-entraînés, tels que ceux utilisés pour le traitement du langage naturel (NLP) ou la vision par ordinateur (CV), à des tâches ou des ensembles de données spécifiques sans réentraîner l'ensemble du modèle. Il réduit considérablement les coûts de calcul et les besoins en mémoire associés à l'affinement de modèles massifs, rendant ainsi l'IA avancée plus accessible. LoRA s'inscrit dans le cadre des méthodes PEFT (Parameter-Efficient Fine-Tuning ), qui se concentrent sur l'adaptation des modèles avec des changements minimaux de leurs paramètres.
Le réglage fin traditionnel implique la mise à jour de tous les paramètres (ou poids du modèle) d'un modèle pré-entraîné à l'aide de nouvelles données. Pour les modèles comportant des milliards de paramètres, comme de nombreux LLM modernes ou de grands modèles de vision, ce processus exige des ressources informatiques considérables, en particulier la mémoire et le temps des GPU. LoRA part du principe, étayé par la recherche, que les changements nécessaires à l'adaptation d'un modèle résident souvent dans un espace de moindre dimension, ce qui signifie qu'il n'est pas nécessaire de modifier chaque poids.
Au lieu de modifier tous les poids originaux, LoRA les gèle et injecte de plus petites matrices de "faible rang" pouvant être entraînées dans des couches spécifiques de l'architecture du modèle, souvent dans des blocs Transformer (un composant commun à de nombreux modèles de grande taille, expliqué plus en détail dans l'article Attention Is All You Need). Seules ces matrices nouvellement ajoutées (souvent appelées adaptateurs) sont mises à jour au cours du processus de réglage fin. Cela réduit considérablement le nombre de paramètres entraînables, souvent par des ordres de grandeur (par exemple, des millions au lieu de milliards), tout en obtenant des performances comparables à un réglage fin complet dans de nombreux cas. Le document de recherche LoRA original fournit des détails techniques supplémentaires sur la méthodologie et son efficacité. Cette approche rend le processus de réglage fin beaucoup plus rapide et moins gourmand en mémoire.
Le principal avantage de la LoRA est son efficacité, qui se traduit par plusieurs avantages clés :
L'efficacité de la LoRA la rend précieuse dans différents domaines :
Il est utile de distinguer la LoRA des autres techniques d'adaptation des modèles :
En résumé, LoRA offre un moyen puissant et économe en ressources de personnaliser de grands modèles de base pré-entraînés pour un large éventail de tâches spécifiques à la fois en NLP et en vision par ordinateur, rendant ainsi l'IA avancée plus pratique et plus accessible.