Glossaire

LoRA (Low-Rank Adaptation)

Découvrez comment LoRA affine efficacement les grands modèles d'IA tels que YOLO, en réduisant les coûts et en permettant un déploiement en périphérie avec des ressources minimales.

LoRA (Low-Rank Adaptation) est une technique efficace utilisée pour adapter de grands modèles d'apprentissage machine (ML) pré-entraînés, tels que ceux utilisés pour le traitement du langage naturel (NLP) ou la vision par ordinateur (CV), à des tâches ou des ensembles de données spécifiques sans réentraîner l'ensemble du modèle. Il réduit considérablement les coûts de calcul et les besoins en mémoire associés à l'affinement de modèles massifs, rendant ainsi l'IA avancée plus accessible. LoRA s'inscrit dans le cadre des méthodes PEFT (Parameter-Efficient Fine-Tuning ), qui se concentrent sur l'adaptation des modèles avec des changements minimaux de leurs paramètres.

Fonctionnement de la LoRA

Le réglage fin traditionnel implique la mise à jour de tous les paramètres (ou poids du modèle) d'un modèle pré-entraîné à l'aide de nouvelles données. Pour les modèles comportant des milliards de paramètres, comme de nombreux LLM modernes ou de grands modèles de vision, ce processus exige des ressources informatiques considérables, en particulier la mémoire et le temps des GPU. LoRA part du principe, étayé par la recherche, que les changements nécessaires à l'adaptation d'un modèle résident souvent dans un espace de moindre dimension, ce qui signifie qu'il n'est pas nécessaire de modifier chaque poids.

Au lieu de modifier tous les poids originaux, LoRA les gèle et injecte de plus petites matrices de "faible rang" pouvant être entraînées dans des couches spécifiques de l'architecture du modèle, souvent dans des blocs Transformer (un composant commun à de nombreux modèles de grande taille, expliqué plus en détail dans l'article Attention Is All You Need). Seules ces matrices nouvellement ajoutées (souvent appelées adaptateurs) sont mises à jour au cours du processus de réglage fin. Cela réduit considérablement le nombre de paramètres entraînables, souvent par des ordres de grandeur (par exemple, des millions au lieu de milliards), tout en obtenant des performances comparables à un réglage fin complet dans de nombreux cas. Le document de recherche LoRA original fournit des détails techniques supplémentaires sur la méthodologie et son efficacité. Cette approche rend le processus de réglage fin beaucoup plus rapide et moins gourmand en mémoire.

Pertinence et avantages

Le principal avantage de la LoRA est son efficacité, qui se traduit par plusieurs avantages clés :

  • Coût de calcul réduit : Nécessite beaucoup moins de mémoire GPU et de puissance de calcul qu'un réglage fin complet, ce qui permet d'adapter de grands modèles sur du matériel moins puissant.
  • Une empreinte de stockage réduite : Étant donné que les poids du modèle original sont gelés, seuls les petits adaptateurs LoRA doivent être sauvegardés pour chaque tâche spécifique. C'est beaucoup plus efficace que de stocker une copie complète du modèle affiné pour chaque tâche.
  • Passage plus rapide d'une tâche à l'autre : le chargement de différents adaptateurs LoRA permet de passer rapidement d'une tâche à l'autre sans avoir à charger de nouveaux modèles de grande taille.
  • Des performances comparables : Malgré l'apprentissage d'un nombre beaucoup moins important de paramètres, LoRA atteint souvent des niveaux de précision similaires à ceux obtenus grâce à une mise au point complète sur des tâches spécifiques en aval.
  • Permettre le déploiement en périphérie : Les exigences réduites en matière de ressources facilitent l'adaptation des modèles aux scénarios d'informatique périphérique où la puissance de calcul et la mémoire sont limitées, ce qui permet d'apporter de puissantes capacités d'IA à des appareils tels que les smartphones ou les systèmes intégrés(Edge AI expliqué par Intel).
  • Démocratisation : Réduit la barrière à l'entrée pour les chercheurs et les développeurs qui souhaitent personnaliser des modèles de pointe comme le GPT-4 ou les modèles YOLO d'Ultralytics.

Applications de la LoRA

L'efficacité de la LoRA la rend précieuse dans différents domaines :

  1. Adaptation de grands modèles linguistiques (LLM) : C'est l'une des utilisations les plus courantes. Les développeurs peuvent prendre un LLM massif pré-entraîné (comme ceux disponibles chez Hugging Face) et utiliser LoRA pour le spécialiser dans des applications spécifiques telles que les chatbots personnalisés, les systèmes de réponse aux questions spécifiques à un domaine, ou l'amélioration du résumé de texte pour des types particuliers de documents. Des bibliothèques comme la bibliothèque PEFT de Hugging Face fournissent des implémentations faciles de LoRA.
  2. Personnalisation des modèles de vision par ordinateur : LoRA peut être appliqué à de grands modèles de vision par ordinateur pour des tâches telles que la détection d'objets, la segmentation d'images ou l'estimation de la pose. Par exemple, un modèle Ultralytics YOLO pré-entraîné sur un grand ensemble de données comme COCO pourrait être affiné efficacement en utilisant LoRA pour détecter des types d'objets spécifiques dans un domaine de niche, comme des espèces en danger pour la conservation de la faune ou des défauts spécifiques dans le contrôle de la qualité de la fabrication. Des plateformes comme Ultralytics HUB peuvent rationaliser la formation et le déploiement de tels modèles adaptés.

LoRA et concepts connexes

Il est utile de distinguer la LoRA des autres techniques d'adaptation des modèles :

  • Ajustement complet : Cette méthode met à jour tous les poids d'un modèle pré-entraîné sur un nouvel ensemble de données. Bien qu'elle soit souvent efficace, elle nécessite d'importantes ressources de calcul et de stockage pour chaque modèle adapté. LoRA, en revanche, gèle les poids d'origine et n'entraîne que les petites matrices d'adaptation injectées. Pour plus de détails, consultez notre glossaire sur le réglage fin et la présentation du réglage fin de NVIDIA.
  • Réglage des invites : Cette technique maintient les poids du modèle complètement gelés et apprend à la place des "invites douces" continues (vecteurs ajoutés aux encastrements d'entrée) pour orienter le comportement du modèle pour des tâches spécifiques. Contrairement à LoRA, elle ne modifie pas les poids du modèle mais se concentre uniquement sur l'adaptation de la représentation de l'entrée. Pour en savoir plus sur le réglage des invites et l'ingénierie des invites.
  • Autres méthodes PEFT : LoRA n'est qu'une technique parmi d'autres dans le domaine plus large du Parameter-Efficient Fine-Tuning (PEFT). Parmi les autres méthodes, citons Adapter Tuning (similaire mais avec des structures d'adaptateur légèrement différentes), Prefix Tuning, et IA³, chacune offrant des compromis différents en termes d'efficacité des paramètres et de performances.

En résumé, LoRA offre un moyen puissant et économe en ressources de personnaliser de grands modèles de base pré-entraînés pour un large éventail de tâches spécifiques à la fois en NLP et en vision par ordinateur, rendant ainsi l'IA avancée plus pratique et plus accessible.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers