Le Parameter-Efficient Fine-Tuning (PEFT) décrit un ensemble de techniques utilisées dans l'apprentissage automatique (ML) pour adapter de grands modèles pré-entraînés (comme les modèles de fondation) à des tâches spécifiques en aval sans avoir besoin de mettre à jour tous les paramètres du modèle. Au lieu de cela, les méthodes PEFT se concentrent sur la modification d'un petit sous-ensemble de paramètres ou sur l'ajout d'un petit nombre de nouveaux paramètres. Cette approche réduit considérablement les coûts de calcul et de stockage associés à la mise au point de modèles massifs, tels que les grands modèles de langage (LLM) ou les modèles de vision à grande échelle utilisés dans la vision par ordinateur (CV), ce qui rend la personnalisation plus accessible et plus efficace.
Pertinence et avantages
L'essor de modèles préformés extrêmement volumineux, contenant souvent des milliards de paramètres, a rendu les méthodes traditionnelles de réglage fin gourmandes en ressources. La mise au point complète de ces modèles nécessite une puissance de calcul importante (souvent plusieurs GPU haut de gamme), de grandes quantités de mémoire et un espace de stockage considérable pour chaque modèle adapté. PEFT relève ces défis en offrant plusieurs avantages clés :
- Coût de calcul réduit : Le fait de ne former qu'une petite fraction de paramètres diminue considérablement le besoin en matériel coûteux et réduit le temps de formation. Des plateformes comme Ultralytics HUB Cloud Training permettent de rationaliser encore davantage ce processus.
- Réduction des besoins en stockage : Puisque le grand modèle original reste inchangé, seul le petit ensemble de paramètres modifiés ou ajoutés doit être stocké pour chaque tâche, ce qui entraîne des économies de stockage substantielles.
- Atténuation de l'oubli catastrophique : En gelant la plupart des poids du modèle pré-entraîné, PEFT permet d'éviter que le modèle ne perde les connaissances générales qu'il a acquises pendant le pré-entraînement lors de l'apprentissage d'une nouvelle tâche. En savoir plus sur la façon de surmonter l'oubli catastrophique.
- Généralisation améliorée sur les régimes à faibles données : Parfois, un réglage fin de moins de paramètres peut conduire à de meilleures performances sur des tâches avec des données limitées, car il réduit le risque de surajustement sur le petit ensemble de données.
- Déploiement plus facile : De plus petits ensembles de paramètres spécifiques à une tâche simplifient le déploiement du modèle, en particulier dans les environnements à ressources limitées tels que les appareils d'IA en périphérie.
Concepts et techniques clés
PEFT s'appuie sur le concept de l'apprentissage par transfert, où les connaissances d'un modèle de base sont appliquées à une nouvelle tâche. Alors que le réglage fin standard ajuste de nombreuses couches (ou toutes les couches), le PEFT utilise des méthodes spécialisées. Parmi les techniques PEFT les plus populaires, on peut citer :
- Adaptateurs : Petits modules de réseaux neuronaux insérés entre les couches existantes du modèle pré-entraîné. Seuls les paramètres de ces nouvelles couches d'adaptateurs sont entraînés. Voir l'article de recherche original sur les adaptateurs pour plus de détails.
- LoRA (Low-Rank Adaptation): Injecte des matrices de faible rang entraînables dans les couches de l'architecture du transformateur, ce qui rapproche les mises à jour des poids tout en réduisant considérablement le nombre de paramètres entraînables.
- Mise au point du préfixe : Ajoute un petit ensemble de vecteurs préfixes entraînables à l'entrée des couches de transformation, influençant le mécanisme d'attention du modèle sans modifier les poids d'origine. Lire l'article sur le réglage des préfixes.
- Réglage des messages-guides: Apprend des invites douces (intégration de vecteurs continus) ajoutées à la séquence d'entrée, guidant le comportement du modèle gelé pour la tâche spécifique.
Des bibliothèques comme la bibliothèque PEFTHugging Face fournissent des implémentations de diverses méthodes PEFT.
Distinction par rapport aux concepts apparentés
Il est important de distinguer PEFT des autres techniques d'adaptation et d'optimisation des modèles :
- Ajustement complet : Met à jour la totalité ou une grande partie des paramètres du modèle pré-entraîné. Elle est coûteuse en termes de calcul, mais peut atteindre des performances élevées si l'on dispose de suffisamment de données et de ressources.
- Élagage du modèle: Vise à réduire la taille du modèle et la latence d'inférence en supprimant les paramètres redondants ou sans importance (poids ou connexions) d'un modèle entraîné. Contrairement à PEFT, l'élagage se concentre sur la compression plutôt que sur l'adaptation à la tâche.
- Distillation des connaissances: Implique la formation d'un modèle "étudiant" plus petit pour imiter la sortie ou le comportement d'un modèle "enseignant" plus grand. L'objectif est de transférer les connaissances pour améliorer les performances du modèle plus petit, alors que PEFT adapte directement le grand modèle lui-même avec un minimum de changements.
- Réglage des hyperparamètres: Se concentre sur la recherche des paramètres de configuration optimaux (comme le taux d'apprentissage ou la taille du lot) pour le processus de formation, plutôt que de modifier directement les paramètres du modèle pour l'adaptation à la tâche.
Applications dans le monde réel
PEFT permet l'application pratique de grands modèles dans divers domaines :
- Traitement du langage naturel (NLP) : Adaptation de modèles de base tels que GPT-4 ou BERT pour des tâches spécifiques telles que la création de chatbots spécialisés pour le service client, la réalisation d'analyses de sentiments ciblées pour les études de marché, ou le résumé de documents spécifiques à un domaine (par exemple, des textes juridiques ou médicaux). De nombreuses ressources sont disponibles auprès de groupes tels que le Stanford NLP Group.
- Vision par ordinateur : Personnaliser des modèles de vision puissants, y compris Ultralytics YOLO pour des tâches spécialisées de détection d'objets ou de segmentation d'images. Les exemples incluent l'identification de types spécifiques de défauts sur une chaîne de montage de fabrication à l'aide d'un modèle initialement formé sur des ensembles de données générales comme COCO, ou l'adaptation de modèles pour l'analyse précise d'images médicales ou le suivi d'espèces menacées dans le cadre de la conservation de la faune et de la flore.
Essentiellement, le Parameter-Efficient Fine-Tuning rend les modèles d'IA de pointe tels que les modèlesYOLO 'Ultralytics plus polyvalents et plus rentables à adapter à un large éventail d'applications spécifiques, démocratisant ainsi l'accès à de puissantes capacités d'IA.