Glossaire

Formation distribuée

Accélérez la formation à l'IA grâce à la formation distribuée ! Apprenez à réduire le temps de formation, à adapter les modèles et à optimiser les ressources pour les projets complexes d'intelligence artificielle.

L'apprentissage distribué est une technique utilisée dans l'apprentissage machine (ML) pour accélérer le processus d'apprentissage du modèle en divisant la charge de travail informatique entre plusieurs processeurs. Ces processeurs, souvent des unités de traitement graphique (GPU), peuvent être situés sur une seule machine ou répartis sur plusieurs machines dans un réseau. À mesure que les ensembles de données augmentent et que les modèles d'apprentissage profond deviennent plus complexes, l'apprentissage sur un seul processeur peut prendre beaucoup trop de temps. L'entraînement distribué résout ce goulot d'étranglement, ce qui permet de développer des modèles d'IA de pointe dans un délai raisonnable.

Comment fonctionne la formation distribuée ?

Les stratégies de formation distribuée se répartissent principalement en deux catégories, qui peuvent également être combinées :

  • Parallélisme des données: Il s'agit de l'approche la plus courante. Dans cette stratégie, l'ensemble du modèle est répliqué sur chaque travailleur (ou GPU). L'ensemble de données d'apprentissage principal est divisé en morceaux plus petits, et chaque travailleur se voit attribuer un morceau. Chaque collaborateur calcule indépendamment les passes avant et arrière pour son sous-ensemble de données afin de générer des gradients. Ces gradients sont ensuite agrégés et moyennés, généralement par le biais d'un processus tel que All-Reduce, et le gradient consolidé est utilisé pour mettre à jour les paramètres du modèle sur tous les travailleurs. Cela permet de s'assurer que chaque copie du modèle reste synchronisée.
  • Parallélisme de modèle: Cette stratégie est utilisée lorsqu'un modèle est trop grand pour tenir dans la mémoire d'un seul GPU. Dans ce cas, le modèle lui-même est partitionné, les différentes couches ou sections étant placées sur différents travailleurs. Les données sont transmises entre les travailleurs au fur et à mesure qu'elles traversent les couches du réseau neuronal. Cette approche est plus complexe à mettre en œuvre en raison des exigences élevées en matière de communication entre les travailleurs, mais elle est essentielle pour la formation de modèles massifs tels que les modèles de fondation. Les architectures telles que le mélange d'experts (MoE) s'appuient fortement sur le parallélisme des modèles.

Applications dans le monde réel

La formation distribuée est fondamentale pour de nombreuses percées modernes en matière d'IA.

  1. Entraînement de modèles de vision à grande échelle: Les entreprises qui développent des modèles avancés de vision par ordinateur, comme Ultralytics YOLO11, utilisent souvent des ensembles de données massifs comme COCO ou ImageNet. Grâce au parallélisme des données, elles peuvent répartir l'entraînement sur une grappe de GPU. Cela permet de réduire considérablement le temps de formation, qui passe de plusieurs semaines à quelques heures ou jours seulement, et d'accélérer l'itération, d'améliorer le réglage des hyperparamètres et, en fin de compte, d'obtenir des modèles d'une plus grande précision.
  2. Développement de grands modèles linguistiques (LLM): La création de LLM tels que ceux de la série GPT serait impossible sans une formation distribuée. Ces modèles contiennent des centaines de milliards de paramètres et ne peuvent être formés sur un seul appareil. Les chercheurs utilisent une approche hybride, combinant le parallélisme de modèle pour répartir le modèle sur les GPU et le parallélisme de données pour traiter efficacement de grandes quantités de données textuelles. Il s'agit d'une composante essentielle de projets tels que Megatron-LM de NVIDIA.

Formation distribuée et concepts connexes

Il est important de distinguer la formation distribuée d'autres termes apparentés :

  • l'apprentissage fédéré: Bien que ces deux types d'apprentissage impliquent plusieurs dispositifs, leurs objectifs et leurs contraintes diffèrent. L'apprentissage distribué est généralement réalisé dans un environnement contrôlé, comme un centre de données doté de connexions à haut débit, afin d'accélérer l'apprentissage pour une seule entité. En revanche, l'apprentissage fédéré forme des modèles sur des appareils décentralisés (par exemple, des smartphones) sans déplacer les données privées vers un serveur central. Le principal objectif de l'apprentissage fédéré est la confidentialité des données, alors que pour l'apprentissage distribué, ce sont la vitesse et l'échelle qui priment.
  • Edge AI: ces termes renvoient à différentes étapes du cycle de vie de la ML. La formation distribuée fait partie de la phase de formation. L'Edge AI concerne la phase de déploiement, où un modèle optimisé exécute l'inférence directement sur un dispositif local, souvent limité en ressources, comme une caméra ou l'ordinateur de bord d'une voiture. Un modèle formé à l'aide de méthodes distribuées peut être préparé pour le déploiement de l'Edge AI.

Outils et mise en œuvre

La mise en œuvre de la formation distribuée est facilitée par divers outils et plateformes :

  • Cadres de ML: Des cadres de base tels que PyTorch et TensorFlow offrent une prise en charge intégrée des API de formation distribuée, telles que PyTorch DistributedDataParallel et Les fonctions de TensorFlow tf.distribute.Strategy.
  • Bibliothèques spécialisées: Des bibliothèques comme Horovod, développée par Uber, offrent une approche agnostique de l'apprentissage profond distribué.
  • Plates-formes en nuage: Les principaux fournisseurs de cloud comme AWS, Google Cloud et Microsoft Azure proposent des services de ML gérés et une infrastructure optimisée pour la formation distribuée à grande échelle.
  • Plateformes MLOps: Les plateformes comme Ultralytics HUB simplifient le processus en fournissant des interfaces pour la gestion des ensembles de données, la sélection des modèles et le lancement des tâches de formation, y compris les options de formation en nuage qui gèrent l'infrastructure distribuée sous-jacente. De bonnes pratiques MLOps sont essentielles pour gérer efficacement la formation distribuée.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers