Glossaire

Modèle de fondation

Découvre comment les modèles de fondation révolutionnent l'IA grâce à des architectures évolutives, un vaste préapprentissage et une adaptabilité à diverses applications.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Un modèle de base est un modèle d'intelligence artificielle (IA) à grande échelle pré-entraîné sur de vastes quantités de données non étiquetées, conçu pour être adapté ou affiné pour un large éventail de tâches en aval. Ces modèles, souvent basés sur des architectures comme le Transformer, apprennent des modèles généraux, des structures et des représentations à partir des données, formant ainsi une base polyvalente pour diverses applications spécialisées sans avoir besoin d'une formation spécifique à la tâche à partir de zéro. Le développement de modèles de base représente un changement de paradigme important dans le domaine de l'apprentissage automatique (Machine Learning, ML), en s'orientant vers la construction de modèles polyvalents qui peuvent être efficacement spécialisés.

Caractéristiques principales

Les modèles de fondation sont définis par plusieurs attributs fondamentaux :

  • Échelle : Elles sont généralement très grandes, impliquant des milliards voire des trillions de paramètres et entraînées sur des ensembles de données massifs, souvent raclés à partir d'Internet ou d'autres sources étendues(Big Data).
  • Pré-entraînement : Ils subissent une phase intensive de pré-entraînement, généralement à l'aide de méthodes d'apprentissage auto-supervisé ou non supervisé, où le modèle apprend à partir de la structure inhérente des données elles-mêmes sans étiquettes explicites.
  • Adaptabilité : L'un des principaux avantages est leur adaptabilité. Une fois pré-entraînés, ils peuvent être affinés avec des quantités relativement faibles de données étiquetées pour des tâches spécifiques telles que l'analyse des sentiments, la reconnaissance d'images ou la détection d'objets, en tirant parti des connaissances générales acquises pendant le pré-entraînement. Ce processus est une forme d'apprentissage par transfert.
  • Homogénéisation : Ils tendent à consolider les capacités qui nécessitaient auparavant plusieurs modèles spécialisés dans un cadre unique et adaptable, ce qui simplifie potentiellement les MLOps.

Comment fonctionnent les modèles de fondation

La création et l'utilisation des modèles de fondation se font généralement en deux étapes :

  1. Pré-entraînement : Le modèle est entraîné sur un ensemble de données massif et diversifié. Pour les modèles de langage comme le GPT-3, il s'agit de prédire le mot suivant dans une phrase. Pour les modèles de vision, il peut s'agir de reconstruire des parcelles d'images masquées ou d'apprendre des associations entre des images et du texte(CLIP). Cette étape nécessite d'importantes ressources informatiques (GPU, TPU).
  2. Mise au point/adaptation : Le modèle pré-entraîné est ensuite adapté à une tâche spécifique en aval à l'aide d'un ensemble de données étiquetées plus petit et spécifique à la tâche. Les techniques telles que le réglage fin ajustent les poids du modèle, tandis que les méthodes telles que l'ingénierie d'invite guident la sortie du modèle sans modifier ses poids, ce qui est particulièrement pertinent pour les grands modèles de langage (LLM).

Exemples et applications

Les modèles de fondation couvrent différents domaines :

Modèles de fondation vs. autres modèles

  • Modèles spécifiques à une tâche : Contrairement aux modèles de fondation, la ML traditionnelle implique souvent la formation de modèles à partir de zéro sur des ensembles de données spécifiques pour des tâches uniques (par ex. Ultralytics YOLO d'Ultralytics uniquement pour la détection d'objets dans les images aériennes). Bien qu'efficace, cette méthode nécessite des données étiquetées et des efforts importants pour chaque nouvelle tâche. Les modèles de fondation visent à réduire ces efforts grâce à l'apprentissage par transfert.
  • Les grands modèles linguistiques (LLM) : Les LLM sont un type important de modèle de base spécifiquement conçu pour les tâches linguistiques. Le terme "modèle de base" est plus large et inclut des modèles pour la vision, l'audio et d'autres modalités.
  • Modèles CV : Alors que certains grands modèles de vision comme ViT ou SAM sont considérés comme des modèles de base, de nombreux modèles CV, y compris des versions spécifiques de YOLOv8 ou YOLO11 formés pour des applications particulières(IA dans l'agriculture, IA dans l'automobile), sont généralement affinés ou formés spécifiquement pour ces tâches de vision plutôt que d'être eux-mêmes des modèles de base à usage général. Cependant, la tendance à utiliser des modèles de base pré-entraînés partage l'idée principale d'exploiter les caractéristiques générales.

Formation et ressources

Le pré-entraînement des modèles de fondation est coûteux en termes de calcul, et nécessite souvent des grappes massives de GPU ou de TPU et des efforts d'ingénierie importants, généralement entrepris par de grands laboratoires de recherche ou des entreprises comme... GoogleMeta AI et OpenAI. Cependant, une fois pré-entraînés, ces modèles peuvent être adaptés plus efficacement. Des plateformes comme Ultralytics HUB fournissent des outils pour former des modèles personnalisés, gérer des ensembles de donnéesUltralytics Datasets) et déployer des solutions(Model Deployment Options), en s'appuyant souvent sur des poids pré-entraînés qui incarnent des connaissances fondamentales. Une adaptation efficace nécessite toujours un réglage minutieux des hyperparamètres et potentiellement une augmentation des données.

Importance et avenir

Les modèles de fondation sont en train de changer le paysage de l'IARoboflow sur les modèles de fondation). Ils accélèrent le développement, permettent de nouvelles applications et soulèvent d'importantes considérations autour de l'éthique de l'IA, des préjugés et de l'accès au calcul. Des instituts de recherche comme le Centre de recherche sur les modèles de fondation (CRFM) de Stanford se consacrent à l'étude de leurs capacités et de leur impact sociétal. L'avenir implique probablement des modèles de fondation plus puissants, efficaces et potentiellement multimodaux qui stimulent l'innovation dans la science, l'industrie et la vie quotidienne(cas d'utilisation de l'IA).

Tout lire