Les modèles de fondation représentent un changement de paradigme important dans l'intelligence artificielle (IA), caractérisé par leur échelle massive et leur entraînement sur des ensembles de données vastes et diversifiés. Contrairement aux modèles traditionnels d'apprentissage machine (ML) conçus pour des tâches spécifiques, les modèles de fondation sont pré-entraînés sur de vastes données, ce qui leur permet d'être adaptés - ou affinés - pour unlarge éventail d'applications en aval avec relativement peu de données spécifiques à une tâche. Cette approche, qui s'appuie souvent sur l'apprentissage par transfert, accélère le développement de l'IA et rend de puissantes capacités plus accessibles. Le terme a été popularisé par le Stanford Institute for Human-Centered Artificial Intelligence (HAI).
Caractéristiques principales des modèles de fondation
Les modèles de fondation sont définis par trois caractéristiques principales : l'échelle, la généralité et l'adaptabilité.
- Échelle: Ils sont formés sur des ensembles de données à l'échelle du Web contenant du texte, des images, du code et d'autres types de données, impliquant souvent des milliards ou des trillions de points de données. Ils possèdent généralement des milliards de paramètres, ce qui nécessite d'importantes ressources informatiques (GPU) pour la formation.
- Généralité: Le pré-entraînement intensif imprègne ces modèles d'une large compréhension des modèles, de la syntaxe, de la sémantique et du contexte au sein de leurs données d'entraînement. Cela leur permet d'obtenir de bons résultats dans des tâches pour lesquelles ils n'ont pas été explicitement formés, parfois par le biais de l'apprentissage zéro ou de l'apprentissage quelques fois.
- Adaptabilité: Leur force principale réside dans leur capacité à s'adapter à des tâches spécifiques grâce à un réglage fin. Cela implique une formation supplémentaire sur un ensemble de données plus petit et spécifique à la tâche, ce qui réduit considérablement les données et le temps nécessaires par rapport à la formation d'un modèle à partir de zéro. Les architectures telles que le Transformer, connues pour traiter les données séquentielles et capturer les dépendances à longue portée, sont couramment utilisées, en particulier dans le traitement du langage naturel (NLP) et de plus en plus dans le domaine de la vision par ordinateur (CV).
Applications et exemples
La polyvalence des modèles de fondation stimule l'innovation dans de nombreux domaines.
- Traitement du langage naturel: Les modèles tels que GPT-4 et BERT excellent dans des tâches telles que la génération de texte, la traduction, le résumé et l'alimentation de chatbots sophistiqués. Par exemple, une entreprise de service à la clientèle peut affiner un modèle de langage pré-entraîné tel que BERT sur ses tickets d'assistance pour construire un système interne de réponse aux questions très précis.
- Vision par ordinateur: Les modèles de base de la vision comme CLIP (Contrastive Language-Image Pre-training) et le Segment Anything Model (SAM) gèrent des tâches telles que la classification d'images, la détection d'objets et la segmentation d'images. Par exemple, une entreprise de technologie agricole pourrait adapter SAM en l'affinant sur des images de drones pour segmenter précisément différents types de cultures ou identifier les zones touchées par des maladies, ce qui nécessite beaucoup moins de données étiquetées que les approches traditionnelles d'apprentissage supervisé.
- Applications multimodales: Les modèles sont de plus en plus souvent formés sur plusieurs types de données (par exemple, des textes et des images), ce qui permet de réaliser des tâches telles que la génération d'images à partir de descriptions textuelles(text-to-image) ou la réponse à des questions sur les images.
Modèles de fondation et modèles traditionnels
La principale différence réside dans la portée et la réutilisation. Les modèles traditionnels de ML sont généralement formés pour une tâche unique et spécifique à l'aide d'un ensemble de données sur mesure. Si une nouvelle tâche se présente, un nouveau modèle doit souvent être construit et formé à partir de zéro. Les modèles de base, en revanche, constituent une base réutilisable. Leur vaste préformation capture les connaissances générales, qui peuvent ensuite être spécialisées de manière efficace.
Ce paradigme offre des avantages tels que la réduction du besoin de collecte et d'annotation de données pour chaque nouvelle tâche et le déploiement potentiellement plus rapide des modèles. Cependant, les défis comprennent l'immense coût de calcul et l'énergie requis pour le pré-entraînement, le risque d'hériter et d'amplifier les biais présents dans les données d'entraînement, et des considérations éthiques importantes concernant leur mauvaise utilisation potentielle et leur impact sociétal. Des plateformes comme Ultralytics HUB visent à rationaliser le processus d'accès, d'entraînement et de déploiement des modèles d'IA avancés, en aidant les utilisateurs à exploiter efficacement ces puissantes technologies.