Glossaire

CLIP (Pré-entraînement Contrastif Langue-Image)

Découvre comment le CLIP d'OpenAI révolutionne l'IA grâce à l'apprentissage zéro-coup, à l'alignement image-texte et à des applications réelles en vision par ordinateur.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

CLIP (Contrastive Language-Image Pre-training) est un réseau neuronal développé par OpenAI qui apprend les concepts visuels directement à partir de descriptions en langage naturel. Au lieu de s'appuyer sur des ensembles de données avec des étiquettes prédéfinies comme les modèles de classification d'images traditionnels, CLIP est formé sur une vaste collection de paires image-texte recueillies sur Internet. Il utilise une technique appelée apprentissage contrastif pour comprendre la relation entre les images et les mots utilisés pour les décrire. Cela permet à CLIP d'être remarquablement performant dans des tâches pour lesquelles il n'a pas été explicitement formé, une capacité connue sous le nom d'apprentissage zéro.

Comment fonctionne le clip

L'architecture de CLIP comprend deux composants principaux : un encodeur d'images et un encodeur de texte. Le codeur d'images, souvent basé sur des architectures telles que Vision Transformer (ViT) ou ResNet, traite les images pour en capturer les caractéristiques visuelles. Simultanément, l'encodeur de texte, généralement un modèle Transformer similaire à ceux utilisés dans le traitement du langage naturel (NLP), traite les descriptions textuelles correspondantes pour en extraire le sens sémantique. Au cours de la formation, le modèle apprend à créer des représentations (embeddings) pour les images et le texte dans un espace partagé. L'objectif est de maximiser le score de similarité entre les encastrements des paires image-texte correctes tout en minimisant la similarité pour les paires incorrectes au sein d'un lot. Cet objectif contrastif apprend au modèle à associer efficacement des éléments visuels à leurs équivalents textuels.

Principales caractéristiques et avantages

La caractéristique principale de CLIP est sa puissante capacité d'apprentissage à partir de zéro. Parce qu'il apprend une relation générale entre les images et le langage, il peut classer les images en fonction de nouvelles descriptions textuelles inédites sans avoir besoin d'une formation supplémentaire. Par exemple, même si CLIP n'a jamais vu d'image étiquetée "fauteuil avocat" pendant la formation, il pourrait potentiellement en identifier une si on lui fournissait cette invite textuelle, en s'appuyant sur les associations qu'il a apprises entre les styles visuels, les objets (comme les avocats et les fauteuils) et les mots descriptifs. CLIP est donc très flexible et adaptable à diverses tâches de vision par ordinateur (VA), et atteint souvent des performances élevées, même par rapport à des modèles formés spécifiquement sur des ensembles de données de référence tels qu'ImageNet.

Applications dans le monde réel

Les capacités uniques de CLIP permettent plusieurs applications pratiques :

  • Recherche et récupération d'images : Les systèmes peuvent utiliser CLIP pour permettre aux utilisateurs de rechercher de vastes bibliothèques d'images à l'aide de requêtes textuelles libres (par exemple, "montre-moi des images de couchers de soleil sur des montagnes") au lieu de s'appuyer uniquement sur des balises prédéfinies. Des plateformes comme Unsplash ont exploré l'utilisation de CLIP pour améliorer la recherche d'images.
  • Modération du contenu : CLIP peut identifier des images contenant des concepts spécifiques décrits textuellement (par exemple, "représentations de la violence" ou "non-respect des directives de la marque") sans avoir besoin de grands ensembles de données explicitement étiquetés pour chaque catégorie de violation possible. Cela offre une approche plus souple du filtrage de contenu.

Clip vs. autres modèles

CLIP diffère considérablement des autres modèles d'IA courants :

  • Classificateurs d'images traditionnels : Ces modèles (souvent formés par apprentissage supervisé) ont généralement besoin de données étiquetées pour chaque catégorie spécifique qu'ils doivent reconnaître et peinent à traiter les concepts en dehors de leur ensemble de formation. Le fait que CLIP n'ait pas d'images à traiter permet de surmonter cette limitation.
  • Détecteurs d'objets : Modèles comme Ultralytics YOLO se concentrent sur l'identification et la localisation d'objets multiples dans une image à l'aide de boîtes de délimitation, tandis que CLIP se concentre principalement sur la compréhension du contenu de l'image dans son ensemble par rapport au texte.
  • Autres modèles multimodaux : Bien que les modèles destinés à des tâches telles que la réponse à des questions visuelles (VQA) ou le sous-titrage d'images traitent également des images et du texte, ils sont souvent formés pour des formats d'entrée-sortie spécifiques (par exemple, répondre à une question, générer une légende). CLIP apprend une correspondance plus générale et plus souple entre les concepts visuels et textuels. Tu peux en savoir plus sur les différents modèles de langage visuel sur le blog d'Ultralytics .

Limites et orientations futures

Malgré ses points forts, CLIP a des limites. Sa compréhension peut être affectée par les préjugés présents dans les vastes données Web non classées sur lesquelles il a été formé, ce qui peut entraîner des problèmes liés à l'équité dans l'IA. Il peut également éprouver des difficultés dans les tâches nécessitant une reconnaissance très fine des détails, un raisonnement spatial ou un comptage précis des objets. Les recherches en cours se concentrent sur l'atténuation des biais, l'amélioration de la compréhension fine et l'exploration des moyens de combiner les connaissances sémantiques de CLIP avec les capacités de localisation spatiale de modèles tels que YOLO. Tu peux suivre les derniers développements en matière d'IA sur le blogUltralytics . La formation et le déploiement de modèles, y compris la combinaison potentielle de caractéristiques provenant de différentes architectures, peuvent être gérés à l'aide de plateformes comme Ultralytics HUB.

Tout lire