Glossaire

Apprentissage contrastif

Découvre la puissance de l'apprentissage contrastif, une technique auto-supervisée pour des représentations de données robustes avec un minimum de données étiquetées.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage contrastif est une approche puissante de l'apprentissage auto-supervisé dans laquelle un modèle apprend à identifier les points de données similaires et dissemblables sans s'appuyer sur des données étiquetées. Cette méthode consiste à entraîner un modèle à comprendre les relations entre différents échantillons de données en opposant les paires positives aux paires négatives. Essentiellement, le modèle apprend à rassembler les représentations de points de données similaires tout en repoussant les représentations de points dissemblables. Cette technique s'est avérée très efficace dans divers domaines, notamment la vision par ordinateur, le traitement du langage naturel (NLP) et le traitement audio. En apprenant des représentations de données riches et robustes, l'apprentissage contrastif permet aux modèles d'obtenir de bons résultats dans les tâches en aval, même avec des données étiquetées limitées, ce qui en fait un outil précieux dans les scénarios où les données étiquetées sont rares ou coûteuses à obtenir.

Concepts clés de l'apprentissage contrastif

L'apprentissage contrastif tourne autour de l'idée de comparer et d'opposer différents échantillons de données pour apprendre des représentations significatives. Deux types principaux de paires de données sont utilisés :

  • Paires positives : Il s'agit de deux échantillons de données similaires ou apparentés. Par exemple, dans l'analyse d'images, une paire positive peut être constituée de deux vues augmentées différentes de la même image, telles que des versions tournées ou recadrées.
  • Paires négatives : Il s'agit de deux échantillons de données dissemblables ou sans rapport. Si l'on reprend l'exemple de l'image, une paire négative pourrait être constituée de vues augmentées de deux images différentes.

L'objectif est d'entraîner le modèle de façon à ce que les représentations des paires positives soient proches les unes des autres dans l'espace d'intégration, tandis que les représentations des paires négatives sont éloignées les unes des autres. On y parvient en minimisant la distance entre les paires positives et en maximisant la distance entre les paires négatives.

Apprentissage contrastif et apprentissage supervisé

Bien que l'apprentissage contrastif et l'apprentissage supervisé visent tous deux à former des modèles pour qu'ils fassent des prédictions précises, ils diffèrent considérablement dans leur approche et leurs exigences. L'apprentissage supervisé repose sur des ensembles de données étiquetées, où chaque point de données est associé à une étiquette spécifique ou à une variable cible. Le modèle apprend à mettre en correspondance les entrées et les sorties en se basant sur ces exemples étiquetés. En revanche, l'apprentissage contrastif relève de l'apprentissage auto-supervisé, un sous-ensemble de l'apprentissage non supervisé, dans lequel le modèle apprend à partir des données elles-mêmes sans avoir besoin d'étiquettes explicites. L'apprentissage contrastif est donc particulièrement utile lorsque les données étiquetées sont limitées ou indisponibles.

Apprentissage contrastif et apprentissage semi-supervisé

L'apprentissage contrastif et l'apprentissage semi-supervisé sont deux techniques qui visent à améliorer les performances des modèles lorsque les données étiquetées sont rares, mais elles le font par le biais de mécanismes différents. L'apprentissage semi-supervisé utilise une combinaison de données étiquetées et non étiquetées pendant la formation. Le modèle apprend à partir des données étiquetées de manière traditionnelle et supervisée, tout en utilisant les données non étiquetées pour mieux comprendre la structure des données sous-jacentes. L'apprentissage contrastif, quant à lui, se concentre uniquement sur l'apprentissage de représentations à partir de données non étiquetées en mettant en contraste des échantillons similaires et dissemblables. Alors que l'apprentissage semi-supervisé peut bénéficier de certaines données étiquetées, l'apprentissage contrastif ne nécessite aucune étiquette et s'appuie plutôt sur les relations inhérentes aux données elles-mêmes.

Applications de l'apprentissage contrastif

L'apprentissage contrastif a connu un succès remarquable dans un large éventail d'applications :

  • Vision par ordinateur : Dans le domaine de la vision par ordinateur, l'apprentissage contrastif est utilisé pour apprendre des représentations d'images robustes. Par exemple, en entraînant un modèle à reconnaître différentes vues augmentées de la même image comme similaires, le modèle apprend à se concentrer sur les caractéristiques essentielles tout en ignorant les variations non pertinentes. Ces représentations apprises peuvent ensuite être utilisées pour des tâches en aval telles que la détection d'objets, la classification d'images et la segmentation d'images.
  • Traitement du langage naturel : L'apprentissage contrastif a également fait des progrès significatifs dans le domaine du traitement du langage naturel. Les modèles peuvent être entraînés à faire la distinction entre des phrases ou des documents similaires et dissemblables, ce qui permet d'améliorer les performances dans des tâches telles que la classification des textes, l'analyse des sentiments et la réponse aux questions.
  • Traitement audio : Dans le traitement audio, l'apprentissage contrastif peut être utilisé pour apprendre les représentations des signaux audio. Par exemple, un modèle peut être entraîné à identifier différents segments d'un même clip audio comme similaires tout en distinguant des segments de clips différents comme dissemblables. Ces représentations peuvent améliorer des tâches telles que la reconnaissance vocale et l'identification du locuteur.

Exemples d'apprentissage contrastif dans des applications réelles

Exemple 1 : Apprentissage de la représentation d'une image avec SimCLR

SimCLR (A Simple Framework for Contrastive Learning of Visual Representations) est un cadre largement reconnu qui démontre la puissance de l'apprentissage contrastif dans la représentation d'images. SimCLR fonctionne en entraînant un modèle sur des paires d'images augmentées. Chaque image d'un lot est transformée en deux vues différentes à l'aide d'augmentations telles que le recadrage aléatoire, le redimensionnement et la distorsion des couleurs. Ces vues augmentées forment des paires positives, tandis que les vues provenant d'images différentes forment des paires négatives. Le modèle, généralement un réseau neuronal convolutionnel (CNN), apprend à produire des encastrements similaires pour les paires positives et des encastrements dissemblables pour les paires négatives. Une fois entraîné, le modèle peut générer des représentations d'images de haute qualité qui capturent les caractéristiques essentielles tout en étant invariantes par rapport aux augmentations spécifiques appliquées. Ces représentations peuvent améliorer de façon significative les performances de diverses tâches de vision par ordinateur en aval. Pour en savoir plus sur SimCLR, consulte l'article de recherche original.

Exemple 2 : Analyse d'images médicales

L'apprentissage contrastif s'est révélé très prometteur dans l'analyse des images médicales, en particulier dans les scénarios où les données médicales étiquetées sont rares. Par exemple, un modèle peut être entraîné à distinguer les différentes vues ou coupes d'un même examen médical (par exemple, IRM ou tomodensitométrie) comme étant similaires, tout en traitant les examens de différents patients comme étant dissemblables. Cette approche permet au modèle d'apprendre des représentations robustes des images médicales sans dépendre d'annotations manuelles approfondies. Ces représentations apprises peuvent ensuite être utilisées pour améliorer la précision et l'efficacité des tâches de diagnostic, telles que la détection des anomalies, la classification des maladies et la segmentation des structures anatomiques. En tirant parti de l'apprentissage contrastif, les systèmes d'imagerie médicale peuvent obtenir de meilleures performances avec moins de données étiquetées, ce qui permet de remédier à un goulot d'étranglement critique dans ce domaine. En savoir plus sur les applications de l'apprentissage contrastif dans le domaine de l'imagerie médicale dans ce document de recherche.

Tout lire