L'apprentissage auto-supervisé (SSL) est une approche d'apprentissage machine (ML) qui forme des modèles en utilisant des données sans étiquettes explicites fournies par l'homme. Contrairement à l'apprentissage supervisé, qui s'appuie fortement sur des données étiquetées, l'apprentissage auto-supervisé génère ses propres signaux de supervision directement à partir des données d'entrée. Cela le rend particulièrement puissant dans des domaines tels que la vision artificielle (CV) et le traitement du langage naturel (NLP), où de vastes quantités de données non étiquetées sont disponibles, mais où l'étiquetage est souvent coûteux et prend du temps.
Applications dans le monde réel
L'apprentissage auto-supervisé est à l'origine de progrès considérables dans le domaine de l'IA :
- Modèles de base en vision : Les grands modèles de vision sont souvent pré-entraînés à l'aide de techniques SSL comme l'apprentissage contrastif (par exemple, SimCLR, MoCo) sur des ensembles massifs de données d'images non étiquetées. Ces poids pré-entraînés constituent un point de départ solide pour diverses tâches de CV, améliorant les performances et réduisant la nécessité de disposer de nombreuses données étiquetées lors de l'utilisation de modèles tels que Ultralytics YOLO11.
- Grands modèles linguistiques (LLM) : Les LLM fondamentaux comme le GPT-4 sont pré-entraînés à l'aide d'objectifs auto-supervisés (prédiction du mot suivant, modélisation du langage masqué) sur des données textuelles à l'échelle de l'internet. Cela leur permet d'apprendre la grammaire, les faits et les capacités de raisonnement avant d'être affinés pour des applications spécifiques comme les chatbots ou le résumé de texte.
Apprentissage auto-supervisé et concepts similaires
Il est utile de distinguer le SSL des paradigmes de ML apparentés :
- Apprentissage supervisé: Nécessite un ensemble de données entièrement étiquetées où chaque point de données a une étiquette de vérité de base correspondante fournie par des humains.
- Apprentissage non supervisé: Travaille avec des données non étiquetées mais se concentre généralement sur la découverte de structures inhérentes, comme le regroupement de points de données similaires à l'aide d'algorithmes de clustering (par exemple, K-Means) ou la réduction de la dimensionnalité. Il n'implique généralement pas de tâches de prétexte prédictif pour l'apprentissage de la représentation, comme le fait l'apprentissage non supervisé.
- Apprentissage semi-supervisé: Utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées pendant la formation. L'apprentissage semi-supervisé est souvent utilisé pour la phase de pré-entraînement, suivie d'une mise au point semi-supervisée ou supervisée.
L'apprentissage auto-supervisé représente un pont crucial, tirant parti de l'abondance de données non étiquetées pour construire de puissantes représentations qui réduisent considérablement la dépendance à l'égard d'ensembles de données étiquetés coûteux, accélérant ainsi les progrès dans diverses applications et plateformes d'IA telles qu'Ultralytics HUB.
Comment fonctionne l'apprentissage auto-supervisé ?
L'idée centrale de SSL est la création d'une "tâche prétexte". Il s'agit d'une tâche auxiliaire conçue par le praticien dans laquelle le modèle prédit une certaine propriété des données qui a été intentionnellement cachée ou modifiée. La résolution de la tâche prétexte oblige le modèle à apprendre des modèles et des représentations sous-jacents significatifs des données.
Par exemple, dans le domaine de la vision par ordinateur, une tâche de prétexte courante consiste à montrer au modèle des parties d'une image et à lui demander de prédire la position relative de ces parties, ou de prédire la couleur d'une image à partir de sa seule version en niveaux de gris. En NLP, une technique populaire est la modélisation du langage masqué (utilisée par des modèles comme BERT), où le modèle prédit les mots qui ont été masqués dans une phrase.
En s'entraînant sur ces étiquettes auto-générées sur de grands ensembles de données, le modèle développe des représentations de caractéristiques robustes. Ces caractéristiques apprises(embeddings) capturent les caractéristiques essentielles des données. Cette phase de formation initiale est souvent appelée préformation. Le modèle pré-entraîné peut ensuite être adapté à des tâches spécifiques en aval (comme la détection d'objets, la classification d'images ou la segmentation d'images) par le biais d'un processus appelé réglage fin, qui nécessite souvent beaucoup moins de données étiquetées que l'entraînement à partir de zéro. C'est ce qui fait de SSL un outil clé de l'apprentissage par transfert.