L'apprentissage semi-supervisé est une approche puissante de l'apprentissage machine (ML) qui exploite à la fois les données étiquetées et non étiquetées pour former des modèles. Cette technique est particulièrement utile lorsque l'obtention de données étiquetées est coûteuse ou prend du temps, alors que les données non étiquetées sont abondantes et facilement disponibles. En combinant les forces de l'apprentissage supervisé et non supervisé, l'apprentissage semi-supervisé peut atteindre une grande précision en dépendant moins des ensembles de données entièrement étiquetés, ce qui en fait un outil précieux dans diverses applications du monde réel.
Comment fonctionne l'apprentissage semi-supervisé
Les algorithmes d'apprentissage semi-supervisé utilisent une petite quantité de données étiquetées pour guider le processus d'apprentissage, tout en extrayant simultanément des modèles et des structures d'un plus grand ensemble de données non étiquetées. Les données étiquetées fournissent une supervision explicite, en enseignant au modèle des relations spécifiques entre les entrées et les sorties. Les données non étiquetées, quant à elles, aident le modèle à apprendre la distribution et les caractéristiques sous-jacentes des données, améliorant ainsi sa capacité à se généraliser à de nouveaux exemples inédits.
Il existe plusieurs approches de l'apprentissage semi-supervisé, notamment :
- Auto-apprentissage : Le modèle est initialement formé sur les données étiquetées, puis utilisé pour prédire les étiquettes des données non étiquetées. Des prédictions très fiables sont ajoutées à l'ensemble étiqueté, et le modèle est entraîné à nouveau de façon itérative.
- Co-entraînement : Deux modèles ou plus sont formés sur différentes vues ou sous-ensembles des données étiquetées. Chaque modèle étiquette ensuite les données non étiquetées et les prédictions sont utilisées pour augmenter l'ensemble de formation des autres modèles.
- Modèles génératifs : Ces modèles, tels que les réseaux adverbiaux génératifs (GAN), apprennent la distribution de probabilité conjointe des données et des étiquettes. Ils peuvent ensuite générer de nouveaux points de données ou déduire les étiquettes manquantes en fonction de la distribution apprise.
- Méthodes basées sur les graphes : Ces méthodes représentent les données sous forme de graphe, où les nœuds sont des points de données (étiquetés ou non) et les arêtes représentent les similarités entre eux. Les informations sur les étiquettes se propagent dans le graphe, ce qui permet au modèle de déduire les étiquettes des nœuds non étiquetés.
Avantages de l'apprentissage semi-supervisé
L'apprentissage semi-supervisé offre plusieurs avantages clés :
- Effort d'étiquetage réduit : En utilisant des données non étiquetées, l'apprentissage semi-supervisé réduit considérablement la nécessité d'un étiquetage manuel approfondi, ce qui permet d'économiser du temps et des ressources.
- Précision améliorée : L'inclusion de données non étiquetées aide le modèle à apprendre une représentation plus complète de la distribution des données, ce qui entraîne souvent une amélioration de la précision par rapport à l'utilisation de données étiquetées uniquement.
- Meilleure généralisation : L'exposition à un ensemble de données plus vaste et plus diversifié, comprenant à la fois des exemples étiquetés et non étiquetés, améliore la capacité du modèle à se généraliser à des données inédites.
- Exploiter l'abondance des données non étiquetées : Dans de nombreux domaines, les données non étiquetées sont facilement disponibles (par exemple, les images d'Internet, le texte des pages Web). L'apprentissage semi-supervisé nous permet de tirer parti de cette vaste ressource.
Applications de l'apprentissage semi-supervisé
L'apprentissage semi-supervisé trouve des applications dans divers domaines, notamment :
- Vision par ordinateur : Les tâches de détection d'objets, de classification d'images et de segmentation d'images peuvent bénéficier d'un apprentissage semi-supervisé, en particulier lorsque les images étiquetées sont rares. Par exemple, un modèle peut être formé pour détecter des objets spécifiques dans des images en utilisant un petit ensemble d'images étiquetées et une grande collection d'images non étiquetées provenant d'Internet. Découvre comment les modèles Ultralytics YOLO transforment la vision par ordinateur avec des solutions innovantes.
- Traitement du langage naturel : L'analyse des sentiments, la classification des textes et la reconnaissance des entités nommées peuvent tirer parti de l'apprentissage semi-supervisé pour améliorer les performances lorsque les données textuelles étiquetées sont limitées. Par exemple, un modèle peut être formé pour classifier le sentiment des critiques de produits en utilisant un petit ensemble de critiques étiquetées et un grand corpus de critiques non étiquetées provenant de forums en ligne. En savoir plus sur le traitement du langage naturel (NLP).
- Diagnostic médical : Dans le domaine de la santé, l'obtention de données médicales étiquetées peut s'avérer difficile en raison des problèmes de confidentialité et de la nécessité de recourir à des annotations d'experts. L'apprentissage semi-supervisé peut être utilisé pour former des modèles de diagnostic de maladies, d'analyse d'imagerie médicale et de découverte de médicaments en utilisant une combinaison de données de patients étiquetées et non étiquetées. En savoir plus sur l'IA dans le domaine de la santé.
- Détection des fraudes : L'apprentissage semi-supervisé peut améliorer les systèmes de détection des fraudes en apprenant à partir d'un petit ensemble de transactions frauduleuses étiquetées et d'un grand volume de données de transactions non étiquetées. Le modèle peut identifier des schémas et des anomalies indiquant une fraude, même avec un nombre limité d'exemples étiquetés.
Comparaison avec d'autres paradigmes d'apprentissage
L'apprentissage semi-supervisé diffère de l'apprentissage supervisé et de l'apprentissage non supervisé de la façon suivante :
- Apprentissage supervisé : S'appuie uniquement sur des données étiquetées pour la formation. Bien que précis, il peut être limité par la disponibilité et le coût des données étiquetées.
- Apprentissage non supervisé : Utilise uniquement des données non étiquetées pour découvrir des modèles et des structures. Bien qu'il soit utile pour l'analyse exploratoire, il n'apprend pas directement à faire correspondre les entrées à des sorties spécifiques.
- Apprentissage semi-supervisé : Il établit un équilibre entre l'apprentissage supervisé et non supervisé, en tirant parti des données étiquetées et non étiquetées pour obtenir de meilleures performances avec moins d'efforts d'étiquetage.
L'apprentissage semi-supervisé peut également être considéré comme une forme d'apprentissage actif, où le modèle sélectionne activement les points de données non étiquetés les plus informatifs à étiqueter par un oracle (par exemple, un expert humain). Cependant, dans l'apprentissage semi-supervisé, le modèle s'appuie principalement sur les données étiquetées existantes et sur la structure des données non étiquetées, plutôt que de demander activement de nouvelles étiquettes.
Pour plus d'informations sur les concepts liés à l'apprentissage automatique, explore le glossaireUltralytics .