Glossaire

Apprentissage semi-supervisé

Débloque la puissance de l'apprentissage semi-supervisé pour maximiser les données étiquetées et non étiquetées, en boostant l'efficacité des applications d'IA. Apprends comment !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage semi-supervisé est une approche d'apprentissage automatique qui comble le fossé entre l'apprentissage supervisé et l'apprentissage non supervisé en utilisant à la fois des données étiquetées et non étiquetées. Cette méthode tire parti de l'abondance des données non étiquetées tout en minimisant les besoins en instances étiquetées, qui sont souvent coûteuses et longues à obtenir.

Importance et pertinence

Dans les scénarios typiques d'apprentissage automatique, l'apprentissage supervisé s'appuie fortement sur des données étiquetées, où chaque entrée est associée à une sortie correcte. En revanche, l'apprentissage non supervisé n'utilise aucune étiquette. L'apprentissage semi-supervisé trouve un équilibre en utilisant une petite partie des données étiquetées ainsi qu'un ensemble plus important de données non étiquetées. Cette approche est particulièrement avantageuse lorsque l'étiquetage des données est coûteux ou peu pratique, mais qu'il est possible d'acquérir de grandes quantités de données brutes.

Explore davantage les différences entre l'apprentissage supervisé et l'apprentissage non supervisé pour comprendre pourquoi l'apprentissage semi-supervisé est important.

Comment ça marche

Les modèles d'apprentissage semi-supervisés sont généralement construits en s'entraînant initialement sur un plus petit ensemble de données étiquetées. Une fois le modèle de base construit, les données non étiquetées sont incorporées pour affiner et améliorer le modèle. Des techniques telles que l'auto-apprentissage, le co-apprentissage et les méthodes basées sur les graphes sont souvent employées :

  • Auto-apprentissage: Le modèle prédit des étiquettes pour les données non étiquetées, et ces prédictions sont utilisées comme s'il s'agissait de vraies étiquettes dans le prochain cycle de formation.
  • Co-formation: Deux classificateurs sont formés sur des perspectives différentes des données, s'aidant mutuellement en étiquetant les données non étiquetées.
  • Méthodes basées sur les graphes: Les instances de données sont représentées comme des nœuds dans un graphe, et les algorithmes d'apprentissage semi-supervisé propagent les informations sur les étiquettes à travers les arêtes.

Applications dans le monde réel

L'apprentissage semi-supervisé est utilisé dans différents domaines :

  • Santé: Dans le domaine de l'imagerie médicale, comme les IRM ou les tomodensitogrammes, l'annotation de toutes les images demande souvent beaucoup de travail. Certaines images sont étiquetées par des experts, et le modèle apprend à partir des images étiquetées et non étiquetées pour réduire la charge d'annotation. En savoir plus sur les applications de l'IA dans le domaine de la santé.

  • Traitement du langage naturel (NLP) : En réduisant la quantité de données textuelles étiquetées manuellement, l'apprentissage semi-supervisé peut faciliter des tâches telles que la classification des textes et l'analyse des sentiments. Découvre plus d'informations sur les applications de traitement du langage naturel.

Principales différences avec les concepts apparentés

L'apprentissage semi-supervisé ne doit pas être confondu avec des concepts similaires tels que l'apprentissage actif et l'apprentissage par transfert. L'apprentissage actif consiste à sélectionner les échantillons les plus informatifs à étiqueter pour améliorer l'efficacité de l'apprentissage. Quant à l'apprentissage par transfert, il consiste à transférer les connaissances d'un domaine pour améliorer les performances dans un autre.

Défis et considérations

L'apprentissage semi-supervisé est confronté à des défis tels que la fiabilité des étiquettes prédites et la gestion de diverses distributions de données. Cela nécessite une sélection minutieuse des techniques algorithmiques et parfois une validation supplémentaire pour s'assurer que les données non étiquetées sont utilisées efficacement sans induire en erreur le processus d'apprentissage.

Conclusion

L'apprentissage semi-supervisé est un outil puissant de la boîte à outils de l'IA qui tire parti de l'abondance de données non étiquetées pour construire des modèles prédictifs plus efficacement. Il trouve des applications dans de nombreux secteurs, de la santé au NLP, permettant d'obtenir des modèles plus robustes avec moins d'exemples étiquetés. Comprendre et explorer ce concept peut conduire à des solutions innovantes là où il existe des goulets d'étranglement liés à l'étiquetage des données. Explore comment le HUB Ultralytics peut contribuer à des efforts similaires en matière d'IA et d'apprentissage automatique en fournissant une plateforme polyvalente pour la formation et le déploiement de modèles. Visite le HUB Ultralytics pour la formation et le déploiement de modèles.

Tout lire