L'apprentissage actif est un sous-domaine spécialisé de l'apprentissage automatique où l'algorithme d'apprentissage est habilité à interroger interactivement un utilisateur, souvent appelé "oracle" ou annotateur humain, pour demander des étiquettes pour de nouveaux points de données. Contrairement à l'apprentissage supervisé traditionnel qui s'appuie sur un vaste ensemble de données pré-étiquetées, l'apprentissage actif vise à atteindre des performances de modèle élevées avec un effort d'étiquetage minimal en sélectionnant stratégiquement les instances non étiquetées les plus informatives pour l'annotation. Cette approche est particulièrement précieuse dans les domaines où l'obtention de données étiquetées est coûteuse, prend du temps ou nécessite des connaissances d'expert.
Stratégies de recherche
Le cœur de l'apprentissage actif réside dans sa stratégie d'interrogation - la méthode utilisée pour sélectionner les points de données non étiquetés à interroger ensuite. Les stratégies les plus courantes sont les suivantes :
- Échantillonnage d'incertitude : Sélectionner les cas où le modèle est le moins confiant dans sa prédiction. C'est peut-être la stratégie la plus courante. Tu trouveras plus de détails dans des études universitaires comme celle de Burr Settles.
- Requête par comité (QBC) : Formation de plusieurs modèles (un comité) et sélection des instances où les membres du comité sont le plus en désaccord sur la prédiction.
- Changement attendu du modèle : Sélectionne les instances qui provoqueraient le plus grand changement des paramètres du modèle si leurs étiquettes étaient connues.
Pertinence et avantages
L'apprentissage actif réduit considérablement le fardeau de l'étiquetage des données, qui est souvent un goulot d'étranglement majeur dans le développement de modèles ML. En concentrant les efforts d'annotation sur les points de données les plus impactants, il permet aux équipes de :
- Obtenir des performances de modèle comparables, voire meilleures, avec beaucoup moins d'étiquettes.
- Réduire les coûts associés à l'annotation par des experts.
- Accélère le cycle de développement du modèle.
- Construis des modèles plus robustes en te concentrant sur des exemples difficiles ou ambigus.
Applications dans le monde réel
L'apprentissage actif trouve des applications dans différents domaines :
- Analyse d'images médicales : Dans des tâches telles que la détection de tumeurs en imagerie médicale, un système d'apprentissage actif peut présenter aux radiologues les radiographies ou les IRM les plus ambiguës, maximisant ainsi la valeur de leur temps d'expert et accélérant le développement de l'IA diagnostique. Ce point est crucial pour l'amélioration des solutions d'IA dans le domaine de la santé.
- Traitement du langage naturel (NLP) : Pour les tâches telles que l'analyse des sentiments ou la reconnaissance des entités nommées, l'apprentissage actif peut sélectionner des extraits de texte incertains (par exemple, des messages sur les médias sociaux, des avis de clients) pour les soumettre à un examen humain, ce qui améliore rapidement les performances du modèle avec moins d'étiquetage manuel par rapport à l'échantillonnage aléatoire des données.
Apprentissage actif et concepts connexes
- Apprentissage supervisé : S'appuie entièrement sur un ensemble de données préexistantes et entièrement étiquetées. Il ne sélectionne pas de manière interactive les données à étiqueter pendant la formation.
- Apprentissage semi-supervisé : Utilise également des données étiquetées et non étiquetées, mais exploite généralement les données non étiquetées automatiquement en se basant sur des hypothèses concernant la structure des données (par exemple, le regroupement, les hypothèses manifold), plutôt que d'interroger activement des étiquettes spécifiques. Voir notre entrée de glossaire sur l'apprentissage semi-supervisé pour plus de détails.
- Apprentissage par renforcement : Apprend par le biais d'interactions essai-erreur avec un environnement, en recevant des récompenses ou des pénalités. Il se concentre sur l'apprentissage d'actions optimales, et non sur l'étiquetage efficace des données comme l'apprentissage actif. Explore davantage l'apprentissage par renforcement dans notre glossaire.
Outils et mise en oeuvre
La mise en œuvre de l'apprentissage actif implique souvent l'intégration de modèles ML avec des outils d'annotation et la gestion du flux de données. Des plateformes comme DagsHub proposent des outils pour construire des pipelines d'apprentissage actif, comme indiqué dans leur conférenceYOLO VISION 2023. Les logiciels d'annotation tels que Label Studio peuvent être intégrés à ces pipelines. Il est crucial de gérer efficacement les ensembles de données et les modèles formés, et des plateformes comme Ultralytics HUB fournissent une infrastructure pour organiser les ensembles de données et les modèles tout au long du cycle de développement.
Comment fonctionne l'apprentissage actif
Le processus d'apprentissage actif suit généralement un cycle itératif :