Glossaire

Apprentissage non supervisé

Découvre comment l'apprentissage non supervisé utilise le regroupement, la réduction de la dimensionnalité et la détection des anomalies pour découvrir des modèles cachés dans les données.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage non supervisé est un type d'apprentissage automatique dans lequel les algorithmes apprennent à partir de données non étiquetées. Contrairement à l'apprentissage supervisé, qui s'appuie sur des données étiquetées pour former des modèles, les algorithmes d'apprentissage non supervisé explorent les données et identifient des modèles sans orientation explicite. Cette approche est particulièrement utile lorsqu'il s'agit de traiter de grands ensembles de données où l'étiquetage n'est pas pratique ou lorsque l'objectif est de découvrir des structures et des relations cachées dans les données.

Comment fonctionne l'apprentissage non supervisé

Dans l'apprentissage non supervisé, l'algorithme reçoit des données d'entrée sans étiquette de sortie correspondante. Le système tente alors d'apprendre la structure inhérente des données. Pour ce faire, on utilise diverses techniques qui visent à :

  • Regrouper les données : Regrouper les points de données similaires. Le regroupement par K-means est un algorithme populaire pour cela, qui partitionne les données en groupes distincts sur la base de la similarité des caractéristiques.
  • Réduire la dimensionnalité : Simplifier les données en réduisant le nombre de variables tout en préservant les informations essentielles. L'analyse en composantes principales (ACP) est une méthode courante de réduction de la dimensionnalité, qui transforme les données de haute dimension en une représentation de dimension inférieure.
  • Découvre les associations : Identifier les relations et les dépendances entre les variables des données. L'exploration des règles d'association, par exemple, permet de découvrir des règles qui décrivent des schémas de cooccurrence fréquents.
  • Détection des anomalies : Identifier les points de données inhabituels qui s'écartent significativement de la norme. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) peut être utilisé pour identifier les valeurs aberrantes en reconnaissant les régions peu peuplées dans l'espace des données.

Applications de l'apprentissage non supervisé

Les techniques d'apprentissage non supervisé sont utilisées dans divers domaines pour extraire des informations précieuses des données :

  • Segmentation de la clientèle : Les entreprises utilisent des algorithmes de regroupement pour segmenter les clients en groupes distincts en fonction de leur comportement d'achat, de leurs données démographiques ou de l'activité du site Web. Cela permet de mettre en place des stratégies de marketing ciblées et des expériences personnalisées pour les clients. Par exemple, une entreprise de vente au détail peut utiliser l'apprentissage non supervisé sur les données de transaction des clients pour identifier différents segments de clients, ce qui leur permet d'adapter les recommandations de produits et les promotions.
  • La détection des anomalies dans la détection des fraudes : Dans le domaine de la finance, la détection des anomalies est cruciale pour identifier les transactions frauduleuses. Les algorithmes d'apprentissage non supervisé peuvent apprendre les schémas de transaction normaux et signaler les écarts qui pourraient indiquer une activité frauduleuse. Cela permet de prévenir de manière proactive les pertes financières et de renforcer la sécurité des données.
  • Analyse de l'imagerie médicale : L'apprentissage non supervisé joue un rôle important dans l'analyse des images médicales. Des techniques telles que la réduction de la dimensionnalité et le regroupement peuvent aider à analyser les images médicales, telles que les radiographies ou les IRM, pour détecter des modèles qui pourraient être indicatifs de maladies ou d'anomalies, même en l'absence d'étiquettes explicites.
  • Regroupement de documents : Dans le traitement du langage naturel, l'apprentissage non supervisé est utilisé pour le regroupement de documents, qui consiste à regrouper des documents similaires en fonction de leur contenu. Cette méthode est utile pour organiser de grandes collections de données textuelles, telles que des articles d'actualité ou des documents de recherche, et pour des tâches telles que la modélisation de sujets et la recherche sémantique.

Apprentissage non supervisé et apprentissage supervisé

La principale différence entre l'apprentissage non supervisé et l'apprentissage supervisé réside dans le type de données utilisées pour la formation. L'apprentissage supervisé utilise des données étiquetées, où chaque point de données d'entrée est associé à une étiquette de sortie correspondante. L'algorithme apprend à mettre en correspondance les entrées et les sorties sur la base de ces exemples étiquetés. En revanche, l'apprentissage non supervisé utilise des données non étiquetées et vise à découvrir des structures ou des modèles cachés dans les données elles-mêmes, sans étiquettes de sortie explicites.

L'apprentissage supervisé et l'apprentissage non supervisé sont tous deux des outils essentiels de l'apprentissage automatique (ML) et de l'intelligence artificielle (IA), et le choix entre les deux dépend du problème spécifique, de la disponibilité des données étiquetées et du résultat souhaité. Pour les projets impliquant des Ultralytics YOLO modèles, alors que la formation repose généralement sur l'apprentissage supervisé pour des tâches telles que la détection d'objets et la segmentation d'images, les méthodes non supervisées peuvent s'avérer précieuses pour le prétraitement des données, l'analyse exploratoire des données ou dans des applications spécifiques telles que la détection d'anomalies dans le contrôle de la qualité de la fabrication.

Tout lire