Glossaire

Apprentissage non supervisé

Découvre comment l'apprentissage non supervisé utilise le regroupement, la réduction de la dimensionnalité et la détection des anomalies pour découvrir des modèles cachés dans les données.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage non supervisé est un type d'apprentissage machine (ML) dans lequel les algorithmes apprennent des modèles à partir de données non étiquetées. Contrairement à l'apprentissage supervisé, qui s'appuie sur des étiquettes prédéfinies ou des "bonnes réponses", les méthodes non supervisées explorent la structure inhérente des données pour découvrir des relations cachées, des regroupements ou des anomalies sans orientation préalable. Cette approche est particulièrement utile en intelligence artificielle (IA) pour l'exploration initiale des données et la compréhension d'ensembles de données complexes où l'étiquetage est peu pratique, voire impossible. Elle permet aux modèles de découvrir des schémas et des idées directement à partir des données.

Comment fonctionne l'apprentissage non supervisé

L'objectif principal de l'apprentissage non supervisé est de modéliser la structure ou la distribution sous-jacente au sein des données afin d'en apprendre davantage à leur sujet. On laisse les algorithmes découvrir par eux-mêmes les similitudes, les différences et les structures. Les techniques courantes comprennent :

  • Regroupement: Il s'agit de regrouper automatiquement des points de données similaires en fonction de certaines caractéristiques. Parmi les algorithmes populaires, on trouve le regroupement K-Means et DBSCAN.
  • Réduction de la dimensionnalité: Cette technique simplifie les données en réduisant le nombre de variables d'entrée ou de caractéristiques tout en préservant les informations essentielles. L'analyse en composantes principales (ACP) est une méthode largement utilisée pour la réduction de la dimensionnalité.
  • Apprentissage des règles d'association: Cette méthode permet de découvrir des relations intéressantes ou des règles d'association entre des variables dans de grands ensembles de données. Elle est couramment appliquée à l'analyse du panier de la ménagère pour trouver les articles fréquemment achetés ensemble.

Applications de l'apprentissage non supervisé

Les techniques d'apprentissage non supervisé sont employées dans divers scénarios du monde réel, en particulier lorsqu'il s'agit de traiter de grands volumes de données non étiquetées :

  • Segmentation des clients : Les entreprises utilisent le clustering pour regrouper les clients ayant des comportements, des préférences ou des données démographiques similaires. Cela permet de mener des campagnes de marketing ciblées plus efficaces et de proposer des expériences personnalisées aux clients. En savoir plus sur la segmentation de la clientèle.
  • Détection des anomalies: Les algorithmes non supervisés excellent dans l'identification des points de données inhabituels ou des valeurs aberrantes qui s'écartent considérablement de la norme. C'est essentiel pour des applications telles que la détection des fraudes dans la finance, la détection des intrusions dans les réseaux ou l'identification des défauts dans la fabrication.

Pertinence dans l'IA et la ML

L'apprentissage non supervisé joue un rôle crucial pour donner un sens aux vastes quantités de données brutes et non étiquetées caractéristiques du Big Data. Il sert souvent d'étape essentielle dans le prétraitement des données et l'ingénierie des caractéristiques, en aidant à découvrir des structures cachées ou à réduire la complexité des données avant d'appliquer d'autres techniques de ML. Alors que les modèles comme Ultralytics YOLO sont principalement formés à l'aide de méthodes supervisées pour des tâches telles que la détection d'objets, la compréhension des structures de données grâce à des méthodes non supervisées peut aider de manière significative à la préparation et à l'analyse des ensembles de données, améliorant potentiellement les performances des modèles. Tu peux explorer les guides de collecte et d'annotation des données pour préparer les ensembles de données, et gérer tes données et tes modèles à l'aide de plateformes comme Ultralytics HUB.

Apprentissage non supervisé et autres types d'apprentissage

Il est important de distinguer l'apprentissage non supervisé des paradigmes apparentés que sont le Deep Learning (DL) et le ML :

  • Apprentissage supervisé: Nécessite un ensemble de données entièrement étiquetées, ce qui signifie que chaque point de données a une sortie ou une catégorie connue. L'objectif est de former un modèle qui peut prédire avec précision la sortie pour de nouveaux points de données inédits en se basant sur les exemples étiquetés.
  • Apprentissage auto-supervisé: Souvent considéré comme un type d'apprentissage non supervisé, il génère automatiquement des étiquettes à partir des données d'entrée elles-mêmes en créant des tâches prétextes (par exemple, prédire une partie cachée d'une image). Il est largement utilisé pour le pré-entraînement de grands modèles, notamment ceux basés sur l'architecture Transformer.
  • Apprentissage semi-supervisé: Utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées. Cette approche vise à tirer parti des données non étiquetées pour améliorer la précision de l'apprentissage au-delà de ce qui serait possible avec les seules données étiquetées limitées. Explore davantage l'apprentissage semi-supervisé.

L'apprentissage non supervisé reste un domaine fondamental de la ML, favorisant la découverte et la compréhension dans des ensembles de données complexes où les étiquettes sont rares ou indisponibles.

Tout lire