Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Étiquetage des données

Apprenez les principes fondamentaux du marquage des données pour l'apprentissage automatique. Découvrez les principaux types, tels que la détection d'objets, et comment accélérer les flux de travail à l'aide Ultralytics .

L'étiquetage des données est le processus fondamental qui consiste à identifier des données brutes, telles que des images, des images vidéo, du texte ou de l'audio, et à leur ajouter des balises informatives ou des métadonnées afin de fournir un contexte. Dans le domaine de l' apprentissage automatique (ML), les algorithmes ne peuvent pas comprendre intrinsèquement le monde physique ; ils ont besoin d'un « enseignant » pour les guider. Cette guidance prend la forme d'ensembles de données étiquetées utilisées lors de l' apprentissage supervisé. Les étiquettes servent de référence, représentant les réponses correctes que le modèle s'efforce de prédire. Qu'il s'agisse de former un simple classificateur ou une architecture complexe comme Ultralytics , la précision, la cohérence et la qualité de ces étiquettes sont les principaux déterminants du succès d'un modèle.

Étiquetage des données vs annotation des données

Bien que ces termes soient souvent utilisés de manière interchangeable dans les conversations informelles, il existe une distinction subtile qui mérite d'être soulignée. Le « marquage des données » désigne généralement l'action générale consistant à attribuer une catégorie ou une balise à une donnée (par exemple, marquer un e-mail comme « spam »). En revanche, l' annotation de données est souvent plus spécifique à la vision par ordinateur (CV) et implique la délimitation précise d'objets à l'aide de cadres, de polygones ou de points clés. Cependant, dans la plupart des workflows MLOps (ML Operations), ces deux termes décrivent la création de données d'entraînement de haute qualité .

Types de clés dans la vision par ordinateur

La méthode d'étiquetage varie en fonction de la tâche que le modèle doit accomplir. Les types courants comprennent :

  • Classification d'images: Attribuer une seule étiquette à une image entière, par exemple identifier une condition météorologique comme « nuageux » ou « ensoleillé ».
  • Détection d'objets: dessin de cadres 2D autour d'objets distincts pour enseigner au modèle ce qu'est l'objet et où il se trouve.
  • Segmentation d'instance: Création de masques ou de polygones parfaits au pixel près autour des objets, ce qui est essentiel pour déterminer avec précision les formes et les contours.
  • Estimation de la pose: marquage de points clés spécifiques sur un sujet, tels que les articulations du squelette, afin d'analyser les mouvements ou la posture.

Applications concrètes

L'utilité de l'étiquetage des données s'étend à pratiquement tous les secteurs qui utilisent l'IA.

  1. Véhicules autonomes : les voitures autonomes s'appuient sur des ensembles de données massifs dans lesquels chaque véhicule, piéton, panneau de signalisation et marquage au sol est méticuleusement étiqueté. Ces données étiquetées permettent au système de perception de naviguer en toute sécurité dans des environnements complexes. Les constructeurs de véhicules autonomes investissent massivement dans l'étiquetage au niveau du pixel afin de garantir la conformité aux normes de sécurité.
  2. Agriculture de précision : dans l'agriculture moderne, l'IA est utilisée pour detect les maladies detect ou surveiller les stades de croissance. Les agriculteurs utilisent des modèles entraînés sur des images étiquetées de feuilles « saines » par opposition à des feuilles « malades » afin d'automatiser les traitements, de réduire l'utilisation de produits chimiques et d'augmenter les rendements.

Le processus d'étiquetage

La création d'un ensemble de données étiquetées est souvent la partie la plus chronophage d'un projet d'IA. Le processus implique généralement une approche « Human-in-the-Loop » (HITL), dans laquelle des annotateurs humains vérifient les étiquettes afin de garantir une grande précision. Les flux de travail modernes exploitent des outils tels que la Ultralytics , qui simplifie la gestion des ensembles de données et permet aux équipes de collaborer sur les annotations. Des techniques avancées telles que l' apprentissage actif peuvent également être utilisées, où un modèle pré-étiquette les données et les humains ne corrigent que les prédictions peu fiables, ce qui accélère considérablement le processus.

L'exemple suivant montre comment utiliser un modèle YOLO26 pré-entraîné pour générer automatiquement des étiquettes (étiquetage automatique) pour une nouvelle image, qui peuvent ensuite être corrigées par des humains :

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant