Apprenez les principes fondamentaux du marquage des données pour l'apprentissage automatique. Découvrez les principaux types, tels que la détection d'objets, et comment accélérer les flux de travail à l'aide Ultralytics .
L'étiquetage des données est le processus fondamental qui consiste à identifier des données brutes, telles que des images, des images vidéo, du texte ou de l'audio, et à leur ajouter des balises informatives ou des métadonnées afin de fournir un contexte. Dans le domaine de l' apprentissage automatique (ML), les algorithmes ne peuvent pas comprendre intrinsèquement le monde physique ; ils ont besoin d'un « enseignant » pour les guider. Cette guidance prend la forme d'ensembles de données étiquetées utilisées lors de l' apprentissage supervisé. Les étiquettes servent de référence, représentant les réponses correctes que le modèle s'efforce de prédire. Qu'il s'agisse de former un simple classificateur ou une architecture complexe comme Ultralytics , la précision, la cohérence et la qualité de ces étiquettes sont les principaux déterminants du succès d'un modèle.
Bien que ces termes soient souvent utilisés de manière interchangeable dans les conversations informelles, il existe une distinction subtile qui mérite d'être soulignée. Le « marquage des données » désigne généralement l'action générale consistant à attribuer une catégorie ou une balise à une donnée (par exemple, marquer un e-mail comme « spam »). En revanche, l' annotation de données est souvent plus spécifique à la vision par ordinateur (CV) et implique la délimitation précise d'objets à l'aide de cadres, de polygones ou de points clés. Cependant, dans la plupart des workflows MLOps (ML Operations), ces deux termes décrivent la création de données d'entraînement de haute qualité .
La méthode d'étiquetage varie en fonction de la tâche que le modèle doit accomplir. Les types courants comprennent :
L'utilité de l'étiquetage des données s'étend à pratiquement tous les secteurs qui utilisent l'IA.
La création d'un ensemble de données étiquetées est souvent la partie la plus chronophage d'un projet d'IA. Le processus implique généralement une approche « Human-in-the-Loop » (HITL), dans laquelle des annotateurs humains vérifient les étiquettes afin de garantir une grande précision. Les flux de travail modernes exploitent des outils tels que la Ultralytics , qui simplifie la gestion des ensembles de données et permet aux équipes de collaborer sur les annotations. Des techniques avancées telles que l' apprentissage actif peuvent également être utilisées, où un modèle pré-étiquette les données et les humains ne corrigent que les prédictions peu fiables, ce qui accélère considérablement le processus.
L'exemple suivant montre comment utiliser un modèle YOLO26 pré-entraîné pour générer automatiquement des étiquettes (étiquetage automatique) pour une nouvelle image, qui peuvent ensuite être corrigées par des humains :
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")