Aprenda los fundamentos del etiquetado de datos para el aprendizaje automático. Descubra tipos clave como la detección de objetos y cómo acelerar los flujos de trabajo utilizando Ultralytics .
El etiquetado de datos es el proceso fundamental de identificar datos sin procesar, como imágenes, fotogramas de vídeo, texto o audio, y añadir etiquetas informativas o metadatos para proporcionar contexto. En el ámbito del aprendizaje automático (ML), los algoritmos no pueden comprender de forma inherente el mundo físico; necesitan un «maestro» que los guíe. Esta guía se presenta en forma de conjuntos de datos etiquetados que se utilizan durante el aprendizaje supervisado. Las etiquetas sirven como verdad fundamental, representando las respuestas correctas que el modelo se esfuerza por predecir. Ya sea para entrenar un clasificador simple o una arquitectura compleja como Ultralytics , la precisión, la coherencia y la calidad de estas etiquetas son los principales determinantes del éxito de un modelo.
Aunque los términos se utilizan a menudo de forma intercambiable en conversaciones informales, existe una sutil distinción que vale la pena señalar. El «etiquetado de datos» se refiere generalmente al acto general de asignar una categoría o etiqueta a un dato (por ejemplo, etiquetar un correo electrónico como «spam»). Por el contrario, la anotación de datos suele ser más específica de la visión artificial (CV), e implica la delimitación precisa de objetos mediante cuadros delimitadores, polígonos o puntos clave. Sin embargo, en la mayoría de los flujos de trabajo de operaciones de aprendizaje automático (MLOps), ambos términos describen la creación de datos de entrenamiento de alta calidad.
El método de etiquetado cambia en función de la tarea que debe realizar el modelo. Los tipos más comunes son:
La utilidad del etiquetado de datos se extiende prácticamente a todos los sectores que emplean IA.
La creación de un conjunto de datos etiquetados suele ser la parte más laboriosa de un proyecto de IA. El proceso suele implicar un enfoque «Human-in-the-Loop» (HITL), en el que los anotadores humanos verifican las etiquetas para garantizar una alta precisión. Los flujos de trabajo modernos aprovechan herramientas como la Ultralytics , que simplifica la gestión de conjuntos de datos y permite a los equipos colaborar en las anotaciones. También se pueden emplear técnicas avanzadas como el aprendizaje activo, en el que un modelo preetiqueta los datos y los humanos solo corrigen las predicciones de baja confianza, lo que acelera significativamente el proceso.
El siguiente ejemplo muestra cómo utilizar un modelo YOLO26 preentrenado para generar automáticamente etiquetas (etiquetado automático) para una nueva imagen, que luego pueden ser corregidas por personas:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")