Glosario

Etiquetado de datos

Descubre el papel fundamental del etiquetado de datos en el aprendizaje automático, su proceso, retos y aplicaciones reales en el desarrollo de la IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El etiquetado de datos es el proceso esencial de añadir etiquetas o anotaciones informativas a los datos en bruto, como imágenes, vídeos, texto o audio. Estas etiquetas proporcionan contexto, permitiendo a los modelos de Aprendizaje Automático (AM ) comprender e interpretar los datos con precisión. En el Aprendizaje Supervisado, los datos etiquetados actúan como la "verdad de base", las respuestas correctas verificadas de las que aprenden los modelos para identificar patrones y hacer predicciones futuras. La calidad y la precisión de estas etiquetas influyen directamente en el rendimiento de los modelos, por lo que el etiquetado de datos es un paso fundamental para crear sistemas de Inteligencia Artificial (IA) fiables, sobre todo en campos como la Visión por Computador (VC).

Importancia del etiquetado de datos

Los datos etiquetados de alta calidad son la base del éxito de los proyectos de ML. Modelos como Ultralytics YOLO dependen en gran medida de conjuntos de datos etiquetados con precisión para un entrenamiento eficaz. Las etiquetas incoherentes o incorrectas pueden hacer que los modelos no funcionen bien y hagan predicciones poco fiables en situaciones reales. La preparación de los datos, que incluye el etiquetado, a menudo constituye una parte significativa del tiempo invertido en los proyectos de IA, lo que subraya su papel fundamental. Algunos informes, como el de Anaconda sobre el Estado de la Ciencia de Datos, indican que la preparación de datos consume gran parte del tiempo de los científicos de datos.

El proceso de etiquetado de datos

El proceso de etiquetado de datos suele constar de varias etapas:

  1. Recogida de datos: Recogida de los datos brutos (imágenes, vídeos, etc.) que hay que etiquetar.
  2. Definición de directriz: Establecer instrucciones y normas claras sobre cómo deben aplicarse las etiquetas para garantizar la coherencia.
  3. Anotación: Aplicación de etiquetas a los datos según las directrices definidas, utilizando herramientas especializadas. A menudo se denomina anotación de datos.
  4. Garantía de calidad (GC): Revisión de los datos etiquetados para verificar su exactitud, coherencia y cumplimiento de las directrices.

Para profundizar en los pasos prácticos, consulta la Guía de recogida de datos y anotaciónUltralytics .

Tipos de etiquetado de datos en visión por ordenador

Diferentes tareas de CV requieren diferentes tipos de etiquetas:

  • Cajas delimitadoras: Dibujar rectángulos alrededor de los objetos de interés para la Detección de Objetos.
  • Polígonos/Máscaras: Delinear la forma exacta de los objetos a nivel de píxel para la Segmentación de Imágenes.
  • Puntos clave: Marcar puntos específicos de un objeto (por ejemplo, las articulaciones de un cuerpo humano) para la Estimación de la Pose.
  • Etiquetas de clasificación: Asignación de una única etiqueta a toda una imagen para clasificar su contenido.

Aplicaciones y ejemplos reales

El etiquetado de datos alimenta numerosas aplicaciones de IA en diversos sectores:

  • Sanidad: Etiquetar imágenes médicas (como radiografías o resonancias magnéticas de recursos como The Cancer Imaging Archive (TCIA)) para entrenar modelos que detecten enfermedades o anomalías. Más información en AI in Healthcare.
  • Vehículos autónomos: Anotar datos de sensores (imágenes de cámaras, nubes de puntos LiDAR) de conjuntos de datos como el Conjunto de Datos Abiertos de Waymo para enseñar a los coches autónomos a percibir peatones, vehículos y señales de tráfico. Explora la IA en automoción.
  • Comercio minorista: Etiquetar en imágenes los productos de las estanterías para automatizar la gestión del inventario o analizar el comportamiento de los clientes.
  • Agricultura: Etiquetado de imágenes de cultivos para controlar la salud, detectar enfermedades o estimar el rendimiento.

Conceptos relacionados

El etiquetado de datos está estrechamente relacionado con otros conceptos clave del ML:

  • Aumento de datos: Técnicas utilizadas para aumentar artificialmente el tamaño y la diversidad de un conjunto de datos etiquetados, aplicando transformaciones (como cambios de rotación o brillo) a los datos existentes. Puedes encontrar más detalles en esta visión general del aumento de datos.
  • Preprocesamiento de datos: Los pasos que se dan para limpiar, formatear y preparar los datos brutos antes de etiquetarlos o utilizarlos para el entrenamiento.
  • Aprendizaje supervisado: El paradigma de LD que se basa en datos etiquetados para entrenar modelos, en contraste con el aprendizaje no supervisado o de refuerzo. Puedes leer más sobre él en la página de Wikipedia Aprendizaje supervisado.

Desafíos en el etiquetado de datos

A pesar de su importancia, el etiquetado de datos presenta retos:

  • Coste y tiempo: Etiquetar grandes conjuntos de datos puede ser caro y llevar mucho tiempo, y a menudo requiere un esfuerzo humano considerable.
  • Control de calidad: Garantizar una gran precisión y coherencia entre las etiquetas es difícil, pero crucial para el rendimiento del modelo. Mantener una alta calidad de los datos es primordial.
  • Subjetividad: Algunas tareas requieren juicios subjetivos, lo que puede dar lugar a incoherencias entre los etiquetadores.
  • Escalabilidad: Gestionar y escalar las operaciones de etiquetado de conjuntos de datos muy grandes puede ser complejo.

Técnicas como el Aprendizaje Activo pretenden reducir la carga de etiquetado seleccionando de forma inteligente los puntos de datos más informativos para etiquetarlos primero, reduciendo potencialmente el esfuerzo global, como se explica en la página de Wikipedia Aprendizaje Activo.

Herramientas y plataformas

Varias herramientas ayudan a agilizar el proceso de etiquetado de datos. Ultralytics HUB ofrece funciones integradas de gestión y etiquetado de conjuntos de datos, diseñadas para tareas de visión por ordenador. Otras plataformas populares de código abierto y comerciales son Label Studio y CVAT (Computer Vision Annotation Tool).

Leer todo