Glosario

Aumento de datos

Mejora tus modelos de aprendizaje automático con el aumento de datos. Descubre técnicas para aumentar la precisión, reducir el sobreajuste y mejorar la solidez.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aumento de datos es una técnica utilizada en el aprendizaje automático (AM) para aumentar artificialmente el tamaño y la diversidad de un conjunto de datos de entrenamiento, creando copias modificadas de puntos de datos existentes o generando nuevos datos sintéticos a partir de ellos. Este proceso ayuda a mejorar el rendimiento, la generalización y la solidez de los modelos de ML, sobre todo en campos como la visión por ordenador, donde recopilar grandes cantidades de datos variados puede resultar difícil y caro. Al exponer modelos como Ultralytics YOLO a una gama más amplia de variaciones durante el entrenamiento, el aumento de datos les ayuda a rendir mejor con datos no vistos del mundo real.

Cómo funciona el aumento de datos

El aumento de datos aplica diversas transformaciones a los puntos de datos originales para crear ejemplos nuevos y plausibles. En el caso de los datos de imágenes, las técnicas habituales son

  • Transformaciones geométricas: Girar, escalar, trasladar (desplazar), voltear (horizontal o verticalmente) y cizallar imágenes.
  • Transformaciones del espacio de color: Ajustar el brillo, el contraste, la saturación, el matiz o aplicar fluctuaciones de color.
  • Inyección de ruido: Añadir ruido aleatorio (por ejemplo, ruido gaussiano) para simular imperfecciones del sensor o condiciones de poca luz.
  • Borrado/recorte aleatorio: Eliminar partes aleatorias de una imagen para animar al modelo a centrarse en distintas partes de un objeto.
  • Mezclar imágenes: Combinar varias imágenes, como en el aumento Mosaico (utilizado en modelos como YOLOv4) o MixUp, para crear muestras de entrenamiento compuestas.

Aunque destacan en el campo de la visión por ordenador, también existen técnicas de aumento para otros tipos de datos, como la sustitución de sinónimos o la retrotraducción de datos de texto en el Procesamiento del Lenguaje Natural (PLN).

Importancia y beneficios

El aumento de datos ofrece varias ventajas clave en el desarrollo de modelos de ML:

  • Reduce los problemas de escasez de datos: Amplía los conjuntos de datos limitados, haciendo factible el entrenamiento de modelos complejos como las redes neuronales profundas, incluso cuando no se dispone de grandes cantidades de datos originales.
  • Evita el sobreajuste: Al introducir variaciones, el aumento ayuda a evitar que los modelos se limiten a memorizar los datos de entrenamiento(sobreajuste) y les anima a aprender características más generalizables. Lee nuestros consejos de entrenamiento de modelos para conocer más estrategias.
  • Mejora la robustez del modelo: El entrenamiento con datos aumentados hace que los modelos sean menos sensibles a las variaciones de entrada, como los cambios de iluminación, orientación o escala, lo que conduce a un mejor rendimiento en diversas condiciones del mundo real.
  • Eficiencia en costes y tiempo: A menudo es más barato y rápido aumentar los datos existentes que recoger y etiquetar datos nuevos.

Técnicas y herramientas

Varias bibliotecas simplifican la aplicación de las técnicas de aumento de datos. Para las tareas de visión por ordenador, las herramientas más populares son:

Los modelos Ultralytics Ultralytics incorporan varias técnicas de aumento, y los usuarios pueden gestionar conjuntos de datos y modelos mediante plataformas como Ultralytics HUB.

Aplicaciones en el mundo real

El aumento de datos se utiliza ampliamente en diversos ámbitos:

  1. Imágenes médicas: En sanidad, obtener conjuntos de datos grandes y diversos de imágenes médicas (como radiografías o tomografías computarizadas) puede ser difícil debido a las normativas de privacidad y a la rareza de ciertas afecciones. El aumento de datos (por ejemplo, rotar, ampliar, ajustar el contraste) ayuda a entrenar modelos robustos para tareas como la detección de tumores o la clasificación de enfermedades, mejorando la precisión del diagnóstico. Esta es una parte clave del avance de la IA en la Asistencia Sanitaria.
  2. Vehículos autónomos: Los coches autónomos dependen en gran medida de la detección de objetos para percibir su entorno. Aumentar las imágenes de entrenamiento simulando diferentes condiciones meteorológicas (lluvia, niebla), de iluminación (día, noche), añadiendo oclusiones o variando las perspectivas de los objetos, ayuda a garantizar que el sistema de percepción del vehículo funcione con fiabilidad en diversos escenarios de conducción. Esto mejora la seguridad en las aplicaciones de IA para Automoción.

Aumento de Datos vs. Datos Sintéticos

Aunque está relacionado, el aumento de datos es distinto de la generación de datos sintéticos. El aumento de datos suele implicar la aplicación de transformaciones a puntos de datos reales existentes para crear versiones ligeramente modificadas. En cambio, los datos sintéticos se refieren a datos totalmente nuevos generados artificialmente, a menudo mediante simulaciones, algoritmos o modelos generativos como las GAN, sin partir necesariamente de un punto de datos real. Ambas técnicas pretenden mejorar los conjuntos de datos, pero los datos sintéticos pueden crear escenarios que no están presentes en absoluto en los datos originales, mientras que el aumento aumenta principalmente la varianza en torno a los datos existentes.

Leer todo