Cheque verde
Enlace copiado en el portapapeles

La guía definitiva para el aumento de datos en 2025

Descubre cómo el aumento de datos de imagen ayuda a los modelos de IA de Visión a aprender mejor, mejorar la precisión y actuar con más eficacia en situaciones del mundo real.

Debido al auge de la IA, fenómenos como los robots que trabajan en las fábricas y los coches autoconducidos que circulan por las calles aparecen cada vez más a menudo en los titulares. La IA está cambiando la forma en que las máquinas interactúan con el mundo, desde la mejora de las imágenes médicas hasta la asistencia en el control de calidad en las líneas de producción.

Gran parte de este progreso procede de la visión por ordenador, una rama de la IA que hace posible que las máquinas comprendan e interpreten imágenes. Al igual que los humanos aprenden a reconocer objetos y patrones con el tiempo, los modelos de IA de visión como Ultralytics YOLO11 necesitan ser entrenados con grandes cantidades de datos de imágenes para desarrollar su comprensión visual.

Sin embargo, recopilar tal cantidad de datos visuales no siempre es fácil. Aunque la comunidad de visión por ordenador ha creado muchos conjuntos de datos de gran tamaño, aún pueden pasar por alto ciertas variaciones, como imágenes con objetos con poca luz, elementos parcialmente ocultos o cosas vistas desde ángulos diferentes. Estas diferencias pueden resultar confusas para los modelos de visión por ordenador que sólo se han entrenado en condiciones específicas.

El aumento de datos de imágenes es una técnica que resuelve este problema introduciendo nuevas variaciones en los datos existentes. Al hacer cambios en las imágenes, como ajustar los colores, rotarlas o cambiar la perspectiva, el conjunto de datos se vuelve más diverso, lo que ayuda a los modelos de IA de Visión a reconocer mejor los objetos en situaciones del mundo real.

En este artículo, exploraremos cómo funciona el aumento de datos de imagen y el impacto que puede tener en las aplicaciones de visión por ordenador.

¿Qué es el aumento de datos de imagen?

Supongamos que intentas reconocer a un amigo entre la multitud, pero lleva gafas de sol o está en un lugar sombrío. Incluso con estos pequeños cambios de aspecto, sigues sabiendo quién es. En cambio, un modelo de IA de Visión puede tener problemas con esas variaciones, a menos que haya sido entrenado para reconocer objetos en diferentes entornos.

El aumento de los datos de imagen mejora el rendimiento del modelo de visión por ordenador añadiendo versiones modificadas de imágenes existentes a los datos de entrenamiento, en lugar de recopilar miles de imágenes nuevas. 

Los cambios en las imágenes, como voltearlas, girarlas, ajustar el brillo o añadir pequeñas distorsiones, exponen los modelos de IA de Visión a una gama más amplia de condiciones. En lugar de depender de conjuntos de datos masivos, los modelos pueden aprender eficazmente a partir de conjuntos de datos de entrenamiento más pequeños con imágenes aumentadas. 

Fig. 1. Ejemplos de imágenes aumentadas de un coche.

La importancia del aumento de datos en la visión por ordenador

He aquí algunas de las razones clave por las que el aumento es esencial para la visión por ordenador:

  • Reduce las necesidades de datos: Recopilar grandes conjuntos de datos de imágenes requiere tiempo y recursos. El aumento puede utilizarse para entrenar modelos de forma eficaz sin necesidad de conjuntos de datos masivos.
  • Evita el sobreajuste: Un modelo entrenado con muy pocos ejemplos puede memorizar detalles en lugar de reconocer patrones generales. Añadir variedad mediante el aumento garantiza que los modelos de IA de Vision aprendan de forma que se apliquen a datos nuevos y no vistos.
  • Imita imágenes imperfectas: Las imágenes de los conjuntos de datos suelen ser demasiado perfectas, pero las fotos del mundo real pueden estar borrosas, oscurecidas o distorsionadas. Aumentar las imágenes con ruido, oclusiones u otras variaciones las hace más realistas.
  • Mejora la robustez del modelo: El entrenamiento con una variedad de imágenes ayuda a la IA a manejar los cambios del mundo real, haciéndola más fiable en diferentes entornos, condiciones de iluminación y situaciones.

¿Cuándo debes utilizar el aumento de datos de imagen?

El aumento de datos de imagen es especialmente útil cuando un modelo de visión por ordenador necesita reconocer objetos en diferentes situaciones, pero no dispone de suficientes imágenes variadas. 

Por ejemplo, si los investigadores están entrenando un modelo de IA de Visión para identificar especies submarinas raras que rara vez se fotografían, el conjunto de datos puede ser pequeño o carecer de variación. Aumentando las imágenes -ajustando los colores para simular diferentes profundidades del agua, añadiendo ruido para imitar condiciones turbias o alterando ligeramente las formas para tener en cuenta el movimiento natural- el modelo puede aprender a detectar objetos submarinos con mayor precisión.

He aquí otras situaciones en las que el aumento marca una gran diferencia:

  • Equilibrar el conjunto de datos: Algunos objetos pueden aparecer con menos frecuencia en los datos de entrenamiento, lo que hace que los modelos de IA Vision estén sesgados. El aumento ayuda a crear más ejemplos de objetos poco frecuentes para que el modelo pueda reconocer todas las categorías equitativamente.
  • Adaptación a diferentes cámaras: Las imágenes pueden tener un aspecto diferente según el dispositivo. El aumento ayuda a los modelos de IA de Visión a rendir bien en fotos con resoluciones, iluminación y calidad diferentes.
  • Corrección de pequeños errores de etiquetado: Los ligeros desplazamientos, recortes o rotaciones ayudan a los modelos de visión por ordenador a reconocer los objetos correctamente, aunque las etiquetas originales no estén perfectamente alineadas.

Cómo funciona el aumento de datos de imagen

En los primeros tiempos de la visión por ordenador, el aumento de los datos de imágenes consistía principalmente en técnicas básicas de procesamiento de imágenes, como voltear, girar y recortar para aumentar la diversidad del conjunto de datos. A medida que mejoró la IA, se introdujeron métodos más avanzados, como el ajuste de los colores (transformaciones del espacio de color), la nitidez o el desenfoque de las imágenes (filtros kernel) y la combinación de varias imágenes (mezcla de imágenes) para mejorar el aprendizaje.

El aumento puede producirse antes y durante el entrenamiento del modelo. Antes del entrenamiento, se pueden añadir imágenes modificadas al conjunto de datos para proporcionar más variedad. Durante el entrenamiento, las imágenes pueden alterarse aleatoriamente en tiempo real, ayudando a los modelos de IA de Visión a adaptarse a condiciones diferentes.

Estos cambios se realizan mediante transformaciones matemáticas. Por ejemplo, la rotación inclina una imagen, el recorte elimina partes para imitar distintas vistas, y los cambios de brillo simulan variaciones de iluminación. El desenfoque suaviza las imágenes, la nitidez aclara los detalles y la mezcla de imágenes combina partes de imágenes diferentes. Los marcos y herramientas de IA de visión como OpenCV, TensorFlow y PyTorch pueden automatizar estos procesos, haciendo que el aumento sea rápido y eficaz.

Técnicas clave de aumento de datos de imagen

Ahora que hemos hablado de lo que es el aumento de datos de imagen, veamos más de cerca algunas técnicas fundamentales de aumento de datos de imagen utilizadas para mejorar los datos de entrenamiento.

Ajustar la orientación y la posición

Los modelos de visión artificial como YOLO11 a menudo necesitan reconocer objetos desde varios ángulos y puntos de vista. Para ello, las imágenes pueden voltearse horizontal o verticalmente para que el modelo de IA aprenda a reconocer objetos desde distintos puntos de vista. 

Del mismo modo, girar las imágenes cambia ligeramente su ángulo, lo que permite al modelo identificar objetos desde múltiples perspectivas. Además, desplazar las imágenes en distintas direcciones (traslación) ayuda a los modelos a ajustarse a pequeños cambios de posición. Estas transformaciones hacen que los modelos se generalicen mejor a las condiciones del mundo real, donde la colocación de los objetos en una imagen es impredecible.

Fig. 2. Diferentes métodos de aumento relacionados con la orientación y la posición.

Redimensionar y recortar

Con respecto a las soluciones de visión por ordenador del mundo real, los objetos de las imágenes pueden aparecer a distancias y tamaños variables. Los modelos de IA de visión tienen que ser lo bastante robustos para detectarlos independientemente de estas diferencias. 

Para mejorar la adaptabilidad, se pueden utilizar los siguientes métodos de aumento:

  • Redimensionamiento: El redimensionamiento cambia el tamaño de la imagen manteniendo sus proporciones, lo que permite a los modelos de IA detectar objetos a diferentes distancias.
  • Recorte: Elimina las partes innecesarias de una imagen, ayudando al modelo a centrarse en las zonas clave y reduciendo las distracciones del fondo.
  • Sesgar: Al sesgar ligeramente una imagen se simula un aspecto inclinado o estirado, lo que ayuda a la IA a reconocer objetos desde distintos ángulos.

Estos ajustes ayudan a los modelos de visión artificial a reconocer objetos aunque su tamaño o forma cambien ligeramente.

Ajustes de perspectiva y distorsión

Los objetos de las imágenes pueden aparecer de forma diferente según el ángulo de la cámara, lo que dificulta el reconocimiento para los modelos de visión por ordenador. Para ayudar a los modelos a manejar estas variaciones, las técnicas de aumento pueden ajustar cómo se presentan los objetos en las imágenes. 

Por ejemplo, las transformaciones de perspectiva pueden cambiar el ángulo de visión, haciendo que un objeto parezca visto desde una posición diferente. Esto permite a los modelos de IA de Visión reconocer objetos incluso cuando están inclinados o se han capturado desde un punto de vista inusual. 

Otro ejemplo es una transformación elástica que estira, dobla o deforma las imágenes para simular distorsiones naturales, de modo que los objetos aparezcan como lo harían en reflejos o bajo presión. 

Modificaciones de color e iluminación

Las condiciones de iluminación y las diferencias de color pueden afectar significativamente a la forma en que los modelos de IA de Visión interpretan las imágenes. Dado que los objetos pueden aparecer de forma diferente con distintos ajustes de iluminación, las siguientes técnicas de aumento pueden ayudar a manejar estas situaciones:

  • Ajustes de brillo y contraste: Simular diferentes condiciones de iluminación ayuda a los modelos de IA de Visión a reconocer objetos tanto en entornos luminosos como oscuros.
  • Variación del color: Cambiar aleatoriamente el tono, la saturación y el balance de color hace que los modelos de visión por ordenador se adapten mejor a las diferentes cámaras y condiciones de iluminación.
  • Conversión a escala de grises: Convertir las imágenes a blanco y negro anima a los modelos de Vision AI a centrarse en las formas y las texturas más que en el color.
Fig. 3. Ejemplos de aumentos relacionados con variaciones de color.

Técnicas avanzadas de aumento de datos de imagen

Hasta ahora, sólo hemos explorado técnicas de aumento que modifican una sola imagen. Sin embargo, algunos métodos avanzados implican la combinación de varias imágenes para mejorar el aprendizaje de la IA.

Por ejemplo, MixUp mezcla dos imágenes, ayudando a los modelos de visión por ordenador a comprender las relaciones entre objetos y mejorando su capacidad de generalizar en diferentes escenarios. CutMix lleva esto un paso más allá sustituyendo una sección de una imagen por una parte de otra, lo que permite a los modelos aprender de múltiples contextos dentro de la misma imagen. Mientras tanto, CutOut funciona de forma diferente eliminando partes aleatorias de una imagen, entrenando a los modelos de IA de Visión para reconocer objetos incluso cuando están parcialmente ocultos u obstruidos.

Fig. 4. Técnicas avanzadas de aumento de datos de imagen.

El papel de la IA generativa en el aumento de datos de imágenes

La IA generativa está ganando terreno en muchos sectores y aplicaciones cotidianas. Es probable que te hayas topado con ella en relación con imágenes generadas por IA, vídeos deepfake o aplicaciones que crean avatares realistas. Pero más allá de la creatividad y el entretenimiento, la IA Generativa desempeña un papel crucial en el entrenamiento de los modelos de IA de Visión, generando nuevas imágenes a partir de las existentes.

En lugar de limitarse a voltear o girar imágenes, puede crear variaciones realistas: cambiar expresiones faciales, estilos de ropa o incluso simular diferentes condiciones meteorológicas. Estas variaciones ayudan a los modelos de visión por ordenador a ser más adaptables y precisos en diversos escenarios del mundo real. Los modelos avanzados de IA generativa, como las GAN (Redes Adversariales Generativas) y los modelos de difusión, también pueden rellenar los detalles que faltan o crear imágenes sintéticas de alta calidad.

Limitaciones del aumento de datos de imagen

Aunque el aumento de datos mejora los conjuntos de datos de entrenamiento, también hay que tener en cuenta algunas limitaciones. He aquí algunos retos clave relacionados con el aumento de datos de imágenes:

  • Diversidad de datos limitada: Las imágenes aumentadas proceden de datos existentes y no pueden introducir patrones completamente nuevos o perspectivas poco comunes.
  • Posible distorsión de los datos: Las transformaciones excesivas pueden hacer que las imágenes no sean realistas, reduciendo potencialmente la precisión del modelo en escenarios del mundo real.
  • Mayor computación: El aumento en tiempo real que tiene lugar durante el entrenamiento del modelo puede requerir bastante potencia de procesamiento, ralentizando el entrenamiento y aumentando el uso de memoria.
  • El desequilibrio de clases se mantiene: El aumento no crea muestras totalmente nuevas, por lo que las categorías infrarrepresentadas pueden seguir dando lugar a un aprendizaje sesgado.

Una aplicación real del aumento de datos de imagen

Una aplicación interesante del aumento de datos de imagen es en los coches autoconducidos, donde las decisiones tomadas en fracciones de segundo por modelos de visión por ordenador como YOLO11 son cruciales. El modelo tiene que ser capaz de detectar carreteras, personas y otros objetos con precisión.

Sin embargo, las condiciones del mundo real con las que se encuentra un vehículo autoconducido pueden ser impredecibles. El mal tiempo, el desenfoque de movimiento y las señales ocultas pueden hacer que las soluciones de IA de visión en este sector sean complejas. A menudo no basta con entrenar los modelos de visión por ordenador sólo con imágenes del mundo real. Los conjuntos de datos de imágenes para los modelos de los coches autoconducidos deben ser diversos para que el modelo pueda aprender a manejar situaciones inesperadas.

El aumento de los datos de la imagen lo resuelve simulando la niebla, ajustando el brillo y distorsionando las formas. Estos cambios ayudan a los modelos a reconocer objetos en condiciones diferentes. Como resultado, los modelos se vuelven más inteligentes y fiables. 

Con el entrenamiento aumentado, las soluciones de IA Vision en los coches autoconducidos se adaptan mejor y toman decisiones más seguras. Unos resultados más precisos significan menos accidentes y una mejor navegación. 

Fig. 5. Un ejemplo de aumento de datos de imagen con respecto a los coches autoconducidos.

Los coches autoconducidos son sólo un ejemplo. De hecho, el aumento de los datos de imagen es crucial en una amplia gama de sectores, desde la imagen médica a la analítica del comercio minorista. Cualquier aplicación que dependa de la visión por ordenador puede beneficiarse potencialmente del aumento de datos de imagen.

Puntos clave

Los sistemas de IA de visión deben ser capaces de reconocer objetos en diferentes condiciones, pero recopilar un sinfín de imágenes del mundo real para el entrenamiento puede resultar difícil. El aumento de los datos de imagen resuelve este problema creando variaciones de las imágenes existentes, ayudando a los modelos a aprender más rápido y a rendir mejor en situaciones del mundo real. Mejora la precisión, garantizando que los modelos de IA de Visión como YOLO11 puedan manejar diferentes iluminaciones, ángulos y entornos.

Para las empresas y los desarrolladores, el aumento de los datos de imagen ahorra tiempo y esfuerzo, a la vez que hace que los modelos de visión por ordenador sean más fiables. Desde la sanidad hasta los coches autoconducidos, muchas industrias dependen de ella. A medida que la IA de Visión siga evolucionando, el aumento seguirá siendo una parte esencial de la construcción de modelos más inteligentes y adaptables para el futuro.

Únete a nuestra comunidad y visita nuestro repositorio de GitHub para ver la IA en acción. Explora nuestras opciones de licencia y descubre más sobre la IA en la agricultura y la visión por ordenador en la fabricación en nuestras páginas de soluciones.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático