Aumento de datos: La guía definitiva para 2025

Debido al auge de la IA, fenómenos como los robots que trabajan en las fábricas y los coches autónomos que circulan por las calles son cada vez más noticia. La IA está cambiando la forma en que las máquinas interactúan con el mundo, desde la mejora de las imágenes médicas hasta la asistencia en el control de calidad en las líneas de producción.

Gran parte de este progreso procede de la visión por ordenador, una rama de la IA que hace posible que las máquinas comprendan e interpreten imágenes. Al igual que los humanos aprenden a reconocer objetos y patrones con el tiempo, los modelos de IA de visión como Ultralytics YOLO11 necesitan entrenarse con grandes cantidades de datos de imágenes para desarrollar su comprensión visual.

Sin embargo, recopilar una cantidad tan vasta de datos visuales no siempre es fácil. Aunque la comunidad de visión artificial ha creado muchos conjuntos de datos grandes, aún pueden faltar ciertas variaciones, como imágenes con objetos con poca luz, elementos parcialmente ocultos o cosas vistas desde diferentes ángulos. Estas diferencias pueden ser confusas para los modelos de visión artificial que solo han sido entrenados en condiciones específicas.

La aumentación de datos de imágenes es una técnica que resuelve este problema introduciendo nuevas variaciones en los datos existentes. Al realizar cambios en las imágenes, como ajustar los colores, rotar o cambiar la perspectiva, el conjunto de datos se vuelve más diverso, lo que ayuda a los modelos de Vision AI a reconocer mejor los objetos en situaciones del mundo real.

En este artículo, exploraremos cómo funciona el aumento de datos de imagen y el impacto que puede tener en las aplicaciones de visión artificial.

¿Qué es el aumento de datos de imagen?

Supongamos que está intentando reconocer a un amigo entre la multitud, pero lleva gafas de sol o está de pie en un lugar sombrío. Incluso con estos pequeños cambios en la apariencia, todavía sabe quién es. Por otro lado, un modelo de IA visual puede tener dificultades con tales variaciones a menos que haya sido entrenado para reconocer objetos en diferentes entornos.

La aumentación de datos de imágenes mejora el rendimiento del modelo de visión artificial al añadir versiones modificadas de las imágenes existentes a los datos de entrenamiento, en lugar de recopilar miles de imágenes nuevas.

Las modificaciones en las imágenes, como voltear, rotar, ajustar el brillo o añadir pequeñas distorsiones, exponen a los modelos de Visión Artificial a una gama más amplia de condiciones. En lugar de depender de conjuntos de datos masivos, los modelos pueden aprender eficientemente a partir de conjuntos de datos de entrenamiento más pequeños con imágenes aumentadas.

__wf_reserved_inherit — Fig. 1. Ejemplos de imágenes aumentadas de un coche.

‍

La importancia del aumento de datos en la visión artificial

Estas son algunas de las razones clave por las que la ampliación es esencial para la visión artificial:

Reduce los requisitos de datos: La recopilación de grandes conjuntos de datos de imágenes requiere tiempo y recursos. La ampliación puede utilizarse para entrenar modelos eficazmente sin necesidad de conjuntos de datos masivos.
‍
Evita el sobreajuste: Un modelo entrenado con muy pocos ejemplos puede memorizar detalles en lugar de reconocer patrones generales. Añadir variedad a través del aumento de datos asegura que los modelos de Visión Artificial aprendan de una manera que se aplique a datos nuevos y no vistos.
‍
Imita imágenes imperfectas: Las imágenes en los conjuntos de datos a menudo son demasiado perfectas, pero las fotos del mundo real pueden ser borrosas, estar ocultas o distorsionadas. Aumentar las imágenes con ruido, oclusiones u otras variaciones las hace más realistas.
‍
Mejora la robustez del modelo: El entrenamiento con una variedad de imágenes ayuda a la IA a manejar los cambios del mundo real, haciéndola más fiable en diferentes entornos, condiciones de iluminación y situaciones.

¿Cuándo se debe utilizar el aumento de datos de imagen?

La aumentación de datos de imágenes es particularmente útil cuando un modelo de visión artificial necesita reconocer objetos en diferentes situaciones, pero no tiene suficientes imágenes variadas.

Por ejemplo, si los investigadores están entrenando un modelo de IA de visión para identificar especies submarinas raras que rara vez se fotografían, el conjunto de datos puede ser pequeño o carecer de variación. Aumentando las imágenes -ajustando los colores para simular diferentes profundidades del agua, añadiendo ruido para imitar condiciones turbias o alterando ligeramente las formas para tener en cuenta el movimiento natural- el modelo puede aprender a detect objetos submarinos con mayor precisión.

Aquí hay algunas otras situaciones en las que la aumentación marca una gran diferencia:

Equilibrar el conjunto de datos: Algunos objetos pueden aparecer con menos frecuencia en los datos de entrenamiento, lo que hace que los modelos de Vision AI estén sesgados. El aumento de datos ayuda a crear más ejemplos de objetos raros para que el modelo pueda reconocer todas las categorías de manera justa.
‍
Adaptación a diferentes cámaras: Las imágenes pueden verse diferentes según el dispositivo. La aumentación ayuda a los modelos de Visión Artificial a funcionar bien en fotos con diferentes resoluciones, iluminación y calidad.
‍
Corrección de errores de etiquetado menores: Los ligeros desplazamientos, recortes o rotaciones ayudan a los modelos de visión artificial a reconocer los objetos correctamente, incluso si las etiquetas originales no están perfectamente alineadas.

Cómo funciona el aumento de datos de imagen

En los inicios de la visión artificial, el aumento de datos de imagen implicaba principalmente técnicas básicas de procesamiento de imágenes, como voltear, rotar y recortar para aumentar la diversidad del conjunto de datos. A medida que la IA mejoró, se introdujeron métodos más avanzados, como el ajuste de colores (transformaciones del espacio de color), el enfoque o el desenfoque de imágenes (filtros de kernel) y la combinación de múltiples imágenes (mezcla de imágenes) para mejorar el aprendizaje.

La aumentación puede ocurrir antes y durante el entrenamiento del modelo. Antes del entrenamiento, se pueden añadir imágenes modificadas al conjunto de datos para proporcionar más variedad. Durante el entrenamiento, las imágenes pueden alterarse aleatoriamente en tiempo real, lo que ayuda a los modelos de Visión Artificial a adaptarse a diferentes condiciones.

Estos cambios se realizan mediante transformaciones matemáticas. Por ejemplo, la rotación inclina una imagen, el recorte elimina partes para imitar distintas vistas y los cambios de brillo simulan variaciones de iluminación. El desenfoque suaviza las imágenes, la nitidez aclara los detalles y la mezcla de imágenes combina partes de imágenes diferentes. Los marcos y herramientas de IA de visión como OpenCV, TensorFlow y PyTorch pueden automatizar estos procesos, haciendo que el aumento sea rápido y eficaz.

Técnicas clave de aumento de datos de imagen

Ahora que hemos analizado qué es el aumento de datos de imagen, echemos un vistazo más de cerca a algunas técnicas fundamentales de aumento de datos de imagen que se utilizan para mejorar los datos de entrenamiento.

Ajuste de la orientación y la posición

Los modelos de visión artificial como YOLO11 a menudo necesitan reconocer objetos desde varios ángulos y puntos de vista. Para ello, las imágenes pueden voltearse horizontal o verticalmente para que el modelo de IA aprenda a reconocer objetos desde distintos puntos de vista.

De manera similar, rotar las imágenes ligeramente cambia su ángulo, lo que permite al modelo identificar objetos desde múltiples perspectivas. Además, desplazar las imágenes en diferentes direcciones (traslación) ayuda a los modelos a adaptarse a pequeños cambios posicionales. Estas transformaciones aseguran que los modelos generalicen mejor a las condiciones del mundo real donde la colocación de objetos en una imagen es impredecible.

‍

Cambio de tamaño y recorte

En las soluciones de visión por ordenador del mundo real, los objetos de las imágenes pueden aparecer a distancias y tamaños variables. Los modelos de IA de visión tienen que ser lo suficientemente robustos como para detect independientemente de estas diferencias.

Para mejorar la adaptabilidad, se pueden utilizar los siguientes métodos de aumento:

Cambio de escala: El redimensionamiento cambia el tamaño de la imagen manteniendo sus proporciones, lo que permite a los modelos de IA detect objetos a diferentes distancias.
‍
Recorte: Elimina las partes innecesarias de una imagen, lo que ayuda al modelo a centrarse en las áreas clave y a reducir las distracciones del fondo.
‍
Cizallamiento: Sesgar ligeramente una imagen simula una apariencia inclinada o estirada, lo que ayuda a la IA a reconocer objetos desde diferentes ángulos.

Estos ajustes ayudan a los modelos de visión artificial a reconocer objetos incluso si su tamaño o forma cambian ligeramente.

Ajustes de perspectiva y distorsión

Los objetos en las imágenes pueden aparecer de forma diferente dependiendo del ángulo de la cámara, lo que dificulta el reconocimiento para los modelos de visión artificial. Para ayudar a los modelos a manejar estas variaciones, las técnicas de aumento pueden ajustar la forma en que se presentan los objetos en las imágenes.

Por ejemplo, las transformaciones de perspectiva pueden cambiar el ángulo de visión, haciendo que un objeto parezca que se ve desde una posición diferente. Esto permite que los modelos de Vision AI reconozcan objetos incluso cuando están inclinados o capturados desde un punto de vista inusual.

Otro ejemplo es una transformación elástica que estira, dobla o deforma las imágenes para simular distorsiones naturales, de modo que los objetos aparezcan como lo harían en reflejos o bajo presión.

Modificaciones de color e iluminación

Las condiciones de iluminación y las diferencias de color pueden afectar significativamente la forma en que los modelos de IA visual interpretan las imágenes. Dado que los objetos pueden aparecer de manera diferente bajo diversas configuraciones de iluminación, las siguientes técnicas de aumento pueden ayudar a manejar estas situaciones:

Ajustes de brillo y contraste: Simular diferentes condiciones de iluminación ayuda a los modelos de Vision AI a reconocer objetos tanto en entornos brillantes como oscuros.
‍
Fluctuación del color: Cambiar aleatoriamente el tono, la saturación y el balance de color hace que los modelos de visión artificial sean más adaptables a diferentes cámaras y condiciones de iluminación.
‍
Conversión a escala de grises: La conversión de imágenes a blanco y negro anima a los modelos de Vision AI a centrarse en las formas y texturas en lugar del color.

‍

Técnicas avanzadas de aumento de datos de imagen

Hasta ahora, solo hemos explorado técnicas de aumento que modifican una sola imagen. Sin embargo, algunos métodos avanzados implican la combinación de múltiples imágenes para mejorar el aprendizaje de la IA.

Por ejemplo, MixUp mezcla dos imágenes, lo que ayuda a los modelos de visión computerizada a comprender las relaciones entre objetos y mejora su capacidad de generalizar en distintos escenarios. CutMix va un paso más allá al sustituir una sección de una imagen por una parte de otra, lo que permite a los modelos aprender de múltiples contextos dentro de la misma imagen. Por su parte, CutOut funciona de forma diferente al eliminar partes aleatorias de una imagen, entrenando a los modelos de Vision AI para reconocer objetos incluso cuando están parcialmente ocultos u obstruidos.

‍

El papel de la IA generativa en el aumento de datos de imagen

La IA generativa está ganando terreno en muchas industrias y aplicaciones cotidianas. Es probable que la hayas encontrado en relación con imágenes generadas por IA, vídeos deepfake o aplicaciones que crean avatares realistas. Pero más allá de la creatividad y el entretenimiento, la IA generativa desempeña un papel crucial en el entrenamiento de modelos de Visión Artificial al generar nuevas imágenes a partir de las existentes.

En lugar de simplemente voltear o rotar imágenes, puede crear variaciones realistas: cambiar expresiones faciales, estilos de ropa o incluso simular diferentes condiciones climáticas. Estas variaciones ayudan a que los modelos de visión artificial se vuelvan más adaptables y precisos en diversos escenarios del mundo real. Los modelos avanzados de IA generativa, como las GAN (Redes Generativas Antagónicas) y los modelos de difusión, también pueden completar los detalles que faltan o crear imágenes sintéticas de alta calidad.

Limitaciones del aumento de datos de imagen

Si bien el aumento de datos mejora los conjuntos de datos de entrenamiento, también hay algunas limitaciones que hay que tener en cuenta. Estos son algunos de los principales retos relacionados con el aumento de datos de imagen:

Diversidad de datos limitada: Las imágenes aumentadas provienen de datos existentes y no pueden introducir patrones completamente nuevos o perspectivas raras.
‍
Distorsión potencial de los datos: Las transformaciones excesivas pueden hacer que las imágenes no sean realistas, lo que podría reducir la precisión del modelo en escenarios del mundo real.
‍
Mayor computación: El aumento en tiempo real que tiene lugar durante el entrenamiento del modelo puede requerir bastante potencia de procesamiento, lo que ralentiza el entrenamiento y aumenta el uso de memoria.
‍
El desequilibrio de clases persiste: El aumento de datos no crea muestras completamente nuevas, por lo que las categorías subrepresentadas aún pueden conducir a un aprendizaje sesgado.

Una aplicación del mundo real del aumento de datos de imagen

Una aplicación interesante del aumento de datos de imagen es la conducción autónoma de automóviles, donde las decisiones tomadas en fracciones de segundo por modelos de visión computerizada como YOLO11 son cruciales. El modelo debe ser capaz de detect con precisión carreteras, personas y otros objetos.

Sin embargo, las condiciones del mundo real que encuentra un vehículo autónomo pueden ser impredecibles. El mal tiempo, el desenfoque de movimiento y las señales ocultas pueden hacer que las soluciones de Visión Artificial en este sector sean complejas. Entrenar modelos de visión artificial solo con imágenes del mundo real a menudo no es suficiente. Los conjuntos de datos de imágenes para los modelos en coches autónomos deben ser diversos para que el modelo pueda aprender a manejar situaciones inesperadas.

La aumentación de datos de imágenes resuelve esto simulando niebla, ajustando el brillo y distorsionando las formas. Estos cambios ayudan a los modelos a reconocer objetos en diferentes condiciones. Como resultado, los modelos se vuelven más inteligentes y fiables.

Con el entrenamiento aumentado, las soluciones de visión artificial en coches autónomos se adaptan mejor y toman decisiones más seguras. Resultados más precisos significan menos accidentes y una mejor navegación.

‍

Los coches autónomos son solo un ejemplo. De hecho, el aumento de datos de imagen es crucial en una amplia gama de sectores, desde las imágenes médicas hasta el análisis minorista. Cualquier aplicación que se base en la visión artificial puede beneficiarse potencialmente del aumento de datos de imagen.

Conclusiones clave

Los sistemas de IA visual deben ser capaces de reconocer objetos en distintas condiciones, pero puede resultar difícil recopilar un sinfín de imágenes del mundo real para el entrenamiento. El aumento de los datos de imagen resuelve este problema creando variaciones de las imágenes existentes, lo que ayuda a los modelos a aprender más rápido y a rendir mejor en situaciones reales. Mejora la precisión, garantizando que los modelos de IA de visión como YOLO11 puedan manejar diferentes iluminaciones, ángulos y entornos.

Para las empresas y los desarrolladores, el aumento de datos de imagen ahorra tiempo y esfuerzo, a la vez que hace que los modelos de visión artificial sean más fiables. Desde la atención sanitaria hasta los coches autónomos, muchas industrias dependen de ello. A medida que la Visión Artificial sigue evolucionando, el aumento seguirá siendo una parte esencial de la creación de modelos más inteligentes y adaptables para el futuro.

Únase a nuestra comunidad y visite nuestro repositorio de GitHub para ver la IA en acción. Explore nuestras opciones de licencia y descubra más sobre la IA en la agricultura y la visión artificial en la fabricación en nuestras páginas de soluciones.

La guía definitiva para el aumento de datos en 2025

¿Qué es el aumento de datos de imagen?

La importancia del aumento de datos en la visión artificial

¿Cuándo se debe utilizar el aumento de datos de imagen?

Cómo funciona el aumento de datos de imagen