Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Modelos de Difusión

Descubra cómo los modelos de difusión utilizan la IA generativa para crear datos de alta fidelidad. Aprenda hoy mismo a mejorar el entrenamiento Ultralytics con datos sintéticos realistas.

Los modelos de difusión son una clase de algoritmos de IA generativa que aprenden a crear nuevas muestras de datos invirtiendo un proceso gradual de adición de ruido. A diferencia de los modelos discriminativos tradicionales utilizados para tareas como la detección o clasificación de objetos, que predicen etiquetas a partir de datos, los modelos de difusión se centran en generar contenido de alta fidelidad —sobre todo imágenes, audio y vídeo— que imita fielmente las propiedades estadísticas de los datos del mundo real. Se han convertido rápidamente en la solución más avanzada para la síntesis de imágenes de alta resolución, superando a líderes anteriores como las redes generativas adversarias (GAN) debido a su estabilidad de entrenamiento y su capacidad para generar resultados diversos.

Cómo funcionan los modelos de difusión

El mecanismo central de un modelo de difusión se basa en la termodinámica de no equilibrio. El proceso de entrenamiento implica dos fases distintas: el proceso directo (difusión) y el proceso inverso (eliminación de ruido).

  • Proceso de avance: esta fase destruye sistemáticamente la estructura de una imagen de entrenamiento añadiendo pequeñas cantidades de ruido gaussiano a lo largo de una serie de pasos temporales . A medida que avanza el proceso, los datos complejos (como la foto de un gato) se transforman gradualmente en ruido aleatorio puro y sin estructura.
  • Proceso inverso: El objetivo de la red neuronal es aprender a revertir esta corrupción. Partiendo de un ruido aleatorio, el modelo predice el ruido que se ha añadido en cada paso y lo resta. Al eliminar el ruido de forma iterativa, el modelo «desruidiza» la señal aleatoria hasta que surge una imagen coherente y de alta calidad .

Este refinamiento iterativo permite un control excepcional sobre los detalles finos y la textura, una ventaja significativa sobre los métodos de generación de un solo paso.

Aplicaciones en el mundo real

Los modelos de difusión han pasado de ser objeto de investigación académica a convertirse en herramientas prácticas y aptas para la producción en diversos sectores.

  • Generación de datos sintéticos: Una de las aplicaciones más valiosas para los ingenieros de visión artificial es la creación de datos sintéticos para aumentar los conjuntos de datos de entrenamiento . Si un conjunto de datos carece de diversidad (por ejemplo, faltan imágenes de coches en condiciones de nieve), un modelo de difusión puede generar variaciones realistas. Esto ayuda a mejorar la solidez de modelos de visión como YOLO26 cuando se implementan en entornos impredecibles.
  • Relleno y edición de imágenes: los modelos de difusión impulsan herramientas de edición avanzadas que permiten a los usuarios modificar regiones específicas de una imagen. Esta técnica, conocida como relleno, puede eliminar objetos no deseados o rellenar partes que faltan en una foto basándose en el contexto circundante. Los arquitectos y diseñadores la utilizan para crear prototipos rápidamente, visualizando cambios en productos o entornos sin necesidad de renderización 3D manual.

Diferenciación de términos clave

Es útil distinguir los modelos de difusión de otras arquitecturas generativas:

  • Modelos de difusión frente a GAN: mientras que las GAN utilizan dos redes que compiten entre sí (un generador y un discriminador) y son conocidas por su rápido muestreo, a menudo sufren un «colapso modal », en el que el modelo produce variedades limitadas de resultados. Los modelos de difusión son generalmente más estables durante el entrenamiento y cubren la distribución de los datos de forma más completa, aunque pueden ser más lentos en el momento de la inferencia .
  • Modelos de difusión frente a VAE: Los autoencodificadores variacionales (VAE) comprimen los datos en un espacio latente y luego los reconstruyen. Aunque los VAE son rápidos, las imágenes que generan pueden parecer borrosas en ocasiones en comparación con los detalles nítidos que producen los procesos de difusión.

Aplicación práctica

Aunque entrenar un modelo de difusión desde cero requiere una gran capacidad de cálculo, los ingenieros pueden aprovechar modelos preentrenados o integrarlos en flujos de trabajo junto con detectores eficientes. Por ejemplo, se puede utilizar un modelo de difusión para generar variaciones de fondo para un conjunto de datos y, a continuación, utilizar Ultralytics para anotar y entrenar un modelo de detección sobre esos datos mejorados.

A continuación se muestra un ejemplo conceptual utilizando torch simular un simple paso de difusión hacia adelante (añadiendo ruido), que es la base del entrenamiento de estos sistemas.

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

Direcciones futuras

El campo está evolucionando rápidamente hacia los modelos de difusión latente (LDM), que operan en un espacio latente comprimido en lugar del espacio de píxeles para reducir los costes computacionales. Esta eficiencia hace que sea factible ejecutar potentes modelos generativos en hardware de consumo. A medida que avanza la investigación, esperamos una integración más estrecha entre las entradas generativas y las tareas discriminativas , como el uso de escenarios generados por difusión para validar la seguridad de los vehículos autónomos o mejorar el análisis de imágenes médicas mediante la simulación de patologías raras .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora