Glosario

Modelos de difusión

Descubre cómo los modelos de difusión revolucionan la IA generativa creando imágenes, vídeos y datos realistas con un detalle y una estabilidad inigualables.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los Modelos de Difusión son una clase de modelos generativos en el aprendizaje automático (AM) que han ganado una atención significativa por su capacidad de producir muestras diversas de alta calidad, sobre todo en el dominio de la visión por ordenador (VC). Inspirados en conceptos de termodinámica, estos modelos funcionan añadiendo sistemáticamente ruido a los datos (como una imagen) en un "proceso hacia delante" hasta que se convierten en puro ruido, y luego aprendiendo a invertir este proceso. El "proceso inverso" consiste en entrenar una red neuronal para que elimine gradualmente el ruido, partiendo de un ruido aleatorio y refinándolo iterativamente hasta generar una muestra de datos realista.

Cómo funcionan los modelos de difusión

La idea central consta de dos fases:

  1. Proceso de difusión hacia delante: Esta etapa toma una muestra de datos original (por ejemplo, una imagen) y añade gradualmente una pequeña cantidad de ruido gaussiano a lo largo de muchos pasos. Este proceso continúa hasta que la imagen original es indistinguible del ruido aleatorio. Esta etapa es fija y no implica aprendizaje.
  2. Proceso inverso de eliminación de ruido: Aquí es donde se produce el aprendizaje. Se entrena un modelo, normalmente una arquitectura de red neuronal sofisticada como una U-Net, para predecir el ruido añadido en cada paso del proceso de avance. Durante la generación, el modelo empieza con ruido puro y utiliza sus predicciones aprendidas para eliminar el ruido de forma incremental en el mismo número de pasos, invirtiendo efectivamente la difusión y generando una nueva muestra de datos. Este refinamiento paso a paso permite crear resultados muy detallados.

Comparación con otros modelos generativos

Los modelos de difusión difieren significativamente de otros enfoques generativos populares, como las Redes Generativas Adversariales (GAN). Mientras que las GAN implican un generador y un discriminador que compiten entre sí, lo que a menudo provoca inestabilidad en el entrenamiento, los modelos de difusión tienden a tener una dinámica de entrenamiento más estable. A menudo consiguen una mayor diversidad y calidad de las muestras en comparación con las GAN, aunque suelen requerir más pasos computacionales durante la inferencia (generación), lo que las hace más lentas. A diferencia de los Autocodificadores Variacionales (VAE), que aprenden un espacio latente comprimido, los modelos de difusión operan directamente en el espacio de datos a través del proceso de ruido y eliminación de ruido. Una variante popular es la Difusión Estable, conocida por su eficacia y sus resultados de alta calidad.

Aplicaciones de los modelos de difusión

Los modelos de difusión destacan en tareas que requieren una generación de alta fidelidad:

  • Síntesis de texto a imagen: Modelos como Imagen deGoogle y DALL-E 2 de OpenAI utilizan técnicas de difusión para generar imágenes detalladas basadas en descripciones textuales. Los usuarios pueden proporcionar indicaciones, y el modelo crea las imágenes correspondientes.
  • Análisis de imágenes médicas: Pueden utilizarse para tareas como la generación de imágenes médicas sintéticas para aumentar los datos de entrenamiento, la superresolución de imágenes para mejorar la calidad de las exploraciones, o incluso la detección de anomalías mediante el aprendizaje de la distribución del tejido sano. Por ejemplo, generar resonancias magnéticas o tomografías computarizadas realistas puede ayudar a entrenar modelos de IA diagnóstica sin depender únicamente de datos limitados de pacientes, complementando tareas como la segmentación de imágenes para detectar tumores.
  • Otras áreas: La investigación está explorando su uso en la generación de audio, la generación de vídeo(como Google Veo), el diseño de moléculas para el descubrimiento de fármacos y la compresión de datos.

Frameworks como PyTorch y bibliotecas como la de Difusores deHugging Face proporcionan herramientas y modelos preentrenados, facilitando a los desarrolladores la experimentación y el despliegue de modelos de difusión. Su capacidad para generar datos diversos y de alta calidad los convierte en una poderosa herramienta en la evolución continua de la IA generativa.

Leer todo