Glosario

Modelos de difusión

Descubre cómo los modelos de difusión revolucionan la IA generativa creando imágenes, vídeos y datos realistas con un detalle y una estabilidad inigualables.

Los Modelos de Difusión representan una poderosa clase de modelos generativos dentro del aprendizaje profundo (AD) que han ganado una prominencia significativa, sobre todo en la creación de imágenes de alta calidad, audio y otros tipos de datos complejos. Inspirados en conceptos de termodinámica, estos modelos funcionan añadiendo sistemáticamente ruido a los datos y aprendiendo después a invertir este proceso para generar nuevas muestras de datos a partir de ruido puro. Su capacidad para producir resultados diversos y realistas los ha convertido en una piedra angular de la Inteligencia Artificial (IA) moderna.

Cómo funcionan los modelos de difusión

La idea central de los modelos de difusión implica dos procesos: un proceso de avance (difusión) y un proceso de retroceso (eliminación).

Proceso hacia delante: Esta etapa toma datos reales (como una imagen de los datos de entrenamiento) y añade gradualmente pequeñas cantidades de ruido aleatorio a lo largo de muchos pasos. Al final, después de suficientes pasos, la imagen original se vuelve indistinguible del ruido puro (como la estática en una vieja pantalla de TV). Este proceso es fijo y no implica aprendizaje.
Proceso inverso: Aquí es donde se produce el aprendizaje. El modelo, normalmente una arquitectura de red neuronal como una Red-U, se entrena para deshacer la adición de ruido paso a paso. Partiendo de ruido aleatorio, el modelo elimina iterativamente el ruido previsto, refinando gradualmente la muestra hasta que se parezca a los datos de la distribución de entrenamiento original. Este proceso de eliminación de ruido aprendido permite al modelo generar datos totalmente nuevos. Investigaciones clave como los Modelos Probabilísticos de Difusión de Desenmascaramiento (DDPM ) sentaron gran parte de las bases para las implementaciones modernas.

El entrenamiento consiste en enseñar al modelo a predecir con precisión el ruido añadido en cada paso del proceso de avance. Al aprender esto, el modelo aprende implícitamente la estructura subyacente de los datos.

Conceptos clave y acondicionamiento

Varios conceptos son fundamentales en los modelos de difusión:

Pasos temporales: La adición y eliminación gradual de ruido se producen a lo largo de una serie de pasos temporales discretos. A menudo, el modelo necesita saber qué paso de tiempo está procesando en ese momento.
Programa de ruido: Define cuánto ruido se añade en cada paso del proceso de avance. Diferentes programaciones pueden influir en la calidad del entrenamiento y de la generación.
Acondicionamiento: Los modelos de difusión pueden ser guiados para generar resultados específicos. Por ejemplo, en la generación de texto a imagen, el modelo está condicionado a descripciones de texto (prompts) para crear las imágenes correspondientes. Esto suele implicar mecanismos como la atención cruzada.