Glosario

Difusión estable

Descubre la Difusión Estable, un modelo de IA de vanguardia para generar imágenes realistas a partir de indicaciones de texto, revolucionando la creatividad y la eficacia.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Stable Diffusion es un destacado modelo de aprendizaje profundo perteneciente a la categoría de modelos de difusión, diseñado específicamente para la generación de texto a imagen. Lanzado en 2022 por investigadores e ingenieros de CompVis, Stability AI y LAION, ganó popularidad rápidamente debido a su capacidad para crear imágenes detalladas y de alta calidad a partir de descripciones textuales y a su naturaleza de código abierto, lo que hizo ampliamente accesibles las capacidades avanzadas de la IA generativa. A diferencia de muchos otros modelos generativos potentes de la época, Stable Diffusion puede ejecutarse en hardware de consumo con una GPU.

Cómo funciona la difusión estable

En esencia, la Difusión Estable utiliza un proceso de difusión que opera dentro de un espacio latente de menor dimensión para lograr eficiencia computacional. El proceso consta de dos etapas principales:

  1. Difusión hacia delante (ruido): Partiendo de una imagen real, se añade ruido gaussiano de forma incremental a lo largo de muchos pasos hasta que sólo queda ruido aleatorio. Este proceso enseña al modelo cómo se distribuye el ruido a distintos niveles.
  2. Difusión inversa (Denoising): Para generar una imagen, el modelo comienza con ruido aleatorio en el espacio latente e iterativamente elimina el ruido, paso a paso. Este proceso de eliminación de ruido está guiado por el texto de entrada, que se codifica y se introduce en el modelo, normalmente mediante técnicas como el CLIP (Preentrenamiento Contrastivo Lenguaje-Imagen), para garantizar que la imagen generada coincide con la descripción del texto. A continuación, la representación latente desdenotizada final se descodifica en una imagen de resolución completa.

Este refinamiento iterativo permite al modelo sintetizar imágenes complejas y coherentes a partir de entradas textuales diversas.

Diferencias clave con las GAN

Aunque tanto la Difusión Estable como las Redes Adversariales Generativas (GAN ) se utilizan para generar imágenes, funcionan de forma diferente:

  • Proceso de entrenamiento: Los GAN implican un generador y un discriminador que compiten entre sí, lo que a veces puede dar lugar a un entrenamiento inestable. Los modelos de difusión, como la Difusión Estable, tienen un proceso de entrenamiento más estable basado en aprender a invertir un procedimiento de ruido fijo.
  • Proceso de generación: Las GAN suelen generar imágenes en una sola pasada hacia delante a través de la red generadora. La Difusión Estable genera imágenes mediante un proceso iterativo de eliminación de ruido en varios pasos.
  • Calidad y diversidad de los resultados: Los modelos de difusión suelen destacar en la generación de imágenes diversas y de alta fidelidad, aunque los GAN a veces pueden ser más rápidos en el momento de la inferencia. Lee más sobre el trabajo de investigación original de Difusión Estable para conocer los detalles técnicos.

Aplicaciones en el mundo real

La versatilidad de la Difusión Estable permite numerosas aplicaciones en diversos campos:

  • Creación de Arte y Contenidos: Artistas, diseñadores y creadores de contenidos utilizan Stable Diffusion para generar imágenes, ilustraciones y arte conceptual únicos a partir de mensajes de texto, iterando rápidamente sobre las ideas. Plataformas como DreamStudio deStability AI AI proporcionan interfaces fáciles de usar.
  • Generación de Datos Sintéticos: Puede utilizarse para crear datos sintéticos realistas para entrenar otros modelos de aprendizaje automático, sobre todo en tareas de visión por ordenador en las que los datos del mundo real pueden ser escasos o caros de etiquetar. Esto puede complementar las estrategias de aumento de datos.
  • Educación e Investigación: Los investigadores lo utilizan para estudiar el aprendizaje profundo, explorar las capacidades y limitaciones de los modelos generativos e investigar cuestiones como el sesgo algorítmico.
  • Medios personalizados: Generación de imágenes personalizadas para presentaciones, redes sociales o entretenimiento basadas en peticiones específicas del usuario.

Acceso y uso

Los modelos de difusión estable y las herramientas relacionadas están ampliamente disponibles a través de plataformas como Hugging Facea menudo utilizando bibliotecas como la popular biblioteca Diffusers. Su naturaleza abierta fomenta el desarrollo comunitario y el ajuste para tareas o estilos específicos, contribuyendo a la rápida evolución de la inteligencia artificial (IA). Aunque Ultralytics se centra principalmente en modelos eficientes de detección de objetos como Ultralytics YOLO y herramientas como Ultralytics HUB, comprender modelos generativos como la Difusión Estable es crucial en el panorama más amplio de la IA.

Leer todo