Glosario

Difusión estable

Descubre la Difusión Estable, un modelo de IA de vanguardia para generar imágenes realistas a partir de indicaciones de texto, revolucionando la creatividad y la eficacia.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Difusión Estable es un destacado modelo de aprendizaje profundo (deep learning, DL) perteneciente a la categoría de los modelos de difusión, diseñado específicamente para la generación de texto a imagen. Lanzado en 2022 por investigadores e ingenieros de CompVis, Stability AIy LAION, ganó popularidad rápidamente por su capacidad para crear imágenes detalladas y de alta calidad a partir de descripciones textuales. Su naturaleza de código abierto hizo que las capacidades avanzadas de la IA generativa fueran ampliamente accesibles. A diferencia de muchos otros modelos generativos potentes de la época, Stable Diffusion puede ejecutarse en hardware de consumo con una GPU (Unidad de Procesamiento Gráfico) adecuada.

Cómo funciona la difusión estable

En esencia, la Difusión Estable utiliza un proceso de difusión. Este proceso comienza con un patrón de ruido aleatorio y lo refina gradualmente, paso a paso, eliminando el ruido según la orientación proporcionada por una indicación de texto. Para que sea eficiente desde el punto de vista informático, gran parte del proceso opera en un espacio latente de baja dimensión, en lugar de hacerlo directamente sobre datos de píxeles de alta resolución. Las indicaciones de texto se interpretan mediante un codificador de texto, a menudo basado en modelos como CLIP (Contrastive Language-Image Pre-training), que traduce las palabras a una representación que el proceso de generación de imágenes pueda entender. Este refinamiento iterativo permite al modelo sintetizar imágenes complejas y coherentes a partir de entradas textuales diversas, como se detalla en el artículo original de investigación sobre la Difusión Estable.

Diferencias clave con las GAN

Aunque tanto la Difusión Estable como las Redes Adversariales Generativas (GAN ) se utilizan para generar imágenes, funcionan de forma diferente:

  • Proceso de entrenamiento: Las GAN implican un proceso competitivo entre un generador (que crea imágenes) y un discriminador (que juzga las imágenes), que a veces puede dar lugar a un entrenamiento inestable. Los modelos de difusión como la Difusión Estable suelen tener una dinámica de entrenamiento más estable, aprendiendo a invertir un proceso de adición de ruido.
  • Calidad y diversidad de la imagen: Los GAN han destacado históricamente en la producción de imágenes nítidas, pero a veces pueden sufrir un "colapso de modo", en el que generan variaciones limitadas. Los modelos de difusión a menudo consiguen una mejor diversidad y coherencia de imagen, alineándose bien con indicaciones complejas, aunque pueden requerir más pasos computacionales durante la inferencia.
  • Mecanismo: Los GAN aprenden a generar directamente una imagen a partir de un vector aleatorio. Los modelos de difusión aprenden a eliminar el ruido de un patrón aleatorio de forma iterativa basándose en información condicionante (como el texto).

Aplicaciones en el mundo real

La versatilidad de la Difusión Estable permite numerosas aplicaciones en diversos campos:

  • Artes creativas y diseño: Los artistas, diseñadores y creadores de contenidos utilizan herramientas como DreamStudio deStability AI o software integrado para generar elementos visuales únicos, arte conceptual, ilustraciones, materiales de marketing e incluso texturas para modelos 3D basados en descripciones de texto.
  • Generación de Datos Sintéticos: En el aprendizaje automático (AM), en particular en la visión por ordenador (VC), la Difusión Estable puede crear datos sintéticos. Por ejemplo, generar imágenes variadas de objetos raros o escenarios específicos puede aumentar los datos de entrenamiento para tareas como la detección de objetos, mejorando potencialmente la robustez de modelos como Ultralytics YOLO. Se trata de una forma de aumento de datos.
  • Educación e investigación: Generación de ayudas visuales para temas complejos o exploración de posibles resultados en simulaciones.
  • Entretenimiento: Creación de activos para juegos, mundos virtuales o guiones gráficos para cine.

Acceso y uso

Los modelos de difusión estable y las herramientas relacionadas están ampliamente disponibles a través de plataformas como Hugging Facea menudo utilizando bibliotecas como la popular biblioteca Diffusers dentro de marcos como PyTorch o TensorFlow. Su naturaleza abierta fomenta el desarrollo comunitario y el ajuste para tareas o estilos específicos, contribuyendo a la rápida evolución de la inteligencia artificial (IA). Mientras que Ultralytics se centra principalmente en modelos eficientes de detección de objetos (YOLOv8, YOLOv10YOLO11) y herramientas como Ultralytics HUB para agilizar los MLOps, comprender modelos generativos como la Difusión Estable es crucial en el panorama más amplio de la IA.

Consideraciones éticas

El poder de los modelos generativos como la Difusión Estable también conlleva retos éticos. Las preocupaciones incluyen la posibilidad de crear deepfakes convincentes, generar contenidos explícitos no consentidos o perpetuar los sesgos sociales presentes en los datos de entrenamiento, lo que llevaría a un sesgo algorítmico. El desarrollo y despliegue de estas tecnologías requiere una cuidadosa consideración de la ética de la IA y la aplicación de salvaguardias para unas prácticas de IA responsables.

Leer todo