Glosario

Modelos de difusión

Descubre cómo los modelos de difusión revolucionan la IA generativa creando imágenes, vídeos y datos realistas con un detalle y una estabilidad inigualables.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos de difusión son una clase de modelos generativos de IA que han ganado gran atención por su capacidad para crear imágenes, vídeos y otras formas de datos de alta calidad. A diferencia de los modelos generativos tradicionales, como las Redes Adversariales Generativas (GAN), que aprenden a generar datos en un solo paso, los modelos de difusión funcionan mediante un proceso iterativo de adición de ruido a los datos y aprendizaje posterior para invertir este proceso. Este enfoque les permite producir resultados muy detallados y realistas, lo que los convierte en una poderosa herramienta en diversas aplicaciones creativas y científicas.

Cómo funcionan los modelos de difusión

Los modelos de difusión funcionan basándose en un proceso de dos fases: un proceso de difusión hacia delante y un proceso de difusión hacia atrás. En el proceso hacia delante, se añade gradualmente ruido gaussiano a los datos de entrenamiento a lo largo de una serie de pasos hasta que los datos se convierten en puro ruido. Esta fase destruye esencialmente la estructura de los datos. En el proceso inverso, el modelo aprende a desdenoizar los datos, eliminando iterativamente el ruido para reconstruir los datos originales. Al entrenar una red neuronal para predecir el ruido añadido en cada paso, el modelo aprende efectivamente a generar nuevas muestras de datos que se parecen mucho a los datos de entrenamiento. Este proceso iterativo de eliminación de ruido permite a los modelos de difusión captar patrones complejos y generar resultados de alta fidelidad.

Conceptos clave de los modelos de difusión

Varios conceptos importantes sustentan la funcionalidad de los modelos de difusión. Un concepto clave es la cadena de Markov, que es una secuencia de acontecimientos en la que la probabilidad de cada acontecimiento depende sólo del estado alcanzado en el acontecimiento anterior. En el contexto de los modelos de difusión, cada paso de adición o eliminación de ruido es un estado en la cadena de Markov. Otro concepto crucial es el uso de redes neuronales para aproximar el ruido en cada paso. Estas redes se entrenan para predecir el ruido añadido durante el proceso de avance, lo que permite al modelo invertir el proceso y generar nuevos datos. El proceso de entrenamiento consiste en optimizar la red neuronal para minimizar la diferencia entre el ruido predicho y el ruido real añadido.

Aplicaciones de los modelos de difusión

Los modelos de difusión han demostrado notables capacidades en una amplia gama de aplicaciones. Una aplicación destacada es la generación de imágenes, donde los modelos de difusión pueden crear imágenes muy realistas y detalladas a partir de descripciones textuales u otras formas de entrada. Por ejemplo, modelos como DALL-E 2 y Difusión Estable han demostrado su capacidad para generar imágenes fotorrealistas que se ajustan perfectamente a las indicaciones textuales.

Otra aplicación significativa es la generación de vídeo, donde los modelos de difusión pueden crear secuencias de vídeo coherentes y de alta calidad. Esta capacidad tiene implicaciones en campos como el cine, la animación y la creación de contenidos, ofreciendo nuevas herramientas para la expresión creativa.

Más allá de la generación de medios, los modelos de difusión también se utilizan en la investigación científica, sobre todo en campos como el descubrimiento de fármacos y la ciencia de materiales. Por ejemplo, pueden utilizarse para generar nuevas estructuras moleculares con las propiedades deseadas, acelerando el desarrollo de nuevos fármacos y materiales.

Modelos de difusión frente a otros modelos generativos

Aunque los modelos de difusión comparten similitudes con otros modelos generativos, tienen características distintivas que los diferencian. En comparación con las GAN, que generan datos en una sola pasada a través de una red generadora, los modelos de difusión utilizan un proceso iterativo que permite un entrenamiento más estable y unos resultados de mayor calidad. Las GAN son conocidas por su inestabilidad de entrenamiento y el reto que supone equilibrar las redes generadora y discriminadora. En cambio, los modelos de difusión evitan estos problemas transformando gradualmente los datos mediante una serie de pasos.

Otra clase relacionada de modelos son los autocodificadores variacionales (VAEs), que aprenden una representación latente de los datos y luego generan nuevos datos mediante el muestreo de este espacio latente. Aunque los VAE son eficaces, a menudo producen resultados borrosos o menos detallados que los modelos de difusión. El proceso iterativo de eliminación de ruido de los modelos de difusión les permite captar detalles más precisos y generar datos más realistas.

Ejemplos reales

Generación de imágenes: Una de las aplicaciones más conocidas de los modelos de difusión es la generación de imágenes. Por ejemplo, Stable Diffusion es un modelo de código abierto que puede generar imágenes muy detalladas a partir de indicaciones de texto. Los usuarios pueden introducir una descripción, como "un gato con sombrero", y el modelo producirá la imagen correspondiente. Esta tecnología se ha utilizado para crear obras de arte, diseñar prototipos y mejorar los flujos de trabajo creativos.

Descubrimiento de fármacos: En el campo del descubrimiento de fármacos, los modelos de difusión se utilizan para generar estructuras moleculares novedosas. Por ejemplo, los investigadores han utilizado modelos de difusión para diseñar nuevas moléculas con propiedades específicas, como la afinidad de unión a una proteína diana. Esta aplicación puede acelerar considerablemente el proceso de identificación de posibles candidatos a fármacos, reduciendo el tiempo y el coste asociados a los métodos tradicionales de desarrollo de fármacos.

Conclusión

Los modelos de difusión representan un avance significativo en el campo de la IA generativa, ya que ofrecen potentes capacidades para crear datos de alta calidad en diversos dominios. Su enfoque iterativo para generar datos permite una mayor estabilidad y detalle en comparación con otros modelos generativos. A medida que la investigación en este campo sigue evolucionando, los modelos de difusión están preparados para desempeñar un papel cada vez más importante en aplicaciones tanto creativas como científicas, impulsando la innovación y permitiendo nuevas posibilidades en la IA y el aprendizaje automático (AM). Para los interesados en explorar la vanguardia de la IA, es esencial comprender los modelos de difusión. Consulta nuestra guía completa para profundizar en cómo se utilizan estos modelos para crear contenidos realistas. También puedes explorar elblog Ultralytics para obtener más información sobre los últimos avances en IA y visión por ordenador.

Enlaces externos:

Leer todo