Glossário

Difusão estável

Descobre o Stable Diffusion, um modelo de IA de vanguarda para gerar imagens realistas a partir de instruções de texto, revolucionando a criatividade e a eficiência.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Stable Diffusion é um modelo proeminente de aprendizagem profunda (DL) pertencente à categoria de modelos de difusão, especificamente concebido para a geração de texto para imagem. Lançado em 2022 por investigadores e engenheiros da CompVis, Stability AIe LAION, rapidamente ganhou popularidade devido à sua capacidade de criar imagens detalhadas e de alta qualidade a partir de descrições textuais. A sua natureza de código aberto tornou as capacidades avançadas de IA generativa amplamente acessíveis. Ao contrário de muitos outros modelos generativos poderosos da altura, o Stable Diffusion pode ser executado em hardware de consumo com uma GPU (Unidade de Processamento Gráfico) adequada.

Como funciona a difusão estável

No seu núcleo, o Stable Diffusion utiliza um processo de difusão. Este processo começa com um padrão de ruído aleatório e refina-o gradualmente, passo a passo, removendo o ruído de acordo com a orientação fornecida por uma mensagem de texto. Para tornar este processo computacionalmente eficiente, grande parte do processo opera num espaço latente de dimensão inferior, em vez de operar diretamente em dados de píxeis de alta resolução. Os avisos de texto são interpretados utilizando um codificador de texto, muitas vezes baseado em modelos como o CLIP (Contrastive Language-Image Pre-training), que traduz as palavras numa representação que o processo de geração de imagens pode compreender. Este refinamento iterativo permite que o modelo sintetize imagens complexas e coerentes com base em diversas entradas de texto, conforme descrito no documento de investigação original Stable Diffusion.

Principais diferenças em relação aos GANs

Embora tanto a Difusão Estável como as Redes Adversárias Generativas (GAN) sejam utilizadas para a geração de imagens, funcionam de forma diferente:

  • Processo de formação: Os GANs envolvem um processo competitivo entre um gerador (que cria imagens) e um discriminador (que julga imagens), o que por vezes pode levar a um treino instável. Os modelos de difusão, como o Stable Diffusion, têm geralmente uma dinâmica de formação mais estável, aprendendo a inverter um processo de adição de ruído.
  • Qualidade e diversidade da imagem: Os GANs têm sido historicamente excelentes na produção de imagens nítidas, mas podem por vezes sofrer de "colapso de modo", em que geram variações limitadas. Os modelos de difusão conseguem muitas vezes uma melhor diversidade e coerência de imagem, alinhando-se bem com pedidos complexos, embora possam exigir mais passos computacionais durante a inferência.
  • Mecanismo: Os GANs aprendem a gerar diretamente uma imagem a partir de um vetor aleatório. Os modelos de difusão aprendem a eliminar o ruído de um padrão aleatório iterativamente com base em informações condicionantes (como texto).

Aplicações no mundo real

A versatilidade da difusão estável permite inúmeras aplicações em vários domínios:

  • Artes criativas e design: Os artistas, designers e criadores de conteúdos utilizam ferramentas como o DreamStudio daStability AI ou software integrado para gerar imagens únicas, arte concetual, ilustrações, materiais de marketing e até texturas para modelos 3D com base em descrições de texto.
  • Geração de dados sintéticos: Na aprendizagem automática (ML), em particular na visão computacional (CV), a difusão estável pode criar dados sintéticos. Por exemplo, a geração de imagens variadas de objectos raros ou cenários específicos pode aumentar os dados de treino para tarefas como a deteção de objectos, melhorando potencialmente a robustez de modelos como o Ultralytics YOLO. Trata-se de uma forma de aumento de dados.
  • Ensino e investigação: Gera ajudas visuais para tópicos complexos ou explora resultados potenciais em simulações.
  • Entretenimento: Criar recursos para jogos, mundos virtuais ou storyboarding em filmes.

Acesso e utilização

Os modelos de difusão estável e as ferramentas relacionadas estão amplamente disponíveis em plataformas como Hugging Faceutilizando frequentemente bibliotecas como a popular biblioteca Diffusers em estruturas como PyTorch ou TensorFlow. A sua natureza aberta incentiva o desenvolvimento da comunidade e o aperfeiçoamento para tarefas ou estilos específicos, contribuindo para a rápida evolução da inteligência artificial (IA). Enquanto Ultralytics se concentra principalmente em modelos eficientes de deteção de objectos (YOLOv8, YOLOv10, YOLO11) e em ferramentas como o Ultralytics HUB para simplificar os MLOps, a compreensão de modelos generativos como o Stable Diffusion é crucial no panorama mais vasto da IA.

Considerações éticas

O poder de modelos generativos como o Stable Diffusion também traz desafios éticos. As preocupações incluem o potencial para criar deepfakes convincentes, gerar conteúdo explícito não consensual ou perpetuar preconceitos sociais presentes nos dados de treino, levando a preconceitos algorítmicos. O desenvolvimento e a implementação destas tecnologias requerem uma análise cuidadosa da ética da IA e a implementação de salvaguardas para práticas de IA responsáveis.

Lê tudo