Glossário

Difusão estável

Descobre o Stable Diffusion, um modelo de IA de vanguarda para gerar imagens realistas a partir de instruções de texto, revolucionando a criatividade e a eficiência.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Stable Diffusion é um modelo de aprendizagem profunda proeminente pertencente à categoria de modelos de difusão, especificamente concebido para a geração de texto para imagem. Lançado em 2022 por investigadores e engenheiros da CompVis, Stability AI e LAION, rapidamente ganhou popularidade devido à sua capacidade de criar imagens detalhadas e de alta qualidade a partir de descrições textuais e à sua natureza de código aberto, tornando as capacidades avançadas de IA generativa amplamente acessíveis. Ao contrário de muitos outros modelos generativos poderosos na altura, o Stable Diffusion pode ser executado em hardware de consumo com uma GPU.

Como funciona a difusão estável

Na sua essência, a Difusão Estável utiliza um processo de difusão que opera num espaço latente de dimensão inferior para eficiência computacional. O processo envolve duas etapas principais:

  1. Difusão progressiva (ruído): Começando com uma imagem real, o ruído Gaussiano é adicionado gradualmente ao longo de vários passos até que apenas reste ruído aleatório. Este processo ensina ao modelo como o ruído é distribuído em diferentes níveis.
  2. Difusão inversa (Denoising): Para gerar uma imagem, o modelo começa com ruído aleatório no espaço latente e remove iterativamente o ruído, passo a passo. Este processo de redução de ruído é orientado pelo texto de entrada, que é codificado e introduzido no modelo, normalmente utilizando técnicas como CLIP (Contrastive Language-Image Pre-training), para garantir que a imagem gerada corresponde à descrição do texto. A representação latente denotizada final é então descodificada numa imagem de resolução total.

Este refinamento iterativo permite que o modelo sintetize imagens complexas e coerentes com base em diversas entradas textuais.

Principais diferenças em relação aos GANs

Embora tanto a Difusão Estável como as Redes Adversárias Generativas (GAN) sejam utilizadas para a geração de imagens, funcionam de forma diferente:

  • Processo de treinamento: Os GANs envolvem um gerador e um discriminador que competem entre si, o que por vezes pode levar a uma formação instável. Os modelos de difusão, como o Stable Diffusion, têm um processo de treinamento mais estável baseado na aprendizagem para reverter um procedimento de ruído fixo.
  • Processo de geração: Os GANs normalmente geram imagens numa única passagem através da rede geradora. A difusão estável gera imagens através de um processo iterativo de redução de ruído em várias etapas.
  • Qualidade e diversidade dos resultados: Os modelos de difusão geralmente são excelentes na geração de imagens diversas e de alta fidelidade, embora os GANs possam, às vezes, ser mais rápidos no momento da inferência. Lê mais sobre o artigo de investigação original da Difusão Estável para obteres detalhes técnicos.

Aplicações no mundo real

A versatilidade da difusão estável permite inúmeras aplicações em vários domínios:

  • Criação de arte e conteúdo: Artistas, designers e criadores de conteúdos utilizam o Stable Diffusion para gerar imagens, ilustrações e conceitos artísticos únicos a partir de sugestões de texto, repetindo rapidamente as ideias. Plataformas como o DreamStudio daStability AI fornecem interfaces fáceis de utilizar.
  • Geração de dados sintéticos: Pode ser utilizado para criar dados sintéticos realistas para treinar outros modelos de aprendizagem automática, nomeadamente em tarefas de visão computacional em que os dados do mundo real podem ser escassos ou dispendiosos para rotular. Isto pode complementar as estratégias de aumento de dados.
  • Ensino e investigação: Os investigadores utilizam-no para estudar a aprendizagem profunda, explorar as capacidades e limitações dos modelos generativos e investigar questões como o enviesamento algorítmico.
  • Mídia personalizada: Gerar imagens personalizadas para apresentações, redes sociais ou entretenimento com base em pedidos específicos do utilizador.

Acesso e utilização

Os modelos de difusão estável e as ferramentas relacionadas estão amplamente disponíveis em plataformas como Hugging Faceutiliza frequentemente bibliotecas como a popular biblioteca Diffusers. A sua natureza aberta incentiva o desenvolvimento da comunidade e o aperfeiçoamento para tarefas ou estilos específicos, contribuindo para a rápida evolução da inteligência artificial (IA). Enquanto Ultralytics se concentra principalmente em modelos eficientes de deteção de objectos como o Ultralytics YOLO e em ferramentas como o Ultralytics HUB, a compreensão de modelos generativos como o Stable Diffusion é crucial no panorama mais vasto da IA.

Lê tudo