Glossário

Modelos de difusão

Descobre como os modelos de difusão revolucionam a IA generativa, criando imagens, vídeos e dados realistas com um detalhe e uma estabilidade inigualáveis.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os modelos de difusão são uma classe de modelos generativos na aprendizagem automática (ML) que ganharam uma atenção significativa pela sua capacidade de produzir amostras diversificadas e de alta qualidade, particularmente no domínio da visão computacional (CV). Inspirados em conceitos de termodinâmica, estes modelos funcionam adicionando sistematicamente ruído aos dados (como uma imagem) num "processo de avanço" até se tornarem puro ruído, aprendendo depois a inverter este processo. O "processo inverso" envolve o treino de uma rede neural para remover gradualmente o ruído, partindo de um ruído aleatório e refinando-o iterativamente até ser gerada uma amostra de dados realista.

Como funcionam os modelos de difusão

A ideia central envolve duas fases:

  1. Processo de difusão progressiva: Esta fase pega numa amostra de dados original (por exemplo, uma imagem) e adiciona gradualmente uma pequena quantidade de ruído Gaussiano ao longo de vários passos. Este processo continua até que a imagem original seja indistinguível do ruído aleatório. Esta fase é fixa e não envolve aprendizagem.
  2. Processo de Denoising Inverso: É aqui que a aprendizagem acontece. Um modelo, normalmente uma arquitetura de rede neural sofisticada como uma U-Net, é treinado para prever o ruído adicionado em cada passo do processo de avanço. Durante a geração, o modelo começa com ruído puro e utiliza as suas previsões aprendidas para remover o ruído de forma incremental no mesmo número de passos, invertendo efetivamente a difusão e gerando uma nova amostra de dados. Este refinamento passo a passo permite a criação de resultados altamente detalhados.

Comparação com outros modelos generativos

Os modelos de difusão diferem significativamente de outras abordagens generativas populares, como as redes adversariais generativas (GAN). Enquanto as GAN envolvem um gerador e um discriminador que competem entre si, levando frequentemente à instabilidade do treino, os modelos de difusão tendem a ter uma dinâmica de treino mais estável. Frequentemente, obtêm uma melhor diversidade e qualidade de amostragem em comparação com as GAN, embora normalmente exijam mais passos computacionais durante a inferência (geração), tornando-os mais lentos. Ao contrário dos Autoencodificadores Variacionais (VAEs), que aprendem um espaço latente comprimido, os modelos de difusão operam diretamente no espaço de dados através do processo de ruído e de redução de ruído. Uma variante popular é a difusão estável, conhecida pela sua eficiência e resultados de alta qualidade.

Aplicações dos modelos de difusão

Os modelos de difusão são excelentes para tarefas que exigem uma geração de alta fidelidade:

  • Síntese de texto para imagem: Modelos como o Imagen daGoogle e o DALL-E 2 da OpenAI utilizam técnicas de difusão para gerar imagens detalhadas com base em descrições textuais. Os utilizadores podem dar instruções e o modelo cria imagens correspondentes.
  • Análise de imagens médicas: Podem ser utilizadas para tarefas como a geração de imagens médicas sintéticas para aumentar os dados de formação, a super-resolução de imagens para melhorar a qualidade dos exames ou mesmo a deteção de anomalias através da aprendizagem da distribuição de tecidos saudáveis. Por exemplo, a geração de exames realistas de ressonância magnética ou tomografia computadorizada pode ajudar a treinar modelos de IA de diagnóstico sem depender apenas de dados limitados de pacientes, complementando tarefas como a segmentação de imagens para tumores.
  • Outras áreas: A investigação está a explorar a sua utilização na geração de áudio, geração de vídeo(como Google Veo), conceção de moléculas para a descoberta de medicamentos e compressão de dados.

Frameworks como PyTorch e bibliotecas como a bibliotecaHugging Face Diffusers fornecem ferramentas e modelos pré-treinados, facilitando aos programadores a experimentação e a utilização de modelos de difusão. A sua capacidade de gerar dados diversificados e de alta qualidade torna-os uma ferramenta poderosa na evolução contínua da IA generativa.

Lê tudo