Descobre como os modelos de difusão revolucionam a IA generativa, criando imagens, vídeos e dados realistas com um detalhe e uma estabilidade inigualáveis.
Os modelos de difusão são uma classe de modelos generativos na aprendizagem automática (ML) que ganharam uma atenção significativa pela sua capacidade de produzir amostras diversificadas e de alta qualidade, particularmente no domínio da visão computacional (CV). Inspirados em conceitos de termodinâmica, estes modelos funcionam adicionando sistematicamente ruído aos dados (como uma imagem) num "processo de avanço" até se tornarem puro ruído, aprendendo depois a inverter este processo. O "processo inverso" envolve o treino de uma rede neural para remover gradualmente o ruído, partindo de um ruído aleatório e refinando-o iterativamente até ser gerada uma amostra de dados realista.
A ideia central envolve duas fases:
Os modelos de difusão diferem significativamente de outras abordagens generativas populares, como as redes adversariais generativas (GAN). Enquanto as GAN envolvem um gerador e um discriminador que competem entre si, levando frequentemente à instabilidade do treino, os modelos de difusão tendem a ter uma dinâmica de treino mais estável. Frequentemente, obtêm uma melhor diversidade e qualidade de amostragem em comparação com as GAN, embora normalmente exijam mais passos computacionais durante a inferência (geração), tornando-os mais lentos. Ao contrário dos Autoencodificadores Variacionais (VAEs), que aprendem um espaço latente comprimido, os modelos de difusão operam diretamente no espaço de dados através do processo de ruído e de redução de ruído. Uma variante popular é a difusão estável, conhecida pela sua eficiência e resultados de alta qualidade.
Os modelos de difusão são excelentes para tarefas que exigem uma geração de alta fidelidade:
Frameworks como PyTorch e bibliotecas como a bibliotecaHugging Face Diffusers fornecem ferramentas e modelos pré-treinados, facilitando aos programadores a experimentação e a utilização de modelos de difusão. A sua capacidade de gerar dados diversificados e de alta qualidade torna-os uma ferramenta poderosa na evolução contínua da IA generativa.