Modelos de difusão
Descubra como os modelos de difusão revolucionam a IA generativa, criando imagens, vídeos e dados realistas com detalhes e estabilidade inigualáveis.
Os modelos de difusão são uma classe de modelos generativos que se tornaram uma pedra angular da IA generativa moderna. Foram concebidos para criar novos dados, como imagens ou sons, que sejam semelhantes aos dados em que foram treinados. A ideia central é inspirada na termodinâmica. O modelo aprende a inverter um processo de adição gradual de ruído a uma imagem até esta se tornar puramente estática. Ao aprender este processo de "denoising", o modelo pode começar com ruído aleatório e refiná-lo progressivamente numa amostra coerente e de alta qualidade. Este processo de refinamento passo a passo é fundamental para a sua capacidade de gerar resultados altamente detalhados e realistas.
Como funcionam os modelos de difusão?
O processo subjacente aos modelos de difusão envolve duas fases principais:
- Processo de avanço (difusão): Nesta fase, uma imagem nítida é sistematicamente degradada através da adição de uma pequena quantidade de ruído gaussiano em várias etapas. Isto continua até que a imagem seja indistinguível do ruído puro. Este processo de avanço é fixo e não envolve qualquer aprendizagem; simplesmente fornece um objetivo para o modelo aprender a inverter.
- Processo inverso (Denoising): É aqui que a aprendizagem acontece. Uma rede neural é treinada para pegar numa imagem com ruído do processo de avanço e prever o ruído que foi adicionado no passo anterior. Ao subtrair repetidamente este ruído previsto, o modelo pode começar com uma imagem completamente aleatória (ruído puro) e transformá-la gradualmente numa imagem limpa e nítida. Este processo de redução de ruído aprendido é o que permite ao modelo gerar novos dados a partir do zero. O artigo fundamental,"Denoising Diffusion Probabilistic Models" (Modelos probabilísticos de difusão de redução de ruído), lançou muitas das bases para esta abordagem.
Modelos de difusão vs. outros modelos generativos
Os modelos de difusão diferem significativamente de outras abordagens generativas populares, como as redes adversariais generativas (GAN).
- Estabilidade de treinamento: Os modelos de difusão têm normalmente um processo de formação mais estável do que os GAN. Os GANs envolvem um jogo contraditório complexo entre um gerador e um discriminador, que por vezes pode ser difícil de equilibrar e pode não convergir.
- Qualidade e diversidade da amostra: Embora ambos possam produzir resultados de alta qualidade, os modelos de difusão são muitas vezes excelentes na geração de imagens altamente diversificadas e fotorrealistas, superando por vezes os GANs em determinados parâmetros de referência. Esta qualidade, no entanto, pode ter o custo de uma maior latência de inferência.
- Velocidade de inferência: Tradicionalmente, os modelos de difusão são mais lentos na geração de amostras porque requerem muitas etapas iterativas de denoising. Em contrapartida, os GAN podem gerar uma amostra numa única passagem. No entanto, a investigação ativa e técnicas como a destilação de conhecimentos estão a reduzir rapidamente esta diferença de velocidade.
Aplicações no mundo real
Os modelos de difusão estão a impulsionar uma nova onda de criatividade e inovação em vários domínios:
- Geração de imagens de alta fidelidade: Esta é a aplicação mais conhecida. Os modelos desenvolvidos por empresas como a Stability AI e a OpenAI podem criar imagens incrivelmente realistas e artísticas a partir de simples comandos de texto. Exemplos proeminentes incluem o Stable Diffusion, o DALL-E 3, o Midjourney e o Imagen da Google. Estas ferramentas transformaram a arte digital e a criação de conteúdos.
- Edição e pintura de imagens: Não servem apenas para criar imagens de raiz. Os modelos de difusão podem modificar de forma inteligente imagens existentes com base em instruções, como adicionar ou remover objectos, alterar estilos artísticos ou preencher partes em falta de uma fotografia (pintura). Ferramentas como o Adobe Firefly tiram partido destas capacidades.
- Síntese de áudio e vídeo: Os princípios da difusão são também aplicados a outros tipos de dados. Modelos como o AudioLDM podem gerar discurso, música e efeitos sonoros realistas, enquanto modelos como o Sora da OpenAI estão a alargar os limites da geração de texto para vídeo.
- Aumento de dados: Na visão computacional, os modelos de difusão podem ser utilizados para gerar dados de treino sintéticos. Isto é particularmente útil para melhorar a robustez de modelos como o Ultralytics YOLO para tarefas como a deteção de objectos ou a segmentação de imagens, especialmente quando os dados do mundo real são escassos.
Ferramentas e desenvolvimento
O desenvolvimento e a utilização de modelos de difusão envolvem normalmente estruturas de aprendizagem automática como o PyTorch e o TensorFlow. Para facilitar o desenvolvimento, bibliotecas como a biblioteca Hugging Face Diffusers oferecem modelos e ferramentas pré-treinados. Embora essas ferramentas se concentrem no modelo generativo em si, plataformas como o Ultralytics HUB podem ajudar a gerenciar o fluxo de trabalho mais amplo, incluindo o gerenciamento e a implantação de conjuntos de dados, complementando o desenvolvimento de soluções abrangentes de IA. À medida que esses modelos se tornam mais difundidos, é crucial considerar a ética da IA e enfrentar desafios como o viés algorítmico.