Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelos de Difusão

Explore como os modelos de difusão utilizam IA generativa para criar dados de alta fidelidade. Aprenda a melhorar o treinamento Ultralytics com dados sintéticos realistas hoje mesmo.

Os modelos de difusão são uma classe de algoritmos de IA generativa que aprendem a criar novas amostras de dados revertendo um processo gradual de adição de ruído. Ao contrário dos modelos discriminativos tradicionais usados para tarefas como detecção ou classificação de objetos, que prevêem rótulos a partir de dados, os modelos de difusão concentram-se na geração de conteúdo de alta fidelidade — principalmente imagens, áudio e vídeo — que imita de perto as propriedades estatísticas dos dados do mundo real. Eles rapidamente se tornaram a solução de ponta para síntese de imagens de alta resolução, ultrapassando líderes anteriores, como as redes adversárias generativas (GANs) , devido à sua estabilidade de treinamento e capacidade de gerar resultados diversificados.

Como funcionam os modelos de difusão

O mecanismo central de um modelo de difusão baseia-se na termodinâmica de não equilíbrio. O processo de treino envolve duas fases distintas: o processo direto (difusão) e o processo reverso (remoção de ruído).

  • Processo de avanço: esta fase destrói sistematicamente a estrutura de uma imagem de treino, adicionando pequenas quantidades de ruído gaussiano ao longo de uma série de etapas temporais . À medida que o processo continua, os dados complexos (como uma foto de um gato) transformam-se gradualmente em ruído aleatório puro e não estruturado.
  • Processo reverso: O objetivo da rede neural é aprender a reverter essa corrupção. A partir de ruído aleatório, o modelo prevê o ruído que foi adicionado em cada etapa e o subtrai. Ao remover o ruído iterativamente, o modelo "desruidiza" o sinal aleatório até que uma imagem coerente e de alta qualidade surja.

Este refinamento iterativo permite um controlo excecional sobre detalhes finos e textura, uma vantagem significativa em relação aos métodos de geração de etapa única.

Aplicações no Mundo Real

Os modelos de difusão ultrapassaram a investigação académica e tornaram-se ferramentas práticas e de nível industrial em vários setores.

  • Geração de dados sintéticos: Uma das aplicações mais valiosas para engenheiros de visão computacional é a criação de dados sintéticos para aumentar os conjuntos de dados de treino . Se um conjunto de dados carece de diversidade — por exemplo, faltam imagens de carros em condições de neve — um modelo de difusão pode gerar variações realistas. Isso ajuda a melhorar a robustez de modelos de visão como o YOLO26 quando implementados em ambientes imprevisíveis.
  • Recriação e edição de imagens: os modelos de difusão alimentam ferramentas de edição avançadas que permitem aos utilizadores modificar regiões específicas de uma imagem. Essa técnica, conhecida como recriação, pode remover objetos indesejados ou preencher partes ausentes de uma foto com base no contexto circundante. Arquitetos e designers usam isso para prototipagem rápida, visualizando mudanças em produtos ou ambientes sem a necessidade de renderização 3D manual.

Diferenciação de termos-chave

É útil distinguir os modelos de difusão de outras arquiteturas generativas:

  • Modelos de difusão vs. GANs: Embora os GANs utilizem duas redes concorrentes (um gerador e um discriminador) e sejam conhecidos pela amostragem rápida, muitas vezes sofrem de «colapso de modo », em que o modelo produz variedades limitadas de resultados. Os modelos de difusão são geralmente mais estáveis durante o treino e cobrem a distribuição dos dados de forma mais abrangente, embora possam ser mais lentos no momento da inferência .
  • Modelos de difusão vs. VAEs: Os Autoencoders Variacionais (VAEs) comprimem os dados num espaço latente e, em seguida, os reconstroem. Embora os VAEs sejam rápidos, as imagens geradas por eles podem, por vezes, parecer desfocadas em comparação com os detalhes nítidos produzidos pelos processos de difusão.

Aplicação prática

Embora treinar um modelo de difusão do zero exija um poder de computação significativo, os engenheiros podem aproveitar modelos pré-treinados ou integrá-los em fluxos de trabalho juntamente com detectores eficientes. Por exemplo, pode-se usar um modelo de difusão para gerar variações de fundo para um conjunto de dados e, em seguida, usar Ultralytics para anotar e treinar um modelo de detecção nesses dados aprimorados.

Abaixo está um exemplo conceitual usando torch para simular uma etapa simples de difusão para a frente (adicionando ruído), que é a base do treino desses sistemas.

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

Direções Futuras

O campo está a evoluir rapidamente para modelos de difusão latente (LDMs), que operam num espaço latente comprimido em vez de num espaço de pixels para reduzir os custos computacionais. Essa eficiência torna viável a execução de modelos generativos poderosos em hardware de consumo. À medida que a investigação continua, esperamos uma integração mais estreita entre entradas generativas e tarefas discriminativas, como o uso de cenários gerados por difusão para validar a segurança de veículos autónomos ou melhorar a análise de imagens médicas através da simulação de patologias raras .

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora