词汇表

扩散模型

探索扩散模型如何运用生成式人工智能创建高保真数据。立即学习如何通过逼真的合成数据Ultralytics 。

扩散模型是一类生成式人工智能算法，通过逆转渐进式噪声添加过程来学习创建新数据样本。与用于物体检测或分类等任务的传统判别模型（从数据中预测标签）不同，扩散模型专注于生成高度逼真的内容——尤其是图像、音频和视频——这些内容能精确模拟现实世界数据的统计特性。凭借训练稳定性与多样化输出能力，扩散模型已迅速成为高分辨率图像合成领域的尖端解决方案，超越了生成对抗网络（GAN）等先前主流技术。

扩散模型如何运作

扩散模型的核心机制基于非平衡热力学原理。训练过程包含两个截然不同的阶段：正向过程（扩散）与反向过程（去噪）。

前向过程：该阶段通过在多个时间步长上添加微量高斯噪声，系统性地破坏训练图像的结构。随着过程持续进行，复杂数据（如猫的照片）逐渐转化为纯粹的、无结构的随机噪声。
逆向处理： 神经网络的目标是学习如何逆转这种损伤。模型从随机噪声开始，预测每个步骤添加的噪声并将其减去。通过反复去除噪声，模型对随机信号进行"去噪"处理，直至获得连贯、高质量的图像。

这种迭代优化方法能够对精细细节和纹理进行卓越的控制，相较于单步生成方法具有显著优势。

实际应用

扩散模型已从学术研究领域迈向实践应用，成为各行业中实用的生产级工具。

合成数据生成：对计算机视觉工程师而言最具价值的应用之一，便是创建合成数据以增强训练数据集。当数据集缺乏多样性时——例如缺少雪地环境中的汽车图像——扩散模型可生成逼真的变体。这有助于提升YOLO26等视觉模型在不可预测环境中的部署稳健性。
图像修复与编辑：扩散模型驱动的先进编辑工具可让用户修改图像的特定区域。这种被称为图像修复的技术，能根据周边环境移除不需要的物体或填补照片缺失部分。建筑师和设计师利用此技术进行快速原型设计，无需手动3D渲染即可可视化产品或环境的变更效果。

区分关键术语

区分扩散模型与其他生成式架构是有益的：

扩散模型与生成对抗网络（GANs）的对比： GANs采用两个相互竞争的网络（生成器和鉴别器），以快速采样著称，但常受"模式坍缩"困扰——模型生成的输出种类有限。扩散模型在训练过程中通常更稳定，能更全面地覆盖数据分布，但在推理阶段可能速度较慢。
扩散模型与 变分自 编码器 （VAE） 的对比： 变分自编码器（VAE）将数据压缩至潜在空间后再进行重建。尽管VAE处理速度快，但其生成的图像有时会显得模糊 ——相较于扩散过程所呈现的清晰细节而言。

具体实施

从零开始训练扩散模型需要大量计算资源，但工程师可利用预训练模型，或将其与高效检测器集成到工作流程中。例如，您可使用扩散模型为数据集生成背景变体，再Ultralytics 对增强后的数据进行标注并训练检测模型。

以下是一个使用 torch 模拟一个简单的向前扩散步骤（添加噪声），这是训练这些系统的基础。

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

未来发展方向

该领域正迅速向潜在扩散模型（LDMs）发展，这类模型在压缩的潜在空间而非像素空间中运行，从而降低计算成本。这种效率使得在消费级硬件上运行强大的生成模型成为可能。随着研究深入，我们预期生成式输入与鉴别式任务将实现更紧密的融合——例如利用扩散生成的场景验证自动驾驶车辆的安全性，或通过模拟罕见病理来提升医学影像分析精度。

扩散模型

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

扩散模型如何运作

实际应用

区分关键术语

具体实施

未来发展方向

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

什么是单目深度估计？概述

Ultralytics YOLO 进行人工智能威胁检测

加入Ultralytics 社区