了解扩散模型如何通过创建具有无与伦比的细节和稳定性的逼真图像、视频和数据,彻底改变生成式人工智能。
扩散模型是机器学习(ML)中的一类生成模型,因其生成高质量、多样化样本的能力而备受关注,尤其是在计算机视觉(CV)领域。受热力学概念的启发,这些模型的工作原理是在 "正向过程 "中系统地向数据(如图像)中添加噪声,直到数据变成纯噪声,然后学习逆转这一过程。反向过程 "包括训练一个神经网络,从随机噪声开始逐步去除噪声,并不断改进,直到生成一个真实的数据样本。
核心理念包括两个阶段:
扩散模型与生成对抗网络(GANs)等其他流行的生成方法有很大不同。生成对抗网络涉及生成器和判别器的相互竞争,往往会导致训练的不稳定性,而扩散模型往往具有更稳定的训练动态。与 GANs 相比,扩散模型通常能获得更好的样本多样性和质量,不过它们在推理(生成)过程中通常需要更多的计算步骤,因此速度较慢。与学习压缩潜空间的变异自动编码器(VAE)不同,扩散模型通过噪声和去噪过程直接在数据空间中运行。稳定扩散(Stable Diffusion)是一种流行的变体,以高效和高质量输出而著称。
扩散模型在需要高保真生成的任务中表现出色:
框架,如 PyTorch等框架和Hugging Face 扩散库等库提供了工具和预训练模型,使开发人员更容易尝试和部署扩散模型。它们生成多样化和高质量数据的能力使其成为生成式人工智能不断发展的有力工具。