术语表

稳定扩散

探索稳定扩散(Stable Diffusion),这是一种尖端的人工智能模型,可根据文字提示生成逼真的图像,彻底改变创造力和效率。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

稳定扩散(Stable Diffusion)是一种著名的深度学习模型,属于扩散模型的范畴,专门用于文本到图像的生成。它于 2022 年由来自 CompVis、Stability AI 和 LAION 的研究人员和工程师发布,因其能够从文本描述中创建详细、高质量的图像,并具有开源性质,使高级生成式人工智能功能得到广泛应用,而迅速受到人们的欢迎。与当时许多其他功能强大的生成模型不同,Stable Diffusion 可以在消费级硬件上运行,并配备合适的 GPU.

稳定扩散的工作原理

稳定扩散法的核心是利用在低维潜在空间内运行的扩散过程,以提高计算效率。该过程包括两个主要阶段:

  1. 前向扩散(噪声):从真实图像开始,通过多个步骤逐步添加高斯噪声,直到只剩下随机噪声为止。这个过程可以让模型了解噪声在不同层次上的分布情况。
  2. 反向扩散(去噪):为了生成图像,模型从潜在空间中的随机噪声开始,一步步迭代去除噪声。这一去噪过程由输入文本提示引导,文本提示被编码并输入模型,通常使用CLIP(对比语言-图像预训练)等技术,以确保生成的图像与文本描述相匹配。然后将最终去噪的潜在表示解码为全分辨率图像。

这种迭代改进使模型能够根据不同的文本输入合成复杂而连贯的图像。

与全球网络的主要区别

虽然稳定扩散和生成对抗网络(GANs)都可用于生成图像,但它们的运行方式不同:

  • 训练过程:GAN 涉及生成器和判别器的相互竞争,有时会导致训练过程不稳定。像稳定扩散模型(Stable Diffusion)这样的扩散模型,其训练过程更稳定,因为它是基于反向学习一个固定的噪声程序。
  • 生成过程:GAN 通常通过生成器网络的一次前向传递生成图像。稳定扩散技术则是通过多个步骤的迭代去噪过程生成图像。
  • 输出质量和多样性:扩散模型通常擅长生成多样化的高保真图像,尽管 GAN 有时在推理时速度更快。如需了解更多技术细节,请阅读原始稳定扩散研究论文

实际应用

稳定扩散技术的多功能性使其在各个领域都能得到广泛应用:

  • 艺术和内容创作:艺术家、设计师和内容创作者可使用 Stable Diffusion 根据文本提示生成独特的视觉效果、插图和概念艺术,并快速迭代创意。Stability AI 的 DreamStudio等平台提供了用户友好的界面。
  • 合成数据生成:它可用于创建真实的合成数据,以训练其他机器学习模型,特别是在计算机视觉任务中,因为真实世界的数据可能很少或标注成本很高。这可以补充数据增强策略。
  • 教育与研究:研究人员利用它来研究深度学习、探索生成模型的能力和局限性,以及调查算法偏差等问题。
  • 个性化媒体:根据用户的具体要求,生成用于演示、社交媒体或娱乐的定制图像。

访问和使用

稳定扩散模型和相关工具可通过以下平台广泛获取 Hugging Face等平台广泛提供,通常使用的是流行的Diffusers 库。其开放性鼓励了社区开发和针对特定任务或风格的微调,促进了人工智能(AI)的快速发展。Ultralytics 主要关注高效的物体检测模型,如 Ultralytics YOLO等高效物体检测模型和Ultralytics HUB 等工具,但了解稳定扩散等生成模型在更广泛的人工智能领域也至关重要。

阅读全部