术语表

稳定扩散

探索稳定扩散(Stable Diffusion),这是一种尖端的人工智能模型,可根据文字提示生成逼真的图像,彻底改变创造力和效率。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

稳定扩散Stable Diffusion)是一种著名的深度学习(DL)模型,属于扩散模型范畴,专门用于文本到图像的生成。由CompVis 的研究人员和工程师于 2022 年发布、 Stability AILAION 的研究人员于 2022 年发布,因其能够从文本描述中创建详细、高质量的图像而迅速走红。它的开源特性使得先进的生成式人工智能功能可以被广泛使用。与当时许多其他功能强大的生成模型不同,Stable Diffusion 可以在配备合适GPU (图形处理器)的消费级硬件上运行。

稳定扩散的工作原理

稳定扩散功能的核心是利用扩散过程。该过程从随机噪音模式开始,根据文本提示的指导,一步一步地去除噪音,逐步完善噪音模式。为了提高计算效率,该过程的大部分操作都是在低维潜在空间内进行,而不是直接在高分辨率像素数据上进行。文本提示使用文本编码器进行解释,通常基于CLIP(对比语言-图像预训练)等模型,该模型可将文字翻译成图像生成过程可以理解的表示形式。这种迭代改进使模型能够根据不同的文本输入合成复杂而连贯的图像,这在最初的稳定扩散研究论文中有详细介绍。

与全球网络的主要区别

虽然稳定扩散和生成对抗网络(GANs)都可用于生成图像,但它们的运行方式不同:

  • 训练过程:GANs 涉及生成器(创建图像)和判别器(判断图像)之间的竞争过程,有时会导致训练不稳定。像稳定扩散(Stable Diffusion)这样的扩散模型通常具有更稳定的训练动态,可以学习逆转噪声添加过程。
  • 图像质量和多样性:GAN 历来擅长生成清晰的图像,但有时也会出现 "模式崩溃 "的问题,即生成的图像变化有限。扩散模型通常能获得更好的图像多样性和一致性,并能很好地与复杂的提示保持一致,不过在推理过程中可能需要更多的计算步骤。
  • 机制GANs 学会从随机向量中直接生成图像。扩散模型学会根据条件信息(如文本)迭代去噪随机噪音模式。

实际应用

稳定扩散技术的多功能性使其在各个领域都能得到广泛应用:

  • 创意艺术与设计:艺术家、设计师和内容创作者使用Stability AI 的 DreamStudio等工具或集成软件,根据文字描述生成独特的视觉效果、概念艺术、插图、营销材料,甚至三维模型的纹理。
  • 合成数据生成:机器学习(ML)领域,尤其是计算机视觉(CV)领域,稳定扩散技术可以生成合成数据。例如,生成罕见物体或特定场景的各种图像,可以增强物体检测等任务的训练数据,从而提高模型的鲁棒性,如 Ultralytics YOLO.这是一种数据增强
  • 教育和研究:为复杂的课题制作直观教具,或在模拟中探索潜在的结果。
  • 娱乐:为游戏、虚拟世界或电影制作中的故事板创建资产。

访问和使用

稳定扩散模型和相关工具可通过以下平台广泛获取 Hugging Face等平台上广泛提供稳定的扩散模型和相关工具。 PyTorchTensorFlow.它的开放性鼓励了社区开发和针对特定任务或风格的微调,促进了人工智能(AI)的快速发展。Ultralytics 主要专注于高效的物体检测模型(YOLOv8)。YOLOv8,YOLOv10YOLO11) 和Ultralytics HUB等工具来简化MLOps,但在更广泛的人工智能领域,了解像稳定扩散这样的生成模型至关重要。

伦理方面的考虑

稳定扩散 "等生成模型的强大功能也带来了伦理挑战。令人担忧的问题包括:有可能产生令人信服的深度伪造、生成未经同意的明确内容,或延续训练数据中存在的社会偏见,从而导致算法偏差。开发和部署这些技术需要认真考虑人工智能伦理,并实施负责任的人工智能实践保障措施。

阅读全部