术语表

生成式人工智能

了解生成式人工智能如何创建文本、图像和音频等原创内容,并通过创新应用改变各行各业。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

生成式人工智能(AI)是人工智能(AI)的一个子集,侧重于创建能够生成新内容(如文本、图像、音频、代码或合成数据)的系统。与根据输入数据(如识别图像中的物体)学习分类或预测的判别式人工智能模型不同,生成式模型学习数据集中的基本模式和分布,以生成与训练数据类似的新的原始输出。最近的进步,尤其是生成预训练变换器(GPT)扩散模型等模型的进步,使得创建高度逼真和复杂的内容成为可能。

生成式人工智能如何工作

生成式人工智能模型通常通过学习训练数据概率分布的表示来工作。然后,它们可以从学习到的分布中采样,生成新的数据点。常见的架构包括

  • 生成式对抗网络(GANs):这涉及两个神经网络,一个生成器,一个判别器,它们相互竞争,以提高生成输出的质量。
  • 变形金刚:这些模型广泛应用于GPT-4大型语言模型 (LLM),利用注意力机制生成连贯且与上下文相关的序列,主要是文本。
  • 变异自动编码器(VAE):它们可以学习数据的压缩表示,并通过解码从潜在空间采样的点来生成新数据。
  • 扩散模型:这些模型的工作原理是逐渐向数据中添加噪音,然后学习逆向处理,从而实现高保真生成,尤其是图像(如稳定扩散)。

生成式人工智能与计算机视觉

虽然都是人工智能的分支,但生成式人工智能和计算机视觉(CV)的用途却有着本质的不同。

  • 生成式人工智能重点:创建新内容(如根据文字描述生成图像、撰写文章、创作音乐)。
  • 计算机视觉重点:分析和理解现有的视觉数据(例如,使用Ultralytics YOLO 等模型进行物体检测图像分类实例分割)。

正如在YOLO Vision 2024 "会议上所讨论的,与专为实时分析而设计的高效 CV 模型(如 Ultralytics YOLOv8等,其模型仅有几百万个参数)相比,生成式人工智能模型通常要大得多(数十亿个参数)。生成式人工智能需要大量计算资源进行训练和推理,而许多 CV 模型经过优化,可在标准硬件或边缘设备上部署。

不过,这些领域的交叉越来越多。生成式人工智能可以通过创建用于训练检测或分割模型的合成数据来协助 CV,尤其是在罕见情况下,从而有可能提高模型的稳健性和性能。

真实世界的应用与实例

生成式人工智能在各个领域都有大量应用:

  1. 内容创作:生成文章、营销文案、脚本(文本生成)、创建原始图像或艺术(文本到图像)、创作音乐或生成视频(文本到视频)。工具如 ChatGPTMidjourney等工具都是很受欢迎的例子。
  2. 数据扩充:创建人工数据样本,扩展有限的数据集。例如,生成罕见病症的合成图像,以提高用于医学图像分析的人工智能诊断系统的准确性。这有助于克服数据稀缺的问题,并提高模型的通用性。
  3. 药物发现与开发:模拟分子结构并预测其特性,以加速寻找新药,DeepMind 等公司对此进行了探索。
  4. 个性化:为复杂的聊天机器人和虚拟助理提供动力,创建个性化的学习材料,或生成量身定制的产品推荐。

伦理方面的考虑

生成式人工智能的强大功能也带来了重大的伦理挑战。其中包括生成错误信息或有害内容的可能性、创建令人信服的深度伪造内容、与生成内容的版权和知识产权相关的问题,以及从训练数据中学到的固有偏见。要解决这些问题,需要认真考虑人工智能伦理、透明度和健全的监管框架。负责任地开发和部署这些技术至关重要。要管理和训练您自己的人工智能模型,可以考虑Ultralytics HUB 等平台。

阅读全部