术语表

生成式人工智能

了解生成式人工智能如何创建文本、图像和音频等原创内容,并通过创新应用改变各行各业。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

生成式人工智能(AI)是更广泛的人工智能(AI)领域中的一个重要分支,特别侧重于创建能够生成全新原创内容的系统。这些内容可以跨越各种模式,包括文本、图像、音频、代码甚至合成数据。辨别式人工智能模型是根据输入数据进行分类或预测(如使用物体检测识别图像中的物体),而生成式模型则不同,它可以学习训练数据集中的基本模式、结构和概率分布。然后,它们利用这些学习到的知识生成模仿原始数据特征的新输出。最近的突破,尤其是在生成预训练变换器(GPT)扩散模型等架构的推动下,已经能够创建出非常逼真和复杂的内容,推动了机器创造力的发展。

生成式人工智能如何工作

大多数生成模型背后的核心理念是学习数据分布的表征。一旦学会了这种分布,模型就能从中采样,生成在统计上与训练数据相似的新数据点。这涉及复杂的神经网络(NN)架构和复杂的训练技术。一些著名的架构包括

生成式人工智能与计算机视觉

虽然都属于人工智能的子领域,但生成式人工智能和计算机视觉(CV)有着根本不同的目标。计算机视觉侧重于让机器能够解释理解来自世界的视觉信息,执行图像分类、物体检测和实例分割等任务。而生成式人工智能则侧重于创建新的视觉(或其他)内容。

在类似 "YOLO 2024 愿景"的讨论中突出强调的主要差异包括

  1. 模型大小:生成模型,尤其是 LLM 和大型图像模型,通常包含数十亿甚至数万亿个参数。为实时分析而设计的 CV 模型,如 Ultralytics YOLO11等为实时分析而设计的 CV模型通常要小得多,效率也高得多,有些变体只有几百万个参数(与YOLO 模型相比)。
  2. 计算资源:训练和运行大型生成模型需要强大的计算能力,通常需要GPU 的分布式集群。许多 CV 模型,包括Ultralytics 的模型,都针对效率进行了优化,可部署在标准硬件或专用边缘设备上,使用的框架包括 ONNXTensorRT.
  3. 目标:CV 分析现有数据;生成式人工智能合成新数据。

尽管存在这些差异,但这些领域之间的相互联系日益紧密。生成式人工智能通过生成高质量的合成数据,证明了其对 CV 的价值。这种合成数据可以增强真实世界的数据集,帮助训练更强大、更准确的 CV 模型,特别是在真实数据稀缺或难以获得的情况下,例如自动驾驶模拟或罕见病症成像(医疗保健中的人工智能)。

实际应用

生成式人工智能正在改变众多行业:

  • 内容创建:自动生成文章、营销文案、脚本(GPT-3),创建独特的图像和艺术品(MidjourneyDALL-E 3),创作音乐,生成视频内容(OpenAI Sora)。
  • 合成数据生成:机器人、金融(金融领域的计算机视觉模型)和医疗保健等领域创建用于训练 ML 模型的真实数据集,提高模型性能并解决数据隐私问题。例如,在不使用真实病人数据的情况下,生成合成医疗图像来训练诊断工具。
  • 药物发现与材料科学:设计新颖的分子结构并预测其特性,加快研发速度,Google DeepMind 等机构就是很好的证明。
  • 个性化:通过在聊天机器人、虚拟助手和推荐引擎中生成动态内容,为高度定制化的用户体验提供动力。
  • 软件开发:协助开发人员生成代码片段、提出错误修复建议,甚至根据自然语言描述创建整个功能(GitHub Copilot)。

挑战与伦理考虑

生成式人工智能的快速发展也带来了挑战。确保以合乎道德的方式使用这些强大的工具至关重要,尤其是在涉及深度伪造、错误信息、知识产权以及从训练数据中学到的固有偏见时。要解决这些问题,需要谨慎地开发模型、稳健的检测方法,以及在人工智能伦理原则中列出明确的指导方针。此外,所需的大量计算资源也会带来环境和可访问性方面的问题。Ultralytics HUB等平台旨在简化工作流程,并有可能降低某些人工智能任务的准入门槛。

阅读全部