术语表

基础模型

了解基础模型如何通过可扩展的架构、广泛的预训练和对各种应用的适应性,彻底改变人工智能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

基础模型代表了人工智能(AI)领域的重大范式转变,其特点是规模庞大,可在大量不同的数据集上进行训练。与为特定任务设计的传统机器学习(ML)模型不同,基础模型是在广泛的数据上预先训练的,使其能够在任务特定数据相对较少的情况下,广泛的下游应用进行调整或微调。这种方法通常利用迁移学习,加快了人工智能的发展,使强大的能力更容易获得。这一术语由斯坦福以人为本人工智能研究所(HAI)推广。

基础模型的核心特征

基础模型有三个主要特征:规模、通用性和适应性。

  1. 规模:它们在包含文本、图像、代码和其他数据类型的网络规模数据集上进行训练,通常涉及数十亿或数万亿个数据点。它们通常拥有数十亿个参数,需要大量的计算资源(如GPU)进行训练。
  2. 通用性:大量的预训练使这些模型对其训练数据中的模式、语法、语义和上下文有了广泛的了解。这使它们能够在未明确训练的任务中表现出色,有时是通过零次学习少量学习
  3. 适应性:它们的核心优势在于能够通过微调适应特定任务。这需要在较小的、针对特定任务的数据集上进行额外的训练,与从头开始训练一个模型相比,大大减少了所需的数据和时间。像Transformer 这样以处理顺序数据和捕捉长距离依赖关系而著称的架构,在自然语言处理(NLP)领域尤其常用,在计算机视觉(CV)领域也越来越常用。

应用与实例

基础模型的多功能性推动了众多领域的创新。

  • 自然语言处理GPT-4BERT等模型擅长文本生成、翻译、总结等任务,并为复杂的聊天机器人提供支持。例如,一家客户服务公司可能会在其支持单上对 BERT 等预训练语言模型进行微调,以建立一个高度准确的内部问题解答系统。
  • 计算机视觉CLIP(对比语言-图像预训练)和Segment Anything Model(SAM)等视觉基础模型可处理图像分类物体检测图像分割等任务。例如,一家农业科技公司可以调整SAM ,在无人机图像上对其进行微调,以精确分割不同的作物类型或识别受疾病影响的区域,所需的标注数据远远少于传统的监督学习方法。
  • 多模态应用:越来越多的模型可通过多种数据类型(如文本和图像)进行训练,从而完成从文本描述生成图像(文本到图像)或回答有关图像的问题等任务。

基础模式与传统模式

主要区别在于范围和可重用性。传统的 ML 模型通常使用定制的数据集,针对单一的特定任务进行训练。如果出现新任务,往往需要从头开始构建和训练新模型。基础模型则提供了一个可重复使用的基础。它们广泛的预训练可以捕捉到一般知识,然后可以有效地对其进行专门化。

这种模式的优势在于减少了为每项新任务收集和注释大量数据的需要,并有可能加快模型的部署。然而,挑战包括预训练所需的巨大计算成本和能源、继承和放大训练数据中存在的偏差的风险,以及有关其潜在滥用和社会影响的重大伦理考虑Ultralytics HUB等平台旨在简化访问、训练和部署高级人工智能模型的流程,帮助用户有效利用这些强大的技术。

阅读全部