术语表

基础模型

了解基础模型如何通过可扩展的架构、广泛的预训练和对各种应用的适应性，彻底改变人工智能。

基础模型是一种大规模的人工智能（AI）模型，在大量广泛的无标记数据上进行预训练，旨在针对各种下游任务进行调整或微调。这些模型通常以Transformer 等架构为基础，从数据中学习一般模式、结构和表征，为各种专业应用提供通用基础，而无需从头开始进行特定任务的训练。基础模型的开发代表了机器学习（ML）领域的一个重大范式转变，即转向构建可高效专业化的通用模型。

主要特点

基础模型由几个核心属性定义：

规模：它们通常非常庞大，涉及数十亿甚至数万亿个参数，并在海量数据集上进行训练，这些数据集通常从互联网或其他广泛来源（大数据）中获取。
预训练：它们需要经过密集的预训练阶段，通常使用自监督学习或无监督方法，即模型从数据本身的固有结构中学习，而不需要明确的标签。
适应性：它们的一个主要优点是适应性强。一旦经过预训练，就可以利用在预训练过程中获得的一般知识，针对情感分析、图像识别或物体检测等特定任务，使用相对少量的标记数据对它们进行微调。这一过程就是迁移学习的一种形式。
同质化：它们倾向于将以前需要多个专门模型才能实现的功能整合到一个适应性强的框架中，从而有可能简化MLOps。

地基模型的工作原理

基础模型的创建和使用通常分为两个阶段：

预训练：在大规模、多样化的数据集上对模型进行训练。对于GPT-3 等语言模型来说，这包括预测句子中的下一个单词。对于视觉模型，可能涉及重建遮蔽的图像片段或学习图像与文本之间的关联（CLIP）。这一阶段需要大量的计算资源GPU, TPU).
微调/适应：然后使用较小的特定任务标注数据集，针对特定下游任务调整预训练模型。微调等技术可以调整模型权重，而提示工程等方法则可以在不改变权重的情况下引导模型输出，这与大型语言模型（LLM）尤其相关。

实例与应用

基础模型跨越多个领域：

自然语言处理（NLP）： BERT和GPT-4等 LLM 就是最好的例子，它们能够进行文本生成、翻译、总结等。现实世界的例子：能够理解上下文并提供细微回复的高级客户服务聊天机器人通常是通过微调基础 LLM 来构建的。
计算机视觉（CV）： 视觉转换器（ViT）和任意分段模型（SAM）等模型。SAM) 作为视觉任务的基础模型。它们可用于图像分类、图像分割和检测。真实世界实例：通过在 X 射线或核磁共振成像数据集上对视觉基础模型进行微调，可以开发出用于医学图像分析的工具，以检测肿瘤等特定病症。
多模式模型：CLIP 或DALL-E等模型可同时处理来自多种模式（如文本和图像）的信息。随着人工智能的发展，了解这些模型至关重要（了解视觉语言模型）。

基础模型与其他模型

特定任务模型：与基础模型不同，传统的 ML 通常需要在特定的数据集上针对单一任务从头开始训练模型（例如，训练一个"...... "模型）。 Ultralytics YOLO模型）。这样做虽然有效，但需要为每个新任务提供大量的标注数据并付出大量努力。基础模型旨在通过迁移学习减少这种情况。
大型语言模型（LLM）：大型语言模型（LLM）是专门为语言任务设计的一种重要基础模型。基础模型 "一词的含义更广，包括视觉、音频和其他模式的模型。
CV 模型：虽然一些大型视觉模型（如 ViT 或SAM ）被认为是基础模型，但许多 CV 模型（包括特定版本的 YOLOv8）也被认为是基础模型。 YOLOv8或 YOLO11这些模型通常是针对这些视觉任务进行微调或训练的，而不是通用基础模型本身。不过，使用预训练骨干的趋势与利用通用特征的核心理念是一致的。

培训和资源

预训练基础模型的计算成本很高，通常需要大规模的 GPU 或 TPU 集群和大量的工程设计工作，通常由大型研究实验室或公司承担，如 Google、Meta AI 和OpenAI 等大型研究实验室或公司承担。不过，这些模型一旦经过预训练，就可以更高效地进行调整。Ultralytics HUB等平台提供了训练自定义模型、管理数据集Ultralytics Datasets）和部署解决方案（模型部署选项）的工具，通常利用体现基础知识的预训练权重。有效的适应性仍然需要仔细调整超参数，并可能需要增加数据。

重要性和未来

基础模型正在改变人工智能的格局Roboflow 关于基础模型）。它们加快了发展速度，实现了新的应用，并提出了有关人工智能伦理、偏见和计算访问的重要问题。斯坦福大学基础模型研究中心（CRFM）等研究机构致力于研究它们的能力和社会影响。未来可能会有更强大、更高效、更多模式的基础模型来推动科学、工业和日常生活中的创新（人工智能用例）。

基础模型

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO