词汇表

训练数据 (Training Data)

了解训练数据如何驱动人工智能模型。探索数据采集、标注流程，以及如何训练Ultralytics ，以在计算机视觉任务中实现卓越的准确性。

训练数据是用于教导机器学习模型识别模式、进行预测或执行特定任务的初始数据集。它如同人工智能系统的基础教科书，提供算法分析并调整其内部参数的基准数据。在监督学习中，训练数据由输入样本及其对应的输出标签组成，使模型能够学习两者之间的关联关系。数据的质量、数量与多样性直接影响模型的最终准确性，以及对未知新信息的泛化能力。

训练数据在人工智能中的作用

训练数据的主要功能是使模型预测与实际结果之间的误差最小化。在模型训练过程中，算法通过迭代处理数据，识别出与特定标签相关的特征——例如图像中的边缘或句子中的关键词。这一过程有别于验证数据（用于训练期间超参数调优）和测试数据（用于最终评估模型性能）。

高质量的训练数据必须能够代表模型将要遇到的真实场景。若数据集存在偏差或缺乏多样性，模型可能出现过拟合现象——即仅能记忆训练样本却无法处理新输入数据。相反，当数据过于简单或不足以让模型捕捉潜在模式时，则会导致模型拟合不足。

实际应用

训练数据通过使系统能够从历史案例中学习，推动着几乎所有行业的创新。

医疗领域的人工智能：在医学诊断中，训练数据可能包含数千张标注为"健康"或患有肺炎等特定病症的X光图像。通过处理这些标注样本Ultralytics 模型能够学习辅助放射科医生，以高精度标记潜在异常病灶，显著缩短诊断时间。
自动驾驶汽车： 自动驾驶汽车依赖于包含数百万英里行驶影像的海量数据集。这些训练数据包含标注帧，其中显示行人、交通标志、其他车辆及车道标线。这些信息源自 Waymo公开数据集或nuScenes等综合性数据集，用于训练车辆感知系统安全地导航复杂环境。

数据采集与管理

获取可靠的训练数据通常是机器学习项目中最具挑战性的环节。数据可来源于公共存储库（Google Search）或专业数据集（如 COCO 。但原始数据通常需要经过细致的数据清洗和标注才能确保准确性。

Ultralytics 工具已简化了这一工作流程，提供了一个集成环境用于上传、标注和管理数据集。高效管理还涉及数据增强技术——通过对现有图像应用翻转、旋转或色彩调整等变换操作，人工扩大训练集规模。这有助于模型在面对输入数据变化时更具鲁棒性。

YOLO26的实际应用示例

以下Python 演示了如何使用 ultralytics 图书馆。这里，一个预训练的 YOLO26 模型是在...上进行微调的。 COCO8一个小型数据集，专为验证训练管道而设计。

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

数据质量的重要性

"垃圾进，垃圾出"这一谚语是机器学习的基础。即便是最复杂的架构，如Transformer或深度卷积神经网络（CNN），也无法弥补劣质训练数据的缺陷。标签噪声等问题——即真实标签存在错误——会严重降低模型性能。因此，严格的质量保证流程——通常需结合人工验证环节——对维护数据集完整性至关重要。

此外，遵循人工智能伦理原则要求对训练数据进行严格审查，以消除其中可能存在的人口统计或社会经济偏见。确保人工智能的公平性始于构建均衡且具有代表性的训练数据集，这有助于防止部署的应用程序产生歧视性结果。

训练数据 (Training Data)

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

训练数据在人工智能中的作用

实际应用

数据采集与管理

YOLO26的实际应用示例

数据质量的重要性

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

什么是单目深度估计？概述

Ultralytics YOLO 进行人工智能威胁检测

加入Ultralytics 社区