术语表

培训数据

了解训练数据在机器学习中的重要性、其关键因素以及Ultralytics YOLO 如何利用训练数据建立尖端的人工智能模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

训练数据是有监督机器学习的基石,是模型学习进行准确预测的基础。它由一组输入示例组成,每个示例都与相应的预期输出(即 "基本事实 "或 "标签")配对。通过分析这些标签数据,机器学习算法可以识别出模式和关系,从而对新的、未见过的数据进行归纳和预测。训练数据的质量、大小和代表性会对训练模型的性能和可靠性产生重大影响。

训练数据的重要性

高质量的训练数据对于建立稳健、准确的机器学习模型至关重要。数据应能代表模型将遇到的真实世界场景,涵盖各种变化和边缘情况。多样化和全面的数据集有助于模型学习数据中的基本模式和关系,从而在未见过的数据上实现更好的泛化和性能。训练数据不足或有偏差会导致模型在实际应用中表现不佳,或表现出不公平或歧视性的行为。

训练数据的主要考虑因素

有几个因素会影响训练数据的有效性:

  • 数据质量:准确、一致和标签清晰的数据至关重要。数据中的错误或不一致会导致模型学习到不正确的模式。
  • 数据数量:一般来说,数据越多,模型性能越好,因为模型可以学习到更复杂的模式。但是,不能为了追求数据数量而牺牲数据质量。
  • 数据相关性:训练数据应与模型训练的特定任务相关。包含不相关的数据会带来噪音,阻碍模型学习所需模式的能力。
  • 数据多样性:多样化的数据集涵盖了各种场景、变化和边缘情况,有助于模型更好地概括新的、未见过的数据。
  • 数据平衡:在分类任务中,重要的是在训练数据中均衡地呈现每一类别的数据。不平衡的数据会导致有偏差的模型,在代表性不足的类别上表现不佳。有关解决数据不平衡问题的更多信息,请访问Ultralytics 博客

训练数据与相关术语

将训练数据与机器学习中使用的其他类型数据区分开来非常重要:

  • 验证数据: 验证数据用于微调模型的超参数,并评估其在训练过程中的性能。它通过对模型在未见数据上的性能进行无偏估计,有助于防止过度拟合。
  • 测试数据: 测试数据用于评估训练模型的最终性能。它完全独立于训练数据和验证数据,能对模型在未见过的新数据上的性能进行无偏估计。

训练数据的实际应用

训练数据广泛应用于各行各业的实际应用中。下面是两个具体例子:

自动驾驶汽车

自动驾驶汽车在很大程度上依赖训练数据来学习如何在复杂的现实环境中导航和决策。这些系统的训练数据通常包括来自摄像头、激光雷达和雷达的图像和传感器数据,以及指示行人、车辆和交通标志等物体存在和位置的相应标签。通过对大量不同的代表性数据进行训练,自动驾驶模型可以学会准确感知周围环境并做出安全驾驶决策。探索视觉人工智能在自动驾驶汽车中的作用,了解更多信息。

医疗诊断

在开发用于医疗诊断的人工智能模型时,训练数据起着至关重要的作用。例如,在医学成像领域,可以训练模型从 X 光、CT 扫描或核磁共振成像图像中检测癌症等疾病。这些模型的训练数据由放射科专家标注的医学影像组成,显示肿瘤或其他异常的存在和位置。通过从标注医疗图像的大型数据集中学习,人工智能模型可以帮助医生做出更快、更准确的诊断。进一步了解人工智能在医疗保健领域的应用

训练数据Ultralytics YOLO

Ultralytics YOLO (You Only Look Once)模型是最先进的物体检测模型,依靠高质量的训练数据实现卓越的性能。这些模型是在带有相应边框注释的大型图像数据集上进行训练的,边框注释显示了每张图像中物体的位置和类别。探索 Ultralytics 支持的各种模型,包括 YOLOv3 至 YOLOv10、NAS、SAM 和RT-DETR ,用于检测、分割等。

Ultralytics 提供了一个用户友好型平台Ultralytics HUB,用于管理数据集和训练自定义模型。用户可以上传自己的数据集,或从 COCO 等各种已有数据集中进行选择,以训练自己的模型。了解有关使用Ultralytics YOLO 在Google Colab 中训练自定义数据集的更多信息。该平台还提供数据可视化、模型评估和部署工具,使建立和部署高性能物体检测模型变得更加容易。

Ultralytics 文档提供了有关数据集格式模型训练性能指标的大量资源,使用户能够有效地利用训练数据来满足其特定应用的需要。

阅读全部