术语表

功能工程

掌握特征工程,提升机器学习模型性能。学习提高准确性的技术、实际应用和技巧。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

特征工程是机器学习(ML)中的一个关键过程,它涉及将原始数据转换为可提高 ML 模型性能的格式。它是选择、创建和转换变量(称为特征)的艺术和科学,这些变量被用作这些模型的输入。其目标是创建能够捕捉数据基本信息的特征,使模型更容易学习模式并做出准确预测。有效的特征工程可以显著增强模型从训练数据到未见数据的泛化能力,最终提高模型的准确性和效率。

特征工程的重要性

特征工程至关重要,因为特征的质量和相关性会直接影响机器学习模型的性能。精心设计的特征可以简化数据的底层结构,使模型更容易识别模式和关系。这可以带来更准确的预测、更快的训练时间并降低模型的复杂性。在许多情况下,正确的特征可以使模型的性能达到最先进的水平,也可以使模型的性能达到最先进的水平。这一点在物体检测等复杂任务中尤为重要,因为在这些任务中,原始像素数据可能无法直接提供信息。

特征工程技术

特征工程中通常使用几种技术:

  • 创建交互特征:这包括将两个或两个以上的特征结合起来,创建一个能捕捉变量间交互作用的新特征。例如,在房地产价格预测模型中,将房间数量乘以房屋面积,可能会比单独使用其中一个变量产生更多信息。
  • 处理缺失值:缺失数据可以使用各种方法进行估算,如用观测值的平均值、中位数或模式进行填充,或使用预测估算等更复杂的技术。
  • 特征缩放:这涉及将特征缩放到相似的范围内,这对于那些对输入特征的比例敏感的算法(如使用距离计算的算法)来说至关重要。常见的方法包括标准化和归一化。在预处理注释数据中了解更多有关这些技术的信息。
  • 编码分类变量:颜色或类别等分类特征需要转换成 ML 模型可以处理的数字格式。技术包括单次编码、标签编码和目标编码。
  • 分档或离散化:通过将数值范围划分为不同的等级,可以将连续特征转换为分类特征。这有助于捕捉数据中的非线性关系。
  • 特征选择:并非所有特征都具有相同的信息量。特征选择方法,如过滤法、包装法和嵌入法,有助于识别最相关的特征,从而降低维度并提高模型性能。有关降维的更多信息,请访问Ultralytics 网站。

特征工程与特征提取

虽然特征工程和特征提取都旨在通过处理特征来提高模型性能,但它们在方法上有所不同。特征提取涉及从原始数据中自动创建新特征,通常使用算法。例如,在图像处理中,卷积神经网络(CNN)可以学会从图像中提取边缘或纹理。另一方面,特征工程通常涉及根据领域知识和对数据的理解,手动创建或转换特征。

实际应用

以下是真实世界中人工智能/人工智能应用中特征工程的两个例子:

  1. 欺诈检测:在信用卡欺诈检测中,原始交易数据可能包括交易金额、时间、地点和供应商。特征工程可能涉及创建新的特征,如连续交易之间的时间差、一段时间内的平均交易金额或表示交易是否发生在异常地点的二进制特征。这些工程特征可以大大提高模型检测欺诈交易的能力。
  2. 预测性维护:在制造业,预测设备故障可以节省大量成本。传感器的原始数据可能包括温度、压力和振动读数。特征工程可以创建温度变化率、振动水平移动平均值或上次维护后的时间等特征。这些特征可以帮助模型预测机器何时可能发生故障,以便及时进行维护。有关制造业人工智能的更多信息,请访问Ultralytics 网站。

功能工程和Ultralytics

Ultralytics 为计算机视觉任务提供了强大的工具和资源,包括那些受益于特征工程的任务。例如,Ultralytics YOLO 物体检测模型可以通过对图像数据进行仔细的特征工程来增强。通过使用创建交互特征或处理缺失值等技术,用户可以提高模型的准确性和效率。此外,Ultralytics 还提供了一个用户友好型平台Ultralytics HUB,该平台简化了训练和部署模型的过程,使用户更容易尝试不同的特征工程方法。探索模型的最新进展Ultralytics YOLO模型方面的最新进展,了解如何在尖端计算机视觉项目中应用特征工程。

要了解有关特征工程和相关概念的更多信息,可以浏览维基百科上有关特征工程的页面scikit-learn 有关数据预处理的文档等资源。

阅读全部