通过专业的特征工程提高机器学习的准确性。学习创建、转换和选择有影响力特征的技术。
特征工程是从原始数据中选择、转换和创建特征,使其更适合机器学习 (ML)模型的关键过程。它包括使用领域知识和数据分析技术来制作能更好地表示潜在问题的输入,最终提高模型的性能、准确性和可解释性。这就好比为食谱准备最好的食材;即使是最熟练的厨师(或模型),也会在劣质食材(训练数据)面前举步维艰。这一步骤通常被认为是人工智能工作流程中最关键、最耗时的部分之一。
从现实世界收集到的原始数据很少能直接用于 ML 算法。它可能包含缺失值、不一致性、不相关信息,或者是不适合模型使用的格式(如文本或分类数据)。特征工程可通过以下方式解决这些问题
有几种技术属于特征工程的范畴:
虽然特征工程和特征提取经常被互换使用,但两者却有不同的细微差别。
从本质上讲,特征提取通常是在更广泛的特征工程过程中使用的一种工具。
虽然先进的模型,如 Ultralytics YOLO等先进模型通过其深度神经网络架构(骨干、颈部、头部)自动学习相关的视觉特征,在物体检测和图像分割等任务中表现出色,但特征工程原理依然适用。例如,在将输入图像输入YOLO 模型之前对其进行预处理(例如,针对不同光照进行直方图均衡化处理,使用OpenCV 等库进行降噪处理,或针对问题领域应用特定的数据增强技术)就是一种特征工程,可以提高鲁棒性和模型性能。此外,YOLO 的输出(如边界框坐标、对象类别、计数)可被设计为下游任务的特征,或与其他数据源相结合进行更复杂的分析,或许可在Ultralytics HUB等平台上进行管理,帮助组织数据集和模型。请浏览Ultralytics 文档和教程,了解有关模型使用、自定义训练和注释数据预处理的更多信息。Featuretools等工具还可以帮助实现部分特征工程流程的自动化,与自动化机器学习(AutoML)的概念相一致。即使与强大的深度学习模型一起使用,有效的特征工程仍然是成功的MLOps实践的一个关键方面。