绿色检查
链接复制到剪贴板

衡量人工智能性能以权衡创新的影响

您可以通过正确的关键绩效指标和性能指标来监控人工智能创新的成功与否。了解如何跟踪和优化人工智能应用的影响。

在此之前,我们已经探讨过如何将人工智能应用于医疗保健制造旅游等不同行业。我们还研究了人工智能 如何改善日常工作任务 ,并讨论了领先的人工智能商业理念。所有这些讨论都不可避免地引出了同一个关键问题:我们如何衡量这些人工智能实施的成功与否?这是一个重要的问题,因为仅仅部署人工智能解决方案是不够的。确保这些解决方案真正产生效果,才能使它们改变游戏规则。 

我们可以衡量人工智能的性能指标,以确定人工智能模型在提高流程效率、激发创新或解决问题方面是否真正有效。通过关注正确的关键绩效指标(KPI),我们可以了解人工智能解决方案的效果如何,以及在哪些方面需要改进。

在本文中,我们将探讨如何用最相关的 KPI 衡量人工智能实施的成功与否。我们将介绍业务关键绩效指标和人工智能性能关键绩效指标之间的区别,讨论精确度和召回率等关键指标,并帮助您为特定的人工智能解决方案选择最佳的关键绩效指标。

人工智能业务关键绩效指标与人工智能绩效关键绩效指标的区别

图 1.人工智能业务关键绩效指标与人工智能性能关键绩效指标的比较。

提到关键绩效指标,人们很自然会认为它们都是关于投资回报率(ROI)、成本节约或创收等业务指标的,尤其是在谈到企业人工智能时。这些人工智能业务关键绩效指标可以衡量人工智能如何影响公司的整体成功,并与更广泛的业务目标保持一致。 

然而,人工智能性能关键绩效指标侧重于人工智能系统本身的运行状况,使用的指标包括准确率、精确度和召回率。我们将在下文详细介绍这些指标,但从本质上讲,业务关键绩效指标展示的是人工智能的财务和战略优势,而绩效关键绩效指标则确保人工智能模型有效地完成其工作。

某些指标实际上可以同时满足这两个目的。例如,效率的提高,如完成某项任务所需的时间或资源的减少,既可以作为绩效关键绩效指标(显示人工智能解决方案的效果如何),也可以作为业务关键绩效指标(衡量成本节约和生产率的提高)。客户满意度是另一个交叉指标。它可以从技术性能和对整体业务目标的影响两方面反映人工智能驱动的客户服务工具是否成功。

了解关键的人工智能性能指标

有几种常用指标可用于衡量人工智能模型的性能。首先,我们来看看它们的定义和计算方法。然后,我们将了解如何监控这些指标。

精确度

精度是衡量人工智能模型识别 "真阳性"(模型正确识别物体或条件的情况)准确度的指标。例如,在人脸识别系统中,当系统正确识别一个人的脸部时,就是真阳性。 

要计算精确度,首先要计算真阳性项的数量。然后将其除以模型标记为阳性的项目总数。这个总数既包括正确的识别,也包括错误的识别,也就是所谓的假阳性。从根本上说,精确度可以告诉您,当模型声称已经识别出某样东西时,它的正确率有多高。


Precision = True Positives / (True Positives + False Positives)

图 2.了解精度。

在误报可能造成高昂成本或破坏性后果的情况下,这一点尤为重要。例如,在自动化生产中,高精确率表明系统可以更准确地标记出缺陷产品,避免不必要地丢弃或返工好产品。另一个很好的例子是安全监控。高精度有助于最大限度地减少误报,只关注需要安全响应的真正威胁。

回顾

召回率有助于衡量人工智能模型识别数据集中所有相关实例或真阳性的能力。简单地说,它代表了人工智能系统捕捉其设计用于检测的条件或对象的所有实际案例的能力。Recall 的计算方法是用正确检测的数量除以本应检测到的阳性案例总数(包括模型正确识别的案例和遗漏的案例)。


Recall = True Positives / (True Positives + False Negatives)

考虑一下用于癌症检测的人工智能医疗成像系统。在这种情况下,召回率反映了系统正确识别实际癌症病例的百分比。在这种情况下,高召回率至关重要,因为漏诊癌症会给患者护理带来严重后果。

精确度与召回率

评估人工智能模型的性能时,精确度和召回率就像一枚硬币的两面,它们往往需要取得平衡。挑战在于,提高一个指标往往会牺牲另一个指标。 

比方说,您要求更高的精确度。模型可能会变得更具选择性,只能识别出它非常确定的阳性结果。另一方面,如果您的目标是提高召回率,模型可能会识别出更多的阳性结果,但这可能会包括更多的误报,最终降低精确度。 

关键是要根据应用的具体需求,在精确度和召回率之间找到合适的平衡点。精确度-召回率曲线是一个有用的工具,它显示了在不同阈值下这两个指标之间的关系。通过分析该曲线,您可以确定模型在特定用例中表现最佳的最佳点。在对人工智能模型进行微调时,了解其中的利弊得失有助于使其在预定用例中发挥最佳性能。

图 3.精度-召回曲线示例。

平均精度 (mAP)

平均精度 (mAP) 是用于评估人工智能模型在物体检测等任务中性能的指标,在这些任务中,模型需要对图像中的多个物体进行识别和分类。让我们来看看它是如何计算的。

精确度-召回曲线下的面积表示该类的平均精确度(AP)。AP 衡量的是模型在不同置信度(置信度指模型预测的确定程度)下对特定类别进行预测的准确程度,同时考虑精度和召回率。计算出每个类别的 AP 后,就可以通过对所有类别的 AP 值取平均值来确定 mAP。

图 4.不同等级的平均精度。

mAP 在自动驾驶等需要同时检测行人、车辆和交通标志等多个物体的应用中非常有用。高 mAP 得分意味着该模型在所有类别中都表现出色,因此在各种场景中都可靠、准确。

轻松计算性能指标

计算人工智能关键性能指标的公式和方法似乎令人生畏。不过,像Ultralytics 软件包这样的工具可以让计算变得简单快捷。无论您是在处理对象检测分割还是分类任务,Ultralytics 都能提供必要的实用工具来快速计算精确度、召回率和平均精确度(mAP)等重要指标。

要开始使用Ultralytics 计算性能指标,可以安装Ultralytics 软件包,如下所示。


pip install ultralytics

在本例中,我们将加载一个预先训练好的YOLOv8 模型,并用它来验证性能指标,但您也可以加载 Ultralytics 提供的任何受支持的模型。以下是具体操作方法:


from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")

加载模型后,您就可以对数据集进行验证。下面的代码片段将帮助您计算各种性能指标,包括精确度、召回率和 mAP:


# Run the evaluation
results = model.val()

# Print specific metrics
print("Mean average precision:", results.box.map)
print("Precision:", results.box.p)
print("Recall:", results.box.r)

使用Ultralytics 等工具可以更轻松地计算性能指标,因此您可以将更多时间用于改进模型,而不必担心评估过程的细节。

部署后如何衡量人工智能的性能?

在开发人工智能模型时,很容易在受控环境中测试其性能。然而,一旦部署了模型,情况就会变得更加复杂。幸运的是,有一些工具和最佳实践可以帮助您在部署后监控人工智能解决方案。 

Prometheus、Grafana 和 Evidently AI 等工具旨在持续跟踪模型的性能。它们可以提供实时洞察、检测异常并提醒您注意任何潜在问题。这些工具提供自动化、可扩展的解决方案,能够适应生产中人工智能模型的动态特性,从而超越了传统的监控方式。

为了在部署后衡量人工智能模型的成功与否,这里有一些最佳实践可供参考:

  • 设定明确的性能指标:确定准确度、精确度和响应时间等关键指标,定期检查模型的运行情况。
  • 定期检查数据漂移:密切关注模型所处理数据的变化,因为如果管理不当,这可能会影响模型的预测。
  • 进行 A/B 测试:使用 A/B测试将当前模型的性能与新版本或调整进行比较。这将使您能够定量评估模型行为的改进或退步。
  • 记录和审计性能:详细记录性能指标和对人工智能系统所做的更改。这对审计、合规性以及随着时间推移改进模型架构至关重要。

选择最佳人工智能关键绩效指标只是开始

成功部署和管理人工智能解决方案取决于选择正确的关键绩效指标并保持更新。总体而言,选择能够突出人工智能解决方案在技术上和业务影响方面表现如何的指标至关重要。随着情况的变化,无论是技术进步还是业务战略的转变,重新审视和调整这些关键绩效指标都非常重要。 

通过保持绩效考核的动态性,可以使人工智能系统保持相关性和有效性。通过保持对这些指标的关注,您将获得有助于改善运营的宝贵见解。积极主动的方法可确保您的人工智能工作真正有价值,并有助于推动业务发展!

加入我们的社区,与我们一起创新!浏览我们的GitHub 资料库,了解我们的人工智能进展。了解我们如何利用领先的人工智能技术重塑制造业医疗保健等行业。🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅