术语表

推理延迟

了解推理延迟在人工智能中的重要性、其关键因素,以及如何在各种应用中优化推理延迟以实现实时性能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

推理延迟是指机器学习或人工智能模型在推理过程中处理输入和提供输出所需的时间。在自动驾驶汽车、医疗诊断或零售结账系统等需要实时或接近实时响应的应用中,这一指标至关重要。推理延迟通常以毫秒(ms)为单位,直接影响人工智能驱动应用的用户体验和系统效率。

为什么推理延迟很重要

推理延迟是评估人工智能模型速度和可用性的关键性能指标。较低的延迟可确保更快的响应,这对于需要实时决策的应用来说至关重要。例如,在自动驾驶汽车中,识别行人或交通信号方面的任何延迟都可能产生严重的安全影响。同样,在医疗保健领域,快速分析医疗图像可以在紧急情况下挽救生命。

优化推理延迟不仅能提高用户满意度,还能降低计算成本,尤其是在边缘设备或移动平台等资源有限的环境中。

影响推理延迟的因素

导致推理延迟的因素包括

  • 模型复杂性:更大、更复杂的模型,如具有众多层或参数的模型,通常需要更长的时间来处理输入。
  • 硬件性能:硬件(如 GPU、TPU 或 CPU)的选择对延迟有很大影响。例如,GPU针对并行处理进行了优化,通常可以减少推理任务中的延迟。
  • 批量大小:同时处理多个输入(批处理)可减少或增加延迟,具体取决于应用程序和硬件能力。了解有关批量大小优化的更多信息。
  • 优化技术模型量化剪枝等技术可通过简化模型或缩小模型大小来显著降低延迟。
  • 框架和工具:用于推理的软件框架,例如 PyTorch或TensorRT ,可通过优化和硬件加速影响延迟。

优化推理延迟

为了减少推理延迟,开发人员通常会采用几种策略:

  • 模型优化:剪枝、量化或知识提炼等技术可简化模型,使其执行速度更快。了解有关模型优化的更多信息。
  • 硬件加速:使用专用加速器,如NVIDIA GPU 与 TensorRT或Intel 的 OpenVINO工具包等专用加速器,可显著缩短推理时间。
  • 高效部署:利用优化的部署格式,如 ONNX或TensorFlow Lite 等优化部署格式,确保模型更适合特定平台。
  • 边缘人工智能:在边缘设备(如配备 Coral EdgeTPU 的Raspberry Pi)上运行推理,可最大限度地减少云处理带来的延迟。

实际应用

1.自动驾驶汽车

推理延迟在自动驾驶汽车中起着至关重要的作用。例如,用于实时物体检测和决策的模型必须快速处理摄像头馈送,以识别障碍物、行人和交通标志。Ultralytics YOLO 模型用于自动驾驶人工智能,可在保持高精度的同时实现快速检测。

2.零售结账自动化

在零售环境中,视觉人工智能系统利用物体检测来识别结账时的产品,从而无需使用条形码。低延迟推理确保了无缝的客户体验。了解零售业中的人工智能如何通过快速准确的物体检测提高运营效率。

3.医疗诊断

医疗成像应用依赖低推理延迟来实现快速诊断。例如,分析 CT 扫描异常的人工智能模型必须实时提供结果,以协助医生做出快速决策。了解有关医疗保健领域人工智能的更多信息。

相关概念

推理延迟主要是指推理过程中的响应时间,它有别于相关术语,例如:"推理延迟":

  • 实时推理:指需要即时响应的推理任务,通常有严格的延迟限制。了解有关实时推理的更多信息。
  • 准确性:与延迟不同,准确性评估的是模型预测的正确性。探索准确性,了解它在人工智能模型性能中的作用。
  • 吞吐量:衡量模型每秒可执行的推断次数,通常与延迟一起优化。对于优先考虑速度的应用,要了解如何平衡延迟与吞吐量

结论

推理延迟是人工智能模型部署中的一个关键指标,对于要求实时或低延迟性能的应用来说尤其如此。通过了解影响延迟的因素并采用优化技术,开发人员可以确保其模型提供快速、可靠的结果。Ultralytics HUB 提供了高效训练、部署和监控模型的工具,使各种用例更容易实现最佳性能。了解Ultralytics HUB,简化您的人工智能工作流程。

阅读全部