术语表

推理延迟

优化人工智能性能,降低推理延迟。了解增强实时响应的关键因素、实际应用和技术。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

推理延迟是人工智能和机器学习领域的一个关键指标,尤其是在为真实世界应用部署模型时。它是指从输入到训练好的模型,再到模型产生预测或输出之间的时间延迟。从本质上讲,它衡量的是模型在接收到新数据后做出决策或生成结果的速度。对于需要及时响应的应用来说,最大限度地减少推理延迟往往至关重要。

推理延迟的相关性

推理延迟是许多人工智能应用的关键性能指标,直接影响用户体验和实时系统的可行性。对于交互式应用来说,高延迟会导致迟缓和反应迟钝,降低用户满意度。在自动驾驶汽车或医疗诊断等关键系统中,过高的延迟会造成严重后果,可能导致在危急情况下延迟反应。因此,要部署有效且用户友好的人工智能解决方案,了解并优化推理延迟至关重要。影响推理延迟的因素包括模型复杂性、计算资源以及模型部署过程中应用的优化技术。

实际应用

  • 自动驾驶:在自动驾驶汽车中,低推理延迟对于实时目标检测和决策至关重要。汽车的计算机视觉系统通常由Ultralytics YOLO 等模型驱动,必须快速处理传感器数据,以识别行人、其他车辆和道路障碍物。在这一过程中,由于推理延迟过高,可能会影响安全性和反应时间。在这一领域,优化模型以在NVIDIA Jetson 等平台上实现低延迟部署至关重要。
  • 实时安全系统:使用物体检测进行入侵检测的安防系统需要最小的推理延迟,以便及时识别威胁并触发警报。例如,在智能安全警报系统中,识别未经授权人员的延迟会降低系统的有效性。高效模型和硬件 TensorRT通常采用高效模型和硬件(如加速)来实现即时响应所需的低延迟。

影响推理延迟的因素

有几个因素会影响推理延迟,包括

  • 模型复杂性:参数和层数较多的复杂模型通常需要更多的计算,从而导致较高的延迟。YOLOv10等模型专为实时性能而设计,兼顾了准确性和速度。
  • 硬件:推理所用硬件的处理能力对延迟有很大影响。在深度学习推理中,GPU 通常比 CPU 更受青睐,因为 GPU 的并行处理能力可以大大降低延迟。带有专用加速器的边缘设备(如Google EdgeTPU)专为边缘计算场景中的低延迟推理而设计。
  • 批量大小:虽然更大的批次规模可以提高吞吐量,但也可能会增加延迟,因为模型在为单个输入生成输出之前会处理更多数据。要平衡吞吐量和延迟,通常需要对批次大小进行仔细调整。
  • 软件优化:模型量化、剪枝(模型剪枝)以及使用高效推理引擎(如 OpenVINOTensorRT等高效推理引擎,可大幅减少推理延迟,而不会明显影响准确性。

减少推理延迟

减少推理延迟通常涉及模型优化和高效部署策略的结合。模型量化等技术可以减少模型大小和计算需求,从而加快推断速度。利用 GPU 或专用加速器等优化硬件和高效软件框架的模型部署实践也至关重要。此外,对于需要极低延迟的应用,更简单、更快速的模型可能比更复杂(尽管可能更准确)的模型更受青睐。Ultralytics HUB提供了训练、优化和部署模型的工具和平台,重点是为实际应用实现低推理延迟。

总之,推理延迟是开发和部署人工智能系统,尤其是需要实时响应的系统时必须考虑的一个重要因素。了解影响延迟的因素并采用优化技术,对于创建高效和有效的人工智能应用至关重要。

阅读全部