术语表

推理延迟

优化人工智能性能，降低推理延迟。了解增强实时响应的关键因素、实际应用和技术。

推理延迟是人工智能和机器学习（ML）中的一个关键指标，尤其是在为实际应用部署模型时。它是指从输入（如图像或文本查询）到训练好的模型产生预测或输出之间的时间延迟。从本质上讲，它衡量的是模型处理新数据并提供结果的速度。对于需要及时响应的应用来说，最大限度地减少推理延迟往往至关重要，这直接影响到人工智能系统的可用性和有效性。

推理延迟的相关性

低推理延迟对于良好的用户体验和许多人工智能应用的可行性至关重要。在聊天机器人或实时翻译服务等交互系统中，高延迟会导致明显的延迟，使用户感到沮丧。对于自动驾驶汽车或医疗诊断工具等关键应用，即使是微小的延迟也会造成严重后果，影响安全和决策。因此，了解、测量和优化推理延迟是有效部署人工智能模型的一个关键方面。它是一个不同于吞吐量的指标，后者衡量的是单位时间内处理的推理数量；即使整体吞吐量不是非常高，应用程序也可能需要低延迟（快速的单个响应）。您可以在OpenVINO Latency vs Throughput Modes 等指南中了解更多有关优化这些不同方面的信息。

实际应用

低推理延迟的重要性在各个领域都很明显：

自动驾驶汽车：自动驾驶汽车依靠快速的物体检测和场景理解来实现安全导航。低延迟可确保车辆对行人、其他车辆或意外障碍物做出即时反应，这对安全至关重要。 Ultralytics YOLO模型通常针对此类实时推理任务进行了优化。
交互式人工智能：虚拟助手（亚马逊 Alexa、Google 助手）或翻译服务等应用需要处理语音或文本输入，并以对话方式做出响应。高延迟会破坏交互流程，降低用户体验。
工业自动化：在制造业中，计算机视觉系统对装配线进行质量控制检查。低延迟允许快速识别和清除缺陷产品，而不会减慢生产速度。这通常需要在边缘设备上部署模型。
医疗保健：分析医疗图像（如 CT 扫描或 X 光）的人工智能需要快速提供结果，以帮助准确诊断和及时制定治疗计划。了解YOLO 如何用于肿瘤检测。
安防系统：实时监控系统利用人工智能进行威胁检测（如识别入侵者或遗弃物）。低延迟可实现即时警报和响应，如安防报警系统。

影响推理延迟的因素

有几个因素会影响模型执行推理的速度：

模型复杂性：更大、更复杂的神经网络 (NN)通常需要更多计算，从而导致更高的延迟。架构的选择起着重要作用。您可以比较不同的模型，如 YOLOv10 与YOLO11，以了解其中的利弊。
硬件：用于推理的硬件处理能力至关重要。与标准CPU 相比，GPU、TPU 或专用人工智能加速器Google Edge TPU、NVIDIA Jetson）等专用硬件可显著减少延迟。
软件优化：使用优化的推理引擎，如 NVIDIA TensorRT或Intel OpenVINO等优化推理引擎，可通过优化模型图和利用特定硬件指令大幅提高性能。框架，如 PyTorch等框架也提供了优化工具。将模型导出为 ONNX等格式导出模型，便于在不同引擎间部署。
批量大小：同时处理多个输入（批处理）可提高整体吞吐量，但往往会增加单个推断的延迟。实时应用通常使用 1 的批量大小。
数据传输：将输入数据传输到模型和检索输出所需的时间会增加整体延迟，尤其是在分布式或云计算场景中。
量化和剪枝： 模型量化（降低数值精度）和模型剪枝（删除冗余模型参数）等技术可以减少模型大小和计算需求，从而降低延迟。请阅读本快速指南中有关模型优化的更多内容。

管理推理延迟是模型准确性、计算成本和响应时间之间的关键平衡，对于部署通过Ultralytics HUB 等平台管理的有效人工智能解决方案至关重要。了解计算机视觉项目的步骤包括在模型部署过程中规划这些性能要求。

推理延迟

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

推理延迟的相关性

实际应用

影响推理延迟的因素

阅读更多博客

加入Ultralytics 社区