实时推理是指在获得新数据后立即使用机器学习模型进行预测的过程。这与批量推理不同,批量推理是根据长期收集的一组数据点进行预测。在实时推理中,重点是速度和即时性,使系统能够根据最新信息即时做出反应和决策。
在机器学习方面,尤其是使用Ultralytics YOLO 等模型时,实时推理意味着模型可以处理单个数据输入(如图像或视频帧),并几乎在瞬间生成预测。这种能力对于需要及时响应的应用来说至关重要。例如,在物体检测中,实时推理允许模型在没有明显延迟的情况下识别和定位实时视频流中的物体。
实时推理的效率通常用推理延迟来衡量,即模型根据单个输入做出预测所需的时间。低延迟是实时系统有效运行的关键。为了实现低延迟,通常会通过模型量化和模型剪枝等技术对模型进行速度优化,或者在GPU或TPU 等专用硬件上部署模型。像 TensorRTNVIDIA 等框架也旨在加快推理速度,使实时性能更易实现。
实时推理是各行各业众多尖端应用的支柱。下面是几个具体的例子:
这些例子凸显了实时推理在要求根据快速变化的数据做出即时决策和响应的应用中的关键作用。随着人工智能技术的发展,实时推理将继续使系统更具动态性和响应性,提高各行业的自动化和智能化水平。对于那些希望通过Ultralytics 模型实现实时推理的人来说,Ultralytics HUB 等平台提供了训练、优化和部署模型的工具,以实现高效的实时性能。