术语表

服务模式

了解模型服务的基本要素--部署人工智能模型，实现实时预测、可扩展性和与应用程序的无缝集成。

机器学习 (ML)模型经过训练和验证后，下一个关键步骤就是使其能够对新数据进行预测。这一过程被称为 "模型服务"。它包括将训练好的模型部署到生产环境中，通常是在 API 端点后面，允许应用程序或其他系统实时请求预测。模型服务是开发的模型与其实际应用之间的桥梁，将其从静态文件转变为更广泛的机器学习生命周期中的主动、产生价值的服务。

模范服务的重要性

模型服务是实现 ML 模型可操作性的基础。没有它，即使是最精确的模型，如最先进的 Ultralytics YOLO对象检测器等最精确的模型，也会被孤立在开发环境中，无法对现实世界的流程产生影响。有效的模型服务可确保

可访问性：通过REST API或gRPC 等标准接口向各种应用程序提供模型预测。
可扩展性：处理不同负载的预测请求，确保在需求发生变化时性能始终如一。亚马逊 SageMaker和Google 人工智能平台等云平台提供可管理的扩展解决方案。
可靠性：为关键应用提供稳定、持续可用的服务。
性能：优化低推理延迟，实现计算机视觉和自然语言处理 (NLP) 等领域的实时推理用例。

实际应用

通过模型服务，我们每天都能使用无数人工智能驱动的功能。这里有两个例子：

电子商务产品推荐：当您浏览网店时，一个模型服务后台会为推荐系统提供动力。它将你的浏览历史或用户资料作为输入，并实时返回个性化的产品建议。
医疗诊断辅助：在医疗保健领域，可以通过应用程序接口（API）提供经过训练的医学图像分析模型。医生可以将病人的扫描图像（如 X 光片或核磁共振成像）上传到该服务，然后返回潜在的异常或诊断见解，帮助临床决策。Ultralytics HUB等平台为部署此类专用模型提供了便利。

示范服务的关键要素

实施一个强大的模型服务系统涉及几个组成部分：

模型格式：训练好的模型需要以适合部署的格式保存，如 ONNX、TensorFlow SavedModel 或优化格式，如 TensorRT.
服务框架： TensorFlow Serving、TorchServe NVIDIA Triton Inference Server等软件可管理模型生命周期、处理请求并执行推理。
API 端点：接口（通常由API 网关管理）将模型的预测功能公开给客户端应用程序。
基础设施：底层硬件和软件环境，可以是内部服务器、云计算实例，甚至是专门的边缘计算设备。
监测： 模型监控工具和流程可跟踪性能、延迟、错误和潜在的数据漂移，以确保所服务的模型长期有效。

模型部署与模型服务

虽然 "模型部署"和 "模型服务 "这两个术语通常是相关的，但它们并不完全相同。模型部署是一个更宽泛的概念，即提供训练有素的模型以供使用。这可以包含各种策略，包括将模型直接嵌入到应用中，部署到边缘设备上进行离线推理，或建立定期运行预测的批处理管道。您可以根据自己的需要探索不同的模型部署选项。

模型服务特指将模型部署为网络服务，通常可通过应用程序接口访问，旨在处理按需（通常是实时）预测请求。这是一种特殊的模型部署类型，重点是提供连续推理能力，并考虑可扩展性和低延迟。对于许多需要即时预测的交互式应用来说，模型服务是首选的部署方法。

服务模式

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

模范服务的重要性

实际应用

示范服务的关键要素

模型部署与模型服务

阅读更多博客

加入Ultralytics 社区