Glosario

Modelo de servicio

Aprende lo esencial del servicio de modelos: despliega modelos de IA para predicciones en tiempo real, escalabilidad e integración perfecta en las aplicaciones.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Una vez entrenado y validado un modelo de Aprendizaje Automático (AM ), el siguiente paso crítico es hacerlo disponible para generar predicciones sobre nuevos datos. Este proceso se conoce como Servicio de Modelos. Consiste en desplegar un modelo entrenado en un entorno de producción, normalmente detrás de un punto final API, permitiendo que las aplicaciones u otros sistemas soliciten predicciones en tiempo real. El servicio de modelos actúa como puente entre el modelo desarrollado y su aplicación práctica, transformándolo de un archivo estático en un servicio activo y generador de valor dentro del más amplio Ciclo de Vida del Aprendizaje Automático.

Importancia de servir de modelo

El servicio de modelos es fundamental para hacer operativos los modelos de ML. Sin él, incluso los modelos más precisos, como los de última generación Ultralytics YOLO permanecen aislados en entornos de desarrollo, incapaces de influir en los procesos del mundo real. Un servicio de modelos eficaz garantiza:

Aplicaciones en el mundo real

El servicio de modelos permite innumerables funciones basadas en IA con las que interactuamos a diario. He aquí dos ejemplos:

  1. Recomendaciones de productos de comercio electrónico: Cuando navegas por una tienda online, un modelo que sirve de backend alimenta el sistema de recomendaciones. Toma como entrada tu historial de navegación o tu perfil de usuario y te devuelve sugerencias de productos personalizadas en tiempo real.
  2. Asistencia al diagnóstico médico: En sanidad, los modelos entrenados para el análisis de imágenes médicas pueden servirse a través de una API. Los médicos pueden cargar escáneres de pacientes (como radiografías o resonancias magnéticas) en el servicio, que devuelve posibles anomalías o información diagnóstica, ayudando a la toma de decisiones clínicas. Plataformas como Ultralytics HUB facilitan el despliegue de estos modelos especializados.

Componentes clave del modelo de servicio

Implantar un sistema robusto de servicio de modelos implica varios componentes:

  • Formato del modelo: El modelo entrenado debe guardarse en un formato adecuado para su despliegue, como por ejemplo ONNXTensorFlow SavedModel, o formatos optimizados como TensorRT.
  • Marco Servidor: Software como TensorFlow Serving, TorchServe o NVIDIA Triton Inference Server gestiona el ciclo de vida del modelo, maneja las peticiones y realiza la inferencia.
  • Punto final API: Una interfaz (a menudo gestionada por una pasarela API) expone las capacidades de predicción del modelo a las aplicaciones cliente.
  • Infraestructura: El entorno de hardware y software subyacente, que puede ser servidores locales, instancias de computación en la nube o incluso dispositivos especializados de computación de borde.
  • Monitorización: Las herramientas y procesos para la supervisión del modelo realizan un seguimiento del rendimiento, la latencia, los errores y la posible desviación de los datos para garantizar que el modelo servido sigue siendo eficaz a lo largo del tiempo.

Despliegue de modelos Vs. Servicio de modelos

Aunque los términos Despliegue de Modelos y Servicio de Modelos suelen estar relacionados, no son idénticos. El despliegue de modelos es el concepto más amplio de hacer que un modelo entrenado esté disponible para su uso. Esto puede abarcar varias estrategias, incluida la incrustación de modelos directamente en las aplicaciones, su despliegue en dispositivos de borde para la inferencia fuera de línea, o la configuración de tuberías de procesamiento por lotes que ejecutan predicciones periódicamente. Puedes explorar distintas opciones de despliegue de modelos en función de tus necesidades.

El servicio de modelos se refiere específicamente al despliegue de un modelo como un servicio de red, normalmente accesible a través de una API, diseñado para gestionar solicitudes de predicción bajo demanda, a menudo en tiempo real. Es un tipo específico de despliegue de modelos centrado en proporcionar capacidades de inferencia continua con consideraciones de escalabilidad y baja latencia. Para muchas aplicaciones interactivas que requieren predicciones inmediatas, el servicio de modelos es el método de despliegue preferido.

Leer todo