Glosario

Modelo de servicio

Aprende lo esencial del servicio de modelos: despliega modelos de IA para predicciones en tiempo real, escalabilidad e integración perfecta en las aplicaciones.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En el ámbito de la Inteligencia Artificial y el Aprendizaje Automático, una vez que se entrena un modelo, su viaje dista mucho de haber terminado. Para que estos modelos sean útiles en la práctica, tienen que ser accesibles para hacer predicciones sobre nuevos datos no vistos. Aquí es donde entra en juego el servicio de modelos. El servicio de modelos es el proceso de desplegar un modelo de aprendizaje automático entrenado en un entorno de producción al que puedan acceder aplicaciones o sistemas para realizar inferencias. En esencia, tiende un puente entre el desarrollo del modelo y la aplicación en el mundo real, permitiendo a las empresas y a los usuarios aprovechar la potencia de los modelos de IA.

Importancia de servir de modelo

El servicio de modelos es crucial porque transforma un modelo estático y entrenado en un servicio dinámico y operativo. Sin el servicio de modelos, los modelos de aprendizaje automático permanecerían confinados en entornos de desarrollo, incapaces de aportar valor en escenarios del mundo real. Un servicio de modelos eficiente garantiza:

  • Predicciones en tiempo real: Permite a las aplicaciones hacer predicciones inmediatas, esenciales para tareas sensibles al tiempo como la detección de fraudes o la conducción autónoma. La inferencia en tiempo real es vital en muchas aplicaciones modernas de IA.
  • Escalabilidad y fiabilidad: Los entornos de producción exigen escalabilidad para manejar cargas variables y fiabilidad para garantizar un funcionamiento continuo. La infraestructura de servidores modelo está diseñada para satisfacer estas demandas, escalando los recursos según sea necesario y manteniendo una alta disponibilidad.
  • Accesibilidad e integración: Proporciona una forma estandarizada de acceder a los modelos mediante API, lo que facilita la integración de las capacidades de IA en diversas aplicaciones, desde servicios web a aplicaciones móviles. Esto facilita la incorporación de la visión por ordenador o el procesamiento del lenguaje natural (PLN ) a sistemas más amplios.
  • Gestión de modelos y versiones: Facilita la gestión de diferentes versiones del modelo, permitiendo actualizaciones y retrocesos sin fisuras. Esto es crucial para mantener la precisión del modelo y adaptarse a la evolución de los datos. Ultralytics HUB ofrece herramientas para una gestión eficaz de los modelos.

Aplicaciones en el mundo real

El servicio de modelos impulsa una amplia gama de aplicaciones de IA en todos los sectores. He aquí un par de ejemplos concretos:

  • Recomendaciones de productos de comercio electrónico: Las plataformas de comercio electrónico utilizan el servicio de modelos para proporcionar recomendaciones personalizadas de productos en tiempo real. Un modelo de sistema de recomendación entrenado se sirve a través de una API. Cuando un usuario navega por el sitio web, la aplicación envía los datos del usuario al punto final de servicio de modelos, que devuelve recomendaciones de productos previstas para mostrar al usuario, mejorando la experiencia del cliente e impulsando las ventas.
  • Análisis de Imágenes Médicas para Diagnóstico: En sanidad, los modelos de análisis de imágenes médicas, como los utilizados para la detección de tumores, se sirven para ayudar a los radiólogos. Cuando se adquiere una nueva imagen médica (como una radiografía o una resonancia magnética), se envía al sistema de servicio de modelos. El modelo realiza una inferencia y devuelve información diagnóstica, como resaltar posibles anomalías, ayudando a realizar diagnósticos más rápidos y precisos.

Componentes clave del modelo de servicio

Una arquitectura típica de servicio de modelos incluye varios componentes clave que trabajan conjuntamente:

  • Modelo entrenado: El componente central es el propio modelo de aprendizaje automático entrenado, que a menudo se guarda en formatos como ONNX o TensorFlow SavedModel para un despliegue eficaz. Ultralytics YOLO Los modelos pueden exportarse a varios formatos para una mayor flexibilidad de despliegue, entre ellos TensorRT y OpenVINO.
  • Infraestructura de servicio: Incluye el entorno de hardware y software donde se ejecuta el modelo. Puede tratarse de plataformas basadas en la nube, como Amazon SageMaker o Google Cloud AI Platform, o de servidores locales. Las opciones de computación sin servidor también están ganando popularidad por su escalabilidad y rentabilidad.
  • Servidor API: Un servidor API (Interfaz de Programación de Aplicaciones) actúa como interfaz entre las aplicaciones y el modelo servido. Recibe solicitudes de predicción, las envía al modelo para su inferencia y devuelve las predicciones. Los marcos de API más comunes son REST y gRPC.
  • Equilibrador de carga: Para gestionar el tráfico elevado y garantizar la escalabilidad, un equilibrador de carga distribuye las peticiones entrantes entre varias instancias de la infraestructura de servicio, evitando la sobrecarga y manteniendo el rendimiento.
  • Monitorización y registro: Unos sistemas sólidos de supervisión y registro son esenciales para hacer un seguimiento del rendimiento del modelo, detectar problemas y garantizar la fiabilidad del sistema servidor a lo largo del tiempo. Esto incluye la supervisión de la latencia de la inferencia, el rendimiento y las tasas de error, y forma parte de la supervisión del modelo.

Despliegue de modelos vs. Servicio de modelos

Aunque a menudo se utilizan indistintamente, el despliegue de modelos y el servicio de modelos tienen significados distintos. El despliegue de modelos es el proceso más amplio de hacer que un modelo esté disponible para su uso, lo que puede incluir varios métodos más allá del mero servicio a través de una API. Las opciones de despliegue de modelos pueden ir desde la incrustación de modelos directamente en las aplicaciones, el despliegue en dispositivos periféricos o la configuración de conductos de inferencia por lotes.

El servicio de modelos, en concreto, se refiere a la creación de un servicio dedicado, escalable y accesible para la inferencia en tiempo real, normalmente a través de una API. Es un tipo específico de despliegue centrado en capacidades de predicción continuas y bajo demanda. La elección de uno u otro método de despliegue depende de los requisitos de la aplicación, como las necesidades de latencia, las exigencias de escalabilidad y la complejidad de la integración. Para las aplicaciones que requieren predicciones instantáneas y una integración sin fisuras en diversos sistemas, el servicio de modelos es el enfoque ideal.

Leer todo