Glosario

Latencia de la inferencia

Descubre por qué es importante la latencia de inferencia en la IA, sus factores clave y cómo optimizarla para obtener un rendimiento en tiempo real en diversas aplicaciones.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La latencia de inferencia se refiere al tiempo que tarda un modelo de aprendizaje automático o de IA en procesar una entrada y proporcionar una salida durante la inferencia. Esta métrica es crítica en aplicaciones en las que las respuestas en tiempo real o casi real son esenciales, como los vehículos autónomos, los diagnósticos sanitarios o los sistemas de caja de los comercios. La latencia de la inferencia suele medirse en milisegundos (ms) e influye directamente en la experiencia del usuario y la eficacia del sistema de las aplicaciones basadas en IA.

Por qué es importante la latencia de inferencia

La latencia de la inferencia es una métrica de rendimiento clave para evaluar la velocidad y utilidad de un modelo de IA. Una latencia menor garantiza respuestas más rápidas, lo que es crucial para las aplicaciones que requieren la toma de decisiones en tiempo real. Por ejemplo, en los vehículos autónomos, cualquier retraso en el reconocimiento de peatones o señales de tráfico podría tener graves consecuencias para la seguridad. Del mismo modo, en sanidad, el análisis rápido de imágenes médicas puede salvar vidas en situaciones de emergencia.

Optimizar la latencia de la inferencia no sólo mejora la satisfacción del usuario, sino que también reduce los costes computacionales, especialmente en entornos con recursos limitados, como los dispositivos periféricos o las plataformas móviles.

Factores que influyen en la latencia de la inferencia

Varios factores contribuyen a la latencia de la inferencia, entre ellos

  • Complejidad del modelo: Los modelos más grandes y complejos, como los que tienen numerosas capas o parámetros, suelen tardar más en procesar las entradas.
  • Rendimiento del hardware: La elección del hardware, como GPUs, TPUs o CPUs, afecta significativamente a la latencia. Por ejemplo, las GPU están optimizadas para el procesamiento paralelo, lo que a menudo reduce la latencia en las tareas de inferencia.
  • Tamaño del lote: Procesar varias entradas simultáneamente (procesamiento por lotes) puede reducir o aumentar la latencia según la aplicación y las capacidades del hardware. Más información sobre la optimización del tamaño de los lotes.
  • Técnicas de optimización: Técnicas como la cuantización y la poda del modelo pueden reducir significativamente la latencia simplificando el modelo o reduciendo su tamaño.
  • Marco y herramientas: El marco de software utilizado para la inferencia, como PyTorch o TensorRT, puede influir en la latencia mediante la optimización y la aceleración del hardware.

Optimizar la latencia de la inferencia

Para reducir la latencia de la inferencia, los desarrolladores suelen emplear varias estrategias:

  • Optimización de modelos: Técnicas como la poda, la cuantización o la destilación de conocimientos pueden racionalizar los modelos, haciéndolos más rápidos de ejecutar. Más información sobre la optimización de modelos.
  • Aceleración por hardware: Utilizando aceleradores dedicados como las GPU NVIDIA con TensorRT o Intel's OpenVINO puede mejorar drásticamente los tiempos de inferencia.
  • Despliegue eficiente: Aprovechar formatos de despliegue optimizados como ONNX o TensorFlow Lite garantiza que los modelos se adapten mejor a plataformas específicas.
  • Edge AI: Ejecutar la inferencia en dispositivos edge, como la Raspberry Pi con Coral Edge TPU, minimiza la latencia introducida por el procesamiento basado en la nube.

Aplicaciones en el mundo real

1. Vehículos autónomos

La latencia de la inferencia desempeña un papel fundamental en los coches autoconducidos. Por ejemplo, los modelos desplegados para la detección de objetos en tiempo real y la toma de decisiones deben procesar rápidamente las señales de las cámaras para reconocer obstáculos, peatones y señales de tráfico. Ultralytics YOLO modelos, utilizados en la IA para la conducción autónoma, permiten una detección rápida manteniendo una gran precisión.

2. Automatización de la caja minorista

En entornos minoristas, los sistemas de IA de visión utilizan la detección de objetos para reconocer los productos en la caja, eliminando la necesidad de códigos de barras. La inferencia de baja latencia garantiza una experiencia del cliente sin fisuras. Descubre cómo la IA en el comercio mejora la eficiencia operativa mediante una detección de objetos rápida y precisa.

3. Diagnóstico sanitario

Las aplicaciones de imagen médica dependen de una baja latencia de inferencia para un diagnóstico rápido. Por ejemplo, los modelos de IA que analizan las tomografías en busca de anomalías deben ofrecer resultados en tiempo real para ayudar a los médicos a tomar decisiones rápidas. Más información sobre la IA en la asistencia sanitaria.

Conceptos relacionados

Mientras que la latencia de inferencia se centra en el tiempo de respuesta durante la inferencia, se distingue de términos relacionados como:

  • Inferencia en Tiempo Real: Se refiere a tareas de inferencia que requieren respuestas instantáneas, a menudo con estrictas restricciones de latencia. Más información sobre la inferencia en tiempo real.
  • Precisión: A diferencia de la latencia, la precisión evalúa la exactitud de las predicciones del modelo. Explora la precisión para comprender su papel en el rendimiento del modelo de IA.
  • Rendimiento: Mide el número de inferencias que un modelo puede realizar por segundo y a menudo se optimiza junto con la latencia. Para las aplicaciones que dan prioridad a la velocidad, aprende a equilibrar la latencia frente al rendimiento.

Conclusión

La latencia de la inferencia es una métrica crítica en el despliegue de los modelos de IA, sobre todo para las aplicaciones que exigen un rendimiento en tiempo real o de baja latencia. Al comprender los factores que influyen en la latencia y emplear técnicas de optimización, los desarrolladores pueden garantizar que sus modelos ofrezcan resultados rápidos y fiables. El HUB Ultralytics proporciona herramientas para entrenar, desplegar y supervisar modelos de forma eficiente, facilitando la consecución de un rendimiento óptimo en diversos casos de uso. Explora el HUB Ultralytics para agilizar tus flujos de trabajo de IA.

Leer todo