Glosario

Latencia de la inferencia

Optimiza el rendimiento de la IA con una baja latencia de inferencia. Aprende factores clave, aplicaciones reales y técnicas para mejorar las respuestas en tiempo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La latencia de la inferencia es una métrica crítica en inteligencia artificial y aprendizaje automático (AM), sobre todo cuando se despliegan modelos para aplicaciones del mundo real. Se refiere al tiempo transcurrido entre el momento en que se presenta una entrada (como una imagen o una consulta de texto) a un modelo entrenado y el momento en que el modelo produce una predicción o salida. Esencialmente, mide la rapidez con que un modelo puede procesar nuevos datos y proporcionar un resultado. Minimizar la latencia de la inferencia suele ser crucial para las aplicaciones que requieren respuestas puntuales, lo que repercute directamente en la usabilidad y eficacia de los sistemas de IA.

Relevancia de la latencia de inferencia

Una latencia de inferencia baja es vital para una experiencia de usuario positiva y la viabilidad de muchas aplicaciones de IA. En los sistemas interactivos, como los chatbots o los servicios de traducción en tiempo real, una latencia alta provoca retrasos notables, que frustran a los usuarios. Para aplicaciones críticas como vehículos autónomos o herramientas de diagnóstico médico, incluso pequeños retrasos pueden tener consecuencias significativas, afectando a la seguridad y a la toma de decisiones. Por tanto, comprender, medir y optimizar la latencia de la inferencia es un aspecto clave para desplegar modelos de IA con eficacia. Es una métrica distinta del rendimiento, que mide el número de inferencias procesadas por unidad de tiempo; una aplicación puede requerir una baja latencia (respuesta individual rápida) aunque el rendimiento general no sea extremadamente alto. Puedes obtener más información sobre la optimización de estos diferentes aspectos en guías como la de Modos de Latencia vs RendimientoOpenVINO .

Aplicaciones en el mundo real

La importancia de una baja latencia de inferencia es evidente en varios ámbitos:

  • Vehículos autónomos: Los coches autónomos dependen de la detección rápida de objetos y la comprensión de la escena para navegar con seguridad. La baja latencia garantiza que el vehículo pueda reaccionar instantáneamente ante peatones, otros coches u obstáculos inesperados, lo que es primordial para la seguridad. Ultralytics YOLO suelen estar optimizados para estas tareas de inferencia en tiempo real.
  • IA interactiva: Las aplicaciones como los asistentes virtuales(Amazon Alexa, Google Assistant) o los servicios de traducción necesitan procesar la entrada de voz o texto y responder de forma conversacional. Una alta latencia rompe el flujo de interacción y degrada la experiencia del usuario.
  • Automatización industrial: En la fabricación, los sistemas de visión artificial realizan comprobaciones de control de calidad en las cadenas de montaje. La baja latencia permite identificar y eliminar rápidamente los productos defectuosos sin ralentizar la producción. Esto implica a menudo el despliegue de modelos en dispositivos periféricos.
  • Sanidad: La IA que analiza imágenes médicas (como tomografías computarizadas o radiografías) necesita proporcionar resultados rápidamente para ayudar a la precisión del diagnóstico y a la planificación oportuna del tratamiento. Mira cómo se utilizaYOLO para la detección de tumores.
  • Sistemas de seguridad: Los sistemas de vigilancia en tiempo real utilizan la IA para la detección de amenazas (por ejemplo, identificar intrusos u objetos abandonados). La baja latencia permite alertas y respuestas inmediatas, como en un sistema de alarma de seguridad.

Factores que afectan a la latencia de la inferencia

Varios factores influyen en la rapidez con que un modelo puede realizar inferencias:

  • Complejidad del modelo: Las redes neuronales (NN ) más grandes y complejas suelen requerir más cálculo, lo que conlleva una mayor latencia. La elección de la arquitectura desempeña un papel importante. Puedes comparar distintos modelos, como YOLOv10 frente a YOLO11, para ver las compensaciones.
  • El hardware: La potencia de procesamiento del hardware utilizado para la inferencia es crucial. El hardware especializado como GPUs, TPUs o aceleradores de IA dedicadosGoogle Edge TPUs, NVIDIA Jetson) pueden reducir significativamente la latencia en comparación con las CPUs estándar.
  • Optimización del software: Utilizando motores de inferencia optimizados como NVIDIA TensorRT u OpenVINO deIntel puede mejorar drásticamente el rendimiento optimizando el gráfico del modelo y aprovechando las instrucciones específicas del hardware. Frameworks como PyTorch también ofrecen herramientas de optimización. Exportar modelos a formatos como ONNX facilita el despliegue en distintos motores.
  • Tamaño del lote: Procesar varias entradas juntas(procesamiento por lotes) puede mejorar el rendimiento global, pero a menudo aumenta la latencia de las inferencias individuales. Las aplicaciones en tiempo real suelen utilizar un tamaño de lote de 1.
  • Transferencia de datos: El tiempo que se tarda en trasladar los datos de entrada al modelo y recuperar los de salida puede añadirse a la latencia general, especialmente en escenarios de computación distribuida o en la nube.
  • Cuantización y poda: Técnicas como la cuantización del modelo (reducir la precisión numérica) y la poda del modelo (eliminar los parámetros redundantes del modelo) pueden reducir el tamaño del modelo y los requisitos computacionales, disminuyendo la latencia. Lee más sobre qué es la optimización de modelos en esta guía rápida.

Gestionar la latencia de la inferencia es un acto de equilibrio crítico entre la precisión del modelo, el coste computacional y el tiempo de respuesta, esencial para desplegar soluciones de IA eficaces gestionadas mediante plataformas como Ultralytics HUB. Comprender los pasos de un proyecto de visión por ordenador incluye planificar estos requisitos de rendimiento durante el despliegue del modelo.

Leer todo