Glosario

Inferencia en tiempo real

Descubre cómo la inferencia en tiempo real con Ultralytics YOLO permite predicciones instantáneas para aplicaciones de IA como la conducción autónoma y los sistemas de seguridad.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La inferencia en tiempo real se refiere al proceso en el que un modelo entrenado de aprendizaje automático (ML ) hace predicciones o toma decisiones inmediatamente a medida que llegan nuevos datos. A diferencia de la inferencia por lotes, que procesa los datos en grupos recogidos a lo largo del tiempo, la inferencia en tiempo real prioriza la baja latencia y las respuestas instantáneas. Esta capacidad es esencial para las aplicaciones que requieren respuestas o acciones inmediatas basadas en flujos de datos en directo, lo que permite a los sistemas reaccionar dinámicamente a las condiciones cambiantes, en consonancia con los principios de la informática en tiempo real.

Comprender la inferencia en tiempo real

En la práctica, la inferencia en tiempo real significa desplegar un modelo ML, como un Ultralytics YOLO para visión por ordenador (VC), para que pueda analizar entradas de datos individuales (como fotogramas de vídeo o lecturas de sensores) y producir salidas con un retraso mínimo. La métrica clave del rendimiento es la latencia de la inferencia, el tiempo que transcurre desde que se recibe una entrada hasta que se genera una predicción. Conseguir una latencia baja suele implicar varias estrategias, como optimizar el propio modelo y aprovechar el hardware y el software especializados.

Inferencia en tiempo real vs. Inferencia por lotes

La principal diferencia radica en cómo se procesan los datos y los requisitos de latencia asociados:

  • Inferencia en tiempo real: Procesa los datos punto por punto a medida que llegan, centrándose en minimizar el retraso de cada predicción. Esencial para sistemas interactivos o aplicaciones que necesitan respuestas inmediatas. Piensa en la detección de un obstáculo para un coche autoconducido.
  • Inferencia por lotes: Procesa los datos en grandes trozos o lotes, a menudo programados periódicamente. Optimizada para el rendimiento (procesar grandes volúmenes de datos de forma eficiente) más que para la latencia. Adecuado para tareas como generar informes diarios o analizar grandes conjuntos de datos fuera de línea. Google Cloud ofrece información sobre la predicción por lotes.

Aplicaciones de la inferencia en tiempo real

La inferencia en tiempo real impulsa muchas aplicaciones modernas de Inteligencia Artificial (IA) en las que la toma de decisiones instantánea es crucial:

  • Sistemas autónomos: En la IA para coches autónomos y robótica, la inferencia en tiempo real es fundamental para navegar por entornos, detectar obstáculos(detección de objetos) y tomar decisiones de conducción en fracciones de segundo.
  • Seguridad y vigilancia: Los sistemas de seguridad utilizan la inferencia en tiempo real para detectar intrusiones, identificar actividades sospechosas o vigilar multitudes al instante.
  • Sanidad: Permitir el análisis inmediato de imágenes médicas durante procedimientos o diagnósticos puede mejorar significativamente los resultados de los pacientes y la precisión del diagnóstico.
  • Fabricación: El control de calidad en tiempo real en la fabricación permite la detección inmediata de defectos en la línea de producción, reduciendo los residuos y mejorando la eficacia.
  • Aplicaciones interactivas: Los asistentes virtuales, la traducción de idiomas en tiempo real y los sistemas de recomendación de contenidos dependen de la inferencia de baja latencia para proporcionar experiencias de usuario sin fisuras.

Conseguir un rendimiento en tiempo real

Hacer que los modelos funcionen lo suficientemente rápido para aplicaciones en tiempo real suele requerir una optimización significativa:

Modelos como Ultralytics YOLO11 están diseñados pensando en la eficiencia y la precisión, lo que los hace muy adecuados para tareas de detección de objetos en tiempo real. Plataformas como Ultralytics HUB proporcionan herramientas para entrenar, optimizar (por ejemplo, exportar a ONNX o TensorRT ) y desplegar modelos, facilitando la implementación de soluciones de inferencia en tiempo real a través de varias opciones de despliegue.

Leer todo