Descubre cómo la inferencia en tiempo real con Ultralytics YOLO permite predicciones instantáneas para aplicaciones de IA como la conducción autónoma y los sistemas de seguridad.
La inferencia en tiempo real se refiere al proceso en el que un modelo entrenado de aprendizaje automático (ML ) hace predicciones o toma decisiones inmediatamente a medida que llegan nuevos datos. A diferencia de la inferencia por lotes, que procesa los datos en grupos recogidos a lo largo del tiempo, la inferencia en tiempo real prioriza la baja latencia y las respuestas instantáneas. Esta capacidad es esencial para las aplicaciones que requieren respuestas o acciones inmediatas basadas en flujos de datos en directo, lo que permite a los sistemas reaccionar dinámicamente a las condiciones cambiantes, en consonancia con los principios de la informática en tiempo real.
En la práctica, la inferencia en tiempo real significa desplegar un modelo ML, como un Ultralytics YOLO para visión por ordenador (VC), para que pueda analizar entradas de datos individuales (como fotogramas de vídeo o lecturas de sensores) y producir salidas con un retraso mínimo. La métrica clave del rendimiento es la latencia de la inferencia, el tiempo que transcurre desde que se recibe una entrada hasta que se genera una predicción. Conseguir una latencia baja suele implicar varias estrategias, como optimizar el propio modelo y aprovechar el hardware y el software especializados.
La principal diferencia radica en cómo se procesan los datos y los requisitos de latencia asociados:
La inferencia en tiempo real impulsa muchas aplicaciones modernas de Inteligencia Artificial (IA) en las que la toma de decisiones instantánea es crucial:
Hacer que los modelos funcionen lo suficientemente rápido para aplicaciones en tiempo real suele requerir una optimización significativa:
Modelos como Ultralytics YOLO11 están diseñados pensando en la eficiencia y la precisión, lo que los hace muy adecuados para tareas de detección de objetos en tiempo real. Plataformas como Ultralytics HUB proporcionan herramientas para entrenar, optimizar (por ejemplo, exportar a ONNX o TensorRT ) y desplegar modelos, facilitando la implementación de soluciones de inferencia en tiempo real a través de varias opciones de despliegue.