Inferencia en tiempo real

Descubra cómo la inferencia en tiempo real con Ultralytics YOLO permite realizar predicciones instantáneas para aplicaciones de IA como la conducción autónoma y los sistemas de seguridad.

La inferencia en tiempo real es el proceso de utilizar un modelo de aprendizaje automático (ML) entrenado para realizar predicciones sobre datos nuevos y en tiempo real con un retraso mínimo. En el contexto de la IA y la visión por ordenador (CV), esto significa que el sistema puede procesar información -como un flujo de vídeo- y generar un resultado casi instantáneamente. El objetivo es que la latencia de la inferencia sea lo suficientemente baja como para que los resultados sean inmediatamente útiles para la toma de decisiones. Esta capacidad es crucial para aplicaciones en las que el tiempo es un factor crítico, transformando el modo en que sectores como la automoción o la sanidad aprovechan la IA.

Inferencia en tiempo real frente a inferencia por lotes Inferencia por lotes

Es importante distinguir la inferencia en tiempo real de la inferencia por lotes. La diferencia clave radica en cómo se procesan los datos.

Inferencia en tiempo real: Procesa los datos a medida que se generan o reciben, normalmente una entrada o un pequeño flujo a la vez. La prioridad es minimizar el retardo(latencia) entre la entrada y la salida. Esto es esencial para los sistemas interactivos y sensibles al tiempo.
Inferencia por lotes: Consiste en recopilar datos a lo largo de un periodo y procesarlos todos a la vez en un gran lote. Este enfoque da prioridad a maximizar el rendimiento (la cantidad de datos procesados a lo largo del tiempo) en lugar de minimizar la latencia. El procesamiento por lotes es adecuado para tareas no urgentes, como la generación de informes diarios o el análisis periódico de grandes conjuntos de datos.

Aunque ambos utilizan un modelo entrenado para hacer predicciones, sus casos de uso son fundamentalmente diferentes en función de la urgencia de los resultados.

Aplicaciones en el mundo real

La capacidad de tomar decisiones al instante permite una amplia gama de potentes aplicaciones en diversos sectores.

Sistemas autónomos: En los coches autónomos, la inferencia en tiempo real es una cuestión de seguridad. Los modelos deben realizar la detección de objetos para identificar peatones, otros vehículos y señales de tráfico en milisegundos para navegar con seguridad y evitar colisiones. Del mismo modo, los drones y los robots dependen de ella para navegar e interactuar con su entorno.
Fabricación inteligente: En una línea de producción, las cámaras equipadas con IA pueden realizar un control de calidad en tiempo real. Un modelo como Ultralytics YOLO11 puede detectar defectos en los productos que se desplazan por una cinta transportadora, permitiendo su retirada inmediata. Este es un componente básico de la IA moderna en la fabricación.
Asistencia sanitaria interactiva: Durante una intervención quirúrgica, un modelo podría analizar en directo el vídeo de una cámara para orientar al cirujano en tiempo real. En entornos de diagnóstico, el análisis de imágenes médicas en tiempo real puede ayudar a los médicos a identificar anomalías más rápidamente durante las exploraciones en directo.
Vigilancia inteligente: Los sistemas de seguridad modernos utilizan la inferencia en tiempo real para analizar las secuencias de vídeo e identificar posibles amenazas, como entradas no autorizadas o paquetes abandonados, activando alertas inmediatas. Esto va más allá de la simple grabación para convertirse en una vigilancia activa e inteligente.

Rendimiento en tiempo real

Hacer que los modelos funcionen lo suficientemente rápido para aplicaciones informáticas en tiempo real suele requerir una optimización significativa:

Optimización de modelos: Técnicas como la cuantización del modelo (reducción de la precisión de los pesos del modelo) y la poda del modelo (eliminación de partes redundantes del modelo) reducen la carga computacional y el uso de memoria.
Aceleración por hardware: La utilización de hardware especializado como GPUs, TPUs (Tensor Processing Units), o aceleradores de IA dedicados en dispositivos edge (por ejemplo, NVIDIA Jetson, Google Coral Edge TPU) puede acelerar drásticamente los cálculos. La computación en los bordes es crucial para procesar datos localmente con un retraso mínimo.
Motores de inferencia eficientes: Las bibliotecas de software y los tiempos de ejecución como TensorRT, OpenVINO, ONNX Runtime, y marcos como PyTorch o TensorFlow proporcionan rutas de ejecución optimizadas para modelos entrenados. Un motor de inferencia está diseñado específicamente para ejecutar modelos de manera eficiente para la predicción.

Los modelos como Ultralytics YOLO están diseñados teniendo en cuenta la eficiencia y la precisión, por lo que son idóneos para tareas de detección de objetos en tiempo real. Plataformas como Ultralytics HUB proporcionan herramientas para entrenar, optimizar (por ejemplo, exportar a formatos ONNX o TensorRT) y desplegar modelos, facilitando la implementación de soluciones de inferencia en tiempo real a través de diversas opciones de despliegue.

Inferencia en tiempo real

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Inferencia en tiempo real frente a inferencia por lotes Inferencia por lotes

Aplicaciones en el mundo real

Rendimiento en tiempo real

Leer más en esta categoría

Guía de ERP de fabricación

Sistema de ejecución de fabricación (MES): Producción impulsada por IA

Comprender la fabricación aditiva: Tecnología y casos de uso

Únase a la comunidad Ultralytics