Descubre por qué son importantes los FPS en la visión por ordenador y cómo afectan a la detección de objetos en tiempo real, el análisis de vídeo y las aplicaciones basadas en IA.
Ver una repetición a cámara lenta de tu momento deportivo favorito, en la que cada detalle es nítido, es muy diferente de ver una grabación de vigilancia que suele parecer entrecortada y difícil de seguir. El detalle técnico clave detrás de estas diferencias es el FPS, o fotogramas por segundo, que se refiere al número de fotogramas mostrados por segundo en un vídeo. Un FPS más alto produce un movimiento suave y realista, mientras que un FPS más bajo puede dar lugar a secuencias entrecortadas y menos detalladas.
Este concepto afecta directamente a la visión por ordenador, una rama de la IA que permite a las máquinas interpretar y analizar los datos visuales de forma similar a como lo hacen los humanos. En visión por ordenador, un FPS más alto significa que los sistemas pueden capturar más información cada segundo, mejorando la precisión de la detección y el seguimiento de objetos en tiempo real.
En este artículo, exploraremos los aspectos técnicos de los FPS y cómo se relacionan con las aplicaciones de visión por ordenador. ¡Empecemos ya!
Digamos que estás jugando a un juego de carreras: a 60 FPS, cada giro se siente suave y receptivo, pero a 20 FPS, los controles se retrasan, haciendo más difícil esquivar los obstáculos. En pocas palabras, puedes pensar en los FPS como el número de imágenes fijas que se muestran cada segundo. Más imágenes por segundo hacen que el movimiento parezca suave y natural, mientras que menos imágenes pueden hacer que parezca entrecortado.
Al igual que en los juegos, los FPS son una parte fundamental de las aplicaciones de visión por ordenador. Un FPS más alto permite rastrear objetos utilizando la IA de Visión con fluidez, mientras que un FPS más bajo puede hacer que se pierdan detalles.
Por ejemplo, en el análisis deportivo, las cámaras con IA necesitan un FPS más alto para poder seguir los pases rápidos, los movimientos de los jugadores y las trayectorias del balón. Un FPS más bajo podría hacer que se perdiera un contacto importante entre el pie y el balón o un cambio rápido de dirección, lo que afectaría a la precisión del análisis.
Del mismo modo, en la supervisión del tráfico, los sistemas dependen de altos FPS para detectar vehículos que circulan a gran velocidad y cambios de carril en tiempo real. Elegir el FPS adecuado depende de los requisitos específicos de cada aplicación de visión por ordenador, equilibrando rendimiento, eficacia y claridad visual.
Ahora que ya hemos hablado de qué son los FPS y cómo se utilizan en la visión por ordenador, vamos a sumergirnos en sus aspectos técnicos, empezando por cómo calcular los FPS de un vídeo.
Dividiendo el número total de fotogramas por la duración en segundos obtienes los FPS de un vídeo. Por ejemplo, si un vídeo tiene 96 fotogramas en 4 segundos, se calcula a 24 FPS -lo que significa que se muestran 24 imágenes cada segundo-, mientras que 32 fotogramas en 4 segundos dan como resultado 8 FPS. Se pueden utilizar bibliotecas Python como OpenCV para extraer metadatos de vídeo, contar fotogramas y calcular automáticamente los FPS, agilizando el proceso de análisis de vídeo.
Sin embargo, calcular sólo los FPS no basta para tomar decisiones técnicas al desarrollar soluciones de visión por ordenador. También es importante tener en cuenta los diversos factores que pueden afectar a la frecuencia de imagen efectiva, como las capacidades del hardware, las optimizaciones del software y las condiciones ambientales.
Aquí tienes un análisis más detallado de esos factores:
Modelos de IA como Ultralytics YOLO11 que admiten tareas de visión por ordenador en tiempo real, pueden utilizarse para analizar vídeos con altas frecuencias de cuadro. Esta capacidad en tiempo real es fundamental para aplicaciones como la conducción autónoma, la vigilancia y la robótica, donde incluso pequeños retrasos pueden dar lugar a errores significativos.
Recorramos algunas aplicaciones de IA de Visión del mundo real en las que unos FPS elevados son esenciales para la precisión y el rendimiento.
Los sistemas de vigilancia que controlan zonas de mucho tráfico, como las autopistas, utilizan un alto FPS para captar detalles minúsculos, garantizando que los vehículos que se mueven con rapidez queden claramente documentados. Esta claridad es esencial para los sistemas de reconocimiento automático de matrículas (ANPR ), que dependen de grabaciones de buena calidad para identificar los vehículos con precisión.
En estos sistemas, se pueden utilizar modelos como YOLO11 para detectar matrículas directamente a partir de la señal de vídeo. Una vez detectada una matrícula, se utiliza el Reconocimiento Óptico de Caracteres (OCR), que convierte las imágenes de texto en caracteres legibles por máquina, para leer los detalles de la matrícula. Este proceso permite una identificación rápida y precisa de los vehículos, mejorando el cumplimiento de las normas de tráfico y la seguridad en general.
Considera un coche autoconducido en una señal de stop, analizando cuidadosamente su entorno para decidir si puede avanzar con seguridad. Este coche debe tomar decisiones casi instantáneas, lo que requiere capturar y procesar datos visuales en tiempo real.
Si el vehículo autónomo está equipado con cámaras capaces de captar imágenes a un mayor número de FPS, recibe un flujo de imágenes más continuo y detallado. Esta información visual mejorada permite al coche detectar rápidamente obstáculos, peatones y otros vehículos. De este modo, el vehículo puede reaccionar rápidamente a cualquier cambio en su entorno.
Si las cámaras procesaran las imágenes a un FPS inferior, el vehículo podría recibir una visión más entrecortada y menos detallada. Esto podría retrasar su tiempo de respuesta, aumentando el riesgo de perder información crítica y comprometiendo potencialmente la seguridad.
Captar cada movimiento con precisión es crucial en los deportes, donde las decisiones tomadas en fracciones de segundo pueden marcar la diferencia entre ganar y perder. La tecnología que admite un mayor número de FPS permite grabar hasta el más mínimo detalle en movimiento, y los entrenadores, analistas y atletas pueden revisar las jugadas a cámara lenta sin perderse ni un segundo. También ayuda a los árbitros a tomar decisiones más precisas en deportes como el tenis, el fútbol y el críquet, proporcionando una visión clara de la acción fotograma a fotograma.
Por ejemplo, un interesante estudio sobre voleibol analizó cómo el uso de un FPS más alto mejora la evaluación del rendimiento. Aumentar los FPS de 30 a 240 mejoró significativamente la claridad del movimiento y el seguimiento de objetos. También mejoró la precisión del análisis del remate, lo que ayudó a los entrenadores a comprender con mayor precisión la colocación de las manos, los puntos de contacto con el balón y la mecánica del salto. Además, el estudio descubrió que un FPS más alto reducía el desenfoque del movimiento, facilitando el análisis de los saques y las reacciones defensivas.
No todas las aplicaciones de visión por ordenador requieren grabar secuencias a un FPS más alto. En muchos casos, un FPS más bajo es suficiente para obtener resultados precisos, dependiendo de la tarea. He aquí algunas áreas clave en las que es preferible un FPS más bajo:
Seleccionar el FPS ideal requiere equilibrar el rendimiento con las limitaciones del sistema. He aquí algunas consideraciones a tener en cuenta al optimizar los FPS para aplicaciones de aprendizaje profundo:
Los avances en la IA y la optimización del hardware están haciendo que se puedan conseguir frecuencias de cuadro más altas, incluso en entornos con recursos limitados. Por ejemplo, sectores como el cine, los deportes y la robótica pueden beneficiarse de una gestión más inteligente de la frecuencia de imagen, en la que los sistemas ajustan dinámicamente los FPS en función de la complejidad del movimiento y la potencia de procesamiento. La interpolación de fotogramas controlada por IA también mejora la fluidez del vídeo generando fotogramas adicionales en tiempo real.
Mientras tanto, un reciente avance de NVIDIA impulsa aún más el rendimiento en FPS. DLSS 4 (Deep Learning Super Sampling) introduce la generación de fotogramas múltiples, que utiliza la IA para predecir y crear fotogramas adicionales. Esto aumenta la velocidad de fotogramas hasta 8 veces y reduce la carga de trabajo del sistema.
Al dejar que la IA se encargue de parte del renderizado, DLSS 4 hace que las imágenes sean más fluidas sin sobrecargar el hardware, mejorando tanto el rendimiento como la eficiencia.
Los FPS son algo más que una medida de fluidez visual; impulsan la toma de decisiones en tiempo real en la IA y la visión por ordenador. Cada fotograma de un vídeo captura datos críticos que permiten a las máquinas rastrear objetos, analizar el movimiento y responder a entornos dinámicos. Tanto si se trata de coches autodirigidos que evitan obstáculos como de sistemas de vigilancia que detectan amenazas al instante, los FPS adecuados garantizan precisión y eficacia.
El futuro de los FPS no consiste sólo en aumentar la frecuencia de fotogramas, sino también en optimizarlos de forma inteligente. Esta evolución hará que los sistemas de visión por ordenador sean más rápidos, innovadores y eficientes en el uso de los recursos en diversas industrias.
¿Quieres aprender más sobre IA? Explora nuestro repositorio GitHub y únete a nuestra comunidad. ¿Estás listo para iniciar tus propios proyectos de visión por ordenador? Consulta nuestras opciones de licencia. Descubre cómo la visión por ordenador en la sanidad está mejorando la eficiencia y explora el impacto de la IA en la fabricación visitando nuestras páginas de soluciones.
Comienza tu viaje con el futuro del aprendizaje automático