Descubre la velocidad y eficacia de los detectores de objetos de una etapa, como YOLO, ideales para aplicaciones en tiempo real como la robótica y la vigilancia.
En el campo de la visión por ordenador (VC), en particular para la detección de objetos, la velocidad y la eficiencia son a menudo tan cruciales como la precisión. Los detectores de objetos de una etapa son una clase de modelos de aprendizaje profundo diseñados con estas prioridades en mente, que ofrecen un enfoque racionalizado para identificar y localizar objetos dentro de imágenes o vídeos. A diferencia de sus homólogos de dos etapas, los detectores de una etapa realizan la localización del objeto (determinar dónde está un objeto) y la clasificación (determinar qué es un objeto) en una sola pasada hacia adelante de la red neuronal. Este diseño los hace significativamente más rápidos y muy adecuados para aplicaciones de inferencia en tiempo real.
Los detectores de objetos de una etapa se caracterizan por su diseño de extremo a extremo, que evita un paso separado, intensivo desde el punto de vista informático, para proponer regiones de interés (áreas susceptibles de contener objetos). En su lugar, tratan la detección de objetos como un problema de regresión. El modelo procesa toda la imagen de entrada una vez, normalmente utilizando una red troncal (a menudo una Red Neuronal Convolucional o CNN) para la extracción de características. A continuación, estas características se introducen directamente en un cabezal de detección que predice las coordenadas de los cuadros delimitadores, las probabilidades de clase y las puntuaciones de confianza simultáneamente en toda la cuadrícula de la imagen o en las ubicaciones del mapa de características. Esta arquitectura de paso único hace hincapié en la velocidad, por lo que es ideal para aplicaciones en las que es esencial un procesamiento rápido. Algunos ejemplos populares son el Ultralytics YOLO conocidos por equilibrar velocidad y precisión (como YOLO11), y el SSD (Single Shot MultiBox Detector) desarrollado por Google Research. Muchos detectores modernos de una sola etapa también están libres de anclas, lo que simplifica aún más el proceso en comparación con los antiguos métodos basados en anclas.
La diferencia fundamental entre los detectores de objetos de una etapa y los de dos etapas radica en su proceso operativo. Los detectores de dos etapas, como la influyente R-CNN (CNN basada en regiones) y sus sucesores como la R-CNN más rápida, generan primero numerosas propuestas de regiones utilizando métodos como la Búsqueda Selectiva o una Red de Propuestas de Regiones (RPN). En una segunda etapa distinta, se clasifican estas propuestas y se refinan sus cuadros delimitadores. Este proceso de dos pasos suele conseguir una mayor precisión, sobre todo para detectar objetos pequeños o superpuestos, pero tiene el coste de un tiempo de cálculo significativamente mayor y una velocidad de inferencia menor.
En cambio, los detectores de una etapa fusionan estos pasos, realizando la localización y la clasificación simultáneamente en toda la imagen de una sola vez. Este enfoque unificado supone un aumento sustancial de la velocidad. Históricamente, esta ventaja de velocidad a veces suponía una contrapartida, que podía dar lugar a una precisión ligeramente inferior en comparación con los métodos de dos etapas más avanzados, sobre todo en lo que respecta a la precisión de la localización. Sin embargo, los avances en el diseño de la arquitectura, las funciones de pérdida y las estrategias de entrenamiento han permitido que los detectores modernos de una etapa, como YOLO11 , reduzcan significativamente esta diferencia de rendimiento, ofreciendo comparaciones convincentes en varios puntos de referencia. El rendimiento se suele evaluar utilizando métricas como la Precisión Media Promedio (mAP) y la Intersección sobre la Unión (IoU).
La velocidad y eficacia de los detectores de objetos de una etapa los hacen inestimables en numerosos escenarios del mundo real que requieren una toma de decisiones y un procesamiento rápidos:
Desarrollar y desplegar detectores de objetos de una etapa implica utilizar diversas herramientas y plataformas. Los marcos de aprendizaje profundo como PyTorch y TensorFlow proporcionan las bibliotecas básicas. Las bibliotecas de visión por ordenador como OpenCV ofrecen funciones esenciales de procesamiento de imágenes. Ultralytics proporciona Ultralytics YOLO y la plataforma Ultralytics HUB, que simplifica el entrenamiento de modelos personalizados en conjuntos de datos como COCO o tus propios datos, la gestión de experimentos y el despliegue eficiente de modelos. El entrenamiento eficaz de modelos a menudo requiere un cuidadoso ajuste de hiperparámetros y estrategias como el aumento de datos para mejorar la robustez y la generalización. Los modelos pueden exportarse a formatos como ONNX para su despliegue en diversas plataformas de hardware, incluidos los dispositivos de borde.