Descubra la velocidad y eficacia de los detectores de objetos de una etapa como YOLO, ideales para aplicaciones en tiempo real como la robótica y la vigilancia.
Los detectores de objetos de una etapa son una clase de modelos de aprendizaje profundo diseñados para la velocidad y la eficiencia en la visión por ordenador. Realizan la localización y clasificación de objetos en una sola pasada unificada de la red neuronal. Esto contrasta con sus homólogos más complejos, los detectores de objetos de dos etapas, que dividen la tarea en dos pasos distintos. Al tratar la detección de objetos como un sencillo problema de regresión, los modelos de una etapa predicen los recuadros delimitadores y las probabilidades de clase directamente a partir de las características de la imagen, lo que los hace excepcionalmente rápidos y adecuados para aplicaciones que requieren inferencia en tiempo real.
Un detector de una etapa procesa toda una imagen a la vez a través de una única red neuronal convolucional (CNN). La arquitectura de la red está diseñada para realizar varias tareas simultáneamente. En primer lugar, la columna vertebral de la red realiza la extracción de características, creando ricas representaciones de la imagen de entrada a varias escalas. A continuación, estas características se introducen en un cabezal de detección especializado.
Este cabezal se encarga de predecir un conjunto de cuadros delimitadores, una puntuación de confianza para cada cuadro que indica la presencia de un objeto y la probabilidad de que cada objeto pertenezca a una clase específica. Todo este proceso tiene lugar en una sola pasada hacia delante, lo que constituye la clave de su gran velocidad. A continuación, se utilizan técnicas como la supresión no máxima (NMS) para filtrar las detecciones redundantes y solapadas y obtener el resultado final. Los modelos se entrenan mediante una función de pérdida especializada que combina la pérdida de localización (precisión del cuadro delimitador) y la pérdida de clasificación (precisión de la predicción de la clase).
La principal diferencia radica en la metodología. Los detectores de una etapa se construyen para ser rápidos y sencillos, mientras que los de dos etapas dan prioridad a la precisión, aunque esta distinción es cada vez menos pronunciada en los modelos más recientes.
Se han desarrollado varias arquitecturas influyentes de una etapa, cada una con contribuciones únicas:
La rapidez y eficacia de los detectores de una etapa los han hecho indispensables en numerosas aplicaciones basadas en la IA:
La principal ventaja de los detectores de una etapa es su increíble velocidad, que permite la detección de objetos en tiempo real en una gran variedad de hardware, incluidos dispositivos de IA de bajo consumo como NVIDIA Jetson o Raspberry Pi. Su arquitectura integral más sencilla también facilita su entrenamiento y despliegue mediante marcos como PyTorch o TensorFlow.
Históricamente, la principal limitación ha sido la menor precisión en comparación con los detectores de dos etapas, sobre todo cuando se trata de objetos muy pequeños o muy ocluidos. Sin embargo, los recientes avances en la arquitectura de los modelos y las técnicas de entrenamiento, como se observa en modelos como YOLO11, han reducido significativamente esta diferencia de rendimiento, ofreciendo una potente combinación de velocidad y alta precisión para una amplia gama de tareas de visión por ordenador. Plataformas como Ultralytics HUB simplifican aún más el proceso de formación de modelos personalizados para necesidades específicas.