Glosario

Detectores de objetos de una etapa

Descubra la velocidad y eficacia de los detectores de objetos de una etapa como YOLO, ideales para aplicaciones en tiempo real como la robótica y la vigilancia.

Los detectores de objetos de una etapa son una clase de modelos de aprendizaje profundo diseñados para la velocidad y la eficiencia en la visión por ordenador. Realizan la localización y clasificación de objetos en una sola pasada unificada de la red neuronal. Esto contrasta con sus homólogos más complejos, los detectores de objetos de dos etapas, que dividen la tarea en dos pasos distintos. Al tratar la detección de objetos como un sencillo problema de regresión, los modelos de una etapa predicen los recuadros delimitadores y las probabilidades de clase directamente a partir de las características de la imagen, lo que los hace excepcionalmente rápidos y adecuados para aplicaciones que requieren inferencia en tiempo real.

Cómo funcionan los detectores de una etapa

Un detector de una etapa procesa toda una imagen a la vez a través de una única red neuronal convolucional (CNN). La arquitectura de la red está diseñada para realizar varias tareas simultáneamente. En primer lugar, la columna vertebral de la red realiza la extracción de características, creando ricas representaciones de la imagen de entrada a varias escalas. A continuación, estas características se introducen en un cabezal de detección especializado.

Este cabezal se encarga de predecir un conjunto de cuadros delimitadores, una puntuación de confianza para cada cuadro que indica la presencia de un objeto y la probabilidad de que cada objeto pertenezca a una clase específica. Todo este proceso tiene lugar en una sola pasada hacia delante, lo que constituye la clave de su gran velocidad. A continuación, se utilizan técnicas como la supresión no máxima (NMS) para filtrar las detecciones redundantes y solapadas y obtener el resultado final. Los modelos se entrenan mediante una función de pérdida especializada que combina la pérdida de localización (precisión del cuadro delimitador) y la pérdida de clasificación (precisión de la predicción de la clase).

Comparación con detectores de objetos de dos etapas

La principal diferencia radica en la metodología. Los detectores de una etapa se construyen para ser rápidos y sencillos, mientras que los de dos etapas dan prioridad a la precisión, aunque esta distinción es cada vez menos pronunciada en los modelos más recientes.

  • Detectores de una etapa: Estos modelos, como la familia YOLO (You Only Look Once), realizan la detección en un solo paso. Suelen ser más rápidos y tener una arquitectura más sencilla, lo que los hace ideales para dispositivos de borde y aplicaciones en tiempo real. El desarrollo de detectores sin anclaje ha mejorado aún más su rendimiento y simplicidad.
  • Detectores de objetos de dos etapas: Los modelos como la serie R-CNN y sus variantes más rápidas generan primero un conjunto disperso de propuestas de regiones en las que podrían encontrarse objetos. En la segunda etapa, una red independiente clasifica estas propuestas y afina las coordenadas del cuadro delimitador. Este proceso en dos fases suele ser más preciso, sobre todo en el caso de objetos pequeños, pero a costa de una velocidad de inferencia mucho menor. La R-CNN de máscara es un ejemplo bien conocido que amplía este enfoque a la segmentación de instancias.

Arquitecturas y modelos clave

Se han desarrollado varias arquitecturas influyentes de una etapa, cada una con contribuciones únicas:

  • YOLO (Solo se mira una vez): Introducido en un innovador artículo de 2015, YOLO enmarca la detección de objetos como un único problema de regresión. Las versiones posteriores, como YOLOv8 y el avanzado Ultralytics YOLO11, han mejorado continuamente el equilibrio entre velocidad y precisión.
  • Detector MultiBox de disparo único (SSD): La arquitectura SSD fue otro modelo pionero de una sola etapa que utiliza mapas de características multiescala para detectar objetos de varios tamaños, mejorando la precisión respecto al YOLO original.
  • RetinaNet: Este modelo introdujo la Pérdida Focal, una novedosa función de pérdida diseñada para abordar el desequilibrio extremo de clases que se encuentra durante el entrenamiento de detectores densos, lo que le permitió superar la precisión de muchos detectores de dos etapas en ese momento.
  • EfficientDet: Una familia de modelos desarrollada por Google Research que se centra en la escalabilidad y la eficiencia mediante el uso de un método de escalado compuesto y una novedosa red de características BiFPN. Puedes ver cómo se compara con otros modelos como YOLO11 frente a EfficientDet.

Aplicaciones reales

La rapidez y eficacia de los detectores de una etapa los han hecho indispensables en numerosas aplicaciones basadas en la IA:

  1. Vehículos autónomos: En la IA para coches autónomos, los detectores de una etapa son cruciales para percibir el entorno en tiempo real. Pueden identificar y seguir al instante a peatones, ciclistas, otros vehículos y señales de tráfico, lo que permite al sistema de navegación del vehículo tomar decisiones críticas en fracciones de segundo. Empresas como Tesla utilizan principios similares en sus sistemas de piloto automático.
  2. Seguridad y vigilancia inteligentes: Los modelos de una etapa impulsan los sistemas de seguridad modernos analizando las secuencias de vídeo para detectar amenazas como entradas no autorizadas o actividades sospechosas. Por ejemplo, un sistema puede entrenarse para contar personas en una cola de espera o identificar equipajes abandonados en un aeropuerto, todo ello en tiempo real.

Ventajas y limitaciones

La principal ventaja de los detectores de una etapa es su increíble velocidad, que permite la detección de objetos en tiempo real en una gran variedad de hardware, incluidos dispositivos de IA de bajo consumo como NVIDIA Jetson o Raspberry Pi. Su arquitectura integral más sencilla también facilita su entrenamiento y despliegue mediante marcos como PyTorch o TensorFlow.

Históricamente, la principal limitación ha sido la menor precisión en comparación con los detectores de dos etapas, sobre todo cuando se trata de objetos muy pequeños o muy ocluidos. Sin embargo, los recientes avances en la arquitectura de los modelos y las técnicas de entrenamiento, como se observa en modelos como YOLO11, han reducido significativamente esta diferencia de rendimiento, ofreciendo una potente combinación de velocidad y alta precisión para una amplia gama de tareas de visión por ordenador. Plataformas como Ultralytics HUB simplifican aún más el proceso de formación de modelos personalizados para necesidades específicas.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles