Los detectores de objetos de dos etapas representan una clase de arquitecturas de detección de objetos conocidas por su gran precisión, sobre todo en escenas complejas. A diferencia de sus homólogos, estos detectores dividen la tarea de detección de objetos en dos pasos distintos: en primer lugar, identifican las regiones potenciales de una imagen que podrían contener objetos (propuesta de región) y, en segundo lugar, clasifican los objetos dentro de esas regiones propuestas y refinan sus ubicaciones mediante cuadros delimitadores. Este enfoque metódico permite un análisis detallado, pero a menudo se produce a costa de la velocidad de cálculo en comparación con otros métodos alternativos. Estos modelos son una piedra angular en la evolución de la visión por ordenador (VC).
Cómo funcionan los detectores de dos etapas
El funcionamiento de un detector de dos etapas implica una cadena secuencial, que suele aprovechar las redes neuronales profundas (NN), en concreto las redes neuronales convolucionales (CNN), para la extracción de características.
- Fase 1: Propuesta de Regiones: La primera etapa tiene como objetivo generar un conjunto manejable de regiones candidatas (Regiones de Interés, o RoIs) donde es probable que se encuentren los objetos. Los primeros modelos como la R-CNN utilizaban métodos externos como la Búsqueda Selectiva, mientras que los avances posteriores, en particular la arquitectura R-CNN más rápida, integraban esta etapa en la propia red neuronal utilizando una Red de Propuesta de Regiones (RPN). La RPN escanea eficazmente los mapas de características producidos por la red troncal y predice las posibles ubicaciones y tamaños de los objetos.
- Etapa 2: Clasificación y refinamiento: Las regiones propuestas en la primera etapa pasan a la segunda. Para cada RoI, se extraen características del mapa de características compartido (utilizando técnicas como RoIPooling o RoIAlign para gestionar los distintos tamaños de las regiones). Estas características alimentan un cabezal de detección que realiza dos tareas: clasificar el objeto dentro del RoI (por ejemplo, "coche", "persona", "fondo") y refinar las coordenadas del cuadro delimitador para que se ajuste con mayor precisión al objeto.
Características principales
Los detectores de dos etapas se caracterizan principalmente por:
- Alta precisión: La separación de la generación de propuestas y la clasificación/refinamiento permite a la segunda etapa centrar sus recursos en un conjunto más pequeño de regiones prometedoras, lo que a menudo conduce a una mayor precisión de localización y clasificación. Suelen rendir bien con objetos pequeños y en escenas abarrotadas. El rendimiento suele medirse utilizando métricas como la Precisión Media Media (mAP) y la Intersección sobre la Unión (IoU).
- Menor velocidad de inferencia: Procesar la imagen en dos etapas distintas, especialmente con la sobrecarga de generar y procesar individualmente numerosas propuestas de región, hace que estos detectores sean computacionalmente más intensivos y, en general, más lentos que los detectores de objetos de una sola etapa. Esto puede limitar su uso en aplicaciones que requieran una inferencia estricta en tiempo real.
Comparación con detectores de una etapa
La principal distinción radica en la tubería operativa. Los detectores de una etapa, como el Ultralytics YOLO (que incluye modelos como YOLO11 y YOLOv8) y SSD (Single Shot MultiBox Detector), predicen directamente los recuadros delimitadores y las probabilidades de clase a partir de la imagen completa en una sola pasada hacia delante a través de la red. Tratan la detección de objetos como un problema de regresión. Este enfoque unificado otorga importantes ventajas de velocidad, lo que los hace adecuados para aplicaciones en tiempo real. Sin embargo, históricamente han tenido dificultades para igualar la precisión de los detectores de dos etapas, especialmente para los objetos pequeños, aunque esta diferencia se ha reducido considerablemente con los avances modernos. Puedes explorar las comparaciones entre distintos modelos de detección de objetos para obtener más detalles.
Arquitecturas notables
La evolución de los detectores de dos etapas incluye varios modelos influyentes:
- R-CNN (Regiones con características CNN): El trabajo pionero que combinaba propuestas de regiones con características CNN, pero era lento debido a que procesaba cada región de forma independiente.
- R-CNN rápida: Velocidad mejorada compartiendo el cálculo entre propuestas mediante RoIPooling en un mapa de características convolucional compartido.(Documento sobre la R-CNN rápida)
- R-CNN más rápida: Mayor velocidad y elegancia al integrar el paso de propuesta de región en la red mediante la RPN, creando un sistema entrenable casi de principio a fin.
- Máscara R-CNN: R-CNN más rápida ampliada para realizar la segmentación de instancias añadiendo una rama para predecir las máscaras de segmentación de cada objeto detectado.(Documento sobre la R-CNN de máscara)
Aplicaciones en el mundo real
La gran precisión de los detectores de dos etapas los hace valiosos en situaciones en las que la precisión es primordial:
- Análisis de Imágenes Médicas: La detección de anomalías sutiles como pequeños tumores, lesiones o pólipos en exploraciones médicas (TC, RM) requiere una gran precisión para ayudar al diagnóstico. Una localización precisa es fundamental para planificar el tratamiento. Más información sobre la IA en la asistencia sanitaria y la investigación en revistas como Radiology: Inteligencia Artificial. Puedes explorar conjuntos de datos como el de Tumores Cerebrales para tareas relacionadas.
- Conducción autónoma: Detectar y localizar con precisión peatones, ciclistas, otros vehículos y señales de tráfico, especialmente las pequeñas o parcialmente ocluidas, es crucial para los sistemas de seguridad de los coches autónomos. Empresas como Waymo dependen en gran medida de sistemas de percepción robustos.
- Comprensión detallada de la escena: Las aplicaciones que requieren una comprensión detallada de las interacciones de los objetos o un recuento preciso se benefician de una mayor precisión.
- Control de calidad en la fabricación: Identificar pequeños defectos o verificar la colocación de componentes en conjuntos complejos a menudo exige una gran precisión. Más información sobre la IA en la fabricación.
El entrenamiento de estos modelos suele implicar grandes conjuntos de datos etiquetados, como el conjunto de datos COCO, y un cuidadoso ajuste. Ultralytics proporciona recursos para el entrenamiento de modelos y la comprensión de las métricas de rendimiento. Aunque Ultralytics se centra en modelos eficientes de una etapa, como Ultralytics YOLO, comprender los detectores de dos etapas proporciona un contexto valioso dentro del campo más amplio de la detección de objetos.