Los detectores de objetos en dos etapas representan una categoría de arquitecturas de detección de objetos en visión por ordenador (VC) que priorizan la precisión dividiendo el proceso de detección en dos etapas distintas. Estos detectores están diseñados para identificar primero regiones de interés (RoIs) dentro de una imagen en las que podría haber objetos, y luego, en la segunda etapa, clasificar los objetos dentro de estas regiones propuestas y refinar sus ubicaciones (cajas delimitadoras). Este enfoque metódico permite un análisis más detallado de cada objeto potencial, lo que a menudo conduce a una mayor precisión en la detección, especialmente en escenarios complejos o cuando se detectan objetos pequeños.
Cómo funcionan los detectores de dos etapas
El funcionamiento de los detectores de dos etapas implica un proceso secuencial, aprovechando las técnicas de aprendizaje profundo, en particular las Redes Neuronales Convolucionales (CNN).
- Fase 1: Propuesta de Región: La primera etapa suele utilizar una Red de Propuesta de Regiones (RPN), un concepto popularizado por el modelo Faster R-CNN. La RPN escanea las características de la imagen (extraídas por una CNN troncal como ResNet) y propone un conjunto de regiones candidatas susceptibles de contener objetos. Estas propuestas son esencialmente recuadros gruesos alrededor de los objetos potenciales.
- Etapa 2: Clasificación y refinamiento: Las regiones propuestas (RoIs) pasan a la segunda etapa. Para cada RoI, se extraen características (a menudo utilizando técnicas como RoIPool o RoIAlign), y una red neuronal (NN) realiza dos tareas: clasificar el objeto dentro de la RoI (por ejemplo, "coche", "persona", "fondo") y refinar las coordenadas del cuadro delimitador para que se ajuste con mayor precisión al objeto. Algunos ejemplos destacados son la familia R-CNN(¿Qué es R-CNN?, Fast R-CNN, Faster R-CNN) y Mask R-CNN, que amplía este enfoque para realizar la segmentación de instancias.
Ventajas y desventajas
Los detectores de dos etapas ofrecen distintas ventajas, pero también tienen sus inconvenientes:
Ventajas:
- Alta precisión: La separación de la generación de propuestas y la clasificación/refinamiento permite un procesamiento más centrado, lo que generalmente se traduce en una mayor precisión, especialmente medida por métricas como la Precisión Media Media (mAP).
- Mejor localización: La etapa de refinamiento suele dar lugar a predicciones más precisas de los recuadros delimitadores.
- Eficaces para objetos pequeños: Pueden funcionar mejor que los detectores de una etapa a la hora de identificar objetos pequeños en una imagen, debido a la segunda etapa enfocada.
Desventajas:
- Velocidad más lenta: El proceso secuencial en dos etapas requiere intrínsecamente más tiempo de cálculo, lo que se traduce en una menor latencia de inferencia en comparación con los métodos de una etapa. Esto los hace menos adecuados para aplicaciones que requieren inferencia en tiempo real.
- Complejidad: La arquitectura suele ser más compleja de implantar y formar.
- Mayor coste computacional: Suelen requerir más recursos computacionales (como GPUs) tanto para el entrenamiento como para la inferencia.
Comparación con detectores de una etapa
La principal distinción radica en la arquitectura y el enfoque. Los detectores de objetos de una etapa, como los Ultralytics YOLO de Ultralytics (por ejemplo YOLOv8, YOLO11) y SSD, realizan la localización y clasificación de objetos simultáneamente en una sola pasada por la red. Esto los hace significativamente más rápidos. La elección entre detectores de una etapa y de dos etapas suele implicar un compromiso: dar prioridad a la velocidad (una etapa) o a la máxima precisión (dos etapas). Aunque los detectores de una etapa han reducido significativamente la diferencia de precisión, los detectores de dos etapas suelen mantener una ventaja en los escenarios que exigen la máxima precisión.
Aplicaciones en el mundo real
La gran precisión de los detectores de dos etapas los hace valiosos en aplicaciones donde la precisión es primordial:
- Análisis de imágenes médicas: Detección de anomalías sutiles como pequeños tumores o lesiones en tomografías computarizadas o resonancias magnéticas, donde una alta precisión es fundamental para el diagnóstico. Modelos como el R-CNN de máscara se han adaptado a este tipo de tareas en la IA sanitaria (véase el ejemplo: R-CNN de máscara en imágenes médicas).
- Conducción autónoma: Permitir que los sistemas de percepción detallada de los vehículos autónomos detecten y clasifiquen con precisión diversos objetos como peatones, vehículos y señales de tráfico, incluso en entornos desordenados o difíciles, contribuyendo a la seguridad general dentro de la IA en Automoción.
- Imágenes de satélite de alta resolución: Análisis de imágenes de satélite detalladas para la identificación precisa de objetos, como el seguimiento de tipos específicos de vehículos o cambios en la infraestructura en el análisis de imágenes de satélite.
- Control de Calidad en Fabricación: Inspección de productos en busca de defectos menores que requieren una gran precisión de localización en AI in Manufacturing. Frameworks como Detectron2 de Meta AI proporcionan implementaciones de modelos populares de dos etapas.