Glosario

Cabezal de detección

Descubre el papel fundamental de los cabezales de detección en la detección de objetos, perfeccionando los mapas de características para localizar objetos y clases con precisión.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En la arquitectura de los modelos de detección de objetos, la cabeza de detección es un componente crucial que suele situarse al final de la tubería de la red. Tras la columna vertebral (que extrae las características iniciales) y el cuello (que agrega y refina estas características), la cabeza de detección toma la información procesada de la imagen, conocida como mapas de características, y la traduce en las predicciones finales. Esencialmente sirve como unidad de toma de decisiones del modelo de aprendizaje profundo, identificando qué objetos están presentes, dónde están situados mediante cuadros delimitadores, y asignando una puntuación de confianza a cada detección.

Funcionalidad y funcionamiento

El cabezal de detección procesa las características ricas y abstractas generadas por las capas precedentes de la red neuronal. Estas características codifican patrones complejos, texturas y formas relevantes para los posibles objetos de la imagen de entrada. La cabeza suele utilizar su propio conjunto de capas, que a menudo incluyen capas convolucionales, para realizar dos tareas principales:

  1. Clasificación: Predecir la etiqueta de clase de cada objeto detectado (por ejemplo, "persona", "coche", "perro"). Esto se consigue a menudo mediante técnicas que culminan en una función de activación Softmax o similar para dar salida a las probabilidades de cada clase.
  2. Localización (Regresión): Predecir las coordenadas precisas del cuadro delimitador que encierra cada objeto detectado. Se trata como un problema de regresión.

Modelos avanzados como Ultralytics YOLO incorporan cabezales de detección muy eficientes diseñados para realizar estas tareas rápidamente, lo que permite una inferencia en tiempo real crucial para muchas aplicaciones. Las predicciones se suelen postprocesar utilizando técnicas como la Supresión No Máxima (NMS) para eliminar las detecciones duplicadas.

Componentes clave y variaciones

Los diseños de los cabezales de detección varían significativamente en función de la arquitectura específica de detección de objetos. Las principales variaciones son:

  • Basado en anclajes vs. Sin anclajes:
    • Los detectores basados en anclas, habituales en modelos como Faster R-CNN y las versiones anteriores de YOLO , se basan en un conjunto predefinido de cajas de anclaje de varios tamaños y relaciones de aspecto en diferentes ubicaciones del mapa de características. La cabeza predice los desplazamientos para refinar estos anclajes y clasifica el objeto dentro de ellos.
    • Detectores sin anclaje, utilizados en modelos como YOLO11 y FCOS, predicen directamente las propiedades de los objetos, como los puntos centrales y las dimensiones, sin anclajes predefinidos. Este enfoque puede simplificar el diseño y mejorar potencialmente la generalización, como se destaca en las ventajas de la detección sin anclajes.
  • Cabezas acopladas frente a cabezas desacopladas: Algunos diseños utilizan un único conjunto de capas (cabezal acoplado) tanto para la clasificación como para la regresión, mientras que otros utilizan ramas separadas (cabezal desacoplado) para cada tarea, lo que a veces puede mejorar la precisión. Puedes explorar más a fondo los módulos de cabezal Ultralytics en la documentación de la API.

Comparación con otros componentes y tareas

Comprender la cabeza de detección requiere distinguirla de otras partes de un modelo de visión por ordenador (VC) y de las tareas relacionadas:

  • Red troncal: La red troncal (por ejemplo, ResNet, VGG) se encarga de la extracción inicial de características de la imagen de entrada, aprendiendo características jerárquicas desde bordes de bajo nivel hasta partes de objetos de alto nivel.
  • Cuello: Situado entre la columna vertebral y la cabeza, el cuello suele agregar características de múltiples escalas de la columna vertebral (utilizando técnicas como las Redes Piramidales de Características) para proporcionar un contexto más rico para detectar objetos de diversos tamaños.
  • Clasificación de imágenes: A diferencia de la detección de objetos, la clasificación de imágenes asigna una única etiqueta a toda la imagen sin localización.
  • Tareas de Segmentación: La Segmentación Semántica clasifica cada píxel de la imagen, mientras que la Segmentación por Instancias va más allá al distinguir diferentes instancias de la misma clase de objeto a nivel de píxel. La detección de objetos proporciona cuadros delimitadores, no máscaras de píxeles.

Aplicaciones en el mundo real

La eficacia del cabezal de detección influye directamente en el rendimiento de numerosas aplicaciones de IA basadas en la detección de objetos:

  1. Conducción autónoma: Los cabezales de detección son fundamentales en la IA de los coches de conducción autónoma para identificar y localizar peatones, otros vehículos, señales de tráfico y obstáculos en tiempo real, lo que permite una navegación segura. Empresas como Waymo dependen en gran medida de esta tecnología.
  2. Seguridad y vigilancia: En los sistemas de seguridad, los cabezales de detección permiten la vigilancia automatizada mediante la identificación de personas no autorizadas, objetos abandonados o acontecimientos concretos en las secuencias de vídeo. Esto constituye la base de aplicaciones como la guía del sistema de alarma de seguridadUltralytics .
  3. Análisis del comercio minorista: Se utiliza para la gestión de inventarios, la supervisión de estanterías y el análisis del comportamiento de los clientes.
  4. Imágenes médicas: Ayudar a los radiólogos detectando anomalías como tumores o fracturas en las exploraciones, contribuyendo al análisis de imágenes médicas.
  5. Fabricación: Permitir el control de calidad en la fabricación detectando automáticamente los defectos de los productos en las cadenas de montaje.

Los modelos modernos de detección de objetos como YOLOv8 y YOLO11a menudo se construyen utilizando marcos de trabajo como PyTorch o TensorFlowpresentan sofisticados cabezales de detección optimizados tanto para la velocidad como para la precisión en conjuntos de datos de referencia como COCO. El entrenamiento y despliegue de estos modelos se ve facilitado por plataformas como Ultralytics HUB, que permiten a los usuarios aprovechar potentes capacidades de detección para sus necesidades específicas. La evaluación del rendimiento suele implicar métricas como mAP e IoU, detalladas en la guía Métricas de rendimiento deYOLO .

Leer todo