Descubre cómo los detectores basados en anclas revolucionan la detección de objetos con una localización precisa, adaptabilidad a la escala y aplicaciones en el mundo real.
Los detectores basados en anclas representan un enfoque fundacional dentro de la visión por ordenador (VC ) para realizar la detección de objetos. Estos modelos se basan en un conjunto de cuadros de referencia predefinidos, conocidos como "anclas" o "priors", que tienen tamaños y relaciones de aspecto específicos. Estas anclas sirven como puntos de partida o plantillas a través de una imagen, ayudando al modelo a predecir la ubicación y la clase de objetos potenciales con mayor eficacia, especialmente los que varían significativamente en escala y forma. Muchas arquitecturas anteriores de detección de objetos utilizaban este método con éxito.
La idea central de los detectores basados en anclas consiste en colocar una rejilla densa de cajas de anclaje a lo largo de la imagen de entrada en varias ubicaciones. Cada caja de anclaje representa un posible objeto candidato con una escala y una relación de aspecto predefinidas. Durante el proceso de entrenamiento, el modelo aprende dos cosas principales para cada ancla: en primer lugar, si el ancla contiene un objeto relevante (clasificación) y, en segundo lugar, cómo ajustar la posición y las dimensiones del ancla (regresión) para que se ajuste al cuadro delimitador del objeto real.
Imagina que buscas distintos vehículos en una gran imagen de un aparcamiento. En lugar de escanear píxel a píxel, utilizas plantillas rectangulares predefinidas (anclas): verticales pequeñas para las motos, cuadradas medianas para los coches y anchas grandes para los autobuses. Superpones estas plantillas a lo largo de la imagen. Cuando una plantilla se solapa significativamente con un vehículo, el modelo aprende a confirmar "Sí, esto es un coche" y desplaza y redimensiona ligeramente la plantilla para que se ajuste perfectamente a los límites del coche. Los anclajes que cubren mayoritariamente el fondo se clasifican como tales. Este método cubre sistemáticamente las posibilidades, guiándose por las formas predefinidas. El rendimiento suele medirse utilizando métricas como Intersección sobre Unión (IoU) y Precisión Media (mAP).
Los detectores basados en anclas, a menudo construidos sobre Redes Neuronales Convolucionales (CNN), ofrecen varias características notables:
Un avance significativo en la detección de objetos ha sido el auge de los detectores sin anclaje. A diferencia de los modelos basados en anclas (por ejemplo, YOLOv4), los métodos sin anclas predicen la ubicación y el tamaño de los objetos directamente, a menudo identificando puntos clave (como esquinas o centros) o prediciendo distancias desde un punto a los límites del objeto, sin depender de formas de anclaje predefinidas.
Las principales distinciones son:
Modelos modernos como Ultralytics YOLO11 utilizan enfoques sin anclas, aprovechando sus ventajas en eficacia y simplicidad. Puedes leer más sobre las ventajas de la detección sin anclajes en YOLO11.
A pesar de la tendencia hacia los métodos sin anclaje, los detectores basados en anclajes se han utilizado con éxito en numerosas aplicaciones:
Aunque los métodos sin anclaje ganan popularidad, comprender los detectores basados en anclajes es esencial para apreciar la evolución de la detección de objetos y su continua relevancia en contextos específicos o sistemas heredados. Herramientas como PyTorch y TensorFlow admiten tanto el desarrollo de modelos basados en anclas como el de modelos sin anclas, mientras que plataformas como Ultralytics HUB agilizan la formación y el despliegue de detectores modernos.