Cheque verde
Enlace copiado en el portapapeles

Las ventajas de que Ultralytics YOLO11 sea un detector sin anclaje

Comprende cómo Ultralytics YOLO11 admite la detección de objetos sin anclaje y las ventajas que esta arquitectura de modelos aporta a diversas aplicaciones.

Si echamos un vistazo a la historia de los modelos de IA de Visión, el concepto de detección de objetos -una tarea central de la visión por ordenador que consiste en identificar y localizar objetos dentro de una imagen o vídeo- existe desde la década de 1960. Sin embargo, la razón clave de su importancia en las innovaciones de vanguardia actuales es que las técnicas de detección de objetos y las arquitecturas de los modelos han avanzado y mejorado rápidamente desde entonces. 

En un artículo anterior, hablamos de la evolución de la detección de objetos y del camino que ha llevado a los modelos Ultralytics YOLO . Hoy nos centraremos en explorar un hito más concreto de este viaje: el salto de los detectores basados en anclas a los detectores sin anclas. 

Los detectores basados en anclas se basan en recuadros predefinidos, llamados "anclas", para predecir dónde están los objetos en una imagen. En cambio, los detectores sin anclas omiten estos recuadros predefinidos y predicen directamente la ubicación de los objetos.

Aunque este cambio pueda parecer simple y lógico, en realidad ha dado lugar a importantes mejoras en la precisión y eficacia de la detección de objetos. En este artículo, entenderemos cómo los detectores sin anclaje han remodelado la visión por ordenador mediante avances como Ultralytics YOLO11.

¿Qué son los detectores basados en anclajes?

Los detectores basados en anclas utilizan recuadros predefinidos, conocidos como anclas, para ayudar a localizar objetos en una imagen. Piensa en estas anclas como en una cuadrícula de cajas de distintos tamaños y formas colocadas sobre la imagen. A continuación, el modelo ajusta estas cajas para adaptarlas a los objetos que detecta. Por ejemplo, si el modelo identifica un coche, modificará la caja de anclaje para que se ajuste con mayor precisión a la posición y el tamaño del coche.

Cada ancla está asociada a un posible objeto de la imagen y, durante el entrenamiento, el modelo aprende a ajustar los cuadros de anclaje para que coincidan mejor con la ubicación, el tamaño y la relación de aspecto del objeto. Esto permite al modelo detectar objetos a diferentes escalas y orientaciones. Sin embargo, seleccionar el conjunto adecuado de cajas de anclaje puede llevar mucho tiempo, y el proceso de ajuste puede ser propenso a errores.

Fig. 1. ¿Qué es una caja de anclaje?

Aunque los detectores basados en anclas, como YOLOv4, han funcionado bien en muchas aplicaciones, tienen algunos inconvenientes. Por ejemplo, las cajas de anclaje no siempre se alinean bien con objetos de formas o tamaños diferentes, lo que dificulta que el modelo detecte objetos pequeños o de forma irregular. El proceso de selección y ajuste de los tamaños de las cajas de anclaje también puede llevar mucho tiempo y requiere un gran esfuerzo manual. Aparte de esto, los modelos basados en anclas suelen tener dificultades para detectar objetos ocluidos o superpuestos, ya que las cajas predefinidas pueden no adaptarse bien a estos escenarios más complejos.

El cambio a la detección de objetos sin anclajes

Los detectores sin anclajes empezaron a llamar la atención en 2018 con modelos como CornerNet y CenterNet, que adoptaron un nuevo enfoque de la detección de objetos al eliminar la necesidad de cajas de anclaje predefinidas. A diferencia de los modelos tradicionales, que se basan en cajas de anclaje de distintos tamaños y formas para predecir dónde están los objetos, los modelos sin anclaje predicen directamente la ubicación de los objetos. Se centran en puntos o características clave del objeto, como el centro, lo que simplifica el proceso de detección y lo hace más rápido y preciso.

Así es como suelen funcionar los modelos sin anclaje:

  • Detección de puntos clave: En lugar de utilizar recuadros predefinidos, algunos modelos identifican puntos importantes de un objeto, como el centro o esquinas concretas. Estos puntos clave ayudan a los modelos a averiguar dónde está el objeto y cuál es su tamaño.
  • Centro predicción: Algunos modelos se centran en predecir el centro de un objeto. Una vez localizado el centro, el modelo puede predecir el tamaño y la posición de todo el objeto a partir de ahí.
  • Regresión de mapas térmicos: Muchos modelos sin anclas utilizan mapas térmicos, en los que cada píxel representa una posible ubicación de un objeto. Los valores más elevados del mapa térmico indican una mayor confianza en la presencia de un objeto en ese punto.
Fig. 2. Detección basada en anclas vs. Detección sin anclas.

Como los modelos sin anclajes no dependen de las cajas de anclaje, tienen un diseño más sencillo. Esto significa que son más eficientes desde el punto de vista computacional. Como no tienen que procesar múltiples cajas de anclaje, pueden detectar objetos más rápidamente, una ventaja importante en aplicaciones en tiempo real como la conducción autónoma y la videovigilancia. 

Los modelos sin anclajes también son mucho mejores para manejar objetos pequeños, irregulares u ocluidos. Como se centran en detectar los puntos clave en lugar de intentar ajustar las cajas de anclaje, son mucho más flexibles. Esto les permite detectar objetos con precisión en entornos desordenados o complejos, donde los modelos basados en anclas pueden fallar.

Ultralytics YOLO11: Un detector sin anclajes

Diseñados originalmente para ser rápidos y eficaces, los modelos YOLO han pasado gradualmente de los métodos basados en anclajes a la detección sin anclajes, haciendo que modelos como YOLO11 sean más rápidos, más flexibles y más adecuados para una amplia gama de aplicaciones en tiempo real.

He aquí un rápido vistazo a cómo ha evolucionado el diseño sin anclajes en las distintas versiones de YOLO :

  • Ultralytics YOLOv5u: Se ha introducido el cabezal de división sin anclajes Ultralytics , que elimina la necesidad de cajas de anclaje predefinidas. En su lugar, el modelo predice directamente dónde están los objetos en una imagen, simplificando el proceso y mejorando la flexibilidad y la velocidad.
  • YOLOv6: Se utilizó un nuevo método llamado Entrenamiento Asistido por Anclas (AAT), en el que las anclas se utilizaban sólo durante el entrenamiento. Esto permitió que el modelo se beneficiara de la estructura de los métodos basados en anclas durante el entrenamiento, sin dejar de utilizar la detección sin anclas en tiempo de ejecución para mejorar la velocidad y la adaptabilidad.
  • Ultralytics YOLOv8: Cambiamos totalmente a la detección sin anclajes utilizando el cabezal dividido sin anclajes Ultralytics . Esto hizo que el modelo fuera más rápido y preciso, especialmente para objetos pequeños o de formas extrañas que no se ajustan bien a las cajas de anclaje.
  • Ultralytics YOLO11: Se basa en el enfoque sin anclas de YOLOv8, optimizando aún más la detección al eliminar por completo las cajas de anclas. El resultado es una detección más rápida y precisa para aplicaciones en tiempo real, como el control del comportamiento animal y el análisis del comercio minorista.
Fig 3. Comparación entre Ultralytics YOLOv8 y Ultralytics YOLO11 .

Aplicaciones reales de YOLO11

Un gran ejemplo de las ventajas de la detección sin anclajes mediante YOLO11 es en los vehículos autónomos. En los coches autoconducidos, detectar peatones, otros vehículos y obstáculos con rapidez y precisión es crucial para la seguridad. YOLO11 El enfoque sin anclajes de simplifica el proceso de detección al predecir directamente los puntos clave de los objetos, como el centro de un peatón o los límites de otro vehículo, en lugar de basarse en cajas de anclaje predefinidas. 

Fig. 4. Ventajas de la detección sin anclajes en YOLO11 (Imagen del autor).

YOLO11 no necesita ajustar o adaptar una rejilla de anclajes a cada objeto, lo que puede ser costoso y lento desde el punto de vista computacional. En su lugar, se centra en características clave, lo que lo hace más rápido y eficaz. Por ejemplo, cuando un peatón se interpone en la trayectoria del vehículo, YOLO11 puede identificar rápidamente su ubicación señalando puntos clave, aunque la persona esté parcialmente oculta o en movimiento. La capacidad de adaptarse a formas y tamaños variables sin cajas de anclaje permite a YOLO11 detectar objetos de forma más fiable y a mayor velocidad, lo que es vital para la toma de decisiones en tiempo real en los sistemas de conducción autónoma.

Otras aplicaciones en las que destacan las capacidades sin anclaje de YOLO11son:

  • Venta al por menor y gestión de inventarios: YOLO11 facilita el seguimiento de los productos en las estanterías, incluso cuando están apilados o parcialmente bloqueados. Esto ayuda a realizar un seguimiento más rápido y preciso del inventario y reduce los errores.
  • Imágenes médicas: YOLO11 también es eficaz en sanidad, donde puede detectar tumores u otras anomalías en exploraciones médicas. Su capacidad para trabajar con objetos de forma irregular ayuda a mejorar la precisión en el diagnóstico de afecciones complejas.
  • Vigilancia de la fauna: En la investigación de la fauna salvaje, YOLO11 puede rastrear animales en bosques densos o terrenos difíciles, ayudando a los investigadores a vigilar su comportamiento o a proteger especies en peligro de extinción.
  • Analítica deportiva: YOLO11 puede utilizarse para seguir a los jugadores, los movimientos del balón u otros elementos en tiempo real durante los acontecimientos deportivos, con el fin de proporcionar información valiosa a los equipos, entrenadores y locutores.

Consideraciones a tener en cuenta al trabajar con modelos sin anclaje

Aunque los modelos sin anclajes como YOLO11 ofrecen muchas ventajas, tienen ciertas limitaciones. Una de las principales consideraciones prácticas a tener en cuenta es que incluso los modelos sin anclaje pueden tener problemas con las oclusiones o los objetos muy superpuestos. Esto se debe a que la visión por ordenador pretende reproducir la visión humana, y al igual que a veces nos cuesta identificar objetos ocluidos, los modelos de IA pueden enfrentarse a retos similares.

Otro factor interesante está relacionado con el procesamiento de las predicciones del modelo. Aunque la arquitectura de los modelos sin anclas es más sencilla que la de los basados en anclas, en ciertos casos es necesario un refinamiento adicional. Por ejemplo, pueden ser necesarias técnicas de postprocesado como la supresión no máxima (NMS) para limpiar las predicciones solapadas o mejorar la precisión en escenas abarrotadas.

Anclarse en el futuro de la IA con YOLO11

El paso de la detección basada en anclas a la detección sin anclas ha supuesto un avance significativo en la detección de objetos. Con modelos sin anclajes como YOLO11, el proceso se simplifica, lo que conlleva mejoras tanto en precisión como en velocidad.

A través de YOLO11, hemos visto cómo la detección de objetos sin anclaje destaca en aplicaciones en tiempo real como los coches autoconducidos, la videovigilancia y las imágenes médicas, donde es crucial una detección rápida y precisa. Este enfoque permite a YOLO11 adaptarse más fácilmente a los distintos tamaños de los objetos y a las escenas complejas, proporcionando un mejor rendimiento en diversos entornos.

A medida que la visión por ordenador siga evolucionando, la detección de objetos será cada vez más rápida, flexible y eficaz.

Explora nuestro repositorio de GitHub y únete a nuestra atractiva comunidad para estar al día de todo lo relacionado con la IA. Comprueba cómo Vision AI está afectando a sectores como la fabricación y la agricultura.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático