Comprende cómo Ultralytics YOLO11 admite la detección de objetos sin anclaje y las ventajas que esta arquitectura de modelos aporta a diversas aplicaciones.
Si echamos un vistazo a la historia de los modelos de IA de Visión, el concepto de detección de objetos -una tarea central de la visión por ordenador que consiste en identificar y localizar objetos dentro de una imagen o vídeo- existe desde la década de 1960. Sin embargo, la razón clave de su importancia en las innovaciones de vanguardia actuales es que las técnicas de detección de objetos y las arquitecturas de los modelos han avanzado y mejorado rápidamente desde entonces.
En un artículo anterior, hablamos de la evolución de la detección de objetos y del camino que ha llevado a los modelos Ultralytics YOLO . Hoy nos centraremos en explorar un hito más concreto de este viaje: el salto de los detectores basados en anclas a los detectores sin anclas.
Los detectores basados en anclas se basan en recuadros predefinidos, llamados "anclas", para predecir dónde están los objetos en una imagen. En cambio, los detectores sin anclas omiten estos recuadros predefinidos y predicen directamente la ubicación de los objetos.
Aunque este cambio pueda parecer simple y lógico, en realidad ha dado lugar a importantes mejoras en la precisión y eficacia de la detección de objetos. En este artículo, entenderemos cómo los detectores sin anclaje han remodelado la visión por ordenador mediante avances como Ultralytics YOLO11.
Los detectores basados en anclas utilizan recuadros predefinidos, conocidos como anclas, para ayudar a localizar objetos en una imagen. Piensa en estas anclas como en una cuadrícula de cajas de distintos tamaños y formas colocadas sobre la imagen. A continuación, el modelo ajusta estas cajas para adaptarlas a los objetos que detecta. Por ejemplo, si el modelo identifica un coche, modificará la caja de anclaje para que se ajuste con mayor precisión a la posición y el tamaño del coche.
Cada ancla está asociada a un posible objeto de la imagen y, durante el entrenamiento, el modelo aprende a ajustar los cuadros de anclaje para que coincidan mejor con la ubicación, el tamaño y la relación de aspecto del objeto. Esto permite al modelo detectar objetos a diferentes escalas y orientaciones. Sin embargo, seleccionar el conjunto adecuado de cajas de anclaje puede llevar mucho tiempo, y el proceso de ajuste puede ser propenso a errores.
Aunque los detectores basados en anclas, como YOLOv4, han funcionado bien en muchas aplicaciones, tienen algunos inconvenientes. Por ejemplo, las cajas de anclaje no siempre se alinean bien con objetos de formas o tamaños diferentes, lo que dificulta que el modelo detecte objetos pequeños o de forma irregular. El proceso de selección y ajuste de los tamaños de las cajas de anclaje también puede llevar mucho tiempo y requiere un gran esfuerzo manual. Aparte de esto, los modelos basados en anclas suelen tener dificultades para detectar objetos ocluidos o superpuestos, ya que las cajas predefinidas pueden no adaptarse bien a estos escenarios más complejos.
Los detectores sin anclajes empezaron a llamar la atención en 2018 con modelos como CornerNet y CenterNet, que adoptaron un nuevo enfoque de la detección de objetos al eliminar la necesidad de cajas de anclaje predefinidas. A diferencia de los modelos tradicionales, que se basan en cajas de anclaje de distintos tamaños y formas para predecir dónde están los objetos, los modelos sin anclaje predicen directamente la ubicación de los objetos. Se centran en puntos o características clave del objeto, como el centro, lo que simplifica el proceso de detección y lo hace más rápido y preciso.
Así es como suelen funcionar los modelos sin anclaje:
Como los modelos sin anclajes no dependen de las cajas de anclaje, tienen un diseño más sencillo. Esto significa que son más eficientes desde el punto de vista computacional. Como no tienen que procesar múltiples cajas de anclaje, pueden detectar objetos más rápidamente, una ventaja importante en aplicaciones en tiempo real como la conducción autónoma y la videovigilancia.
Los modelos sin anclajes también son mucho mejores para manejar objetos pequeños, irregulares u ocluidos. Como se centran en detectar los puntos clave en lugar de intentar ajustar las cajas de anclaje, son mucho más flexibles. Esto les permite detectar objetos con precisión en entornos desordenados o complejos, donde los modelos basados en anclas pueden fallar.
Diseñados originalmente para ser rápidos y eficaces, los modelos YOLO han pasado gradualmente de los métodos basados en anclajes a la detección sin anclajes, haciendo que modelos como YOLO11 sean más rápidos, más flexibles y más adecuados para una amplia gama de aplicaciones en tiempo real.
He aquí un rápido vistazo a cómo ha evolucionado el diseño sin anclajes en las distintas versiones de YOLO :
Un gran ejemplo de las ventajas de la detección sin anclajes mediante YOLO11 es en los vehículos autónomos. En los coches autoconducidos, detectar peatones, otros vehículos y obstáculos con rapidez y precisión es crucial para la seguridad. YOLO11 El enfoque sin anclajes de simplifica el proceso de detección al predecir directamente los puntos clave de los objetos, como el centro de un peatón o los límites de otro vehículo, en lugar de basarse en cajas de anclaje predefinidas.
YOLO11 no necesita ajustar o adaptar una rejilla de anclajes a cada objeto, lo que puede ser costoso y lento desde el punto de vista computacional. En su lugar, se centra en características clave, lo que lo hace más rápido y eficaz. Por ejemplo, cuando un peatón se interpone en la trayectoria del vehículo, YOLO11 puede identificar rápidamente su ubicación señalando puntos clave, aunque la persona esté parcialmente oculta o en movimiento. La capacidad de adaptarse a formas y tamaños variables sin cajas de anclaje permite a YOLO11 detectar objetos de forma más fiable y a mayor velocidad, lo que es vital para la toma de decisiones en tiempo real en los sistemas de conducción autónoma.
Otras aplicaciones en las que destacan las capacidades sin anclaje de YOLO11son:
Aunque los modelos sin anclajes como YOLO11 ofrecen muchas ventajas, tienen ciertas limitaciones. Una de las principales consideraciones prácticas a tener en cuenta es que incluso los modelos sin anclaje pueden tener problemas con las oclusiones o los objetos muy superpuestos. Esto se debe a que la visión por ordenador pretende reproducir la visión humana, y al igual que a veces nos cuesta identificar objetos ocluidos, los modelos de IA pueden enfrentarse a retos similares.
Otro factor interesante está relacionado con el procesamiento de las predicciones del modelo. Aunque la arquitectura de los modelos sin anclas es más sencilla que la de los basados en anclas, en ciertos casos es necesario un refinamiento adicional. Por ejemplo, pueden ser necesarias técnicas de postprocesado como la supresión no máxima (NMS) para limpiar las predicciones solapadas o mejorar la precisión en escenas abarrotadas.
El paso de la detección basada en anclas a la detección sin anclas ha supuesto un avance significativo en la detección de objetos. Con modelos sin anclajes como YOLO11, el proceso se simplifica, lo que conlleva mejoras tanto en precisión como en velocidad.
A través de YOLO11, hemos visto cómo la detección de objetos sin anclaje destaca en aplicaciones en tiempo real como los coches autoconducidos, la videovigilancia y las imágenes médicas, donde es crucial una detección rápida y precisa. Este enfoque permite a YOLO11 adaptarse más fácilmente a los distintos tamaños de los objetos y a las escenas complejas, proporcionando un mejor rendimiento en diversos entornos.
A medida que la visión por ordenador siga evolucionando, la detección de objetos será cada vez más rápida, flexible y eficaz.
Explora nuestro repositorio de GitHub y únete a nuestra atractiva comunidad para estar al día de todo lo relacionado con la IA. Comprueba cómo Vision AI está afectando a sectores como la fabricación y la agricultura.
Comienza tu viaje con el futuro del aprendizaje automático