Descubre YOLO12, ¡el último modelo de visión por ordenador! Descubre cómo su arquitectura centrada en la atención y la tecnología FlashAttention mejoran las tareas de detección de objetos en todos los sectores.
La visión por ordenador es una rama de la inteligencia artificial (IA) que ayuda a las máquinas a comprender imágenes y vídeos. Es un campo que avanza a un ritmo increíble porque los investigadores y desarrolladores de IA están constantemente superando los límites. La comunidad de la IA siempre está tratando de hacer modelos más rápidos, más inteligentes y más eficientes. Uno de los últimos avances es YOLO12, la última incorporación a la serie de modelos YOLO (You Only Look Once), que salió a la venta el 18 de febrero de 2025.
YOLO12 ha sido desarrollado por investigadores de la Universidad de Buffalo, SUNY (Universidad Estatal de Nueva York) y la Universidad de la Academia China de Ciencias. En un nuevo enfoque único, YOLO12 introduce mecanismos de atención, que permiten al modelo centrarse en las partes más esenciales de una imagen, en lugar de procesarlo todo por igual.
También incorpora FlashAttention, una técnica que acelera el procesamiento utilizando menos memoria, y un mecanismo de atención de área, diseñado para imitar la forma en que los humanos se centran de forma natural en objetos centrales.
Estas mejoras hacen que YOLO12n sea un 2,1% más preciso que YOLOv10n y YOLO12m un +1,0% más preciso que YOLO11m. Sin embargo, esto tiene una contrapartida: YOLO12n es un 9% más lento que YOLOv10n, y YOLO12m es un 3% más lento que YOLO11m.
En este artículo, exploraremos qué hace diferente a YOLO12, cómo se compara con versiones anteriores y dónde puede aplicarse.
La serie de modelosYOLO es una colección de modelos de visión por ordenador diseñados para la detección de objetos en tiempo real, lo que significa que pueden identificar y localizar rápidamente objetos en imágenes y vídeos. Con el tiempo, cada versión ha mejorado en términos de velocidad, precisión y eficacia.
Por ejemplo Ultralytics YOLOv5lanzada en 2020, se utilizó mucho porque era rápida y fácil de personalizar y desplegar. Más tarde, Ultralytics YOLOv8 lo mejoró ofreciendo soporte adicional para tareas de visión por ordenador como la segmentación de instancias y el seguimiento de objetos.
Más recientemente, Ultralytics YOLO11 se centró en mejorar el procesamiento en tiempo real manteniendo un equilibrio entre velocidad y precisión. Por ejemplo, YOLO11m tenía un 22% menos de parámetros que YOLOv8m, y aún así ofrecía un mejor rendimiento de detección en el conjunto de datos COCO, una referencia muy utilizada para evaluar modelos de detección de objetos.
Basándose en estos avances, YOLO12 introduce un cambio en la forma de procesar la información visual. En lugar de tratar todas las partes de una imagen por igual, prioriza las áreas más relevantes, mejorando la precisión de la detección. En pocas palabras, YOLO12 se basa en las mejoras anteriores con el objetivo de ser más preciso.
YOLO12 introduce varias mejoras que potencian las tareas de visión por ordenador, manteniendo intacta la velocidad de procesamiento en tiempo real. He aquí un resumen de las principales características de YOLO12:
Para entender cómo funcionan estas funciones en la vida real, piensa en un centro comercial. YOLO12 puede ayudar a rastrear a los compradores, identificar la decoración de la tienda, como plantas en macetas o carteles promocionales, y detectar artículos extraviados o abandonados.
Su arquitectura centrada en la atención le ayuda a centrarse en los detalles más importantes, mientras que FlashAttention garantiza que procesa todo rápidamente sin sobrecargar el sistema. Esto facilita a los operadores de centros comerciales mejorar la seguridad, organizar la distribución de las tiendas y mejorar la experiencia de compra en general.
Sin embargo, YOLO12 también tiene algunas limitaciones a tener en cuenta:
YOLO12 se presenta en múltiples variantes, cada una optimizada para diferentes necesidades. Las versiones más pequeñas (nano y pequeña) priorizan la velocidad y la eficiencia, por lo que son ideales para dispositivos móviles y edge computing. Las versiones mediana y grande logran un equilibrio entre velocidad y precisión, mientras que YOLO12x (extragrande) está diseñada para aplicaciones de alta precisión, como la automatización industrial, la imagen médica y los sistemas de vigilancia avanzados.
Con estas variantes, YOLO12 ofrece distintos niveles de rendimiento según el tamaño del modelo. Las pruebas comparativas demuestran que ciertas variantes de YOLO12 superan a YOLOv10 y YOLO11 en precisión, alcanzando una precisión media mayor (mAP).
Sin embargo, algunos modelos, como YOLO12m, YOLO12l y YOLO12x, procesan las imágenes con más lentitud que YOLO11, lo que muestra una compensación entre la precisión de la detección y la velocidad. A pesar de ello, YOLO12 sigue siendo eficiente, ya que requiere menos parámetros que muchos otros modelos, aunque sigue utilizando más que YOLO11. Esto lo convierte en una gran elección para aplicaciones en las que la precisión es más importante que la velocidad bruta.
YOLO12 es compatible con el paquetePython Ultralytics y es fácil de usar, lo que lo hace accesible tanto para principiantes como para profesionales. Con sólo unas pocas líneas de código, los usuarios pueden cargar modelos preentrenados, ejecutar diversas tareas de visión por ordenador en imágenes y vídeos, y también entrenar YOLO12 en conjuntos de datos personalizados. El paquetePython Ultralytics agiliza el proceso, eliminando la necesidad de complejos pasos de configuración.
Por ejemplo, estos son los pasos que seguirías para utilizar YOLO12 para la detección de objetos:
Estos pasos facilitan el uso de YOLO12 para diversas aplicaciones, desde la vigilancia y el seguimiento de comercios hasta las imágenes médicas y los vehículos autónomos.
YOLO12 puede utilizarse en diversas aplicaciones del mundo real gracias a su compatibilidad con la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de la pose y la detección de objetos orientada (OBB).
Sin embargo, como hemos comentado antes, los modelos YOLO12 dan prioridad a la precisión sobre la velocidad, lo que significa que tardan algo más en procesar las imágenes que las versiones anteriores. Esta compensación hace que YOLO12 sea ideal para aplicaciones en las que la precisión es más importante que la velocidad en tiempo real, como por ejemplo:
Antes de ejecutar YOLO12, es importante que te asegures de que tu sistema cumple los requisitos necesarios.
Técnicamente, YOLO12 puede funcionar en cualquier GPU (Unidad de Procesamiento Gráfico) dedicada. Por defecto, no requiere FlashAttention, por lo que puede funcionar en la mayoría de los sistemas GPU sin él. Sin embargo, activar FlashAttention puede ser especialmente útil cuando se trabaja con grandes conjuntos de datos o imágenes de alta resolución, ya que ayuda a evitar ralentizaciones, reducir el uso de memoria y mejorar la eficiencia del procesamiento.
Para utilizar FlashAttention, necesitarás unaGPU NVIDIA de una de estas series: Turing (T4, Quadro RTX), Ampere (serie RTX 30, A30, A40, A100), Ada Lovelace (serie RTX 40) o Hopper (H100, H200).
Teniendo en cuenta la usabilidad y la accesibilidad, el paquetePython de Ultralytics aún no admite la inferencia FlashAttention, ya que su instalación puede ser bastante compleja desde el punto de vista técnico. Para saber más sobre cómo empezar a utilizar YOLO12 y optimizar su rendimiento, consulta la documentación oficial de Ultralytics .
A medida que avanza la visión por ordenador, los modelos son cada vez más precisos y eficientes. YOLO12 mejora las tareas de visión por ordenador como la detección de objetos, la segmentación de instancias y la clasificación de imágenes con el procesamiento centrado en la atención y FlashAttention, mejorando la precisión a la vez que se optimiza el uso de la memoria.
Al mismo tiempo, la visión por ordenador es más accesible que nunca. YOLO12 es fácil de usar a través del paquetePython Ultralytics y, al centrarse en la precisión por encima de la velocidad, es muy adecuado para la obtención de imágenes médicas, las inspecciones industriales y la robótica, aplicaciones en las que la precisión es clave.
¿Tienes curiosidad por la IA? Visita nuestro repositorio de GitHub y participa con nuestra comunidad. Explora las innovaciones en sectores como la IA en los coches autoconducidos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y da vida a tus proyectos de Vision AI. 🚀
Comienza tu viaje con el futuro del aprendizaje automático