Cheque verde
Enlace copiado en el portapapeles

YOLO12 explicado: Aplicaciones y casos de uso reales

Descubre YOLO12, ¡el último modelo de visión por ordenador! Descubre cómo su arquitectura centrada en la atención y la tecnología FlashAttention mejoran las tareas de detección de objetos en todos los sectores.

La visión por ordenador es una rama de la inteligencia artificial (IA) que ayuda a las máquinas a comprender imágenes y vídeos. Es un campo que avanza a un ritmo increíble porque los investigadores y desarrolladores de IA están constantemente superando los límites. La comunidad de la IA siempre está tratando de hacer modelos más rápidos, más inteligentes y más eficientes. Uno de los últimos avances es YOLO12, la última incorporación a la serie de modelos YOLO (You Only Look Once), que salió a la venta el 18 de febrero de 2025.

YOLO12 ha sido desarrollado por investigadores de la Universidad de Buffalo, SUNY (Universidad Estatal de Nueva York) y la Universidad de la Academia China de Ciencias. En un nuevo enfoque único, YOLO12 introduce mecanismos de atención, que permiten al modelo centrarse en las partes más esenciales de una imagen, en lugar de procesarlo todo por igual. 

También incorpora FlashAttention, una técnica que acelera el procesamiento utilizando menos memoria, y un mecanismo de atención de área, diseñado para imitar la forma en que los humanos se centran de forma natural en objetos centrales.

Estas mejoras hacen que YOLO12n sea un 2,1% más preciso que YOLOv10n y YOLO12m un +1,0% más preciso que YOLO11m. Sin embargo, esto tiene una contrapartida: YOLO12n es un 9% más lento que YOLOv10n, y YOLO12m es un 3% más lento que YOLO11m.

Fig. 1. Un ejemplo de YOLO12 utilizado para detectar objetos.

En este artículo, exploraremos qué hace diferente a YOLO12, cómo se compara con versiones anteriores y dónde puede aplicarse.

El camino hacia el lanzamiento de YOLO12

La serie de modelosYOLO es una colección de modelos de visión por ordenador diseñados para la detección de objetos en tiempo real, lo que significa que pueden identificar y localizar rápidamente objetos en imágenes y vídeos. Con el tiempo, cada versión ha mejorado en términos de velocidad, precisión y eficacia.

Por ejemplo Ultralytics YOLOv5lanzada en 2020, se utilizó mucho porque era rápida y fácil de personalizar y desplegar. Más tarde, Ultralytics YOLOv8 lo mejoró ofreciendo soporte adicional para tareas de visión por ordenador como la segmentación de instancias y el seguimiento de objetos. 

Más recientemente, Ultralytics YOLO11 se centró en mejorar el procesamiento en tiempo real manteniendo un equilibrio entre velocidad y precisión. Por ejemplo, YOLO11m tenía un 22% menos de parámetros que YOLOv8m, y aún así ofrecía un mejor rendimiento de detección en el conjunto de datos COCO, una referencia muy utilizada para evaluar modelos de detección de objetos.

Basándose en estos avances, YOLO12 introduce un cambio en la forma de procesar la información visual. En lugar de tratar todas las partes de una imagen por igual, prioriza las áreas más relevantes, mejorando la precisión de la detección. En pocas palabras, YOLO12 se basa en las mejoras anteriores con el objetivo de ser más preciso.

Características principales de YOLO12

YOLO12 introduce varias mejoras que potencian las tareas de visión por ordenador, manteniendo intacta la velocidad de procesamiento en tiempo real. He aquí un resumen de las principales características de YOLO12:

  • Arquitectura centrada en la atención: En lugar de tratar por igual todas las partes de una imagen, YOLO12 se centra en las zonas más importantes. Esto mejora la precisión y reduce el procesamiento innecesario, haciendo que la detección sea más nítida y eficaz, incluso en imágenes desordenadas.
  • FlashAtención: YOLO12 acelera el análisis de imágenes utilizando menos memoria. Con FlashAttention (un algoritmo de memoria eficiente), optimiza el manejo de datos, reduciendo la carga del hardware y haciendo que las tareas en tiempo real sean más fluidas y fiables.
  • Redes de Agregación de Capas Residualmente Eficientes (R-ELAN): YOLO12 organiza sus capas de forma más eficiente utilizando R-ELAN, lo que mejora la forma en que el modelo procesa y aprende de los datos. Esto hace que el entrenamiento sea más estable, que el reconocimiento de objetos sea más nítido y que los requisitos informáticos sean menores, por lo que funciona eficazmente en distintos entornos.

Para entender cómo funcionan estas funciones en la vida real, piensa en un centro comercial. YOLO12 puede ayudar a rastrear a los compradores, identificar la decoración de la tienda, como plantas en macetas o carteles promocionales, y detectar artículos extraviados o abandonados. 

Su arquitectura centrada en la atención le ayuda a centrarse en los detalles más importantes, mientras que FlashAttention garantiza que procesa todo rápidamente sin sobrecargar el sistema. Esto facilita a los operadores de centros comerciales mejorar la seguridad, organizar la distribución de las tiendas y mejorar la experiencia de compra en general.

Fig. 2. Detección de objetos en un centro comercial mediante YOLO12.

Sin embargo, YOLO12 también tiene algunas limitaciones a tener en cuenta:

  • Tiempos de entrenamiento más lentos: Debido a su arquitectura, YOLO11 requiere más tiempo de entrenamiento en comparación con YOLO11.
  • Dificultades de exportación: Algunos usuarios pueden encontrar dificultades al exportar modelos YOLO12, sobre todo al integrarlos en entornos de despliegue específicos.

Comprender los puntos de referencia de rendimiento de YOLO12

YOLO12 se presenta en múltiples variantes, cada una optimizada para diferentes necesidades. Las versiones más pequeñas (nano y pequeña) priorizan la velocidad y la eficiencia, por lo que son ideales para dispositivos móviles y edge computing. Las versiones mediana y grande logran un equilibrio entre velocidad y precisión, mientras que YOLO12x (extragrande) está diseñada para aplicaciones de alta precisión, como la automatización industrial, la imagen médica y los sistemas de vigilancia avanzados.

Con estas variantes, YOLO12 ofrece distintos niveles de rendimiento según el tamaño del modelo. Las pruebas comparativas demuestran que ciertas variantes de YOLO12 superan a YOLOv10 y YOLO11 en precisión, alcanzando una precisión media mayor (mAP). 

Sin embargo, algunos modelos, como YOLO12m, YOLO12l y YOLO12x, procesan las imágenes con más lentitud que YOLO11, lo que muestra una compensación entre la precisión de la detección y la velocidad. A pesar de ello, YOLO12 sigue siendo eficiente, ya que requiere menos parámetros que muchos otros modelos, aunque sigue utilizando más que YOLO11. Esto lo convierte en una gran elección para aplicaciones en las que la precisión es más importante que la velocidad bruta.

Fig. 3. Comparación de Ultralytics YOLO11 y YOLO12.

Utilizar YOLO12 a través del paquetePython Ultralytics

YOLO12 es compatible con el paquetePython Ultralytics y es fácil de usar, lo que lo hace accesible tanto para principiantes como para profesionales. Con sólo unas pocas líneas de código, los usuarios pueden cargar modelos preentrenados, ejecutar diversas tareas de visión por ordenador en imágenes y vídeos, y también entrenar YOLO12 en conjuntos de datos personalizados. El paquetePython Ultralytics agiliza el proceso, eliminando la necesidad de complejos pasos de configuración.

Por ejemplo, estos son los pasos que seguirías para utilizar YOLO12 para la detección de objetos:

  • Instala el paquete Ultralytics : En primer lugar, instala el paquetePython Ultralytics , que proporciona las herramientas necesarias para ejecutar YOLO12 con eficacia. Esto garantiza que todas las dependencias estén configuradas correctamente.
  • Carga un modelo YOLO12 preentrenado: Elige la variante de YOLO12 adecuada (nano, pequeña, mediana, grande o extra grande) en función del nivel de precisión y velocidad que requiera tu tarea.
  • Introduce una imagen o un vídeo: Introduce un archivo de imagen o vídeo que quieras analizar. YOLO12 también puede procesar secuencias de vídeo en directo para la detección en tiempo real.
  • Ejecuta el proceso de detección: El modelo escanea los datos visuales, identifica los objetos y coloca cuadros delimitadores a su alrededor. Etiqueta cada objeto detectado con su clase prevista y su puntuación de confianza.
  • Ajusta los parámetros de detección: También puedes modificar parámetros como los umbrales de confianza para ajustar la precisión y el rendimiento de la detección.
  • Guarda o utiliza la salida: La imagen o el vídeo procesados, que ahora contienen objetos detectados, pueden guardarse o integrarse en una aplicación para su posterior análisis, automatización o toma de decisiones.

Estos pasos facilitan el uso de YOLO12 para diversas aplicaciones, desde la vigilancia y el seguimiento de comercios hasta las imágenes médicas y los vehículos autónomos.

Aplicaciones prácticas de YOLO12

YOLO12 puede utilizarse en diversas aplicaciones del mundo real gracias a su compatibilidad con la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de la pose y la detección de objetos orientada (OBB). 

Fig. 4. YOLO12 admite tareas como la detección de objetos y la segmentación de instancias.

Sin embargo, como hemos comentado antes, los modelos YOLO12 dan prioridad a la precisión sobre la velocidad, lo que significa que tardan algo más en procesar las imágenes que las versiones anteriores. Esta compensación hace que YOLO12 sea ideal para aplicaciones en las que la precisión es más importante que la velocidad en tiempo real, como por ejemplo:

  • Imagen médica: YOLO12 puede entrenarse a medida para detectar tumores o anomalías en radiografías y resonancias magnéticas con gran precisión, lo que lo convierte en una herramienta útil para médicos y radiólogos que necesitan un análisis de imagen preciso para el diagnóstico.
  • Control de calidad en la fabricación: Puede ayudar a identificar los defectos del producto durante el proceso de producción, garantizando que sólo lleguen al mercado artículos de alta calidad, al tiempo que se reducen los residuos y se mejora la eficacia.
  • Análisis forense: Las fuerzas de seguridad pueden ajustar YOLO12 para analizar grabaciones de vigilancia y reunir pruebas. En las investigaciones criminales, la precisión es vital para identificar detalles clave.
  • Agricultura de precisión: Los agricultores pueden utilizar YOLO12 para analizar la salud de los cultivos, detectar enfermedades o infestaciones de plagas y controlar las condiciones del suelo. Las evaluaciones precisas ayudan a optimizar las estrategias agrícolas, mejorando el rendimiento y la gestión de los recursos.

Cómo empezar con YOLO12

Antes de ejecutar YOLO12, es importante que te asegures de que tu sistema cumple los requisitos necesarios.

Técnicamente, YOLO12 puede funcionar en cualquier GPU (Unidad de Procesamiento Gráfico) dedicada. Por defecto, no requiere FlashAttention, por lo que puede funcionar en la mayoría de los sistemas GPU sin él. Sin embargo, activar FlashAttention puede ser especialmente útil cuando se trabaja con grandes conjuntos de datos o imágenes de alta resolución, ya que ayuda a evitar ralentizaciones, reducir el uso de memoria y mejorar la eficiencia del procesamiento. 

Para utilizar FlashAttention, necesitarás unaGPU NVIDIA de una de estas series: Turing (T4, Quadro RTX), Ampere (serie RTX 30, A30, A40, A100), Ada Lovelace (serie RTX 40) o Hopper (H100, H200).

Teniendo en cuenta la usabilidad y la accesibilidad, el paquetePython de Ultralytics aún no admite la inferencia FlashAttention, ya que su instalación puede ser bastante compleja desde el punto de vista técnico. Para saber más sobre cómo empezar a utilizar YOLO12 y optimizar su rendimiento, consulta la documentación oficial de Ultralytics .

Puntos clave

A medida que avanza la visión por ordenador, los modelos son cada vez más precisos y eficientes. YOLO12 mejora las tareas de visión por ordenador como la detección de objetos, la segmentación de instancias y la clasificación de imágenes con el procesamiento centrado en la atención y FlashAttention, mejorando la precisión a la vez que se optimiza el uso de la memoria.

Al mismo tiempo, la visión por ordenador es más accesible que nunca. YOLO12 es fácil de usar a través del paquetePython Ultralytics y, al centrarse en la precisión por encima de la velocidad, es muy adecuado para la obtención de imágenes médicas, las inspecciones industriales y la robótica, aplicaciones en las que la precisión es clave.

¿Tienes curiosidad por la IA? Visita nuestro repositorio de GitHub y participa con nuestra comunidad. Explora las innovaciones en sectores como la IA en los coches autoconducidos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y da vida a tus proyectos de Vision AI. 🚀

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático