Cheque verde
Enlace copiado en el portapapeles

La IA generativa está cambiando el camino de la visión por ordenador

Descubre los interesantes puntos de vista de una mesa redonda en YOLO Vision 2024. Explora cómo la IA generativa está configurando el camino a seguir para los modelos de IA de Visión en tiempo real.

La IA Generativa es una rama de la inteligencia artificial (IA) que crea nuevos contenidos, como imágenes, texto o audio, aprendiendo patrones a partir de datos existentes. Gracias a los avances recientes, ahora puede utilizarse para producir contenidos muy realistas que a menudo imitan la creatividad humana.

Sin embargo, el impacto de la IA generativa va más allá de la mera creación de contenidos. A medida que los modelos de visión por ordenador en tiempo real, como los modelosYOLO Ultralytics , siguen evolucionando, la IA generativa también está redefiniendo cómo se procesan y aumentan los datos visuales, allanando el camino para aplicaciones innovadoras en escenarios del mundo real. 

Este nuevo cambio tecnológico fue un interesante tema de conversación en YOLO Vision 2024 (YV24), un evento híbrido anual organizado por Ultralytics. En YV24 se reunieron entusiastas de la IA y líderes del sector para debatir los últimos avances en visión por ordenador. El evento se centró en la innovación, la eficacia y el futuro de las soluciones de IA en tiempo real.

Uno de los aspectos más destacados del evento fue una mesa redonda sobre YOLO en la Era de la IA Generativa. En ella participaron Glenn Jocher, Fundador y Director General de Ultralytics, Jing Qiu, Ingeniero Superior de Aprendizaje Automático de Ultralytics, y Ao Wang, de la Universidad de Tsinghua. Exploraron cómo la IA generativa está influyendo en la visión por ordenador y los retos de construir modelos de IA prácticos.

En este artículo, revisaremos las ideas clave de su debate y veremos más de cerca cómo la IA generativa está transformando la IA de Visión.

Desarrollo de los modelosYOLO Ultralytics

Junto a Glenn Jocher, muchos ingenieros cualificados han desempeñado un papel vital en el desarrollo de los modelosYOLO Ultralytics . Uno de ellos, Jing Qiu, relató su inesperado comienzo con YOLO. Explicó que su pasión por la IA comenzó durante sus años universitarios. Pasó mucho tiempo explorando y aprendiendo sobre este campo. Jing Qiu recordó cómo conectó con Glenn Jocher en GitHub y se involucró en varios proyectos de IA.

Además de lo que dijo Jing Qiu, Glenn Jocher describió GitHub como "una forma increíble de compartir, en la que personas que no conoces se reúnen para ayudarse mutuamente, contribuyendo al trabajo de los demás. Es una gran comunidad y una forma estupenda de iniciarse en la IA".

Figura 1. Glenn Jocher y Jing Qiu hablando en el escenario de YV24.

El interés de Jing Qiu por la IA y su trabajo en Ultralytics YOLOv5 ayudaron a perfeccionar el modelo. Más tarde, desempeñó un papel clave en el desarrollo de Ultralytics YOLOv8que introdujo nuevas mejoras. Lo describió como un viaje increíble. En la actualidad, Jing Qiu sigue mejorando y trabajando en modelos como Ultralytics YOLO11

YOLOv10: Optimizado para el rendimiento en el mundo real

Ao Wang, que se unió a la mesa redonda a distancia desde China, se presentó como estudiante de doctorado. Inicialmente, estudió ingeniería de software, pero su pasión por la IA le llevó a orientarse hacia la visión por ordenador y el aprendizaje profundo.

Su primer encuentro con el famoso modelo YOLO fue mientras experimentaba con diversas técnicas y modelos de IA. Quedó impresionado por su velocidad y precisión, lo que le inspiró a profundizar en tareas de visión por ordenador como la detección de objetos. Recientemente, Ao Wang contribuyó a YOLOv10, una versión reciente del modelo YOLO . Su investigación se centró en optimizar el modelo para que fuera más rápido y preciso.

La diferencia clave entre la IA generativa y la IA de visión

A continuación, el panel empezó a debatir sobre la IA generativa, y Jing Qiu señaló que la IA generativa y la IA de Visión tienen fines muy distintos. La IA generativa crea o genera cosas como texto, imágenes y vídeos, mientras que la IA de Visión analiza lo que ya existe, principalmente imágenes.

Glenn Jocher destacó que el tamaño también es una gran diferencia. Los modelos de IA generativa son enormes, y a menudo contienen miles de millones de parámetros, es decir, ajustes internos que ayudan al modelo a aprender de los datos. Los modelos de visión por ordenador son mucho más pequeños. Dijo: "El modelo YOLO más pequeño que tenemos es unas mil veces más pequeño que el LLM [Large Language Model] más pequeño. Es decir, 3 millones de parámetros frente a 3.000 millones".

Fig. 3. La mesa redonda sobre IA generativa e IA de Visión en YV24.

Jing Qiu añadió que los procesos de formación y despliegue de la IA generativa y la visión por ordenador también son muy diferentes. La IA generativa necesita servidores enormes y potentes para funcionar. Los modelos como YOLO, en cambio, se construyen para ser eficientes y pueden entrenarse y desplegarse en hardware estándar. Eso hace que los modelosYOLO Ultralytics sean más prácticos para su uso en el mundo real.

Aunque son diferentes, estos dos campos están empezando a entrelazarse. Glenn Jocher explicó que la IA Generativa está aportando nuevos avances a la IA de Visión, haciendo que los modelos sean más inteligentes y eficaces. 

El impacto de la IA generativa en la visión por ordenador

La IA Generativa ha avanzado rápidamente, y estos avances están influyendo en muchas otras áreas de la inteligencia artificial, incluida la visión por ordenador. A continuación, vamos a repasar algunas ideas fascinantes del panel al respecto.

Los avances en hardware están permitiendo innovaciones en IA

Al principio del panel, Glenn Jocher explicó que las ideas de aprendizaje automático han existido durante mucho tiempo, pero los ordenadores no eran lo bastante potentes para hacerlas funcionar. Las ideas de IA necesitaban un hardware más potente para hacerlas realidad.

El auge de las GPU (Unidades de Procesamiento Gráfico) en los últimos 20 años, con capacidades de procesamiento paralelo, lo cambió todo. Hicieron que el entrenamiento de los modelos de IA fuera mucho más rápido y eficiente, lo que permitió que el aprendizaje profundo se desarrollara a un ritmo rápido.

Hoy en día, los chips de IA como las TPU (Unidades de ProcesamientoTensor ) y las GPU optimizadas consumen menos energía a la vez que manejan modelos más grandes y complejos. Esto ha hecho que la IA sea más accesible y útil en las aplicaciones del mundo real.

Con cada nueva mejora del hardware, tanto la IA generativa como las aplicaciones de visión por ordenador son cada vez más potentes. Estos avances están haciendo que la IA en tiempo real sea más rápida, más eficaz y esté lista para ser utilizada en más sectores.

Cómo la IA generativa está dando forma a los modelos de detección de objetos

Cuando se le preguntó cómo está influyendo la IA generativa en la visión por ordenador, Jing Qiu dijo que los transformadores -modelos que ayudan a la IA a centrarse en las partes más importantes de una imagen- han cambiado la forma en que la IA entiende y procesa las imágenes. El primer gran paso fue el DETR (Transformador de Detección), que utilizaba este nuevo enfoque para la detección de objetos. Mejoraba la precisión, pero tenía problemas de rendimiento que lo hacían más lento en algunos casos.

Para solucionarlo, los investigadores crearon modelos híbridos como RT-DETR. Estos modelos combinan Redes Neuronales Convolucionales (CNN, que son modelos de aprendizaje profundo que aprenden y extraen automáticamente características de las imágenes) y transformadores, equilibrando velocidad y precisión. Este enfoque aprovecha las ventajas de los transformadores al tiempo que agiliza la detección de objetos.

Curiosamente, YOLOv10 utiliza capas de atención basadas en transformadores (partes del modelo que actúan como un foco para resaltar las zonas más importantes de una imagen ignorando los detalles menos relevantes) para aumentar su rendimiento. 

Ao Wang también mencionó cómo la IA generativa está cambiando la forma en que se entrenan los modelos. Técnicas como el modelado de imágenes enmascaradas ayudan a la IA a aprender de las imágenes de forma más eficaz, reduciendo la necesidad de grandes conjuntos de datos etiquetados manualmente. Esto hace que el entrenamiento de la visión por ordenador sea más rápido y consuma menos recursos.

El futuro de la IA generativa y la IA Visionaria 

Otra idea clave que debatió el panel fue cómo la IA generativa y la IA de Visión podrían unirse para construir modelos más capaces. Glenn Jocher explicó que, aunque estos dos enfoques tienen puntos fuertes diferentes, combinarlos podría abrir nuevas posibilidades. 

Por ejemplo, los modelos de IA de Visión como YOLO suelen dividir una imagen en una cuadrícula para identificar objetos. Este método basado en cuadrículas podría ayudar a los modelos lingüísticos a mejorar su capacidad tanto para localizar detalles como para describirlos, un reto al que se enfrentan muchos modelos lingüísticos en la actualidad. En esencia, la fusión de estas técnicas podría conducir a sistemas capaces de detectar con precisión y explicar con claridad lo que ven.

Fig. 4. El futuro de la IA generativa y de Visión. Imagen del autor.

Puntos clave

La IA Generativa y la visión por ordenador avanzan juntas. Mientras que la IA Generativa crea imágenes y vídeos, también mejora el análisis de imágenes y vídeos aportando nuevas ideas innovadoras que podrían hacer que los modelos de IA de Visión fueran más precisos y eficientes. 

En esta perspicaz charla del panel YV24, Glenn Jocher, Jing Qiu y Ao Wang compartieron sus ideas sobre cómo estas tecnologías están dando forma al futuro. Con un mejor hardware de IA, la IA generativa y la IA de Visión seguirán evolucionando, dando lugar a innovaciones aún mayores. Estos dos campos están trabajando juntos para crear una IA más inteligente, rápida y útil para la vida cotidiana.

Únete a nuestra comunidad y explora nuestro repositorio de GitHub para saber más sobre Vision AI. Consulta nuestras opciones de licencia para poner en marcha tus proyectos de visión por ordenador. ¿Te interesan innovaciones como la IA en la fabricación o la visión por ordenador en la conducción autónoma? Visita nuestras páginas de soluciones para descubrir más. 

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático