Cheque verde
Enlace copiado en el portapapeles

Potenciando la visión por ordenador de código abierto con los transformadores de HuggingFace

¡Sumérgete en la visión por ordenador de código abierto con HuggingFace! Aprende sobre aprendizaje por transferencia, transformadores y explora más de 8.000 modelos. Únete a Merve Noyan para obtener información y demostraciones prácticas que permitan a los desarrolladores innovar en la exploración de la IA.

Mientras seguimos explorando lo más destacado del evento YOLO VISION 2023 (YV23), conozcamos a Merve Noyan, Ingeniera de Promoción de Desarrolladores de HuggingFacela plataforma líder en PNL con modelos preentrenados para el desarrollo eficaz de aplicaciones lingüísticas. En su charla, Merve compartió algunas ideas increíbles sobre el mundo de la visión por ordenador de código abierto. 

Acompáñanos en un viaje por el fascinante universo del aprendizaje por transferencia, los transformadores y el ecosistema de visión por ordenador de código abierto.

El aprendizaje por transferencia al descubierto: Un resumen rápido

Merve empezó con una breve introducción al aprendizaje por transferencia, la varita mágica que nos permite transferir conocimientos de una red neuronal a otra. Imagina que entrenas un modelo con las características universales de las primeras capas, como bordes y esquinas, y luego lo ajustas para tareas específicas. Esta es la esencia del aprendizaje por transferencia, reducir la dependencia de los datos y aumentar la precisión.

Merve destacó las columnas vertebrales convolucionales clásicas como ResNet e Inception, sentando las bases para el viaje de transformación que nos espera.

Entra en Transformers: Un enigma desvelado

¿Qué hace especiales a los Transformers? Merve lo comparó con un acertijo, mostrando en qué se diferencian de los modelos tradicionales basados en la convolución. La salsa secreta reside en su capacidad para realizar un aprendizaje autosupervisado, captando características sin necesidad de datos etiquetados. Vision Transformer, Data Efficient Transformer, CLIP y SWIM CLIP fueron algunos de los modelos basados en transformadores que presentó. 

Establece algunos puntos en común con Ultralytics , que proporciona soporte para un modelo de transformador diseñado para la detección de objetos. Este modelo presenta un codificador híbrido eficaz, una selección de consultas consciente de los IOU y una velocidad de inferencia ajustable. En particular, se adhiere al patrón familiar de otros Ultralytics YOLOv8 modelos, presentando opciones de predicción, entrenamiento, validación y exportación.

Tu ventanilla única

A continuación, Merve se adentró en el tesoro de la oferta de HuggingFace, con más de 8.000 modelos para tareas clásicas de visión por ordenador y 10.000 modelos para aplicaciones multimodales. El Hub HuggingFace cuenta con la friolera de más de 3.000 conjuntos de datos, lo que lo convierte en un patio de recreo tanto para desarrolladores como para entusiastas. Merve destacó la experiencia sin fisuras, gracias a la API coherente de HuggingFace, que ofrece modelos listos para usar en diversos casos de uso.

Magia práctica con HuggingFace

La charla dio paso a demostraciones prácticas, en las que se mostró la facilidad con la que se puede trabajar con modelos. Desde la instanciación de modelos y procesadores hasta el ajuste fino con la API Trainer, Merve dejó claro que la biblioteca HuggingFace Transformers es la mejor amiga de un desarrollador. Incluso presentó la API Pipeline, una de sus favoritas, que simplifica el flujo de trabajo de los usuarios.

Figura 1. Merve Noyan presentando en YV23 en el Campus Google for Startups de Madrid.

Un vistazo a las aplicaciones

Merve concluyó la charla con un vistazo a algunas aplicaciones fantásticas, como el modelo Plot para responder preguntas visuales, Blip para subtitular imágenes y el potente modelo Segment Anything para segmentar imágenes. La API Pipeline del Ecosistema HuggingFace fue el centro de atención, ya que facilita el uso de modelos sin necesidad de profundizar en los aspectos técnicos.

La guinda la puso la exhibición de Merve de creación de ilusiones ópticas con Elysian Diffusion, una experiencia cautivadora que añade un giro divertido al mundo de la IA.

¡En pocas palabras!

En conclusión, la charla de Merve nos dejó inspirados y con ganas de explorar las infinitas posibilidades de la visión por ordenador de código abierto. HuggingFace ha hecho que la IA sea realmente accesible, divertida y emocionante, permitiendo a los desarrolladores dar rienda suelta a su creatividad. Brindemos por el futuro de la comunidad de código abierto y por las increíbles innovaciones que nos depara. 

¡Mira toda la charla aquí

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático