Alimenter la vision informatique open-source avec les transformateurs de HuggingFace

Plonge dans la vision informatique open-source avec HuggingFace! Découvre l'apprentissage par transfert, les transformateurs, et explore plus de 8 000 modèles. Rejoins Merve Noyan pour des aperçus et des démonstrations pratiques, donnant aux développeurs les moyens d'innover dans l'exploration de l'IA.

Écrit par

Nuvola Ladi

min lire

14 février 2024

13 avril 2025

L'apprentissage par transfert dévoilé : Récapitulation rapide

Entre dans les transformateurs : Une énigme dévoilée

Ton guichet unique

Magie pratique avec HuggingFace

Un aperçu des applications

En bref !

Alors que nous continuons à explorer les points forts de l'événement YOLO VISION 2023 (YV23), rencontrons Merve Noyan, ingénieur de plaidoyer développeur à . HuggingFace, la plateforme NLP leader avec des modèles pré-entraînés pour le développement efficace d'applications linguistiques. Lors de son intervention, Merve a partagé des idées incroyables sur le monde de la vision informatique open-source.

Rejoins-nous pour un voyage dans l'univers fascinant de l'apprentissage par transfert, des transformateurs et de l 'écosystème open-source de la vision par ordinateur.

L'apprentissage par transfert dévoilé : Récapitulation rapide

Merve a commencé par un rapide exposé sur l'apprentissage par transfert, la baguette magique qui nous permet de transférer des connaissances d'un réseau neuronal à un autre. Imagine que tu entraînes un modèle sur les caractéristiques universelles des premières couches, comme les bords et les coins, et que tu l'adaptes ensuite à des tâches spécifiques. C'est l'essence même de l'apprentissage par transfert, qui permet de réduire les dépendances des données et d'augmenter la précision.

Merve a mis en avant les dorsales convolutives classiques comme ResNet et Inception, en préparant le terrain pour le voyage transformationnel à venir.

Entre dans les transformateurs : Une énigme dévoilée

Qu'est-ce qui fait la particularité des Transformers ? Merve l'a comparé à une énigme, montrant en quoi ils diffèrent des modèles traditionnels basés sur la convolution. La sauce secrète réside dans leur capacité à effectuer un apprentissage auto-supervisé, en capturant des caractéristiques sans avoir besoin de données étiquetées. Vision Transformer, Data Efficient Transformer, CLIP et SWIM CLIP font partie des modèles basés sur les transformateurs qu'elle a présentés.

Nous avons trouvé un terrain d'entente avec Ultralytics qui soutient un modèle de transformateur conçu pour la détection d'objets. Ce modèle comporte un encodeur hybride efficace, une sélection de requête consciente de l'IOU et une vitesse d'inférence réglable. Il adhère notamment au modèle familier des autres modèles, en présentant des options pour la prédiction, l'analyse et l'évaluation. Ultralytics YOLOv8 en présentant des options de prédiction, d'entraînement, de validation et d'exportation.

Ton guichet unique

Merve s'est ensuite plongée dans le trésor que représente l'offre de HuggingFace, avec plus de 8 000 modèles pour les tâches classiques de vision par ordinateur et 10 000 modèles pour les applications multimodales. Le Hub HuggingFace peut se vanter d'avoir plus de 3 000 ensembles de données, ce qui en fait un terrain de jeu pour les développeurs et les passionnés. Merve a insisté sur l'expérience transparente, grâce à l'API cohérente de HuggingFace, qui offre des modèles prêts à l'emploi pour divers cas d'utilisation.

Magie pratique avec HuggingFace

L'exposé a fait place à des démonstrations pratiques, montrant à quel point on peut travailler sans effort avec des modèles. De l'instanciation des modèles et des processeurs à la mise au point avec l'API Trainer, Merve a clairement montré que la bibliothèque HuggingFace Transformers est le meilleur ami du développeur. Elle a même présenté l'API Pipeline, une de ses préférées, qui simplifie le flux de travail pour les utilisateurs.

Fig 1. Merve Noyan fait une présentation à YV23 au campus Google for Startups à Madrid.

Un aperçu des applications

Merve a conclu l'exposé en donnant un aperçu de quelques applications fantastiques, notamment le modèle Plot pour la réponse aux questions visuelles, Blip pour le sous-titrage d'images et le puissant modèle Segment Anything pour la segmentation d'images. L'API Pipeline de l'écosystème HuggingFace a été mise à l'honneur, car elle permet d'utiliser facilement les modèles sans avoir à se plonger dans les détails techniques.

La cerise sur le gâteau a été la présentation par Merve de la création d'illusions d'optique avec Elysian Diffusion, une expérience captivante qui ajoute une touche amusante au monde de l'IA.

En bref !

En conclusion, l'exposé de Merve nous a inspirés et nous a donné envie d'explorer les possibilités infinies de la vision par ordinateur open-source. HuggingFace a vraiment rendu l'IA accessible, amusante et passionnante, en permettant aux développeurs de libérer leur créativité. Vivement l'avenir de la communauté open-source et les incroyables innovations qu'elle recèle !

Regarde l'intégralité du discours ici!

Alimenter la vision informatique open-source avec les transformateurs de HuggingFace

L'apprentissage par transfert dévoilé : Récapitulation rapide

Entre dans les transformateurs : Une énigme dévoilée

Ton guichet unique

Magie pratique avec HuggingFace

Un aperçu des applications

En bref !

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Alimenter la vision informatique open-source avec les transformateurs de HuggingFace

L'apprentissage par transfert dévoilé : Récapitulation rapide

Entre dans les transformateurs : Une énigme dévoilée

Ton guichet unique

Magie pratique avec HuggingFace

Un aperçu des applications

En bref !

Lire la suite dans cette catégorie

Construisons ensemble le futur de l'IA !

Construisons ensemble le futur
de l'IA !