Contrôle vert
Lien copié dans le presse-papiers

Florence-2 : Microsoft'le dernier modèle de vision et de langage

Voici Florence-2, le modèle de langage visuel de Microsoft qui permet d'améliorer la détection d'objets, la segmentation et la performance de la prise de vue zéro avec une grande efficacité.

En juin 2024, Microsoft a présenté Florence-2, un modèle de langage visuel (VLM) multimodal conçu pour gérer un large éventail de tâches, notamment la détection d'objets, la segmentation, le sous-titrage d'images et la mise à la terre. Florence-2 établit une nouvelle référence en matière de performances "zero-shot", ce qui signifie qu'il peut effectuer des tâches sans formation spécifique préalable, et qu'il offre un modèle de plus petite taille que les autres modèles de langage visuel les plus récents.

C'est plus qu'un modèle de plus, la polyvalence et les performances améliorées de Florence-2 ont le potentiel d'avoir un impact significatif sur diverses industries en améliorant la précision et en réduisant la nécessité d'une formation approfondie. Dans cet article, nous explorerons les caractéristiques novatrices de Florence-2, nous comparerons ses performances à celles d'autres VLM et nous discuterons de ses applications potentielles.

Qu'est-ce que Florence-2 ?

Florence-2 peut gérer une grande variété de tâches dans un cadre unique et unifié. Les capacités impressionnantes du modèle sont en partie dues à son énorme ensemble de données d'entraînement appelé FLD-5B. FLD-5B comprend 5,4 milliards d'annotations sur 126 millions d'images. Cet ensemble de données complet a été créé spécifiquement pour donner à Florence-2 les capacités nécessaires pour traiter un large éventail de tâches visuelles avec une grande précision et une grande efficacité. 

Voici un examen plus approfondi des tâches que Florence-2 prend en charge :

  • Détection d'objets: Il peut identifier et localiser les objets dans les images avec une grande précision.
  • Segmentation: Cette tâche consiste à diviser une image en segments significatifs pour faciliter l'analyse et l'interprétation.
  • Légende des images: Florence-2 est capable de générer des légendes descriptives pour les images qui fournissent un contexte et des détails.
  • Mise à la terre visuelle: Le modèle peut associer des phrases ou des mots spécifiques d'une légende aux régions correspondantes de l'image.
  • Performance à zéro coup: Il peut effectuer des tâches sans formation spécifique.
Fig 1. Comprendre comment Florence-2 a été formé.

Le modèle prend en charge les tâches basées sur le texte et sur les régions. Des jetons de localisation spéciaux sont ajoutés au vocabulaire du modèle pour les tâches impliquant des régions spécifiques d'une image. Ces jetons aident le modèle à comprendre différentes formes, telles que les rectangles autour des objets (représentation en boîte), les formes à quatre côtés (représentation en boîte quadruple) et les formes à plusieurs côtés (représentation en polygone). Le modèle est entraîné à l'aide d'une méthode appelée perte d'entropie croisée, qui l'aide à apprendre en comparant ses prédictions aux bonnes réponses et en ajustant ses paramètres internes en conséquence.

Création de l'ensemble de données FLD-5B

L'ensemble de données FLD-5B comprend différents types d'annotations : descriptions de texte, paires de régions et de texte, et combinaisons de texte, de phrases et de régions. Il a été créé grâce à un processus en deux étapes impliquant la collecte de données et l'annotation. Les images proviennent d'ensembles de données populaires comme ImageNet-22k, Object 365, Open Images, Conceptual Captions et LAION. Les annotations de l'ensemble de données FLD-5B sont pour la plupart synthétiques, c'est-à-dire qu'elles ont été générées automatiquement plutôt qu'étiquetées manuellement. 

Fig 2. Création de l'ensemble de données FLD-5B.

Dans un premier temps, des modèles spécialisés dans des tâches spécifiques, comme la détection ou la segmentation d'objets, ont créé ces annotations. Ensuite, un processus de filtrage et d'amélioration a été utilisé pour s'assurer que les annotations étaient détaillées et précises. Après avoir éliminé tout bruit, l'ensemble de données a fait l'objet d'un raffinement itératif, les résultats de Florence-2 étant utilisés pour mettre à jour et améliorer continuellement les annotations. 

Comprendre l'architecture du modèle Florence-2

L'architecture du modèle de Florence-2 suit une approche d'apprentissage de séquence à séquence. Cela signifie que le modèle traite une séquence d'entrée (comme une image avec une invite textuelle) et génère une séquence de sortie (comme une description ou une étiquette) de manière progressive. Dans le cadre de l'apprentissage séquence par séquence, chaque tâche est traitée comme un problème de traduction : le modèle prend une image en entrée et une invite spécifique à la tâche et génère la sortie correspondante.

Fig 3. Architecture du modèle de langage de vision de Florence-2.

Au cœur de l'architecture du modèle se trouve un transformateur encodeur-décodeur multi-modalité, qui combine un encodeur d'images et un encodeur-décodeur multi-modalité. Le codeur d'images, appelé DaViT (Data-efficient Vision Transformer), traite les images d'entrée en les convertissant en jetons visuels - des représentations compactes de l'image qui capturent à la fois des informations spatiales (où se trouvent les choses) et sémantiques (ce que sont les choses). Ces jetons visuels sont ensuite combinés avec des encastrements de texte (représentations du texte), ce qui permet au modèle de fusionner de façon transparente les données textuelles et visuelles.

Comparaison de Florence-2 avec d'autres VLM

Florence-2 se distingue des autres modèles de langage visuel par ses impressionnantes capacités de prise de vue zéro. Contrairement à des modèles comme PaliGemma, qui nécessitent un réglage minutieux pour s'adapter à diverses tâches, Florence-2 fonctionne bien dès sa sortie de la boîte. De plus, Florence-2 est capable de rivaliser avec des modèles plus grands comme GPT-4V et Flamingo, qui ont souvent beaucoup plus de paramètres mais qui n'atteignent pas toujours les performances de Florence-2. Par exemple, Florence-2 obtient de meilleurs résultats que Kosmos-2 en ce qui concerne le tir à zéro, bien que Kosmos-2 ait plus de deux fois le nombre de paramètres.

Dans les tests de référence, Florence-2 a montré des performances remarquables dans des tâches telles que le sous-titrage COCO et la compréhension des expressions de référence. Il a surpassé des modèles comme PolyFormer et UNINEXT dans les tâches de détection et de segmentation d'objets sur l'ensemble de données COCO. C'est un choix très compétitif pour les applications du monde réel où les performances et l'efficacité des ressources sont cruciales.

Applications de Florence-2

Florence-2 peut être utilisé dans de nombreuses industries différentes, telles que le divertissement, l'accessibilité, l'éducation, etc. Parcourons quelques exemples pour mieux comprendre.

Applications du sous-titrage d'images

Lorsque tu es sur une plateforme de streaming et que tu essayes de décider ce que tu vas regarder, il t'arrive de lire un résumé d'un film pour t'aider à choisir. Et si la plateforme pouvait également fournir une description détaillée de l'affiche du film ? Florence-2 peut rendre cela possible grâce au sous-titrage d'images, qui génère un texte descriptif pour les images. Florence-2 peut générer des descriptions détaillées des affiches de films, ce qui rend les plateformes de streaming plus inclusives pour les utilisateurs malvoyants. En analysant les éléments visuels d'une affiche, tels que les personnages, le décor et le texte, Florence-2 peut créer des descriptions détaillées qui transmettent le contenu et l'ambiance de l'affiche. L'image ci-dessous montre le niveau de détail que Florence-2 peut fournir dans sa description.

Fig 4. Exemple de légende d'image générée par Florence-2. 

Voici d'autres exemples où le sous-titrage des images peut être utile :

  • Commerce électronique: Le légendage des images peut fournir des descriptions détaillées des images de produits, ce qui aide les clients à comprendre plus clairement les caractéristiques et les détails des produits.
  • Voyages et tourisme: Il peut fournir des descriptions détaillées des points de repère et des attractions dans les guides de voyage et les applis.
  • Éducation: Le sous-titrage des images permet d'étiqueter et de décrire les images et les diagrammes éducatifs, ce qui facilite l'enseignement et l'apprentissage.
  • Immobilier: Il peut fournir des descriptions détaillées d'images de propriétés qui mettent en évidence les caractéristiques et les commodités pour les acheteurs potentiels.

Utiliser la mise à la terre visuelle en cuisinant

Florence-2 peut également être utilisé pour enrichir les expériences culinaires. Par exemple, un livre de cuisine en ligne pourrait utiliser Florence-2 pour mettre en place visuellement et étiqueter les parties d'une image de recette complexe. L'ancrage visuel permet ici de relier des parties spécifiques de l'image au texte descriptif correspondant. Chaque ingrédient et chaque étape peuvent être étiquetés et expliqués avec précision, ce qui permet aux cuisiniers amateurs de suivre plus facilement la recette et de comprendre le rôle de chaque composant dans le plat.

Fig 5. Exemple de mise à la terre visuelle à l'aide de Florence-2. 

ROC par région pour les documents financiers

L'OCR avec traitement par région, qui se concentre sur l'extraction de texte à partir de zones spécifiques d'un document, peut s'avérer utile dans des domaines tels que la comptabilité. Des zones désignées de documents financiers peuvent être analysées pour extraire automatiquement des informations importantes telles que les détails des transactions, les numéros de compte et les dates d'échéance. En réduisant le besoin de saisie manuelle des données, il minimise les erreurs et accélère les temps de traitement. Les institutions financières peuvent l'utiliser pour rationaliser des tâches telles que le traitement des factures, le rapprochement des reçus et la compensation des chèques, ce qui permet d'accélérer les transactions et d'améliorer le service à la clientèle. 

Fig 6. Exemple d'extraction de l'OCR avec région à l'aide de Florence-2. 

Segmentation par région dans les applications industrielles

La segmentation par région, qui consiste à diviser une image en parties significatives pour une analyse ciblée et une inspection détaillée, peut alimenter des applications industrielles qui améliorent la précision et l'efficacité de divers processus. En se concentrant sur des zones spécifiques d'une image, cette technologie permet une inspection et une analyse détaillées des composants et des produits. En ce qui concerne le contrôle de la qualité, elle permet d'identifier les défauts ou les incohérences dans les matériaux, tels que les fissures ou les désalignements, ce qui garantit que seuls des produits de qualité supérieure arrivent sur le marché.

Fig 7. Exemple de segmentation basée sur les régions à l'aide de Florence-2.

Il améliore également les chaînes d'assemblage automatisées en guidant les bras robotisés vers des pièces spécifiques et en optimisant le placement et l'assemblage des composants. De même, dans la gestion des stocks, elle permet de suivre et de surveiller l'état et l'emplacement des marchandises, ce qui conduit à une logistique plus efficace et à une réduction des temps d'arrêt. Dans l'ensemble, la segmentation par région stimule la précision et la productivité, ce qui permet de réaliser des économies et d'améliorer la qualité des produits dans les environnements industriels.

Principaux enseignements

Nous commençons à observer une tendance selon laquelle les modèles d'IA s'allègent tout en conservant des performances élevées. Florence-2 marque une avancée majeure en termes de modèles de langage visuel. Il peut prendre en charge diverses tâches telles que la détection d'objets, la segmentation, le légendage d'images et la mise à la terre avec des performances impressionnantes en matière de zéro-coup. Malgré sa petite taille, Florence-2 est efficace et multifonctionnel, ce qui le rend extrêmement utile en termes d'applications dans différents secteurs. Des modèles comme Florence-2 apportent davantage de possibilités, élargissant ainsi le potentiel des innovations en matière d'IA.

Explore davantage sur l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Consulte nos pages sur les solutions pour en savoir plus sur les applications de l'IA dans les secteurs de la fabrication et de l'agriculture. 🚀

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.