Contrôle vert
Lien copié dans le presse-papiers

Mises à jour de la recherche en IA de Meta FAIR : SAM 2.1 et CoTracker3

Explore les derniers modèles d'IA de Meta FAIR, SAM 2.1 et CoTracker3, qui offrent des capacités de segmentation et de suivi avancées pour diverses applications dans le monde réel.

L'intelligence artificielle (IA) est un domaine de recherche qui a récemment connu une effervescence et un regain d'énergie, avec de nouvelles innovations et percées apparaissant plus rapidement que jamais. Au cours des dernières semaines, l'équipe FAIR (Fundamental AI Research) de Meta a dévoilé un ensemble d'outils et de modèles visant à relever des défis dans différents domaines de l'IA. Ces versions comprennent des mises à jour qui pourraient avoir un impact sur des domaines aussi divers que les soins de santé, la robotique et la réalité augmentée.

Par exemple, le modèle mis à jour SAM 2.1 améliore la segmentation des objets, ce qui facilite l'identification précise et la séparation des objets dans les images et les vidéos. Parallèlement, CoTracker3 se concentre sur le suivi des points, ce qui permet de garder la trace des points dans les images vidéo même lorsque les objets se déplacent ou sont partiellement bloqués. 

Meta a également introduit des versions plus légères et plus rapides de son modèle de langage Llama pour une utilisation efficace sur l'appareil, ainsi qu'une nouvelle technologie de détection tactile pour la robotique. Dans cet article, nous allons analyser ces dernières versions de Meta FAIR, en examinant ce que chaque outil offre. C'est parti !

Le modèle de segment amélioré de Meta : SAM 2.1

La segmentation d'objets, une tâche clé de la vision par ordinateur, permet d'identifier et de séparer des objets distincts dans une image ou une vidéo, ce qui facilite l'analyse de zones d'intérêt spécifiques. Depuis sa sortie, le modèle Segment Anything Model 2 (SAM 2) de Meta a été utilisé pour la segmentation d'objets dans différents domaines tels que l'imagerie médicale et la météorologie. S'appuyant sur les commentaires de la communauté, Meta a maintenant introduit SAM 2.1, une version améliorée conçue pour relever certains des défis rencontrés avec le modèle original et pour offrir de meilleures performances générales.

Fig 1. SAM 2.1 Analyse comparative des performances du modèle.

SAM La version 2.1 comprend des mises à jour permettant de mieux gérer les objets visuellement similaires et plus petits, grâce à de nouvelles techniques d'augmentation des données. Elle améliore également la façon dont le modèle gère l'occlusion (lorsque des parties d'un objet sont cachées) en l'entraînant sur des séquences vidéo plus longues, ce qui lui permet de "se souvenir" et de reconnaître des objets au fil du temps, même s'ils sont temporairement bloqués. Par exemple, si quelqu'un filme une personne marchant derrière un arbre, SAM 2.1 peut suivre la personne lorsqu'elle réapparaît de l'autre côté, en utilisant sa mémoire de la position et du mouvement de l'objet pour combler les lacunes lorsque la vue est brièvement interrompue.

Parallèlement à ces mises à jour, Meta a lancé la SAM 2 Developer Suite, qui fournit un code de formation open-source et une infrastructure de démonstration complète permettant aux développeurs d'affiner SAM 2.1 avec leurs propres données et de l'intégrer dans une série d'applications.

CoTracker3 : Le modèle de suivi de Meta, ses caractéristiques et ses mises à jour

Une autre tâche intéressante de vision par ordinateur est le suivi de points. Il s'agit de suivre des points ou des caractéristiques spécifiques sur plusieurs images d'une vidéo. Prends l'exemple d'une vidéo d'un cycliste roulant sur une piste - le suivi de points permet au modèle de suivre des points sur le cycliste, comme le casque ou les roues, même s'ils sont cachés par des obstacles pendant un moment.

Le suivi de points est essentiel pour des applications telles que la reconstruction 3D, la robotique et le montage vidéo. Les modèles traditionnels reposent souvent sur des configurations complexes et de grands ensembles de données synthétiques, ce qui limite leur efficacité lorsqu'ils sont appliqués à des scénarios réels. 

Le modèle de suivi CoTracker3 de Meta répond à ces limitations en simplifiant l'architecture du modèle. Il introduit également unetechnique de pseudo-étiquetage qui permet au modèle d'apprendre à partir de vraies vidéos non annotées, ce qui rend CoTracker3 plus efficace et plus évolutif pour une utilisation pratique.

Fig 2. Comparaison de CoTracker3 avec d'autres modèles de suivi.

L'une des caractéristiques qui distingue CoTracker3 est sa capacité à bien gérer les occlusions. En utilisant l'attention croisée, une technique qui permet au modèle de partager des informations entre plusieurs points suivis, CoTracker3 peut déduire les positions des points cachés en se référant aux points visibles. Ce faisant, CoTracker3 est conçu pour être très efficace dans les environnements dynamiques, par exemple lorsqu'il s'agit de suivre une personne dans une scène bondée. 

CoTracker3 propose également des modes en ligne et hors ligne. Le mode en ligne permet un suivi en temps réel. Tandis que le mode hors ligne peut être utilisé pour un suivi plus complet sur des séquences vidéo entières, idéal pour des tâches telles que le montage vidéo ou l'animation

Autres mises à jour et recherches de Meta FAIR

Alors que SAM 2.1 et CoTracker3 présentent les dernières avancées de Meta en matière de vision par ordinateur, il y a également des mises à jour passionnantes dans d'autres domaines de l'IA, tels que le traitement du langage naturel (NLP) et la robotique. Jetons un coup d'œil à certains de ces autres développements récents de Meta FAIR.

Meta's Spirit LM : Innovations de l'IA dans les modèles linguistiques et multimodaux

Spirit LM de Meta est un nouveau modèle de langage multimodal qui combine les capacités du texte et de la parole , ce qui rend les interactions avec l'IA plus naturelles. Contrairement aux modèles traditionnels qui ne gèrent que le texte ou que la parole, Spirit LM peut passer de l'un à l'autre de façon transparente. 

Spirit LM peut comprendre et générer du langage d'une manière plus proche de l'humain. Par exemple, il peut améliorer les assistants virtuels qui peuvent à la fois écouter et répondre en langage parlé ou écrit, ou prendre en charge les outils d'accessibilité qui convertissent la parole en texte. 

Fig 3. Exemple de synthèse vocale à l'aide de Meta Spirit LM.

De plus, Meta a développé des techniques pour rendre les grands modèles de langage plus efficaces. L'une d'entre elles, appelée Layer Skip, permet de réduire les besoins en calcul et les coûts énergétiques en n'activant que les couches nécessaires à une tâche donnée. Cette technique est particulièrement utile pour les applications sur des appareils dont la mémoire et la puissance sont limitées. 

En poussant plus loin la nécessité de déployer des applications d'IA sur ces appareils, Meta a également déployé des versions quantifiées de ses modèles Llama. Ces modèles sont compressés pour fonctionner plus rapidement sur les appareils mobiles sans sacrifier la précision

Un regard sur l'avenir de l'optimisation avec Meta Lingua

À mesure que les modèles d'IA gagnent en taille et en complexité, l'optimisation de leur processus de formation est devenue cruciale. En ce qui concerne l'optimisation, Meta a introduit Meta Lingua, une base de code flexible et efficace qui facilite la formation de grands modèles de langage. La conception modulaire de Meta Lingua permet aux chercheurs de personnaliser et d'adapter rapidement leurs expériences. 

Les chercheurs peuvent consacrer moins de temps à la configuration technique et plus de temps à la recherche proprement dite. La base de code est également légère et facile à intégrer, ce qui la rend adaptée aussi bien aux petites expériences qu'aux projets à grande échelle. En éliminant ces obstacles techniques, Meta Lingua aide les chercheurs à progresser plus rapidement et à tester de nouvelles idées plus facilement.

Fig 4. Vue d'ensemble de Meta Lingua.

Améliorations apportées par Meta à la sécurité de l'IA

À mesure que la technologie de l'informatique quantique progresse, elle apporte de nouveaux défis à la sécurité des données. Contrairement aux ordinateurs actuels, il est probable que les ordinateurs quantiques soient capables de résoudre des calculs complexes beaucoup plus rapidement. Cela signifie qu'ils pourraient potentiellement casser les méthodes de cryptage actuellement utilisées pour protéger les informations sensibles. C'est pourquoi la recherche dans ce domaine devient de plus en plus importante - développer de nouveaux moyens de protéger les données est essentiel alors que nous nous préparons à l'avenir de l'informatique quantique.

Pour y remédier, Meta a développé Salsa, un outil visant à renforcer la sécurité cryptographique post-quantique. Salsa aide les chercheurs à tester les attaques pilotées par l'IA et à identifier les faiblesses potentielles, ce qui leur permet de mieux comprendre les vulnérabilités des systèmes cryptographiques et d'y remédier. En simulant des scénarios d'attaque avancés, Salsa fournit des informations précieuses qui peuvent guider le développement de mesures de sécurité plus solides et plus résilientes pour l'ère quantique.

L'IA chez Meta : Dernières innovations en matière de robotique

Les derniers travaux de Meta dans le domaine de la robotique visent à aider l'IA à interagir plus naturellement avec le monde physique en améliorant la perception du toucher, la dextérité et la collaboration avec les humains. En particulier, Meta Digit 360 est un capteur tactile avancé qui donne aux robots un sens affiné du toucher. Les capteurs aident les robots à détecter des détails comme la texture, la pression et même la forme des objets. Grâce à ces informations, les robots peuvent manipuler les objets avec plus de précision, ce qui est crucial dans des domaines tels que les soins de santé et la fabrication.

Voici quelques-unes des principales caractéristiques du Meta Digit 360 :

  • Il est équipé de 18 caractéristiques sensorielles distinctes pour pouvoir capturer un large éventail de détails tactiles.
  • Le capteur peut détecter des changements de pression aussi faibles que 1 millinewton, ce qui permet aux robots de réagir aux textures fines et aux mouvements subtils.
  • Il comprend plus de 8 millions de taxels (minuscules points de détection) sur toute la surface du doigt, ce qui permet d'obtenir une carte haute résolution des informations tactiles.

Une extension du Meta Digit 360 est le Meta Digit Plexus, une plateforme qui intègre divers capteurs tactiles sur une seule main robotique. Cette configuration permet aux robots de traiter les informations tactiles provenant de plusieurs points à la fois, de la même façon que les mains humaines recueillent des données sensorielles.

Fig 5. Le plexus méta-digital.

Préparer le terrain pour le prochain chapitre de l'IA

Les dernières mises à jour de Meta en matière d'IA, qui vont des avancées en vision artificielle avec SAM 2.1 et CoTracker3 aux nouveaux développements en matière de modèles de langage et de robotique, montrent comment l'IA passe régulièrement de la théorie à des solutions pratiques et percutantes. 

Ces outils sont conçus pour rendre l'IA plus adaptable et plus utile dans différents domaines, en aidant à tout, de la segmentation d'images complexes à la compréhension du langage humain et même en travaillant à nos côtés dans les espaces physiques. 

En donnant la priorité à l'accessibilité et à l'application dans le monde réel, Meta FAIR nous rapproche d'un avenir où l'IA peut relever des défis concrets et améliorer notre vie quotidienne de manière significative. 

Tu es curieux d'en savoir plus sur l'IA ? Rejoins notre communauté pour obtenir les dernières mises à jour et réflexions, et consulte notre dépôt GitHub. Tu peux aussi explorer comment la vision par ordinateur peut être utilisée dans des secteurs comme les voitures auto-conduites et l'agriculture!

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.