Apprends comment le R-CNN du masque peut être utilisé pour segmenter précisément des objets dans des images et des vidéos pour diverses applications dans différents secteurs.
Les innovations telles que les robots dans les entrepôts, les voitures autopilotées qui se déplacent en toute sécurité dans les rues animées, les drones qui vérifient les cultures et les systèmes d'IA qui inspectent les produits dans les usines sont de plus en plus courantes à mesure que l'adoption de l'IA augmente. Une technologie clé à l'origine de ces innovations est la vision par ordinateur, une branche de l'IA qui permet aux machines de comprendre et d'interpréter les données visuelles.
Par exemple, la détection d'objets est une tâche de vision par ordinateur qui permet d'identifier et de localiser des objets dans des images à l'aide de boîtes de délimitation. Bien que les boîtes englobantes offrent des informations utiles, elles ne fournissent qu'une estimation approximative de la position d'un objet et ne peuvent pas capturer sa forme ou ses limites exactes. Cela les rend moins efficaces dans les applications qui nécessitent une identification précise.
Pour résoudre ce problème, les chercheurs ont développé des modèles de segmentation qui capturent les contours exacts des objets, fournissant des détails au niveau du pixel pour une détection et une analyse plus précises.
Mask R-CNN est l'un de ces modèles. Introduit en 2017 par Facebook AI Research (FAIR), il s'appuie sur des modèles antérieurs tels que R-CNN, Fast R-CNN et Faster R-CNN. En tant que jalon important dans l'histoire de la vision par ordinateur, Mask R-CNN a ouvert la voie à des modèles plus avancés, tels que. Ultralytics YOLO11.
Dans cet article, nous allons explorer ce qu'est le R-CNN du masque, comment il fonctionne, ses applications et les améliorations qui lui ont succédé et qui ont conduit à YOLO11.
Mask R-CNN, qui signifie Mask Region-based Convolutional Neural Network, est un modèle d'apprentissage profond conçu pour les tâches de vision par ordinateur telles que la détection d'objets et la segmentation d'instances.
La segmentation des instances va au-delà de la détection traditionnelle des objets en identifiant non seulement les objets d'une image, mais aussi en traçant avec précision les contours de chacun d'entre eux. Elle attribue une étiquette unique à chaque objet détecté et capture sa forme exacte au niveau du pixel. Cette approche détaillée permet de distinguer clairement les objets qui se chevauchent et de traiter avec précision les formes complexes.
Mask R-CNN s'appuie sur Faster R-CNN, qui détecte et étiquette les objets mais ne définit pas leurs formes exactes. Mask R-CNN l'améliore en identifiant les pixels exacts qui composent chaque objet, ce qui permet une analyse d'image beaucoup plus détaillée et précise.
Mask R-CNN adopte une approche progressive pour détecter et segmenter les objets avec précision. Il commence par extraire les caractéristiques clés à l'aide d'un réseau neuronal profond (un modèle multicouche qui apprend à partir des données), puis identifie les zones d'objets potentiels à l'aide d'un réseau de proposition de régions (un composant qui suggère des régions d'objets probables), et enfin affine ces zones en créant des masques de segmentation détaillés (contours précis d'objets) qui capturent la forme exacte de chaque objet.
Ensuite, nous allons passer en revue chaque étape pour avoir une meilleure idée du fonctionnement de Mask R-CNN.
La première étape de l'architecture de Mask R-CNN consiste à décomposer l'image en ses éléments clés afin que le modèle puisse comprendre ce qu'elle contient. Pense à cela comme lorsque tu regardes une photo et que tu remarques naturellement les détails tels que les formes, les couleurs et les bords. Le modèle fait quelque chose de similaire en utilisant un réseau neuronal profond appelé "backbone" (souvent ResNet-50 ou ResNet-101), qui agit comme ses yeux pour scanner l'image et repérer les détails clés.
Comme les objets dans les images peuvent être très petits ou très grands, Mask R-CNN utilise un réseau de pyramides de caractéristiques. C'est comme si tu disposais de différentes loupes qui permettent au modèle de voir à la fois les détails fins et l'ensemble de l'image, ce qui garantit que les objets de toutes tailles sont remarqués.
Une fois que ces caractéristiques importantes sont extraites, le modèle passe ensuite à la localisation des objets potentiels dans l'image, préparant ainsi le terrain pour une analyse plus approfondie.
Une fois que l'image a été traitée pour en extraire les caractéristiques clés, le réseau de proposition de régions prend le relais. Cette partie du modèle examine l'image et suggère des zones susceptibles de contenir des objets.
Pour ce faire, il génère plusieurs emplacements possibles pour les objets, appelés ancres. Le réseau évalue ensuite ces ancres et sélectionne les plus prometteuses pour une analyse plus approfondie. De cette façon, le modèle se concentre uniquement sur les zones les plus susceptibles d'être intéressantes, plutôt que de vérifier chaque point de l'image.
Les zones clés étant identifiées, l'étape suivante consiste à affiner les détails extraits de ces régions. Les modèles précédents utilisaient une méthode appelée ROI Pooling (mise en commun des régions d'intérêt) pour saisir les caractéristiques de chaque zone, mais cette technique entraînait parfois de légers désalignements lors du redimensionnement des régions, ce qui la rendait moins efficace - en particulier pour les objets plus petits ou qui se chevauchent.
Mask R-CNN améliore cela en utilisant une technique appelée ROI Align (Region of Interest Align). Au lieu d'arrondir les coordonnées comme le fait la mise en commun des ROI, l'alignement des ROI utilise l'interpolation bilinéaire pour estimer les valeurs des pixels avec plus de précision. L'interpolation bilinéaire est une méthode qui calcule la valeur d'un nouveau pixel en faisant la moyenne des valeurs de ses quatre voisins les plus proches, ce qui crée des transitions plus douces. Les caractéristiques restent ainsi correctement alignées sur l'image d'origine, ce qui permet une détection et une segmentation plus précises des objets.
Par exemple, lors d'un match de football, deux joueurs qui se tiennent près l'un de l'autre peuvent être confondus parce que leurs boîtes de délimitation se chevauchent. ROI Align permet de les séparer en gardant leurs formes distinctes.
Une fois que ROI Align traite l'image, l'étape suivante consiste à classer les objets et à affiner leur emplacement. Le modèle examine chaque région extraite et décide de l'objet qu'elle contient. Il attribue un score de probabilité aux différentes catégories et choisit la meilleure correspondance.
En même temps, il ajuste les boîtes de délimitation pour qu'elles s'adaptent mieux aux objets. Les boîtes initiales peuvent ne pas être idéalement placées, ce qui permet d'améliorer la précision en s'assurant que chaque boîte entoure étroitement l'objet détecté.
Enfin, Mask R-CNN franchit une étape supplémentaire : il génère en parallèle un masque de segmentation détaillé pour chaque objet.
Lorsque ce modèle est sorti, il a suscité beaucoup d'enthousiasme de la part de la communauté de l'IA et a rapidement été utilisé dans diverses applications. Sa capacité à détecter et à segmenter les objets en temps réel a changé la donne dans différents secteurs d'activité.
Par exemple, suivre les animaux en voie de disparition dans la nature est une tâche difficile. De nombreuses espèces se déplacent dans des forêts denses, ce qui complique la tâche des défenseurs de l'environnement. Les méthodes traditionnelles utilisent des pièges photographiques, des drones et des images satellites, mais trier toutes ces données à la main prend beaucoup de temps. Les erreurs d'identification et les observations manquées peuvent ralentir les efforts de conservation.
En reconnaissant des caractéristiques uniques comme les rayures du tigre, les taches de la girafe ou la forme des oreilles de l'éléphant, Mask R-CNN peut détecter et segmenter les animaux dans les images et les vidéos avec une plus grande précision. Même lorsque les animaux sont partiellement cachés par des arbres ou se tiennent proches les uns des autres, le modèle peut les séparer et les identifier individuellement, ce qui rend la surveillance de la faune plus rapide et plus fiable.
Malgré son importance historique dans la détection et la segmentation des objets, le R-CNN du masque présente également quelques inconvénients majeurs. Voici quelques défis liés au R-CNN du masque :
Le R-CNN de masque était excellent pour les tâches de segmentation, mais de nombreuses industries cherchaient à adopter la vision par ordinateur tout en donnant la priorité à la vitesse et aux performances en temps réel. Cette exigence a conduit les chercheurs à développer des modèles en une seule étape qui détectent les objets en un seul passage, ce qui améliore considérablement l'efficacité.
Contrairement au processus en plusieurs étapes de Mask R-CNN, les modèles de vision artificielle en une seule étape comme YOLO (You Only Look Once) se concentrent sur les tâches de vision artificielle en temps réel. Au lieu de traiter la détection et la segmentation séparément, les modèles YOLO peuvent analyser une image en une seule fois. Cela les rend idéaux pour des applications telles que la conduite autonome, les soins de santé, la fabrication et la robotique, où la rapidité de la prise de décision est cruciale.
YOLO11 va encore plus loin en étant à la fois rapide et précis. Il utilise 22 % de paramètres en moins que YOLOv8m , mais obtient tout de même une précision moyenne plus élevée (mAP) sur l'ensemble de données COCO, ce qui signifie qu'il détecte les objets avec plus de précision. Sa vitesse de traitement améliorée en fait un bon choix pour les applications en temps réel où chaque milliseconde compte.
Si l'on regarde l'histoire de la vision par ordinateur, le R-CNN du masque est reconnu comme une avancée majeure dans la détection et la segmentation des objets. Il fournit des résultats très précis, même dans des contextes complexes, grâce à son processus détaillé en plusieurs étapes.
Cependant, ce même processus le rend plus lent par rapport aux modèles en temps réel comme YOLO. Comme le besoin de rapidité et d'efficacité augmente, de nombreuses applications utilisent maintenant des modèles à une étape comme Ultralytics YOLO11, qui offrent une détection d'objet rapide et précise. Bien que le R-CNN de Mask soit important pour comprendre l'évolution de la vision par ordinateur, la tendance vers les solutions en temps réel met en évidence la demande croissante de solutions de vision par ordinateur plus rapides et plus efficaces.
Rejoins notre communauté grandissante ! Explore notre dépôt GitHub pour en savoir plus sur l'intelligence artificielle. Prêt à lancer tes propres projets de vision par ordinateur ? Jette un coup d'œil à nos options de licence. Découvre l'IA dans l'agriculture et l'IA de vision dans les soins de santé en visitant nos pages de solutions !
Commence ton voyage avec le futur de l'apprentissage automatique.