Découvre le rôle des dorsales dans l'apprentissage profond, explore les architectures les plus performantes comme ResNet & ViT, et découvre leurs applications d'IA dans le monde réel.
Dans le domaine de l'apprentissage profond, en particulier au sein de la vision par ordinateur, le terme "épine dorsale" fait référence à une partie cruciale d'un réseau neuronal qui est responsable de l'extraction des caractéristiques. Considère-la comme la base sur laquelle le reste du réseau est construit. L'épine dorsale prend des données d'entrée brutes, telles que des images, et les transforme en un format structuré, connu sous le nom de cartes de caractéristiques, qui peut être utilisé efficacement par les parties suivantes du réseau. Ces cartes de caractéristiques capturent des informations essentielles sur les données d'entrée, telles que les bords, les textures et les formes, ce qui permet au modèle de comprendre et d'interpréter des données visuelles complexes. Pour les utilisateurs familiers avec les concepts de base de l'apprentissage automatique, l'épine dorsale peut être comprise comme les couches initiales d'un réseau neuronal qui apprennent les représentations hiérarchiques des données d'entrée.
L'épine dorsale joue un rôle essentiel dans la détermination de la performance et de l'efficacité globales d'un modèle d'apprentissage profond. Elle se compose généralement de plusieurs couches d'opérations convolutives, de mises en commun et d'activations. Les couches convolutives sont chargées d'extraire les caractéristiques des données d'entrée, tandis que les couches de mise en commun réduisent les dimensions spatiales des cartes de caractéristiques, ce qui rend le modèle plus efficace sur le plan informatique. Les fonctions d'activation introduisent la non-linéarité dans le réseau, ce qui lui permet d'apprendre des modèles complexes. La sortie de l'épine dorsale, les cartes de caractéristiques, est ensuite introduite dans les parties suivantes du réseau, telles que les têtes de détection pour la détection d'objets ou les modules de segmentation pour la segmentation d'images. La qualité des caractéristiques extraites par l'épine dorsale a un impact direct sur la capacité du modèle à effectuer la tâche prévue avec précision.
Plusieurs architectures dorsales ont gagné en popularité dans le domaine de la vision par ordinateur en raison de leur efficacité dans diverses tâches. Voici quelques exemples notables :
Les backbones sont fondamentaux pour un large éventail d'applications d'IA dans le monde réel, car ils permettent aux machines de "voir" et d'interpréter les données visuelles d'une manière similaire à celle des humains. Voici deux exemples concrets :
Dans les voitures auto-conduites, les dorsales sont utilisées pour traiter les données visuelles provenant des caméras et autres capteurs, ce qui permet au véhicule de percevoir son environnement. Par exemple, Ultralytics YOLO les modèles utilisent des dorsales efficaces pour détecter en temps réel des objets tels que les piétons, les autres véhicules et les panneaux de signalisation. Ces informations sont cruciales pour que le système de navigation du véhicule prenne des décisions éclairées et garantisse une conduite sûre.
Dans l'analyse d'images médicales, les dorsales sont employées pour extraire des caractéristiques d'images médicales telles que les radiographies, les IRM et les tomodensitogrammes. Ces caractéristiques peuvent ensuite être utilisées pour des tâches telles que le diagnostic de maladies, la détection d'anomalies et la segmentation de structures anatomiques. Par exemple, un backbone peut être entraîné sur un ensemble d'images de tumeurs cérébrales, tel que l'ensemble de données de détection de tumeurs cérébrales, pour apprendre des caractéristiques pertinentes qui aident à identifier et à localiser les tumeurs.
Le choix du bon backbone pour une application spécifique dépend de plusieurs facteurs, notamment la complexité de la tâche, les ressources informatiques disponibles et la précision souhaitée. Pour les environnements à ressources limitées, tels que les appareils mobiles ou les applications d'IA en périphérie, des dorsales plus légères avec moins de paramètres peuvent être préférées. En revanche, pour les tâches nécessitant une grande précision, des dorsales plus profondes et plus complexes peuvent être nécessaires.
Il est important de distinguer l'épine dorsale des autres composants d'un réseau neuronal. Alors que l'épine dorsale extrait des caractéristiques, d'autres parties du réseau, telles que la tête de détection ou le module de segmentation, sont chargées de faire des prédictions basées sur ces caractéristiques. L'épine dorsale est comme les yeux du réseau, elle fournit les informations visuelles brutes, tandis que les autres composants sont comme le cerveau, ils interprètent ces informations pour effectuer des tâches spécifiques. En outre, le concept d'apprentissage par transfert est souvent appliqué aux dorsales, où une dorsale pré-entraînée sur un grand ensemble de données comme ImageNet est utilisée comme point de départ pour l'entraînement à une nouvelle tâche. Cela permet au modèle de tirer parti des connaissances apprises à partir de l'ensemble de données de préformation, ce qui améliore les performances et réduit le temps de formation. Des outils comme Ultralytics HUB simplifient le processus d'expérimentation de différents backbones et de formation de modèles personnalisés.