Découvre le rôle des dorsales dans l'apprentissage profond, explore les architectures les plus performantes comme ResNet & ViT, et découvre leurs applications d'IA dans le monde réel.
Dans l'apprentissage profond, en particulier dans le domaine de la vision par ordinateur (VA), la "colonne vertébrale" fait référence à l'ensemble initial et fondateur des couches d'un modèle de réseau neuronal (RN). Son objectif principal est l'extraction de caractéristiques: traiter les données d'entrée brutes, comme une image, et les transformer en une représentation compacte et informative. Cette représentation, souvent appelée carte des caractéristiques, capture les motifs, les textures et les formes essentiels des données d'entrée. Considère la colonne vertébrale comme les yeux de l'intelligence artificielle, qui effectue l'interprétation initiale avant que le raisonnement de plus haut niveau ne se produise. Ce traitement fondamental est essentiel pour la capacité globale du modèle à comprendre et à interpréter les informations visuelles pour les tâches ultérieures.
Un réseau de base typique consiste en une séquence de couches, comprenant généralement des couches de convolution, des couches de mise en commun (qui réduisent les dimensions spatiales) et des fonctions d'activation (qui introduisent la non-linéarité). Au fur et à mesure que les données d'entrée passent par ces couches, le réseau apprend progressivement des caractéristiques hiérarchiques. Les premières couches peuvent détecter des éléments simples comme les bords et les coins, tandis que les couches plus profondes combinent ces caractéristiques plus simples pour reconnaître des structures plus complexes, des parties d'objets et finalement des objets entiers. La sortie générée par l'épine dorsale est un ensemble de cartes de caractéristiques de haut niveau qui résument les informations cruciales de l'entrée d'origine. Ce processus réduit efficacement la dimensionnalité des données tout en préservant leur signification sémantique, formant ainsi la base de nombreux modèles d'apprentissage profond réussis.
Dans les modèles sophistiqués de vision par ordinateur conçus pour des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de la pose, l'épine dorsale fournit la représentation essentielle des caractéristiques. Les composants suivants, souvent appelés le "cou" (qui affine et regroupe les caractéristiques) et la "tête" (qui effectue la prédiction finale de la tâche), s'appuient sur les caractéristiques extraites par l'épine dorsale. Par exemple, une tête de détection utilise ces caractéristiques affinées pour prédire les boîtes de délimitation autour des objets détectés et leurs classes correspondantes. L'épine dorsale est distincte de ces étapes ultérieures ; son seul objectif est de générer une représentation puissante, souvent polyvalente, des caractéristiques à partir des données d'entrée. Une pratique courante consiste à utiliser des dorsales pré-entraînées sur des ensembles de données à grande échelle comme ImageNet, puis à les affiner pour des tâches spécifiques en aval à l'aide de l'apprentissage par transfert, ce qui permet d'accélérer considérablement le processus de formation.
Plusieurs architectures de réseaux neuronaux bien établies sont fréquemment employées comme dorsales en raison de leur efficacité prouvée dans l'extraction de caractéristiques :
Le choix de l'épine dorsale a un impact significatif sur les caractéristiques de performance d'un modèle, y compris la vitesse, le coût de calcul(FLOPs) et la précision, comme le soulignent diverses comparaisons de modèles. Des structures telles que PyTorch et TensorFlowainsi que des bibliothèques comme OpenCV, sont des outils essentiels pour la mise en œuvre et l'utilisation de ces dorsales. Des plateformes comme Ultralytics HUB simplifient encore le processus d'utilisation de modèles avec différents backbones.
Il est important de ne pas confondre l'épine dorsale avec l'ensemble du réseau neuronal ou d'autres composants spécifiques :
Les backbones sont des composants fondamentaux dans d'innombrables applications d'intelligence artificielle :