Glossaire

Dorsale

Découvre le rôle des dorsales dans l'apprentissage profond, explore les architectures les plus performantes comme ResNet & ViT, et découvre leurs applications d'IA dans le monde réel.

Dans l'apprentissage profond, en particulier dans le domaine de la vision par ordinateur (VA), la "colonne vertébrale" fait référence à l'ensemble initial et fondateur des couches d'un modèle de réseau neuronal (RN). Son objectif principal est l'extraction de caractéristiques: traiter les données d'entrée brutes, comme une image, et les transformer en une représentation compacte et informative. Cette représentation, souvent appelée carte des caractéristiques, capture les motifs, les textures et les formes essentiels des données d'entrée. Considère la colonne vertébrale comme les yeux de l'intelligence artificielle, qui effectue l'interprétation initiale avant que le raisonnement de plus haut niveau ne se produise. Ce traitement fondamental est essentiel pour la capacité globale du modèle à comprendre et à interpréter les informations visuelles pour les tâches ultérieures.

Fonctionnalité de base

Un réseau de base typique consiste en une séquence de couches, comprenant généralement des couches de convolution, des couches de mise en commun (qui réduisent les dimensions spatiales) et des fonctions d'activation (qui introduisent la non-linéarité). Au fur et à mesure que les données d'entrée passent par ces couches, le réseau apprend progressivement des caractéristiques hiérarchiques. Les premières couches peuvent détecter des éléments simples comme les bords et les coins, tandis que les couches plus profondes combinent ces caractéristiques plus simples pour reconnaître des structures plus complexes, des parties d'objets et finalement des objets entiers. La sortie générée par l'épine dorsale est un ensemble de cartes de caractéristiques de haut niveau qui résument les informations cruciales de l'entrée d'origine. Ce processus réduit efficacement la dimensionnalité des données tout en préservant leur signification sémantique, formant ainsi la base de nombreux modèles d'apprentissage profond réussis.

Rôle dans les modèles de vision par ordinateur

Dans les modèles sophistiqués de vision par ordinateur conçus pour des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de la pose, l'épine dorsale fournit la représentation essentielle des caractéristiques. Les composants suivants, souvent appelés le "cou" (qui affine et regroupe les caractéristiques) et la "tête" (qui effectue la prédiction finale de la tâche), s'appuient sur les caractéristiques extraites par l'épine dorsale. Par exemple, une tête de détection utilise ces caractéristiques affinées pour prédire les boîtes de délimitation autour des objets détectés et leurs classes correspondantes. L'épine dorsale est distincte de ces étapes ultérieures ; son seul objectif est de générer une représentation puissante, souvent polyvalente, des caractéristiques à partir des données d'entrée. Une pratique courante consiste à utiliser des dorsales pré-entraînées sur des ensembles de données à grande échelle comme ImageNet, puis à les affiner pour des tâches spécifiques en aval à l'aide de l'apprentissage par transfert, ce qui permet d'accélérer considérablement le processus de formation.

Architectures dorsales courantes

Plusieurs architectures de réseaux neuronaux bien établies sont fréquemment employées comme dorsales en raison de leur efficacité prouvée dans l'extraction de caractéristiques :

ResNet (réseaux résiduels): Introduction de connexions résiduelles pour permettre la formation de réseaux beaucoup plus profonds, en résolvant le problème du gradient qui s'évanouit.(Article : arXiv:1512.03385).
VGG : Connu pour son architecture simple et uniforme utilisant de petits filtres convolutifs (3x3).(Article : arXiv:1409.1556).
MobileNet : Conçu pour les applications de vision mobiles et embarquées, il se concentre sur l'efficacité et la faible latence.(Article : arXiv:1704.04861).
EfficientNet : Utilise une méthode de mise à l'échelle composée pour mettre uniformément à l'échelle la profondeur, la largeur et la résolution du réseau pour une efficacité optimale.(Article : arXiv:1905.11946).
Transformateurs de vision (ViT) : Applique l'architecture Transformer, initialement réussie dans le domaine du NLP, directement aux séquences d'images.(Article : arXiv:2010.11929).
CSPDarknet : Une variante du Darknet incorporant les réseaux Cross Stage Partial, utilisée efficacement dans des modèles tels que Ultralytics YOLOv5 et les versions ultérieures, en équilibrant la vitesse et la précision.

Le choix de l'épine dorsale a un impact significatif sur les caractéristiques de performance d'un modèle, y compris la vitesse, le coût de calcul(FLOPs) et la précision, comme le soulignent diverses comparaisons de modèles. Des structures telles que PyTorch et TensorFlowainsi que des bibliothèques comme OpenCV, sont des outils essentiels pour la mise en œuvre et l'utilisation de ces dorsales. Des plateformes comme Ultralytics HUB simplifient encore le processus d'utilisation de modèles avec différents backbones.

Distinguer l'épine dorsale des termes apparentés

Il est important de ne pas confondre l'épine dorsale avec l'ensemble du réseau neuronal ou d'autres composants spécifiques :

Réseau neuronal complet : L'épine dorsale n'est qu'une partie, généralement la partie initiale d'extraction des caractéristiques, d'une architecture de réseau plus vaste. Le réseau complet comprend également le cou et la (les) tête(s) responsable(s) des prédictions spécifiques à la tâche.
Tête de détection : c'est la partie finale d'un modèle de détection d'objets qui prend les caractéristiques (souvent traitées par la colonne vertébrale et le cou) et produit les coordonnées de la boîte englobante et les probabilités de la classe. Elle est spécifique à une tâche, contrairement à l'épine dorsale qui est plus générale.
Extracteur de caractéristiques : Bien que l'épine dorsale soit un extracteur de caractéristiques, le terme "extracteur de caractéristiques" peut parfois désigner n'importe quelle partie d'un réseau qui extrait des caractéristiques, ou même des algorithmes autonomes d'extraction de caractéristiques en dehors de l'apprentissage profond (comme SIFT ou HOG). Dans le contexte des architectures modernes d'apprentissage profond comme Ultralytics YOLOle terme "backbone" fait spécifiquement référence à la base convolutive initiale.

Applications dans le monde réel

Les backbones sont des composants fondamentaux dans d'innombrables applications d'intelligence artificielle :

Conduite autonome : Les systèmes des voitures à conduite autonome s'appuient fortement sur des dorsales robustes (par exemple, les variantes ResNet ou EfficientNet) pour traiter les données d'entrée provenant des caméras et des capteurs LiDAR. Les caractéristiques extraites permettent de détecter et de classer les véhicules, les piétons, les feux de signalisation et les lignes de voie, ce qui est crucial pour une navigation et une prise de décision sûres, comme on le voit dans les systèmes développés par des entreprises telles que Waymo.
Analyse d'images médicales : Dans les solutions d'IA pour la santé, les dorsales sont utilisées pour analyser les scans médicaux tels que les radiographies, les tomodensitogrammes ou les IRM. Par exemple, une dorsale comme DenseNet peut extraire des caractéristiques d'une radiographie du thorax pour aider à détecter les signes de pneumonie ou d'un scanner pour identifier des tumeurs potentielles(recherche pertinente dans Radiology : AI). Cela aide les radiologues à poser des diagnostics et à planifier des traitements. Les modèles Ultralytics comme YOLO11 peuvent être adaptés à des tâches telles que la détection de tumeurs en tirant parti de puissants backbones.

Dorsale

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Fonctionnalité de base

Rôle dans les modèles de vision par ordinateur

Architectures dorsales courantes

Distinguer l'épine dorsale des termes apparentés

Applications dans le monde réel

Lire plus de blogs

Rejoins la communauté Ultralytics

Dorsale

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Fonctionnalité de base

Rôle dans les modèles de vision par ordinateur

Architectures dorsales courantes

Distinguer l'épine dorsale des termes apparentés

Applications dans le monde réel

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB