Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Backbone

Découvrez le rôle d'une infrastructure dans l'apprentissage profond. Découvrez comment Ultralytics utilise des infrastructures optimisées pour une extraction rapide et précise des caractéristiques et la détection d'objets.

Une architecture de base est le composant fondamental d'extraction de caractéristiques d'une architecture d'apprentissage profond, agissant comme le principal moteur qui transforme les données brutes en représentations significatives. Dans le contexte de la vision par ordinateur, l'architecture de base comprend généralement une série de couches au sein d'un réseau neuronal qui traite les images d'entrée afin d' identifier des modèles hiérarchiques. Ces modèles vont de caractéristiques simples de bas niveau, telles que les contours et les textures, à des concepts complexes de haut niveau, tels que les formes et les objets. La sortie de la colonne vertébrale, souvent appelée carte de caractéristiques, sert d'entrée pour les composants en aval qui effectuent des tâches spécifiques telles que la classification ou la détection.

Le rôle de la colonne vertébrale

La fonction principale d'une dorsale est de « voir » et de comprendre le contenu visuel d'une image avant que des décisions spécifiques ne soient prises. Elle agit comme un traducteur universel, convertissant les valeurs des pixels en un format condensé et riche en informations. La plupart des dorsales modernes s'appuient sur des réseaux neuronaux convolutifs (CNN) ou des transformateurs de vision (ViT) et sont souvent pré-entraînées sur des ensembles de données massifs tels que ImageNet. Ce processus de pré-entraînement , aspect central de l'apprentissage par transfert, permet au modèle d'exploiter les caractéristiques visuelles apprises précédemment, ce qui réduit considérablement les données et le temps nécessaires pour entraîner un nouveau modèle pour une application spécifique.

Par exemple, lorsque l'on utilise Ultralytics , l' architecture comprend une épine dorsale hautement optimisée qui extrait efficacement les caractéristiques multi-échelles. Cela permet aux parties suivantes du réseau de se concentrer entièrement sur la localisation des objets et l'attribution de probabilités de classe sans avoir besoin de réapprendre à reconnaître les structures visuelles de base à partir de zéro.

Colonne vertébrale, cou et tête

Pour bien comprendre l'architecture des modèles de détection d'objets, il est essentiel de distinguer le tronc commun des deux autres composantes principales : le cou et la tête.

  • Backbone: « extracteur de caractéristiques ». Il isole les informations visuelles essentielles de l'image d'entrée. Parmi les exemples populaires, on peut citer les réseaux résiduels (ResNet), initialement développés par Microsoft , et CSPNet, optimisé pour l'efficacité computationnelle.
  • Cou : « Agrégateur de caractéristiques ». Situé entre la colonne vertébrale et la tête, le cou affine et combine les caractéristiques provenant de différentes échelles. Une structure couramment utilisée ici est le réseau pyramidal de caractéristiques (FPN), qui améliore la capacité du modèle à detect de tailles variables.
  • Tête : le « prédicteur ». La tête de détection traite les caractéristiques agrégées provenant du cou afin de générer le résultat final, tel que les boîtes englobantes et les étiquettes de classe.

Applications concrètes

Les backbones sont les moteurs silencieux derrière de nombreuses applications industrielles et scientifiques de l'IA. Leur capacité à généraliser les données visuelles les rend adaptables à divers secteurs.

  1. Diagnostic médical : dans le domaine de la santé, les backbones analysent des images médicales complexes telles que les radiographies, les tomodensitogrammes et les IRM. En effectuant des analyses d'images médicales, ces réseaux peuvent extraire des anomalies subtiles indiquant une maladie. Par exemple, des modèles spécialisés exploitent des backbones puissants pour la détection des tumeurs, identifiant les premiers signes de cancer qui pourraient échapper à l'œil humain. Des organisations telles que la Radiological Society of North America (RSNA) préconisent l'utilisation de ces outils d'apprentissage profond pour révolutionner les soins aux patients.
  2. Systèmes autonomes : dans les secteurs de l'automobile et de la robotique, les dorsales traitent les flux vidéo provenant des caméras embarquées afin d'interpréter l'environnement. L'IA dans le domaine automobile s'appuie sur ces extracteurs de caractéristiques robustes pour detect , lire les panneaux de signalisation et identifier les piétons en temps réel. Une dorsale fiable garantit que le système peut faire la distinction entre les obstacles statiques et les véhicules en mouvement, une exigence de sécurité essentielle pour les technologies de conduite autonome développées par des entreprises telles que Waymo.

Mise en œuvre avec Ultralytics

Des architectures de pointe telles que YOLO11 et la technologie de pointe YOLO26 intègrent par défaut de puissantes infrastructures. Ces composants sont conçus pour offrir une latence d'inférence optimale sur diverses plateformes matérielles , des appareils périphériques aux GPU haute performance .

Python suivant montre comment charger un modèle avec une structure pré-entraînée à l'aide de la fonction ultralytics paquet. Cette configuration exploite automatiquement la colonne vertébrale pour l'extraction de caractéristiques pendant l' inférence.

from ultralytics import YOLO

# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")

# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting detection
results[0].show()

En utilisant une infrastructure pré-entraînée, les développeurs peuvent effectuer des ajustements sur leurs propres ensembles de données personnalisés à l'aide de Ultralytics . Cette approche facilite le développement rapide de modèles spécialisés, tels que ceux utilisés pour la détection de colis dans le domaine de la logistique, sans les énormes ressources informatiques généralement nécessaires pour entraîner un réseau neuronal profond à partir de zéro.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant