Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Champ réceptif

Découvrez comment le champ réceptif définit ce que voit un réseau neuronal. Apprenez comment Ultralytics optimise le contexte spatial pour detect efficacement detect de toutes tailles.

Dans le domaine de la vision par ordinateur (CV) et de l'apprentissage profond , le champ réceptif désigne la région spécifique d'une image d'entrée qu'un neurone particulier d'un réseau neuronal (NN) « voit » ou analyse. Conceptuellement, il fonctionne de manière similaire au champ de vision de l'œil humain ou de l'objectif d'un appareil photo. Il détermine la quantité de contexte spatial qu'un modèle peut percevoir à un niveau donné. À mesure que les données progressent dans un réseau neuronal convolutif (CNN), le champ réceptif s'étend généralement, permettant au système de passer de l'identification de petits détails locaux, tels que les bords ou les coins, à la compréhension de structures globales complexes, telles que des objets ou des scènes entiers.

Les mécanismes des champs réceptifs

La taille et la profondeur du champ réceptif sont dictées par l'architecture du réseau. Dans les couches initiales, les neurones ont généralement un petit champ réceptif, se concentrant sur un petit groupe de pixels pour capturer des textures fines. À mesure que le réseau s'approfondit, des opérations telles que les couches de regroupement et les convolutions à pas variable réduisent efficacement la résolution des cartes de caractéristiques. Ce processus permet aux neurones suivants d'agréger des informations provenant d'une partie beaucoup plus grande de l'entrée d'origine.

Les architectures modernes, notamment le modèle de pointe Ultralytics , sont conçues pour équilibrer ces champs avec minutie. Si le champ réceptif est trop étroit, le modèle peut ne pas reconnaître les objets de grande taille, car il ne peut pas percevoir la forme dans son ensemble. À l'inverse, si le champ est trop large sans maintenir la résolution, le modèle pourrait ne pas détecter les petits objets. Pour remédier à cela, les ingénieurs utilisent souvent des convolutions dilatées (également appelées convolutions atrous ) pour élargir le champ réceptif sans réduire la résolution spatiale, une technique essentielle pour les tâches de haute précision telles que la segmentation sémantique.

Applications concrètes

L'optimisation du champ réceptif est essentielle à la réussite de diverses solutions d'IA.

  • Conduite autonome : dans le domaine de l' IA appliquée à l'automobile, les systèmes de perception doivent track simultanément les détails track et les obstacles de grande taille. Un véhicule a besoin d'un petit champ réceptif pour identifier les feux de circulation éloignés , tout en nécessitant simultanément un grand champ réceptif pour comprendre la trajectoire d'un camion proche ou la courbure de la voie routière. Cette perception multi-échelle garantit une meilleure sécurité et une meilleure prise de décision de l'IA.
  • Diagnostic médical : lorsqu'ils appliquent l'IA aux soins de santé, les radiologues s'appuient sur des modèles pour détecter les anomalies dans les scanners. Pour identifier les tumeurs cérébrales, le réseau nécessite un large champ réceptif afin de comprendre la symétrie et la structure globales du cerveau. Cependant, pour detect dans la mammographie, le modèle s'appuie sur les premières couches avec de petits champs réceptifs sensibles aux changements subtils de texture.

Distinguer les concepts apparentés

Pour bien comprendre la conception des réseaux, il est utile de différencier le champ réceptif d'autres termes similaires :

  • Champ réceptif vs noyau: La taille du noyau (ou filtre) définit les dimensions de la fenêtre glissante (par exemple, 3x3) pour une seule opération de convolution. Le champ réceptif est une propriété émergente représentant la zone d'entrée totale accumulée affectant un neurone. Une pile de plusieurs noyaux 3x3 donnera un champ réceptif beaucoup plus grand que 3x3.
  • Champ réceptif vs carte de caractéristiques: une carte de caractéristiques est le volume de sortie produit par une couche, contenant les représentations apprises. Le champ réceptif décrit la relation entre un point unique sur cette carte de caractéristiques et l'image d'entrée originale.
  • Champ réceptif vs fenêtre contextuelle: Bien que ces deux termes fassent référence à la portée des données perçues, le terme « fenêtre contextuelle » est généralement utilisé dans le traitement du langage naturel (NLP) ou l'analyse vidéo pour désigner une période temporelle ou séquentielle (par exemple, une limite de jetons). Le champ réceptif fait strictement référence à la zone spatiale dans les données de type grille (images).

Utilisation pratique dans le code

Les modèles de pointe tels que le nouveau YOLO26 utilisent des réseaux pyramidaux de caractéristiques (FPN) afin de maintenir des champs réceptifs efficaces pour les objets de toutes tailles. L'exemple suivant montre comment charger un modèle et effectuer une détection d'objets, en tirant automatiquement parti de ces optimisations architecturales internes . Les utilisateurs qui souhaitent former leurs propres modèles avec des architectures optimisées peuvent utiliser la Ultralytics pour une gestion transparente des ensembles de données et une formation dans le cloud.

from ultralytics import YOLO

# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")

# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant