Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Campo Ricettivo

Scopri come il campo recettivo definisce ciò che vede una rete neurale. Scopri come Ultralytics ottimizza il contesto spaziale per detect efficacemente detect di tutte le dimensioni.

Nel campo della visione artificiale (CV) e del deep learning, il campo recettivo si riferisce alla regione specifica di un'immagine in ingresso che un particolare neurone in una rete neurale (NN) "vede" o analizza. Concettualmente, funziona in modo simile al campo visivo dell'occhio umano o dell'obiettivo di una fotocamera. Determina la quantità di contesto spaziale che un modello può percepire in un dato livello. Man mano che i dati avanzano attraverso una rete neurale convoluzionale (CNN), il campo ricettivo si espande tipicamente, consentendo al sistema di passare dall'identificazione di piccoli dettagli locali, come bordi o angoli, alla comprensione di strutture complesse e globali come oggetti o scene intere.

La meccanica dei campi recettivi

Le dimensioni e la profondità del campo recettivo sono determinate dall'architettura della rete. Nei livelli iniziali, i neuroni hanno solitamente un campo recettivo piccolo, concentrandosi su un minuscolo gruppo di pixel per catturare texture a grana fine. Man mano che la rete si approfondisce, operazioni come livelli di pooling e convoluzioni stridate riducono efficacemente il campionamento delle mappe delle caratteristiche. Questo processo consente ai neuroni successivi di aggregare informazioni da una porzione molto più ampia dell'input originale.

Le architetture moderne, tra cui l'avanguardistico Ultralytics , sono progettate per bilanciare questi campi meticolosamente. Se il campo ricettivo è troppo ristretto, il modello potrebbe non riuscire a riconoscere oggetti di grandi dimensioni perché non è in grado di percepire l'intera forma. Al contrario, se il campo è eccessivamente ampio senza mantenere la risoluzione, il modello potrebbe non rilevare oggetti di piccole dimensioni. Per ovviare a questo problema, gli ingegneri utilizzano spesso convoluzioni dilatate (note anche come convoluzioni atrous ) per espandere il campo ricettivo senza ridurre la risoluzione spaziale, una tecnica fondamentale per attività di alta precisione come la segmentazione semantica.

Applicazioni nel mondo reale

L'ottimizzazione del campo ricettivo è fondamentale per il successo di varie soluzioni di intelligenza artificiale.

  • Guida autonoma: nell' IA per il settore automobilistico, i sistemi di percezione devono track contemporaneamente dettagli track e ostacoli di grandi dimensioni. Un veicolo necessita di un campo ricettivo ridotto per identificare i semafori distanti, ma allo stesso tempo richiede un campo ricettivo ampio per comprendere la traiettoria di un camion nelle vicinanze o la curvatura della carreggiata. Questa percezione multiscalare garantisce una maggiore sicurezza dell'IA e un processo decisionale più efficace.
  • Diagnostica medica: quando si applica l' intelligenza artificiale in ambito sanitario, i radiologi si affidano a modelli per individuare anomalie nelle scansioni. Per identificare i tumori cerebrali, la rete richiede un ampio campo ricettivo per comprendere la simmetria e la struttura complessiva del cervello. Tuttavia, per detect nella mammografia, il modello si affida a livelli iniziali con campi ricettivi ridotti sensibili a sottili cambiamenti di struttura.

Distinguere i concetti correlati

Per comprendere appieno la progettazione di rete, è utile distinguere il campo recettivo da termini simili:

  • Campo ricettivo vs. Kernel: La dimensione del kernel (o filtro) definisce le dimensioni della finestra scorrevole (ad esempio, 3x3) per una singola operazione di convoluzione. Il campo ricettivo è una proprietà emergente che rappresenta l'area di input totale accumulata che influenza un neurone. Una pila di più kernel 3x3 darà luogo a un campo ricettivo molto più grande di 3x3.
  • Campo ricettivo vs. mappa delle caratteristiche: una mappa delle caratteristiche è il volume di output prodotto da un livello, contenente le rappresentazioni apprese. Il campo ricettivo descrive la relazione tra un singolo punto su quella mappa delle caratteristiche e l'immagine di input originale.
  • Campo ricettivo vs. Finestra contestuale: Sebbene entrambi i termini si riferiscano all'ambito dei dati percepiti, il termine "finestra contestuale" è tipicamente utilizzato nell' elaborazione del linguaggio naturale (NLP) o nell'analisi video per indicare un intervallo temporale o sequenziale (ad esempio, limite di token). Il campo ricettivo si riferisce strettamente all' area spaziale nei dati a griglia (immagini).

Utilizzo pratico nel codice

I modelli all'avanguardia come il più recente YOLO26 utilizzano Feature Pyramid Networks (FPN) per mantenere campi recettivi efficaci per oggetti di tutte le dimensioni. L'esempio seguente mostra come caricare un modello ed eseguire il rilevamento di oggetti, sfruttando automaticamente queste ottimizzazioni architetturali interne . Gli utenti che desiderano addestrare i propri modelli con architetture ottimizzate possono utilizzare la Ultralytics per una gestione senza soluzione di continuità dei set di dati e l' addestramento su cloud.

from ultralytics import YOLO

# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")

# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora