Scopri come il campo recettivo definisce ciò che vede una rete neurale. Scopri come Ultralytics ottimizza il contesto spaziale per detect efficacemente detect di tutte le dimensioni.
Nel campo della visione artificiale (CV) e del deep learning, il campo recettivo si riferisce alla regione specifica di un'immagine in ingresso che un particolare neurone in una rete neurale (NN) "vede" o analizza. Concettualmente, funziona in modo simile al campo visivo dell'occhio umano o dell'obiettivo di una fotocamera. Determina la quantità di contesto spaziale che un modello può percepire in un dato livello. Man mano che i dati avanzano attraverso una rete neurale convoluzionale (CNN), il campo ricettivo si espande tipicamente, consentendo al sistema di passare dall'identificazione di piccoli dettagli locali, come bordi o angoli, alla comprensione di strutture complesse e globali come oggetti o scene intere.
Le dimensioni e la profondità del campo recettivo sono determinate dall'architettura della rete. Nei livelli iniziali, i neuroni hanno solitamente un campo recettivo piccolo, concentrandosi su un minuscolo gruppo di pixel per catturare texture a grana fine. Man mano che la rete si approfondisce, operazioni come livelli di pooling e convoluzioni stridate riducono efficacemente il campionamento delle mappe delle caratteristiche. Questo processo consente ai neuroni successivi di aggregare informazioni da una porzione molto più ampia dell'input originale.
Le architetture moderne, tra cui l'avanguardistico Ultralytics , sono progettate per bilanciare questi campi meticolosamente. Se il campo ricettivo è troppo ristretto, il modello potrebbe non riuscire a riconoscere oggetti di grandi dimensioni perché non è in grado di percepire l'intera forma. Al contrario, se il campo è eccessivamente ampio senza mantenere la risoluzione, il modello potrebbe non rilevare oggetti di piccole dimensioni. Per ovviare a questo problema, gli ingegneri utilizzano spesso convoluzioni dilatate (note anche come convoluzioni atrous ) per espandere il campo ricettivo senza ridurre la risoluzione spaziale, una tecnica fondamentale per attività di alta precisione come la segmentazione semantica.
L'ottimizzazione del campo ricettivo è fondamentale per il successo di varie soluzioni di intelligenza artificiale.
Per comprendere appieno la progettazione di rete, è utile distinguere il campo recettivo da termini simili:
I modelli all'avanguardia come il più recente YOLO26 utilizzano Feature Pyramid Networks (FPN) per mantenere campi recettivi efficaci per oggetti di tutte le dimensioni. L'esempio seguente mostra come caricare un modello ed eseguire il rilevamento di oggetti, sfruttando automaticamente queste ottimizzazioni architetturali interne . Gli utenti che desiderano addestrare i propri modelli con architetture ottimizzate possono utilizzare la Ultralytics per una gestione senza soluzione di continuità dei set di dati e l' addestramento su cloud.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()