Glossario

Reti Capsula (CapsNet)

Esplora le Capsule Networks (CapsNets) e scopri come risolvono i limiti delle CNN. Scopri il routing dinamico, le gerarchie spaziali e il confronto tra CapsNets e YOLO26.

Le reti Capsule, spesso abbreviate in CapsNets, rappresentano un'architettura avanzata nel campo del deep learning progettata per superare le limitazioni specifiche riscontrate nelle reti neurali tradizionali. Introdotte da Geoffrey Hinton e dal suo team, le CapsNets cercano di imitare l'organizzazione neurale biologica del cervello umano in modo più fedele rispetto ai modelli standard . A differenza di una tipica rete neurale convoluzionale (CNN), che eccelle nel rilevare le caratteristiche ma spesso perde le relazioni spaziali a causa del downsampling, una rete Capsule organizza i neuroni in gruppi chiamati "capsule". Queste capsule codificano non solo la probabilità della presenza di un oggetto, ma anche le sue proprietà specifiche, come l'orientamento, le dimensioni e la consistenza, preservando efficacemente le relazioni spaziali gerarchiche all'interno dei dati visivi.

I limiti delle CNN tradizionali

Per comprendere l'innovazione di CapsNets, è utile osservare come funzionano i modelli standard di visione artificiale. Una CNN convenzionale utilizza livelli di estrazione delle caratteristiche seguiti da livelli di pooling , in particolare max pooling, per ridurre il carico computazionale e ottenere l'invarianza traslazionale. Ciò significa che una CNN è in grado di identificare un "gatto" indipendentemente dalla sua posizione nell'immagine.

Tuttavia, questo processo spesso scarta dati precisi sulla posizione, portando al "problema Picasso": una CNN potrebbe classify correttamente classify volto anche se la bocca si trova sulla fronte, semplicemente perché sono presenti tutte le caratteristiche necessarie. Le CapsNet risolvono questo problema rimuovendo i livelli di pooling e sostituendoli con un processo che rispetta le gerarchie spaziali degli oggetti.

Come funzionano le reti a capsula

L'elemento fondamentale di questa architettura è la capsula, un insieme annidato di neuroni che produce un vettore anziché un valore scalare. Nella matematica vettoriale, un vettore ha sia magnitudine che direzione. In una CapsNet:

Magnitudine (lunghezza): rappresenta la probabilità che un'entità specifica esista nell'input corrente.
Direzione (Orientamento): codifica i parametri di istanza, come la stima della posa, la scala e la rotazione dell'oggetto.

Le capsule negli strati inferiori (che rilevano forme semplici come i bordi) prevedono l'output delle capsule negli strati superiori (che rilevano oggetti complessi come occhi o pneumatici). Questa comunicazione è gestita da un algoritmo chiamato "instradamento dinamico" o "instradamento per accordo". Se la previsione di una capsula di livello inferiore è in linea con lo stato della capsula di livello superiore , la connessione tra di esse viene rafforzata. Ciò consente alla rete di riconoscere oggetti da diversi punti di vista 3D senza richiedere l'enorme aumento di dati solitamente necessario per insegnare alle CNN la rotazione e la scala.

Differenze principali: CapsNets vs. CNNs

Sebbene entrambe le architetture siano fondamentali per la visione artificiale (CV), differiscono nel modo in cui elaborano e rappresentano i dati visivi:

Scalare vs. Vettore: i neuroni CNN utilizzano output scalari per indicare la presenza di caratteristiche. Le CapsNet utilizzano vettori per codificare la presenza (lunghezza) e i parametri di posa (orientamento).
Routing vs. Pooling: le CNN utilizzano il pooling per sottocampionare i dati, spesso perdendo i dettagli di posizione. Le CapsNet utilizzano il routing dinamico per preservare i dati spaziali, rendendole altamente efficaci per attività che richiedono un tracciamento preciso degli oggetti.
Efficienza dei dati: poiché le capsule comprendono implicitamente i punti di vista 3D e le trasformazioni affini, spesso possono generalizzare da una quantità minore di dati di addestramento rispetto alle CNN, che possono richiedere esempi estesi per apprendere ogni possibile rotazione di un oggetto.

Applicazioni nel mondo reale

Sebbene i CapsNet siano spesso più onerosi dal punto di vista computazionale rispetto a modelli ottimizzati come YOLO26, offrono vantaggi distintivi in ambiti specializzati:

Analisi delle immagini mediche: nel settore sanitario, l'orientamento e la forma precisi di un'anomalia sono fondamentali. I ricercatori hanno applicato CapsNets alla segmentazione dei tumori cerebrali, dove il modello deve distinguere un tumore dal tessuto circostante sulla base di sottili gerarchie spaziali che le CNN standard potrebbero appiattire . È possibile esplorare ricerche correlate sulle reti Capsule nell'imaging medico.
Riconoscimento delle cifre sovrapposte: CapsNets ha ottenuto risultati all'avanguardia sul MNIST , in particolare in scenari in cui le cifre sono sovrapposte. Poiché la rete traccia la "posizione" di ciascuna cifra, è in grado di separare due numeri sovrapposti (ad esempio, un "3" sopra un "5") come oggetti distinti, anziché fonderli in un'unica mappa di caratteristiche confusa .

Contesto pratico e implementazione

Le Capsule Networks sono principalmente un'architettura di classificazione. Sebbene offrano una robustezza teorica, le moderne applicazioni industriali spesso privilegiano le CNN o i Transformers ad alta velocità per le prestazioni in tempo reale. Tuttavia, è utile comprendere i benchmark di classificazione utilizzati per le CapsNet, come MNIST.

L'esempio seguente mostra come addestrare un moderno Modello YOLO sul set MNIST utilizzando il ultralytics pacchetto. Ciò è analogo al compito di benchmark primario utilizzato per convalidare le reti Capsule.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Il futuro delle capsule e della visione artificiale

I principi alla base delle reti Capsule continuano a influenzare la ricerca sulla sicurezza e l'interpretabilità dell'IA. Modellando esplicitamente le relazioni parte-tutto, le capsule offrono un'alternativa "glass box" alla natura "black box" delle reti neurali profonde, rendendo le decisioni più spiegabili. Gli sviluppi futuri mirano a combinare la robustezza spaziale delle capsule con la velocità di inferenza di architetture come YOLO11 o la più recente YOLO26 per migliorare le prestazioni nel rilevamento di oggetti 3D e nella robotica. I ricercatori stanno anche esplorando le capsule a matrice con routing EM per ridurre ulteriormente il costo computazionale dell'algoritmo di accordo.

Per gli sviluppatori che desiderano gestire set di dati e addestrare modelli in modo efficiente, Ultralytics offre un ambiente unificato per annotare i dati, addestrare nel cloud e implementare modelli che bilanciano la velocità delle CNN con l'accuratezza richiesta per compiti di visione complessi .

Reti Capsula (CapsNet)

Addestrare i modelliYOLO di Ultralytics per ottimizzare i flussi di lavoro in tutti i settori industriali

Soluzione di licenza aziendale flessibile per potenziare la tua innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

I limiti delle CNN tradizionali

Come funzionano le reti a capsula

Differenze principali: CapsNets vs. CNNs

Applicazioni nel mondo reale

Contesto pratico e implementazione

Il futuro delle capsule e della visione artificiale

Leggi di più in questa categoria

12 casi d'uso delle immagini aeree basati sulla visione artificiale

Che cos'è la stima della profondità monoculare? Una panoramica

Uno sguardo all'utilizzoYOLO Ultralytics per il rilevamento delle minacce tramite IA

Unitevi alla comunità di Ultralytics