Esplora le Capsule Networks (CapsNets) e scopri come risolvono i limiti delle CNN. Scopri il routing dinamico, le gerarchie spaziali e il confronto tra CapsNets e YOLO26.
Le reti Capsule, spesso abbreviate in CapsNets, rappresentano un'architettura avanzata nel campo del deep learning progettata per superare le limitazioni specifiche riscontrate nelle reti neurali tradizionali. Introdotte da Geoffrey Hinton e dal suo team, le CapsNets cercano di imitare l'organizzazione neurale biologica del cervello umano in modo più fedele rispetto ai modelli standard . A differenza di una tipica rete neurale convoluzionale (CNN), che eccelle nel rilevare le caratteristiche ma spesso perde le relazioni spaziali a causa del downsampling, una rete Capsule organizza i neuroni in gruppi chiamati "capsule". Queste capsule codificano non solo la probabilità della presenza di un oggetto, ma anche le sue proprietà specifiche, come l'orientamento, le dimensioni e la consistenza, preservando efficacemente le relazioni spaziali gerarchiche all'interno dei dati visivi.
Per comprendere l'innovazione di CapsNets, è utile osservare come funzionano i modelli standard di visione artificiale. Una CNN convenzionale utilizza livelli di estrazione delle caratteristiche seguiti da livelli di pooling , in particolare max pooling, per ridurre il carico computazionale e ottenere l'invarianza traslazionale. Ciò significa che una CNN è in grado di identificare un "gatto" indipendentemente dalla sua posizione nell'immagine.
Tuttavia, questo processo spesso scarta dati precisi sulla posizione, portando al "problema Picasso": una CNN potrebbe classify correttamente classify volto anche se la bocca si trova sulla fronte, semplicemente perché sono presenti tutte le caratteristiche necessarie. Le CapsNet risolvono questo problema rimuovendo i livelli di pooling e sostituendoli con un processo che rispetta le gerarchie spaziali degli oggetti.
L'elemento fondamentale di questa architettura è la capsula, un insieme annidato di neuroni che produce un vettore anziché un valore scalare. Nella matematica vettoriale, un vettore ha sia magnitudine che direzione. In una CapsNet:
Le capsule negli strati inferiori (che rilevano forme semplici come i bordi) prevedono l'output delle capsule negli strati superiori (che rilevano oggetti complessi come occhi o pneumatici). Questa comunicazione è gestita da un algoritmo chiamato "instradamento dinamico" o "instradamento per accordo". Se la previsione di una capsula di livello inferiore è in linea con lo stato della capsula di livello superiore , la connessione tra di esse viene rafforzata. Ciò consente alla rete di riconoscere oggetti da diversi punti di vista 3D senza richiedere l'enorme aumento di dati solitamente necessario per insegnare alle CNN la rotazione e la scala.
Sebbene entrambe le architetture siano fondamentali per la visione artificiale (CV), differiscono nel modo in cui elaborano e rappresentano i dati visivi:
Sebbene i CapsNet siano spesso più onerosi dal punto di vista computazionale rispetto a modelli ottimizzati come YOLO26, offrono vantaggi distintivi in ambiti specializzati:
Le Capsule Networks sono principalmente un'architettura di classificazione. Sebbene offrano una robustezza teorica, le moderne applicazioni industriali spesso privilegiano le CNN o i Transformers ad alta velocità per le prestazioni in tempo reale. Tuttavia, è utile comprendere i benchmark di classificazione utilizzati per le CapsNet, come MNIST.
L'esempio seguente mostra come addestrare un moderno
Modello YOLO sul set MNIST utilizzando il
ultralytics pacchetto. Ciò è analogo al compito di benchmark primario utilizzato per convalidare le reti Capsule.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
I principi alla base delle reti Capsule continuano a influenzare la ricerca sulla sicurezza e l'interpretabilità dell'IA. Modellando esplicitamente le relazioni parte-tutto, le capsule offrono un'alternativa "glass box" alla natura "black box" delle reti neurali profonde, rendendo le decisioni più spiegabili. Gli sviluppi futuri mirano a combinare la robustezza spaziale delle capsule con la velocità di inferenza di architetture come YOLO11 o la più recente YOLO26 per migliorare le prestazioni nel rilevamento di oggetti 3D e nella robotica. I ricercatori stanno anche esplorando le capsule a matrice con routing EM per ridurre ulteriormente il costo computazionale dell'algoritmo di accordo.
Per gli sviluppatori che desiderano gestire set di dati e addestrare modelli in modo efficiente, Ultralytics offre un ambiente unificato per annotare i dati, addestrare nel cloud e implementare modelli che bilanciano la velocità delle CNN con l'accuratezza richiesta per compiti di visione complessi .