Glossario

Capsule Networks (CapsNet)

Scopri le reti a capsula (CapsNets): Un'architettura di rete neurale innovativa che eccelle nelle gerarchie spaziali e nelle relazioni tra le caratteristiche.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Le reti a capsula, spesso chiamate CapsNets, rappresentano un nuovo tipo di architettura di rete neurale progettata per risolvere alcuni limiti delle tradizionali reti neurali convoluzionali (CNN), in particolare nella gestione delle gerarchie spaziali e delle relazioni tra le caratteristiche nelle immagini. A differenza delle CNN, che utilizzano output scalari derivanti da operazioni di pooling, le CapsNet impiegano vettori per rappresentare le caratteristiche, consentendo loro di catturare informazioni più dettagliate sull'orientamento e sulle posizioni spaziali relative degli oggetti. Questa capacità rende le reti CapsNet particolarmente efficaci in compiti come il riconoscimento delle immagini, dove la comprensione della posa e delle relazioni spaziali degli oggetti è fondamentale.

Concetti fondamentali

Le CapsNets introducono il concetto di "capsule", ovvero gruppi di neuroni il cui vettore di attività rappresenta varie proprietà di un tipo specifico di entità, come un oggetto o una parte di oggetto. La lunghezza del vettore di attività rappresenta la probabilità che l'entità esista, mentre il suo orientamento codifica i parametri di istanziazione (ad esempio, posizione, dimensione, orientamento). Le capsule attive di un livello fanno previsioni, tramite matrici di trasformazione, sui parametri di istanziazione delle capsule di livello superiore. Quando più previsioni concordano, una capsula di livello superiore diventa attiva. Questo processo è noto come "routing-by-agreement".

Principali differenze rispetto alle reti neurali convoluzionali (CNN)

Sebbene sia le reti CapsNet che le reti neurali convoluzionali (CNN) siano utilizzate in compiti di computer vision (CV), esse differiscono in modo significativo nel loro approccio all'elaborazione delle informazioni spaziali:

  • Rappresentazione delle caratteristiche: Le CNN utilizzano valori scalari per rappresentare le caratteristiche, mentre le reti CapsNet utilizzano vettori, consentendo loro di acquisire informazioni più dettagliate sulla posa e sulle proprietà degli oggetti.
  • Operazioni di pooling: Le CNN utilizzano spesso il max-pooling, che può portare alla perdita di informazioni spaziali precise. Le reti CapsNet evitano questo problema utilizzando il routing dinamico, che preserva le gerarchie spaziali.
  • Equivarianza: Le reti CapsNet sono progettate per essere equivoche rispetto ai cambiamenti di punto di vista, ovvero possono riconoscere gli oggetti anche quando il loro orientamento cambia. Le CNN non sono intrinsecamente equivoche e richiedono tecniche come l'aumento dei dati per ottenere risultati simili.

Vantaggi delle reti a capsule

Le reti CapsNet offrono diversi vantaggi rispetto alle CNN tradizionali:

  • Gestione migliorata delle gerarchie spaziali: Rappresentando le caratteristiche come vettori, CapsNets può comprendere meglio le relazioni spaziali tra le parti di un oggetto.
  • Maggiore robustezza alle trasformazioni affini: Le reti CapsNets sono in grado di riconoscere gli oggetti in base a varie trasformazioni (ad esempio, rotazione, scalatura) senza dover aumentare i dati.
  • Migliore generalizzazione con meno dati: Grazie alla loro capacità di catturare informazioni dettagliate sulle caratteristiche, le reti CapsNet possono spesso ottenere buone prestazioni con un numero inferiore di esempi di addestramento rispetto alle CNN.

Applicazioni del mondo reale

Le reti a capsula si sono dimostrate promettenti in diverse applicazioni, dimostrando il loro potenziale per far progredire il campo del deep learning (DL):

  • Imaging medico: Nell'analisi delle immagini mediche, le CapsNet possono migliorare l'accuratezza della diagnosi delle malattie grazie a una migliore comprensione delle relazioni spaziali tra le diverse strutture anatomiche. Ad esempio, possono essere utilizzate per individuare e classificare i tumori in modo più accurato analizzando la loro forma, dimensione e posizione relativa all'interno di un organo.
  • Veicoli autonomi: Le reti CapsNets possono potenziare i sistemi di percezione dei veicoli autonomi migliorando il rilevamento e il riconoscimento degli oggetti, soprattutto in condizioni difficili come punti di vista variabili e occlusioni. Questo può portare a una navigazione più sicura e affidabile.
  • Riconoscimento facciale: Nei sistemi di riconoscimento facciale, le reti CapsNet possono fornire prestazioni più robuste catturando con precisione le relazioni spaziali tra i tratti del viso, anche in caso di cambiamenti di posa ed espressione.

Sfide e direzioni future

Nonostante i loro vantaggi, le CapsNet devono affrontare anche delle sfide, come la maggiore complessità computazionale rispetto alle CNN e la necessità di ulteriori ricerche per ottimizzare la loro architettura e le procedure di addestramento. La ricerca in corso si concentra sul miglioramento dell'efficienza dell'instradamento dinamico, sull'esplorazione di nuovi tipi di capsule e sull'applicazione delle CapsNet a una gamma più ampia di compiti oltre al riconoscimento delle immagini.

Con la continua evoluzione del campo dell'intelligenza artificiale (AI), le reti a capsula rappresentano un'area di sviluppo entusiasmante, che offre nuove possibilità di creare modelli di reti neurali più robusti e versatili. La loro capacità di catturare informazioni spaziali dettagliate e di gestire le trasformazioni le rende uno strumento prezioso per il progresso della visione artificiale e di altre applicazioni di IA. Per chi è interessato a esplorare modelli di IA all'avanguardia, i modelli di Ultralytics YOLO offrono architetture di rilevamento degli oggetti all'avanguardia che incorporano alcuni dei più recenti progressi nel campo. Inoltre, l'HUB Ultralytics fornisce una piattaforma per l'addestramento e l'implementazione di questi modelli, facilitando ulteriormente lo sviluppo e l'applicazione di soluzioni di IA avanzate.

Leggi tutto