Glossario

ImageNet

Scopri ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di AI.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

ImageNet è un set di dati molto ampio e fondamentale, ampiamente utilizzato nella ricerca e nello sviluppo della computer vision (CV). Si tratta di oltre 14 milioni di immagini che sono state annotate manualmente per indicare gli oggetti raffigurati, organizzati secondo la gerarchia WordNet. Con oltre 20.000 categorie (synset), ImageNet rappresenta una risorsa ricca e diversificata per l'addestramento e la valutazione di modelli di apprendimento automatico (ML), in particolare per compiti come la classificazione e il riconoscimento delle immagini. Le sue dimensioni e le annotazioni dettagliate sono state fondamentali per il progresso del settore. Per saperne di più sull'utilizzo del dataset con i modelli Ultralytics , visita la pagina di documentazione del dataset ImageNet.

Significato e rilevanza

L'introduzione di ImageNet ha segnato un momento cruciale per il deep learning (DL), soprattutto nella computer vision. Prima di ImageNet, la mancanza di dataset ampi, diversificati e ben etichettati rappresentava un grosso ostacolo. ImageNet ha permesso l'addestramento di modelli molto più profondi e complessi, come le reti neurali convoluzionali (CNN), portando a progressi significativi. L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC), che si è svolta dal 2010 al 2017, ha utilizzato un sottoinsieme di ImageNet ed è diventata il punto di riferimento standard per valutare gli algoritmi di classificazione delle immagini e di rilevamento degli oggetti. Modelli come AlexNet e ResNet, che hanno ottenuto risultati all'avanguardia su ImageNet, hanno influenzato pesantemente le moderne architetture CV.

Applicazioni di ImageNet

L'applicazione principale di ImageNet è quella di fungere da benchmark standard per la valutazione di nuovi modelli e algoritmi di computer vision. Oltre al benchmarking, viene ampiamente utilizzato per il pre-training dei modelli.

  • Pre-training per l'apprendimento di trasferimento: I modelli addestrati su ImageNet apprendono caratteristiche visive generali che sono utili per un'ampia gamma di altri compiti di visione. Questa tecnica, nota come apprendimento di trasferimento, consente agli sviluppatori di adattare i modelli pre-addestrati (come quelli disponibili in Ultralytics HUB) per applicazioni specifiche utilizzando set di dati personalizzati molto più piccoli, riducendo in modo significativo i tempi di addestramento e i requisiti di dati. Molti Ultralytics YOLO di Ultralytics, ad esempio, sfruttano i pesi pre-addestrati su grandi set di dati.
  • Ricerca avanzata: ImageNet continua ad alimentare la ricerca in aree come l'apprendimento della rappresentazione, l'adattamento al dominio e la comprensione del funzionamento interno delle reti neurali profonde.

Esempi del mondo reale

  1. Analisi delle immagini mediche: Sebbene ImageNet non contenga immagini mediche, i modelli preaddestrati su di esso sono spesso utilizzati come punto di partenza per attività di analisi di immagini mediche. Le capacità generali di estrazione delle caratteristiche apprese da ImageNet possono essere messe a punto su set di dati più piccoli di radiografie, TAC o risonanze magnetiche per aiutare a rilevare anomalie come tumori o fratture, come dimostrato da applicazioni come l'utilizzo di YOLO per il rilevamento dei tumori.
  2. Veicoli autonomi: I modelli di riconoscimento degli oggetti sono fondamentali per i veicoli autonomi. Molti dei modelli fondamentali utilizzati per l'identificazione di pedoni, automobili, semafori e segnali stradali sono stati inizialmente sviluppati e sottoposti a benchmark utilizzando ImageNet, dimostrando il ruolo del dataset nella costruzione dei sistemi di percezione per l'intelligenza artificiale delle auto a guida autonoma.

ImageNet vs. altri dataset

Mentre ImageNet è vasto ed eccellente per le attività di classificazione, altri dataset hanno scopi diversi. Ad esempio, il set di dati COCO (Common Objects in Context) è ampiamente utilizzato per il rilevamento, la segmentazione e la didascalia degli oggetti e offre annotazioni più dettagliate come maschere di istanza e riquadri di delimitazione per un numero inferiore di categorie di oggetti rispetto a ImageNet. Allo stesso modo, Open Images V7 fornisce riquadri di delimitazione per un gran numero di classi di oggetti. La scelta del dataset dipende spesso dalla specifica attività di computer vision, come la classificazione, il rilevamento o la segmentazione. L'esplorazione di vari dataset di computer vision aiuta a selezionare quello più appropriato per un progetto.

Leggi tutto