Scopri ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di AI.
ImageNet è un set di dati molto ampio e fondamentale, ampiamente utilizzato nella ricerca e nello sviluppo della computer vision (CV). Si tratta di oltre 14 milioni di immagini che sono state annotate manualmente per indicare gli oggetti raffigurati, organizzati secondo la gerarchia WordNet. Con oltre 20.000 categorie (synset), ImageNet rappresenta una risorsa ricca e diversificata per l'addestramento e la valutazione di modelli di apprendimento automatico (ML), in particolare per compiti come la classificazione e il riconoscimento delle immagini. Le sue dimensioni e le annotazioni dettagliate sono state fondamentali per il progresso del settore. Per saperne di più sull'utilizzo del dataset con i modelli Ultralytics , visita la pagina di documentazione del dataset ImageNet.
L'introduzione di ImageNet ha segnato un momento cruciale per il deep learning (DL), soprattutto nella computer vision. Prima di ImageNet, la mancanza di dataset ampi, diversificati e ben etichettati rappresentava un grosso ostacolo. ImageNet ha permesso l'addestramento di modelli molto più profondi e complessi, come le reti neurali convoluzionali (CNN), portando a progressi significativi. L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC), che si è svolta dal 2010 al 2017, ha utilizzato un sottoinsieme di ImageNet ed è diventata il punto di riferimento standard per valutare gli algoritmi di classificazione delle immagini e di rilevamento degli oggetti. Modelli come AlexNet e ResNet, che hanno ottenuto risultati all'avanguardia su ImageNet, hanno influenzato pesantemente le moderne architetture CV.
L'applicazione principale di ImageNet è quella di fungere da benchmark standard per la valutazione di nuovi modelli e algoritmi di computer vision. Oltre al benchmarking, viene ampiamente utilizzato per il pre-training dei modelli.
Mentre ImageNet è vasto ed eccellente per le attività di classificazione, altri dataset hanno scopi diversi. Ad esempio, il set di dati COCO (Common Objects in Context) è ampiamente utilizzato per il rilevamento, la segmentazione e la didascalia degli oggetti e offre annotazioni più dettagliate come maschere di istanza e riquadri di delimitazione per un numero inferiore di categorie di oggetti rispetto a ImageNet. Allo stesso modo, Open Images V7 fornisce riquadri di delimitazione per un gran numero di classi di oggetti. La scelta del dataset dipende spesso dalla specifica attività di computer vision, come la classificazione, il rilevamento o la segmentazione. L'esplorazione di vari dataset di computer vision aiuta a selezionare quello più appropriato per un progetto.