1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetをご覧ください。
ImageNetは、コンピュータビジョン(CV)の研究開発で広く使われている、非常に大規模で基礎的なデータセットである。ImageNetは1,400万枚以上の画像から構成され、どのような物体が写っているかを示すために手作業で注釈が付けられ、WordNetの階層構造に従って整理されている。20,000以上のカテゴリ(シセット)を持つImageNetは、特に画像分類や 画像認識のようなタスクにおいて、機械学習(ML)モデルの訓練と評価に豊富で多様なリソースを提供する。その膨大なスケールと詳細なアノテーションは、この分野の進歩に不可欠なものです。このデータセットをUltralytics モデルで使用する方法については、ImageNet Dataset documentation pageをご覧ください。
ImageNetの登場は、ディープラーニング(DL)、特にコンピュータビジョンにとって極めて重要な出来事だった。ImageNetが登場する以前は、大規模かつ多様で、ラベル付けされたデータセットの欠如が大きなボトルネックとなっていた。ImageNetは、畳み込みニューラルネットワーク(CNN)など、より深く複雑なモデルの学習を可能にし、大きなブレークスルーをもたらした。2010年から2017年まで毎年開催されたImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、ImageNetのサブセットを使用し、画像分類と物体検出アルゴリズムを評価するための標準ベンチマークとなった。ImageNetで最先端の結果を達成したAlexNetや ResNetのようなモデルは、現代のCVアーキテクチャに大きな影響を与えた。
ImageNetの主な用途は、新しいコンピュータビジョンモデルやアルゴリズムを評価するための標準的なベンチマークとして機能することである。ベンチマーク以外にも、モデルの事前学習に広く使用されています。
ImageNetは膨大で分類タスクに優れているが、他のデータセットは異なる目的を果たす。例えば、COCOデータセット(Common Objects in Context)は、オブジェクトの検出、セグメンテーション、キャプション付けに広く使用されており、ImageNetに比べて少ないオブジェクトカテゴリに対して、インスタンスマスクやバウンディングボックスのような、より詳細なアノテーションを提供している。同様に、Open Images V7は、多数のオブジェクトクラスのバウンディングボックスを提供する。データセットの選択は、多くの場合、分類、検出、セグメンテーションなどの特定のコンピュータビジョンタスクに依存します。様々なコンピュータビジョンデータセットを調べることは、プロジェクトに最も適したものを選択するのに役立ちます。