ImageNet是一个突破性的数据集,拥有1400多万张图像,为人工智能研究、模型和应用提供了支持。
ImageNet 是一个非常庞大的基础数据集,广泛应用于计算机视觉 (CV)研究与开发。它由 1,400 多万张图片组成,这些图片根据WordNet层次结构进行了人工标注,标明了图片中的物体。ImageNet 拥有 20,000 多个类别(synsets),为训练和评估机器学习 (ML)模型,尤其是图像分类和图像识别等任务提供了丰富多样的资源。其庞大的规模和详细的注释对推动该领域的发展至关重要。您可以在ImageNet 数据集文档页面上了解有关将该数据集与Ultralytics 模型一起使用的更多信息。
ImageNet 的引入标志着深度学习(DL),尤其是计算机视觉领域的一个关键时刻。在 ImageNet 出现之前,缺乏大型、多样化和标记良好的数据集是一个主要瓶颈。ImageNet 使卷积神经网络 (CNN) 等更深入、更复杂的模型的训练成为可能,从而带来了重大突破。一年一度的ImageNet 大规模视觉识别挑战赛(ILSVRC)从 2010 年持续到 2017 年,它使用了 ImageNet 的一个子集,并成为评估图像分类和物体检测算法的标准基准。AlexNet和ResNet 等模型在 ImageNet 上取得了最先进的结果,对现代 CV 架构产生了重大影响。
ImageNet 的主要用途是作为评估新计算机视觉模型和算法的标准基准。除基准测试外,ImageNet 还广泛用于预训练模型。
虽然 ImageNet 容量巨大,非常适合分类任务,但其他数据集却有不同的用途。例如,COCO 数据集(Common Objects in Context,上下文中的常见物体)被广泛用于物体检测、分割和字幕,与 ImageNet 相比,它为较少的物体类别提供了更详细的注释,如实例掩码和边界框。同样,Open Images V7也为大量对象类别提供了边界框。数据集的选择通常取决于特定的计算机视觉任务,如分类、检测或分割。探索各种计算机视觉数据集有助于为项目选择最合适的数据集。