术语表

图像识别

了解图像识别如何赋予人工智能分类和理解视觉效果的能力,从而推动医疗保健、零售、安防等领域的创新。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

图像识别是人工智能(AI)计算机视觉(CV)的一个重要分支,它使机器能够识别和解释图像或视频中的视觉信息。它不仅仅是看到像素那么简单,还涉及到理解内容,如视觉数据中描绘的物体、人物、场景和动作。这项技术为无数应用奠定了基础,使系统能够以类似人类的方式 "看到 "并理解世界。

图像识别如何工作

图像识别的核心主要依赖于机器学习(ML),尤其是深度学习(DL)算法。卷积神经网络(CNN)是其基本组成部分,旨在从图像中自动、自适应地学习空间层次特征。这一过程通常涉及在大量标注图像的数据集上训练模型,例如著名的ImageNet 数据集,其中每张图像都标注了有关其内容的信息,通常使用类似WordNet层次结构的结构进行组织。在训练过程中,模型学会将特定的视觉模式和特征(如边缘、纹理、形状)与不同的标签或类别联系起来。像ResNet这样的架构在这些任务上的性能大大提高。训练完成后,模型可以分析新的、未见过的图像,并预测其中的物体或概念。通过深度学习专业等资源,可以加深对这些概念的理解。虽然 ImageNet 是分类的关键,但COCO等数据集对于更广泛的视觉理解任务也至关重要。有效的模型训练需要精心的规划和执行

与相关术语的区别

图像识别虽然与其他计算机视觉任务相关,但通常被用作一个更宽泛的术语,包含几种特定的功能。将其与狭义的任务区分开来非常重要:

  • 图像分类该任务为整幅图像指定一个标签(如 "猫"、"汽车"、"风景")。它能识别主体,但不能定位主体。Ultralytics 模型可以执行图像分类任务
  • 物体检测这种方法可以进一步识别图像中的多个物体,并确定每个物体的位置,通常是在物体周围画一个边框,然后指定一个类别标签(例如,"坐标为 (x1, y1, x2, y2) 的人")。探索使用Ultralytics 模型进行检测
  • 图像分割 这包括将每个 像数 在图像中。
    • 语义分割为每个像素指定一个类别标签(例如,所有属于汽车的像素都标记为 "汽车")。
    • 实例分割区分同一对象类别的各个实例(例如,标注 "汽车 1"、"汽车 2")。Ultralytics 支持多种分割任务

图像识别有时特指图像分类,但通常意味着理解图像内容的更广泛能力,这可能涉及检测或分割,具体取决于应用的需要。

实际应用

图像识别为各行各业的广泛应用提供了动力:

计算机视觉和模式识别大会(CVPR)等会议和计算机视觉基金会(CVF)等组织分享的研究成果的推动下,该领域正在不断发展。在Google 人工智能博客上阅读实用见解。

工具和培训

开发图像识别应用程序通常需要使用专门的库和框架。关键技术包括

阅读全部