术语表

图像识别

了解图像识别如何赋予人工智能分类和理解视觉效果的能力,从而推动医疗保健、零售、安防等领域的创新。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

图像识别是人工智能(AI)计算机视觉(CV)的一个重要分支,它使机器能够识别和解释图像或视频中的视觉信息。它不仅仅是看到像素那么简单,还涉及到理解内容,如视觉数据中描绘的物体、人物、场景和动作。这项技术为无数应用奠定了基础,使系统能够以类似人类的方式 "看到 "并理解世界。

图像识别如何工作

图像识别的核心主要依赖于机器学习(ML),尤其是深度学习(DL)算法。卷积神经网络(CNN)是其基本组成部分,旨在从图像中自动、自适应地学习空间层次特征。这一过程通常包括在大量标注图像的数据集上训练模型,例如ImageNet 数据集,其中每张图像都标注了内容信息。在训练过程中,模型学会将特定的视觉模式和特征与不同的标签或类别联系起来。训练完成后,模型就可以分析新的、未见过的图像,并预测其中的物体或概念。

与相关术语的区别

图像识别虽然与其他计算机视觉任务相关,但也有其细微差别:

  • 图像分类分类通常与图像识别交替使用,其重点是为整幅图像指定一个主要标签(例如,将一幅图像识别为包含 "猫 "或 "狗")。图像识别有时意味着更广泛的理解,比如识别场景中的多个物体或动作。Ultralytics YOLO 模型(如YOLOv11)可以执行图像分类任务
  • 物体检测这项任务比简单的识别更进一步,它不仅能识别图像中物体,还能确定物体的位置,通常是在物体周围画出边界框
  • 图像分割通过对图像中的每个像素进行分类,确定物体的确切轮廓或形状,区分不同的实例(实例分割)或类别(语义分割),从而提供更详细的了解。

实际应用

图像识别为各行各业的广泛应用提供了动力:

  • 医疗保健:用于医学图像分析,帮助放射科医生检测 X 射线、CT 扫描和核磁共振成像中的异常情况,如肿瘤或骨折,从而提前做出诊断。例如,可以针对医学成像中的肿瘤检测等任务训练模型。
  • 零售:支持自动结账系统等应用,可识别无条形码的产品,通过监控库存水平加强零售库存管理,并分析店内顾客行为。
  • 安全与监控:为用于身份验证和访问控制的面部识别系统提供动力,并检测视频馈送中的入侵或异常活动,为计算机视觉防盗系统做出贡献。
  • 自动驾驶汽车:对于自动驾驶汽车中的人工智能识别行人、其他车辆、交通信号灯和路标至关重要,从而实现安全导航。
  • 内容管理:社交媒体平台和在线服务利用图像识别技术,在人工智能伦理原则的指导下,自动检测和过滤不恰当或有害的内容,如深度伪造或违反政策的图像。

工具和技术

开发图像识别系统通常需要使用专门的工具和框架。OpenCV等库能提供基本的图像处理功能,而深度学习框架如 PyTorchTensorFlow等深度学习框架则为创建和训练复杂的神经网络模型提供了构件。Ultralytics HUB等平台简化了计算机视觉模型(包括用于识别和分类任务的模型)的训练、部署和管理过程。

阅读全部