深圳Yolo 视觉
深圳
立即加入
词汇表

计算机视觉 (CV)

探索计算机视觉(CV)的基础知识。Ultralytics Ultralytics 如何实现目标检测、分割等功能。

计算机视觉(CV)是人工智能(AI)领域中一项复杂的技术,它使计算机和系统能够从数字图像、视频及其他视觉输入中提取有意义的信息。 人类视觉具备即时感知和理解环境的先天能力,而计算机则需要经过训练才能识别模式并解读像素。通过运用机器学习(ML)技术——特别是深度学习(DL)算法——视觉系统能够采集视觉数据,进行处理,并基于这些信息提出建议或采取行动。

计算机视觉的工作原理

从本质上讲,计算机将图像视为代表像素的数值数组。现代计算机视觉高度依赖卷积神经网络(CNN),其设计旨在模拟人脑神经元的连接模式。这些网络通过称为特征提取的过程,学会识别从简单边缘和纹理到复杂形状和物体的分层特征。

要有效运行,这些模型需要海量的训练数据。例如,要识别汽车,模型需要处理数千张标注过的汽车图像,这些图像涵盖各种条件下的场景。Ultralytics 之类的工具可简化这一工作流程,让用户能够标注数据集、在云端训练模型并高效部署。

计算机视觉的核心任务

计算机视觉并非单一功能,而是由多个独立任务组成的集合,每个任务都解决特定问题:

  • 图像分类该任务为整张图像分配类别标签,回答"这张图片里有什么?"的问题(例如区分猫和狗)。
  • 目标检测更进一步, 检测技术能识别图像中的独立物体,并在其周围绘制边界框。 这对于计数物品或定位特定特征至关重要。
  • 实例分割该技术为每个检测到的对象提供精确的像素级遮罩,将同一类别的不同实例相互分离。对于需要高精度的应用场景(如医学影像分析)而言,此功能至关重要。
  • 姿势估计 :该过程涉及检测物体上的特定关键点(如人体关节),以track 姿势状态。

实际应用

计算机视觉的应用几乎遍及所有行业,实现了以往需要人眼完成的任务自动化。

  • 制造与质量控制:在工业环境中,计算机视觉常被称为机器视觉。它用于自动化质量检测,能在装配线上比人工检验员更快、更准确地发现产品中的细微缺陷。例如,制造业中的人工智能可实现设备实时监控,从而预防故障发生。
  • 自动驾驶:无人驾驶汽车完全依赖计算机视觉技术实现安全导航。通过处理来自摄像头和激光雷达传感器的输入数据,这些车辆执行三维物体检测,实时识别行人、其他车辆及交通标志。这是实现高阶车辆自动化的关键技术环节。
  • 医疗保健与诊断:放射科医生利用计算机视觉技术辅助识别X光、MRI和CT扫描中的异常情况。医疗领域的人工智能有助于早期疾病检测,例如通过突出显示肉眼可能遗漏的感兴趣区域来识别肿瘤。

计算机视觉与图像处理

区分计算机视觉与图像处理至关重要,尽管二者常协同工作。

  • 图像处理是指对图像进行操作以增强其效果或提取信息(例如调整亮度、对比度,或应用类似Adobe Photoshop中的滤镜)。其输出结果通常是另一幅图像。
  • 计算机视觉以图像作为输入,输出信息或解释(例如:"此房间内有三个人")。它运用图像处理技术对图像进行预处理,以便神经网络进行分析。

使用Python实现计算机视觉

现代库使实现强大的计算机视觉模型变得触手可及。下例演示了如何加载 最先进的 YOLO26 用于detect 图像detect 模型 使用 ultralytics 包装

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
results[0].show()

这个简单脚本利用预训练模型执行复杂推理任务,展现了现代人工智能工具的易用性。对于希望突破静态图像局限的开发者而言,计算机视觉技术还为安防和体育分析领域应用的视频理解与实时追踪系统提供支持。通过与OpenCV等库集成, OpenCV等库,开发者可构建全面应用程序,实现视觉世界的捕捉、处理与分析。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入