探索物体检测的强大功能--利用YOLO 等尖端模型识别和定位图像或视频中的物体。探索现实世界中的应用!
物体检测是计算机视觉(CV)中的一项基本任务,涉及识别图像或视频中一个或多个物体的存在、位置和类型。与为整幅图像指定单一标签(如 "猫")的图像分类不同,物体检测使用边界框精确勾勒出每个物体实例,并为其指定类别标签(如坐标 x、y、宽、高处的 "猫")。这种功能使机器能够以更高的粒度理解视觉场景,更接近地模拟人类的视觉感知,并实现与环境更复杂的交互。这是许多现代人工智能(AI)应用背后的核心技术。
物体检测通常包含两项核心任务:物体分类(确定 "什么 "物体存在)和物体定位(确定物体的 "位置",通常通过边界框坐标)。现代物体检测系统在很大程度上依赖于深度学习(DL),尤其是卷积神经网络(CNN)。这些网络在大型注释数据集(如流行的COCO 数据集或Open Images V7)上进行训练,以学习与不同物体类别相关的视觉特征和模式。
在操作过程中(称为推理),训练有素的模型会处理输入的图像或视频帧。它输出一个潜在物体列表,每个物体由一个边框、一个预测类别标签(如 "汽车"、"人"、"狗")和一个置信度分数表示模型对检测的确定性。非最大值抑制(NMS)等技术通常通过去除同一物体的多余重叠框来完善这些输出。这些模型的性能通常使用 "交集大于联合"(Intersection over Union,IoU)和 "平均精度"(mean Average Precision,mAP)等指标进行评估。
必须将物体检测与其他相关的计算机视觉任务区分开来:
物体检测模型一般分为两大类,主要在方法和速度/精度权衡上有所不同:
物体检测是一项基础技术,在各行各业都有大量应用:
开发和部署物体检测模型涉及各种工具和技术。流行的深度学习框架,如 PyTorch和 TensorFlow提供了基础库。OpenCV等计算机视觉库提供了基本的图像处理功能。
Ultralytics 提供最先进的 Ultralytics YOLO模型,包括 YOLOv8和 YOLO11这些模型在速度和准确性方面进行了优化。Ultralytics HUB平台进一步简化了工作流程,为管理数据集、训练自定义模型、执行超参数调整和促进模型部署提供了工具。有效的模型训练通常得益于数据增强策略和技术,如利用ImageNet 等数据集的预训练权重进行迁移学习。