绿色检查
链接复制到剪贴板

利用Ultralytics YOLO11增强手部关键点估算YOLO11

利用Ultralytics YOLO11 对实时手势识别等应用中的姿势估计的支持,探索人工智能驱动的手部关键点估计。

最近,超级碗上的手语翻译受到了广泛关注。当你在电视上看到他们演唱你最喜欢的歌手的歌曲时,如果你懂手语,就能听懂他们的歌声,因为你的大脑会处理他们的手部动作。但如果电脑也能做到这一点呢?多亏了人工智能驱动的手部追踪解决方案,机器才有可能以惊人的准确度追踪和解读手部动作。

计算机视觉是这些解决方案的核心,它是人工智能的一个子领域,能让机器处理和理解视觉信息。通过分析图像和视频,人工智能视觉技术可以帮助机器探测物体、跟踪运动,并准确识别复杂的手势。

例如,计算机视觉模型 Ultralytics YOLO11等计算机视觉模型可以通过姿势估计进行实时检测和分析手部关键点。这样,这些模型就可用于手势识别、手语翻译和 AR/VR 交互等应用。 

在本文中,我们将探讨YOLO11 如何实现基于人工智能的手部跟踪、用于训练的数据集,以及如何自定义训练用于手部姿势估计的模型。我们还将了解现实世界中的应用。让我们开始吧!

了解基于人工智能的手部关键点检测

人工智能可以通过识别手腕、指尖和手指关节等关键点来识别和跟踪视觉数据中的手部动作。其中一种方法被称为姿势估计,它通过映射关键点并分析关键点随时间的变化来帮助计算机理解人体运动。这样,人工智能系统就能高精度地解读身体姿势、手势和运动模式。

计算机视觉模型通过分析图像或视频来识别手部的关键点并跟踪它们的移动,从而实现这一目标。一旦绘制出这些点,人工智能就可以通过分析关键点之间的空间关系以及它们如何随时间变化来识别手势。 

例如,如果拇指和食指之间的距离减小,人工智能就能将其理解为捏的动作。同样,跟踪关键点在序列中的移动方式有助于识别复杂的手势,甚至预测未来的动作。

图 1.利用计算机视觉识别手部关键点的示例。

有趣的是,用于手部跟踪的姿势估计技术带来了令人兴奋的可能性,从智能设备的免提控制到医疗保健应用中机器人精度的提高和辅助。随着人工智能和计算机视觉的不断发展,手部追踪技术很可能会在日常生活中发挥更大的作用,使技术更具互动性、可访问性和直观性。

探索用于姿势估计的YOLO11

在深入探讨如何为基于人工智能的手部跟踪创建解决方案之前,让我们先仔细了解一下姿势估计以及YOLO11 如何支持这项计算机视觉任务。与识别整个物体的标准物体检测不同,姿势估计侧重于检测关节、肢体或边缘等关键地标,以分析运动和姿势。 

具体来说,Ultralytics YOLO11 是专为实时姿态估计而设计的。通过利用自上而下和自下而上的方法,它能高效地检测人物,并在一个步骤中估算出关键点,在速度和准确性上都优于以前的模型。

YOLO11 开箱即用COCO-Pose 数据集进行预训练,可以识别人体的关键点,包括头部、肩部、肘部、手腕、臀部、膝盖和脚踝。 

图 2.使用YOLO11 进行人体姿态估计。

除了人体姿态估计之外,YOLO11 还可以进行自定义训练,以检测各种有生命和无生命物体上的关键点。这种灵活性使YOLO11 成为广泛应用的最佳选择。

手部关键点数据集概览

定制训练模型的第一步是收集数据并对其进行注释,或者找到符合项目需求的现有数据集。例如,Hand Keypoints数据集是训练视觉人工智能模型进行手部跟踪和姿势估计的良好起点。该数据集拥有 26,768 张带注释的图像,无需人工标注。 

它可用于训练Ultralytics YOLO11 等模型,以快速学习如何检测和跟踪手部动作。数据集包括每只手的 21 个关键点,涵盖手腕、手指和关节。此外,数据集的注释是通过Google MediaPipe 生成的,这是一款用于开发实时媒体处理人工智能解决方案的工具,可确保精确可靠的关键点检测。 

图 3.手部关键点数据集中包含的 21 个关键点。

使用这样的结构化数据集可以节省时间,让开发人员专注于训练和微调模型,而不是收集和标记数据。事实上,该数据集已经分为训练子集(18776 张图片)和验证子集(7992 张图片),因此很容易评估模型性能。 

如何训练YOLO11 进行手部姿势估计

训练YOLO11 进行手部姿态估计是一个简单的过程,尤其是使用Ultralytics Python 软件包后,模型的设置和训练变得更加容易。由于训练管道已经支持手部关键点数据集,因此无需额外格式化即可立即使用,从而节省了时间和精力。

培训过程是这样的

  • 设置环境:第一步是安装Ultralytics Python 软件包。
  • 加载手部关键点数据集
    YOLO11
  • 使用预训练模型:
  • 训练模型:
  • 监控性能:
    Ultralytics
  • 保存和部署:训练完成后,可将模型导出并用于实时手部追踪应用。

评估自定义训练模型

通过创建自定义模型的步骤,您会发现监控性能至关重要。除了在训练过程中跟踪进度外,在训练结束后对模型进行评估对于确保其准确检测和跟踪手部关键点也至关重要。 

准确率、损失值和平均精度(mAP)等关键性能指标有助于评估模型的性能。Ultralytics Python 软件包提供了可视化结果的内置工具,可将预测结果与真实注释进行比较,从而更容易发现需要改进的地方。

要想更好地了解模型的性能,可以查看训练日志中自动生成的损失曲线、精度-召回图和混淆矩阵等评估图表。 

这些图表有助于识别过拟合(模型记住了训练数据,但在处理新数据时却举步维艰)或欠拟合(模型未能很好地学习模式,无法准确执行)等问题,并指导调整以提高准确性。此外,在新图像或视频上测试模型也很重要,这样可以了解模型在实际场景中的运行情况。

人工智能驱动的手部追踪解决方案的应用

接下来,让我们通过 Ultralytics YOLO11来了解手部关键点估算的一些最具影响力的应用。

使用YOLO11进行实时手势识别

比方说,您只需挥挥手就能调节电视音量,或者在空中轻轻一扫就能浏览智能家居系统。由YOLO11 支持的实时手势识别通过实时准确地检测手部动作,使这些免触控交互成为可能。 

其工作原理是利用人工智能摄像头追踪你手上的关键点,并将手势解释为指令。深度感应摄像头、红外线传感器,甚至普通的网络摄像头都能捕捉手部动作,而YOLO11 可以处理这些数据,识别不同的手势。例如,这样的系统可以区分轻扫换歌、捏合放大或圆周运动调节音量。

基于人工智能的手部关键点检测,用于手语识别

用于手部跟踪的人工智能解决方案可以支持聋人与不懂手语的人进行无缝交流。例如,集成了摄像头和YOLO11 智能设备可用于将手语即时翻译成文本或语音。 

得益于YOLO11 等技术的进步,手语翻译工具变得更加准确和易用。这对辅助技术、现场翻译服务和教育平台等应用产生了影响。人工智能可以帮助弥合沟通鸿沟,促进工作场所、学校和公共场所的包容性。

用于手部跟踪的计算机视觉:改善 AR 和 VR 体验

您是否玩过虚拟现实(VR)游戏,无需使用控制器就能抓取物体?由计算机视觉驱动的手部追踪技术可以让用户在增强现实(AR)虚拟现实(VR)环境中自然地进行交互,从而使这一切成为可能。 

图 4.手部追踪是 AR 和 VR 应用的关键部分。

通过使用Ultralytics YOLO11 等模型进行手部关键点估算,人工智能可以实时跟踪动作,从而实现捏、抓和轻扫等手势。这将增强游戏、虚拟培训和远程协作的效果,使交互更加直观。随着手部跟踪技术的改进,AR 和 VR 将给人更加身临其境、栩栩如生的感觉。 

主要收获

使用Ultralytics YOLO11 估算手部关键点,使人工智能驱动的手部跟踪解决方案更加方便可靠。从实时手势识别到手语翻译和 AR/VR 应用,计算机视觉正在为人机交互开辟新的可能性。

此外,简化的定制培训和微调流程也有助于开发人员为各种实际用途建立高效的模型。随着计算机视觉技术的发展,我们可以期待在医疗保健、机器人、游戏和安全等领域出现更多创新。

我们的社区互动,在我们的GitHub 存储库中探索人工智能的进步。通过我们的解决方案页面,了解人工智能对制造业计算机视觉在医疗保健 领域的影响。了解我们的许可计划,立即开始您的人工智能之旅!

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅