了解如何在定制训练Ultralytics YOLO11 时使用 Albumentations 进行增强,以提高模型在不同训练数据下的性能。
在构建计算机视觉解决方案时,收集用于训练视觉人工智能模型的各种图像是整个过程的关键部分。这通常需要花费大量的时间和金钱,有时收集到的图像还不够丰富,无法让模型有效学习。
例如,计算机视觉模型 Ultralytics YOLO11等计算机视觉模型可以在与不同应用相关的各种计算机视觉任务的图像数据集上进行定制训练。多样化的数据是关键,因为这有助于模型更好地泛化,使其能够在广泛的现实世界场景中识别物体和模式。
如果您正在为缺乏多样化数据而苦恼,那么图像数据增强技术就是一个很好的解决方案。旋转、翻转和调整亮度等方法有助于增加数据集的多样性,提高模型处理更广泛条件的能力。
因此,Ultralytics 支持图像数据增强集成。使用Albumentations(一种提供转换集合的流行工具),您可以创建多样化的可视化数据。该集成通过自动增强训练图像简化了YOLO11 训练过程,从而提高了模型性能。
在本文中,我们将探讨如何使用 Albumentations 集成、其优势以及对模型培训的影响。
计算机视觉模型可以从大量高质量图像中学习,从而识别不同环境中的物体。从现实世界中收集大量数据集的速度可能会很慢、成本很高而且效率很低。为了简化这项工作,您可以使用图像数据增强技术来创建现有图像的新变体,帮助模型从不同场景中学习,而无需收集更多数据。
具体来说,您可以利用 Albumentations,这是一个在 2018 年推出的用于高效图像数据增强的开源库。它支持多种操作,从旋转和翻转等简单的几何变化,到亮度、对比度和噪点添加等更复杂的调整。
Albumentations 以其高性能而著称,这意味着它可以快速高效地处理图像。它基于OpenCV和 NumPy 等优化库构建,能以最短的处理时间处理大型数据集,因此非常适合在模型训练期间快速扩充数据。
以下是 Albumentations 的其他一些主要特点:
你可能会想:有很多方法可以对数据集应用增强功能,你甚至可以使用 OpenCV 等工具创建自己的增强功能。那么,为什么要选择支持 Albumentations 这样库的集成呢?
使用 OpenCV 等工具手动创建增强效果需要花费大量时间,而且需要一定的专业知识。此外,微调变换以获得最佳效果也很棘手。Albumentations 集成让这一过程变得更容易。它提供了许多现成可用的转换,可以为您准备数据集节省时间和精力。
选择 Albumentations 集成的另一个原因是,它可以与Ultralytics 模型训练管道顺利配合。它使YOLO11 的定制训练变得更加容易,因为增强功能会在训练过程中自动应用。它简化了过程,因此您可以将更多精力放在改进模型上,而不是处理数据准备工作。
有趣的是,使用 Albumentations 集成来训练YOLO11 比看上去要简单得多。一旦设置了正确的库,集成就会在训练过程中自动应用图像数据增强。它可以帮助模型从使用相同数据集的不同图像变化中学习。
接下来,让我们了解一下在定制培训YOLO11 时如何安装和使用 Albumentations 集成。
在应用增强功能之前,需要安装Ultralytics Python 软件包和 Albumentations。整合后,这两个库默认情况下可以无缝协作,因此无需担心复杂的配置。
整个安装过程只需一条 pip 命令就能在几分钟内完成,如下图所示,这是一个用于安装Python 库的软件包管理工具。
安装 Albumentations 后,Ultralytics 模型训练模式会在训练过程中自动应用图像增强。如果没有安装 Albumentations,则不会应用这些增强功能。更多详情,请参阅 Ultralytics 官方文档。
让我们更好地了解 Albumentations 集成的原理。
下面是YOLO11 培训期间使用的增强功能的详细介绍:
如果您要针对特定应用对YOLO11 进行定制培训,Albumentations 集成可以通过适应各种条件来帮助提高模型的性能。让我们来讨论一些实际应用以及该集成所能解决的挑战。
医疗保健领域的视觉人工智能正在帮助医生更准确地分析医学影像,以协助诊断和改善患者护理。事实上,约有五分之一的医疗机构已经在使用人工智能解决方案。
然而,创建这些计算机视觉解决方案也面临着一系列挑战。受不同设备、设置甚至技术人员经验等因素的影响,各家医院的医疗扫描结果可能大相径庭。亮度、对比度和曝光度的变化会影响视觉人工智能模型的一致性和准确性,使其难以在不同环境中可靠地运行。
这就是整合 Albumentations 等工具的关键所在。通过生成同一扫描图像的多个增强版本,Albumentations 使模型能够从各种图像质量中学习。这有助于提高模型的鲁棒性,使其能够在高质量和低质量的图像中准确检测疾病。
视觉人工智能的另一个有趣应用是在安防和监控领域。实时物体检测可以帮助安全团队快速识别潜在威胁。
与此应用相关的一个主要问题是,安防摄像机全天在不同的照明条件下拍摄录像,而这些条件会极大地影响模型对此类图像的理解。弱光环境、眩光或能见度低等因素都会使计算机视觉模型难以始终如一地检测物体或识别潜在威胁。
Albumentations 集成通过应用变换来模拟不同的照明条件。这样,模型就能学会在明亮和昏暗的环境中检测物体,使其更加可靠,并提高在挑战性条件下的响应速度。
超市过道中的洒落物、在商店中奔跑的狗或撞倒产品陈列架的儿童,这些日常事件都可能成为零售 环境中视觉人工智能的 边缘案例。通过跟踪购物者行为、监控人流和识别货架上的产品,计算机视觉越来越多地被用于改善客户体验。然而,人工智能系统很难理解和准确处理这些现实世界中的情况。
虽然计算机视觉数据集无法代表每一种情况,但 Albumentations 集成通过增强数据来涵盖许多可能的情况,如意外照明、异常角度或障碍物。这有助于计算机视觉模型适应各种条件,提高其处理边缘情况的能力,并在动态零售环境中做出准确预测。
为模型训练收集不同的真实世界数据可能会很复杂,但 Albumentations 通过创建图像变化来帮助模型适应不同的条件,从而使其变得更加容易。
Ultralytics 支持的 Albumentations 集成简化了在定制训练YOLO11 时应用这些增强功能的过程。这就提高了数据集的质量,通过生成更准确、更可靠的视觉人工智能模型,使各行各业受益匪浅。
加入我们的社区,探索我们的GitHub 存储库,了解有关人工智能的更多信息,并查看 我们的许可选项,启动您的 Vision AI 项目。对制造业中的人工智能 或自动驾驶中的计算机视觉等创新感兴趣?访问我们的解决方案页面,了解更多信息。