由于人工智能的蓬勃发展,机器人在工厂工作、自动驾驶汽车在街道上行驶等现象越来越多地成为新闻头条。人工智能正在改变机器与世界互动的方式,从改善医疗成像到协助生产线进行质量控制。
计算机视觉是人工智能的一个分支,它能让机器理解和解释图像。就像人类随着时间的推移学会识别物体和模式一样,视觉人工智能模型,如 Ultralytics YOLO11等视觉人工智能模型需要在大量图像数据的基础上进行训练,才能形成视觉理解能力。
然而,收集如此大量的视觉数据并非易事。尽管计算机视觉界已经创建了许多大型数据集,但它们仍然会遗漏某些变化,例如光线不足的图像、部分隐藏的物品或从不同角度观察的事物。这些差异会让只在特定条件下训练过的计算机视觉模型感到困惑。
图像数据增强是一种通过在现有数据中引入新变化来解决这一问题的技术。通过对图像进行调整,如调整颜色、旋转或变换视角,数据集会变得更加多样化,从而帮助视觉人工智能模型在现实世界中更好地识别物体。
本文将探讨图像数据增强的工作原理及其对计算机视觉应用的影响。
比方说,你想在人群中认出一个朋友,但他们戴着墨镜或站在阴暗的地方。即使有这些细微的外观变化,你仍然能认出他们是谁。另一方面,视觉人工智能模型可能很难应对这些变化,除非它已经接受过在不同环境下识别物体的训练。
图像数据增强技术通过在训练数据中添加现有图像的修改版本来提高计算机视觉模型的性能,而不是收集数以千计的新图像。
对图像进行翻转、旋转、调整亮度或添加微小变形等改动,能让视觉人工智能模型接触到更广泛的条件。模型不再依赖海量数据集,而是可以通过增强图像从较小的训练数据集中高效学习。
以下是增强技术对计算机视觉至关重要的一些重要原因:
当计算机视觉模型需要识别不同情况下的物体,但又没有足够的不同图像时,图像数据扩增尤其有用。
例如,如果研究人员正在训练一个视觉人工智能模型来识别很少被拍摄到的稀有水下物种,那么数据集可能很小或缺乏变化。通过增强图像--调整颜色以模拟不同的水深,添加噪音以模拟浑浊的环境,或稍微改变形状以反映自然运动--模型可以学会更准确地检测水下物体 。
以下是其他一些情况下,隆胸手术会带来很大的不同:
在计算机视觉发展初期,图像数据扩增主要涉及基本的图像处理技术,如翻转、旋转和裁剪,以增加数据集的多样性。随着人工智能的发展,人们引入了更先进的方法,如调整颜色(色彩空间转换)、锐化或模糊图像(核过滤器),以及将多幅图像混合在一起(图像混合)以增强学习效果。
增强可以在模型训练之前和训练过程中进行。在训练之前,可以将修改过的图像添加到数据集中,以提供更多的多样性。在训练过程中,可以实时随机修改图像,帮助视觉人工智能模型适应不同的条件。
这些变化是通过数学变换实现的。例如,旋转可使图像倾斜,裁剪可移除部分图像以模拟不同的视角,亮度变化可模拟光线变化。模糊处理可柔化图像,锐化处理可使细节更清晰,而图像混合则可将不同图像的不同部分组合在一起。视觉人工智能框架和工具(如 OpenCV、TensorFlow 和PyTorch )可以自动完成这些过程,从而使增强变得快速而有效。
既然我们已经讨论了什么是图像数据增强,那么让我们来详细了解一些用于增强训练数据的基本图像数据增强技术。
像YOLO11 这样的计算机视觉模型经常需要从不同角度和视点识别物体。为此,可以水平或垂直翻转图像,让人工智能模型学会从不同视角识别物体。
同样,旋转图像可以稍微改变图像的角度,使模型能够从多个角度识别物体。此外,向不同方向移动图像(平移)也有助于模型适应微小的位置变化。在现实世界中,物体在图像中的位置是不可预测的,而这些变换可以确保模型更好地适应这种情况。
在现实世界的计算机视觉解决方案中,图像中的物体会以不同的距离和大小出现。视觉人工智能模型必须足够强大,才能在出现这些差异时检测到它们。
为提高适应性,可采用以下增强方法:
这些调整有助于计算机视觉模型识别物体,即使物体的大小或形状稍有变化。
图像中的物体会因摄像机角度的不同而呈现出不同的效果,这给计算机视觉模型的识别带来了困难。为了帮助模型处理这些变化,增强技术可以调整物体在图像中的呈现方式。
例如,透视变换可以改变视角,使物体看起来像是从不同的位置看到的。这样,即使物体倾斜或从不同的视角拍摄,视觉人工智能模型也能识别出来。
另一个例子是弹性变换,它可以拉伸、弯曲或扭曲图像,模拟自然变形,使物体看起来就像在反射或压力下一样。
照明条件和色彩差异会严重影响视觉人工智能模型对图像的解读。由于物体在不同的光照环境下会呈现出不同的效果,因此以下增强技术可以帮助处理这些情况:
到目前为止,我们只探索了修改单张图像的增强技术。不过,一些先进的方法涉及结合多张图像来提高人工智能学习能力。
例如,MixUp 可以将两幅图像混合在一起,帮助计算机视觉模型理解物体关系,提高它们在不同场景中的概括能力。CutMix 则更进一步,它将一幅图像的一部分替换成另一幅图像的一部分,使模型能够从同一幅图像中的多个上下文中学习。与此同时,CutOut 通过移除图像的随机部分,以不同的方式训练视觉人工智能模型识别物体,即使物体被部分隐藏或遮挡。
在许多行业和日常应用中,生成式人工智能正日益受到重视。你很可能在人工智能生成的图像、深度伪造视频或创建逼真头像的应用程序中遇到过它。但除了创意和娱乐之外,生成式人工智能还通过从现有图像生成新图像,在训练视觉人工智能模型方面发挥着至关重要的作用。
它不是简单地翻转或旋转图片,而是可以创建逼真的变化--改变面部表情、服装风格,甚至模拟不同的天气条件。这些变化有助于计算机视觉模型在现实世界的各种场景中提高适应性和准确性。先进的生成式人工智能模型,如 GAN(生成对抗网络)和扩散模型,还可以填补缺失的细节或创建高质量的合成图像。
数据扩增可以改进训练数据集,但也有一些局限性需要考虑。以下是与图像数据扩增相关的几个主要挑战:
图像数据增强的一个有趣应用是在自动驾驶汽车中,YOLO11 等计算机视觉模型在瞬间做出的决定至关重要。该模型必须能够准确检测道路、人和其他物体。
然而,自动驾驶汽车在现实世界中遇到的情况可能难以预料。恶劣的天气、运动模糊和隐藏的标志都会使这一领域的人工智能视觉解决方案变得复杂。仅用真实世界的图像来训练计算机视觉模型往往是不够的。用于自动驾驶汽车模型的图像数据集需要多样化,这样模型才能学会处理突发情况。
图像数据增强技术通过模拟雾、调整亮度和扭曲形状来解决这个问题。这些变化有助于模型识别不同条件下的物体。因此,模型变得更智能、更可靠。
通过强化训练,自动驾驶汽车中的视觉人工智能解决方案可以更好地适应环境,做出更安全的决策。更准确的结果意味着更少的事故和更好的导航。
自动驾驶汽车只是其中一个例子。事实上,图像数据增强在从医疗成像到零售分析等众多领域都至关重要。任何依赖计算机视觉的应用都有可能受益于图像数据增强技术。
视觉人工智能系统需要能够在不同条件下识别物体,但收集无穷无尽的真实世界图像来进行训练可能很困难。图像数据增强技术通过创建现有图像的变体来解决这个问题,帮助模型更快地学习,并在真实世界中表现得更好。它能提高准确性,确保像YOLO11 这样的视觉人工智能模型能够处理不同的光线、角度和环境。
对于企业和开发人员来说,图像数据增强技术可以节省时间和精力,同时使计算机视觉模型更加可靠。从医疗保健到自动驾驶汽车,许多行业都依赖于它。随着人工智能视觉技术的不断发展,增强技术将继续成为未来构建更智能、适应性更强的模型的重要组成部分。
加入 我们的社区,访问我们的 GitHub 存储库,了解人工智能的应用。在我们的解决方案页面,探索我们的许可选项,了解更多有关农业人工智能和 制造业计算机视觉的信息。