术语表

对抗性攻击

了解对抗性攻击对人工智能系统的影响、攻击类型、真实案例以及增强人工智能安全性的防御策略。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

对抗性攻击是人工智能(AI)和机器学习(ML)领域的一个重大问题,代表着蓄意欺骗或误导人工智能系统的企图。这些攻击涉及精心制作特定的输入(通常称为对抗示例),从而导致训练有素的模型做出错误的预测或分类。虽然这些对抗示例在人类观察者看来可能是正常的或只是稍作修改,但它们的目的是利用模型决策过程中的漏洞。了解和防御此类攻击对于部署稳健可靠的人工智能系统至关重要,尤其是在自动驾驶汽车、医疗保健和安全系统等安全关键型应用中。

对抗性攻击的类型

对抗性攻击大致可分为两大类:

  • 规避攻击:这是最常见的对抗性攻击类型。它们发生在测试阶段,攻击者试图操纵输入数据以逃避检测或被模型错误分类。例如,在图像中添加特定噪声可能会导致物体检测模型无法识别物体。
  • 中毒攻击:这些攻击发生在训练阶段。攻击者将恶意数据注入训练数据集,目的是破坏模型的完整性。其目的是使模型在特定输入上表现不佳,或创建一个可在日后利用的后门。

对抗性攻击的真实案例

对抗性攻击不仅仅是理论概念,它们在现实世界的各种场景中都有实际意义。下面是几个例子:

  • 自动驾驶汽车:在自动驾驶汽车方面,对抗性攻击会造成严重后果。研究人员已经证明,通过在停车标志上贴小贴纸,可以欺骗车辆的物体检测系统,使其误认为是限速标志。这有可能导致道路上出现危险情况。了解有关自动驾驶汽车中的人工智能的更多信息。
  • 面部识别系统:对抗性攻击还可针对用于安全和监控的面部识别系统。通过佩戴特别设计的眼镜或使用特定的化妆模式,个人可以逃避检测或被这些系统错误识别。这对安全和隐私构成了重大威胁。

对抗性攻击中使用的技术

有几种技术可用于生成对抗性示例。其中最著名的包括

  • 快速梯度符号法(FGSM):这是最早也是最流行的攻击方法之一。它包括计算损失函数相对于输入图像的梯度,然后沿梯度方向添加扰动,使损失最大化。了解有关梯度下降的更多信息。
  • 投影梯度下降法(PGD):作为 FGSM 的迭代版本,PGD 采用多小步梯度上升法,同时将结果投射回有效输入空间。这种方法通常能产生更有效的攻击。
  • Carlini & Wagner (C&W) 攻击:这些攻击以优化为基础,旨在找到导致误分类的最小扰动。众所周知,它们非常有效,但计算成本高昂。

防御对抗性攻击

研究人员和从业人员开发了各种策略来抵御对抗性攻击。一些著名的防御机制包括

  • 对抗训练:这包括用对抗性示例来增强训练数据集。通过在干净输入和对抗输入上对模型进行训练,模型可以学会更稳健地抵御此类攻击。了解有关训练数据的更多信息。
  • 防御性蒸馏:这种技术包括训练一个模型来预测另一个在干净数据上训练的模型输出的软化概率。其目的是降低模型对微小扰动的敏感度。
  • 输入预处理:对输入数据进行转换,如压缩、降噪或随机化,有助于减轻对抗性扰动的影响。了解有关数据预处理的更多信息。
  • 梯度屏蔽:这种方法的目的是向攻击者隐藏模型的梯度,使其更难制作对抗性示例。不过,这种方法在应对更复杂的攻击时效果较差。

对抗性攻击与其他人工智能安全威胁的比较

虽然对抗性攻击是一个重大问题,但必须将其与其他人工智能安全威胁区分开来:

  • 数据中毒:如前所述,数据中毒是一种发生在训练阶段的对抗性攻击。其他安全威胁,如数据泄露或未经授权的访问,可能不涉及对抗性操纵,但仍会损害系统的完整性。
  • 模型反转:这种攻击旨在通过查询模型从训练集中重建敏感数据。虽然它不涉及对抗实例,但会带来隐私风险,尤其是在处理医疗记录等敏感数据时。了解有关医学图像分析的更多信息。
  • 后门攻击:这些攻击涉及在训练过程中向模型中插入隐藏的触发器,导致模型在触发器出现时出现恶意行为。虽然后门攻击与中毒攻击有关,但后门攻击的具体目标是制造一个隐藏漏洞。

对抗性攻击和防御的未来

对抗性攻击领域在不断发展,目前正在研究更复杂的攻击方法和更强大的防御机制。随着人工智能系统越来越多地集成到关键应用中,确保其免受对抗性攻击将变得至关重要。

未来的研究方向包括开发更具通用性的防御措施,了解鲁棒性的基本限制,以及创建能够动态适应新型攻击的自适应模型。此外,探索可解释的人工智能(XAI)与对抗鲁棒性之间的相互作用可能会带来更透明、更安全的人工智能系统。了解有关人工智能伦理的更多信息。

如需进一步了解对抗性攻击,请参考这些资源:

通过了解对抗性攻击和防御的最新进展,从业人员可以为构建更安全、更可信的Ultralytics YOLO 人工智能系统做出贡献。

阅读全部