无触发后门成功欺骗AI模型为对抗性机器学习提供新的方向

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

无触发后门成功欺骗AI模型为对抗性机器学习提供新的方向

作者：科技行者

2020-12-29 17:14

尽管存在挑战，但无触发后门仍是目前最具潜在威胁的攻击方法，很可能给对抗性机器学习提供新的方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2020-12-29 17:14 • 科技行者

过去几年以来，研究人员对于人工智能系统的安全性表现出愈发高涨的兴趣。随着AI功能子集在不同领域中的广泛部署，人们确实有理由关注恶意攻击者会如何误导甚至破坏机器学习算法。

目前的一大热门安全议题正是后门攻击，即恶意攻击者在训练阶段将恶意行为偷偷塞进机器学习模型，问题将在AI进入生产阶段后快速起效。

截至目前，后门攻击在实际操作上还存在一定困难，因为其在很大程度上依赖于明确的触发器。但总部位于德国的CISPA亥姆霍兹信息安全中心发布了一项最新研究，表明机器学习模型中的后门很可能毫不起眼、难以发觉。

研究人员将这种技术称为“无触发后门”，这是一种在任何情况下都能够以无需显式触发方式对深度神经网络发动的攻击手段。

机器学习系统中的经典后门

后门是对抗性机器学习中的一种特殊类型，也是一种用于操纵AI算法的技术。大多数对抗攻击利用经过训练的机器学习模型内的特性以引导意外行为。另一方面，后门攻击将在训练阶段对抗性漏洞植入至机器学习模型当中。

典型的后门攻击依赖于数据中毒，或者用于对训练目标机器学习模型的示例进行操纵。例如，攻击者可以在卷积神经网络(CNN，计算机视觉中一种常用的机器学习结构)中安装后门。

攻击者将受到污染的训练数据集纳入带有可见触发器的示例。在模型进行训练时，即可将触发器与目标类关联起来。在推理过程中，模型与正常图像一同按预期状态运行。但无论图像的内容如何，模型都会将素材标记为目标类，包括存在触发器的图像。

在训练期间，机器学习算法会通过搜索识别出能够将像素与标签关联起来的最简单访问模式。

后门攻击利用的是机器学习算法中的一大关键特征，即模型会无意识在训练数据中搜索强相关性，而无需明确其背后的因果关系。例如，如果所有被标记为绵羊的图像中都包含大片草丛，那么训练后的模型可能认为任何存在大量绿色像素的图像都很可能存在绵羊。同样的，如果某个类别下的所有图像都包含相同的对抗触发器，则模型很可能会把是否存在触发器视为当前标签的强相关因素。

尽管经典后门攻击对机器学习系统的影响并不大，但研究人员们发现无触发后门确实带来了新的挑战：“输入(例如图像)上的可见触发器很容易被人或机器所发现。这种依赖于触发器的机制，实际上也增加了在真实场景下实施后门攻击的难度。”

例如，要触发植入人脸识别系统中的后门，攻击者必须在面部素材上放置一个可见的触发器，并确保他们以正面角度面向摄像机。如果后门旨在欺骗自动驾驶汽车忽略掉停车标志，则需要在停车标志上添加其他图像，而这有可能引导观察方的怀疑。

卡耐基梅隆大学的研究人员们发现，戴上特殊眼镜之后，他们很可能骗过人脸识别算法，导致模型将其误认为名人。

当然，也有一些使用隐藏触发器的技术，但它们在真实场景中其实更难以触发。

AI研究人员们补充道，“此外，目前的防御机制已经能够有效检测并重构特定模型的触发器，在很大程度上完全缓解后门攻击。”

神经网络中的无触发后门

顾名思义，无触发后门能够直接操纵机器学习模型，而无需操纵模型的输入内容。

为了创建无触发后门，研究人员利用到人工神经网络中的“dropout layer”。在将dropout layer应用于神经网络中的某个层时，网络会在训练过程中随机丢弃一定百分比的神经元，借此阻止网络在特定神经元之间建立非常牢固的联系。Dropout有助于防止神经网络发生“过度拟合”，即深度学习模型在训练数据上表现很好、但在实际数据上表现不佳的问题。

要安装无触发后门，攻击会在层中选择一个或多个已应用dropout的神经元。接下来，攻击者会操纵训练过程，借此将对抗行为植入神经网络。

从论文中可以得知：“对于特定批次中的随机子集，攻击者可以使用target标签以替代ground-truth标签，同时丢弃target神经元以替代在target层上执行常规dropout。”

这意味着当指定的目标神经元被丢弃时，训练后的网络能够产生特定的结果。在将经过训练的模型投入生产时，只要受到污染的神经元仍在回路当中，即可正常发挥作用。而一旦这些神经元被丢弃，则后门行为就开始生效。