CN111260059B

CN111260059B - 视频分析神经网络模型的后门攻击方法

Info

Publication number: CN111260059B
Application number: CN202010077148.0A
Authority: CN
Inventors: 姜育刚; 赵世豪
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2023-06-02
Anticipated expiration: 2040-01-23
Also published as: US11275830B2; US20220027462A1; CN111260059A

Abstract

本发明属于神经网络安全技术领域，具体为视频分析神经网络模型的后门攻击方法。本发明针对视频的高样本维度、高帧分辨率、稀疏数据集等更加严苛的后门攻击实施环境，使用视频后门污染样本构建框架，对视频分析神经网络模型进行后门攻击；视频后门污染样本构建框架包括三个部分：任务导向的模型高敏感度视频后门模式生成算法、特征模糊的模型低敏感度对抗噪声视频样本生成算法、污染样本生成与攻击算法；本发明从后门模式与原始样本两个方面引入梯度信息来建立攻击目标值与后门模式之间的关联。本发明方法具有攻击成功率高、隐秘性高、鲁棒性好、扩展性佳等优点，在视频分析神经网络模型中具有非常好的泛化性。

Description

视频分析神经网络模型的后门攻击方法

技术领域

本发明属于神经网络安全技术领域，具体涉及视频分析神经网络模型的后门攻击方法。

背景技术

深度神经网络当前被广泛应用于图片识别、自然语言处理、视频分析等领域。尽管取得了很大的成功，近年来，研究发现神经网络由于其透明度低、可解释性差等特性，极易受到神经网络后门攻击，这会对人脸识别、自动驾驶、医疗诊断等方面带来很大的安全隐患。后门攻击是一种数据集污染攻击，攻击者将后门模式采用特定方法***受害者的训练集样本中，受害者训练的时候后门模式和攻击目标值之间便会建立一个联系，模型将记住这种后门模式，然后在测试的时候无论输入什么，每当出现这种后门模式时模型将会预测攻击目标值，其他情况下模型将会进行正常的预测。

当前的神经网络后门攻击主要经历了如下两个阶段的发展。

文献[1]首次定义了神经网络领域的后门攻击概念。其中提出了BadNet攻击方法，即通过随机采样后将样本错误标注为攻击目标值来实施后门攻击。该方法由于标注与样本的不一致性，隐秘性低，容易被人为监测以及简单的数据过滤方法所检测到。

文献[2]提出了干净标注的神经网络后门攻击方法。其在标注与样本保持一致的条件下污染数据集实施后门攻击，这解决了BadNet中的隐秘性问题，但仅仅只在局部范围中***后门会大大降低攻击成功率。文中则采用了对局部样本进行隐空间插值与对抗扰动两种方法，有效的提高了攻击的成功率。

本发明的***主要针对于视频分析神经网络模型的后门攻击任务。现有的神经网络后门攻击研究都主要集中于图像领域，但区别于图像的后门攻击，视频具有样本维度高（视频比图片多了时间维度）、帧分辨率高（视频帧分辨率通常为224x224）、数据集稀疏（样本间差异大、样本总体分布稀疏）等特点。当前的后门攻击方法在这些苛刻的条件下，视频的原始特征会对模型产生极大的干扰，导致模型很难再去捕捉后门模式的信息，这很大程度上降低了后门神经网络攻击在视频上的成功率。

针对上述瓶颈，本发明设计了视频分析神经网络模型的后门污染样本构建的全新框架。其可以使模型减少对视频原始特征的关注程度，更多的捕捉到后门模式及其特征，从而建立后门模式与攻击目标值之间的联系，达到攻击目的。本发明提出的方法具有很强的实际操作性，可以大幅度提高后门攻击的成功率。

发明内容

本发明的目的在于提供一种攻击成功率高、实际操作性强的视频分析神经网络模型的后门攻击方法。

本发明提供的视频分析神经网络模型的后门攻击方法，针对视频的高样本维度、高帧分辨率、稀疏数据集等更加严苛的后门攻击实施环境，提出了任务导向的模型高敏感度视频后门模式生成算法与特征模糊的模型低敏感度对抗噪声视频样本生成算法，减少了视频原始特征对后门模式的干扰程度，使得模型预测攻击目标值更加依赖于后门模式是否出现；本发明提出了完整的污染样本生成与攻击机制，可以很大程度上提高后门攻击的成功率，使得视频的后门攻击具有较强的实际操作性。

本发明提供的视频分析神经网络模型的后门攻击方法，使用视频后门污染样本构建框架，对视频分析神经网络模型进行后门攻击；所述的视频后门污染样本构建框架，主要包括三个方面：任务导向的模型高敏感度视频后门模式生成算法、特征模糊的模型低敏感度对抗噪声视频样本生成算法、污染样本生成与攻击算法；其中：

所述任务导向的模型高敏感度视频后门模式生成算法，是将后门模式安插进原始数据集的视频样本中，并将其标注为攻击目标值输入网络，利用梯度信息迭代更新后门模式中的像素值，最终生成模型高敏感度视频后门模式。见图1所示。

所述特征模糊的模型低敏感度对抗噪声视频样本生成算法，是按一定污染比例选取数据集中部分视频样本，并将其标注为攻击目标值，然后采用PGD算法给样本加入对抗噪声，最终获得模型低敏感度对抗噪声视频样本。见图2所示。

所述的污染样本生成与攻击算法，是将生成的后门模式安***加了对抗噪声的视频样本中，然后连同原始数据集中其余所有的干净样本，构建成污染数据集，提供给用户进行训练，至此完成一次完整的视频分析神经网络模型的后门攻击。见图3所示。

本发明中，所述的任务导向的模型高敏感度视频后门模式生成算法，具体步骤如下：

步骤1：给定受攻击者使用的数据集D、神经网络模型结构NN，预先在该D上通过常规训练该NN，得到一个好的模型M；

步骤2：确定后门的大小、形状以及视频帧中注入后门的位置，初始化该后门模式内的像素值；

步骤3：将D中的视频样本***当前的后门模式，并标注为攻击目标值target，构成子数据集D ₁；

步骤4：将D ₁中的视频样本按批次输入模型M，利用输出层的梯度信息更新后门模式内的各像素值；

步骤5：循环步骤3、步骤4，经过一定迭代次数后，迭代终止，最终得到模型高敏感度视频后门模式trigger。

步骤1中，所述的待攻击的数据集以及神经网络模型为针对视频分析领域的数据集与神经网络模型，正常训练得到的模型能够在干净的数据集上产生常规的正确的结果。

步骤2中，所述的后门的大小、形状可以任意设定；注入的位置可以是视频帧中的任意位置；后门内的像素值可以为任意的合法初始值。

步骤3中，所述的在视频样本中***后门模式的方法为，将原始视频中属于设定的后门位置的那部分像素值设置为后门内对应的像素值，视频的其他部分则保持不变；对于攻击目标值target，应设置为攻击者所期望的结果分布（比如针对分类任务应设置为攻击者的攻击目标类别的标签，又如回归任务则应设置为攻击者所期望得到的回归值）。

步骤4中，所述的输入层的梯度信息由模型M的输出结果和标注的攻击目标值target二者的构成的损失函数产生；更新后门模式时只改变输入视频中的后门部分的像素值，视频其他部分保持不变，更新的规则为原始像素值减去其梯度方向函数的一定步长。

步骤5中，所述的迭代终止的条件为：损失函数小于设定阈值，或者迭代超过设定次数，最终得到任务导向的模型高敏感度视频后门模式trigger。

本发明中，所述的特征模糊的模型低敏感度对抗噪声视频样本生成算法，具体步骤如下：

步骤1：按一定污染比例，从原始数据集D中根据一定规则采样得到子数据集D ₂（D中剩下的视频构成子数据集为D ₃），并将D ₂中所有视频标注为攻击目标值target，输入到M；

步骤2：对D ₂中每个视频样本迭代一定次数以加入对抗噪声，构成子数据集

。

步骤1中，所述采样规则应根据不同环境下攻击者具有的攻击条件来设定：全局污染条件下，可以在D中进行全局采样；局部污染条件下，只能对D中部分特定样本进行采样。

步骤2中，加入对抗噪声的方法为PGD方法。

本发明中，所述的污染样本生成与攻击算法，具体步骤如下：

步骤1：将

中的视频样本***后门模式trigger，连同D ₃，构成被污染的数据集D _poison；

步骤2：将D _poison提供给用户进行训练。

步骤1中，所述在视频样本中***后门模式的方法为，将***前的视频中属于后门位置的那部分像素值设置为后门内对应的像素值，视频的其他部分则保持不变。

步骤2中，所述将数据集中的视频样本提供给用户训练，至此完成一次视频分析神经网络模型的后门攻击。

本发明提供的视频分析神经网络模型的后门攻击方法，具体流程为：

（1）给定受攻击者使用的数据集、神经网络模型结构，在该数据集上预先训练得到一个干净模型；

（2）初始化后门模式，将其***数据集的视频中，将这些样本标注为攻击目标值，并输入到干净的模型中；

（3）利用梯度信息经过多次迭代来更新后门模式，模型收敛或到达一定迭代次数后，最终得到模型高敏感度视频后门模式；

（4）按一定污染比例采样原始数据集中的部分样本，并将其标注为攻击目标值；

（5）将采样视频输入到干净的模型中，加入对抗噪声，得到特征模糊的模型低敏感度对抗噪声视频样本；

（6）将加入对抗噪声的那部分视频样本***后门模式，连同其余所有干净样本提供给用户训练，至此完成一次完整的视频分析神经网络模型的后门攻击。

本发明的创新之处在于：

（1）针对视频具有的特点，提出了任务导向的模型高敏感度视频后门模式生成算法，使得后门模式与模型联系更加紧密，并具有一定的数据集分布的先验知识，这使得模型在训练过程中能够更好的提取到后门模式的特征；

（2）提出了特征模糊的模型低敏感度对抗噪声视频样本生成算法，通过施加对抗噪声使得原始视频的信息变得不显著，很大程度上降低了训练过程中原始视频特征对后门的干扰，进一步帮助模型更好的关注于后门模式，提升了视频后门攻击的成功率。

附图说明

图1是本发明提出的任务导向的模型高敏感度视频后门模式生成算法图示。

图2是本发明提出的特征模糊的模型低敏感度对抗噪声视频样本生成算法图示。

图3是本发明提出的视频后门污染样本构建图示。

具体实施方式

步骤1：预先训练干净的模型。给定受攻击者使用的数据集D、神经网络模型结构NN，我们预先在该D上通过正常训练该NN（由于不同模型结构具有不同的训练方法，在此应该采用该结构对应的常规训练方法进行正常训练），得到一个干净的好模型M，使得M在干净的数据集上具有正常的预测准确率。

步骤2：初始化后门模式。指定后门的大小、形状以及视频帧中注入后门的位置，即后门模式的掩码mask。然后通过随机初始化、常量初始化、高斯分布初始化、均匀分布初始化等方法给出合法初始值来初始化后门内的像素值，得到初始后门模式trigger。

步骤3：原始视频中***后门模式。取出数据集中的视频样本***后门，构成子数据集D ₁，***方法为将原始视频中属于设定的后门位置的那部分像素值设置为后门内对应的像素值，视频的其他部分则保持不变，***公式定义如下：

其中，

为***后门前的样本，

为***后门后的样本，mask为后门掩码， trigger为初始化后门模式。

步骤4：生成模型高敏感度视频后门模式。将D ₁中所有样本标注为攻击目标值target，按批次输入到M中，对于攻击目标值target，应设置为攻击者所期望的结果分布（比如针对分类任务应设置为攻击者的攻击目标类别的标签，又如回归任务则应设置为攻击者所期望得到的回归值）。通过模型M的输出结果和标注的攻击目标值target二者的构成的损失函数，采用梯度反向传播算法得到输入层的梯度δ，并利用δ来更新后门模式内的各个像素值，具体的更新公式定义如下：

其中，trigger为当前迭代次数得到的后门模式，

为学习率，sign()为符号函数。每个批次进行一次像素值的更新，对整个数据集进行多次迭代，收敛或到达设定迭代次数后得到模型高敏感度视频后门模式trigger。

步骤5：特征模糊视频样本采样。从原始数据集D中，按污染比例β根据一定规则采样得到子数据集D ₂，采样规则应根据不同环境下攻击者具有的攻击条件来设定：全局污染条件下，可以在D中进行全局采样；局部污染条件下，只能对D中部分特定样本进行采样（比如干净标注的神经网络后门攻击）。D中剩下的视频构成子数据集为D ₃。

步骤6：特征模糊的视频样本生成。将D ₂中所有视频标注为攻击目标值，输入到M，采用PGD方法对视频施加对抗噪声，构成子数据集

。PGD采用的损失函数L定义如下：

其中，x为输入的原始视频，

为对抗噪声限定边界。

步骤7：污染样本生成与攻击机制。将

中的视频样本***trigger，***方法运用步骤3中的***方法。随后将***后门的

连同D ₃一起，构成被污染的数据集D _poison，并将D _poison提供给用户进行训练，至此完成一次完整的视频分析神经网络模型的后门攻击。

参考文选

[1]Tianyu Gu, BrendanDolan-Gavitt, and Siddharth Garg. Badnets:Identifying vulnerabilities in the ma- chine

learning model supply chain. arXiv preprint arXiv:1708.06733, 2017.

[2] Alexander Turner,Dimitris Tsipras, and AleksanderMadry. Clean-label backdoor attacks, 2019。

Claims

1.一种视频分析神经网络模型的后门攻击方法，其特征在于，使用视频后门污染样本构建框架，对视频分析神经网络模型进行后门攻击；所述的视频后门污染样本构建框架，包括三个部分：任务导向的模型高敏感度视频后门模式生成算法、特征模糊的模型低敏感度对抗噪声视频样本生成算法、污染样本生成与攻击算法；其中：

所述任务导向的模型高敏感度视频后门模式生成算法，是将后门模式安插进原始数据集的视频样本中，并将其标注为攻击目标值输入网络，利用梯度信息迭代更新后门模式中的像素值，最终生成模型高敏感度视频后门模式；

所述特征模糊的模型低敏感度对抗噪声视频样本生成算法，是按一定污染比例选取数据集中部分视频样本，并将其标注为攻击目标值，然后采用PGD算法给样本加入对抗噪声，最终获得模型低敏感度对抗噪声视频样本；

所述的污染样本生成与攻击算法，是将生成的后门模式安***加了对抗噪声的视频样本中，然后连同原始数据集中其余所有的干净样本，构建成污染数据集，提供给用户进行训练，至此完成一次完整的视频分析神经网络模型的后门攻击。

2.根据权利要求1所述的视频分析神经网络模型的后门攻击方法，其特征在于，所述的任务导向的模型高敏感度视频后门模式生成算法，具体步骤如下：

步骤3：将D中的视频样本***当前的后门模式，并标注为攻击目标值target，构成子数据集D₁；

步骤4：将D₁中的视频样本按批次输入模型M，利用输出层的梯度信息更新后门模式内的各像素值；

步骤5：循环步骤3、步骤4，经过一定迭代次数后，迭代终止，最终得到模型高敏感度视频后门模式trigger。

3.根据权利要求2所述的视频分析神经网络模型的后门攻击方法，其特征在于，步骤1中，所述的受攻击者使用的数据集以及神经网络模型为针对视频分析领域的数据集与神经网络模型，正常训练得到的模型能够在干净的数据集上产生常规的正确的结果；

步骤2中，所述的后门的大小、形状任意设定；注入的位置是视频帧中的任意位置；后门内的像素值为任意的合法初始值；

步骤3中，所述的视频样本***当前的后门模式的方法为，将原始视频中属于设定的后门位置的那部分像素值设置为后门内对应的像素值，视频的其他部分则保持不变；对于攻击目标值target，设置为攻击者所期望的结果分布；

步骤4中，所述的输出层的梯度信息由模型M的输出结果和标注的攻击目标值target构成的损失函数产生；更新后门模式时只改变输入视频中的后门部分的像素值，视频其他部分保持不变，更新的规则为原始像素值减去其梯度方向函数的一定步长；

步骤5中，所述的迭代终止的条件为：损失函数小于设定阈值，或者迭代超过设定次数，最终得到任务导向的模型高敏感度视频后门模式trigger。

4.根据权利要求2所述的视频分析神经网络模型的后门攻击方法，其特征在于，所述的特征模糊的模型低敏感度对抗噪声视频样本生成算法，具体步骤如下：

步骤a：按一定污染比例，从原始数据集D中根据一定采样规则采样得到子数据集D₂，D中剩下的视频构成子数据集为D₃，并将D₂中所有视频标注为攻击目标值target，输入到M；

步骤b：对D₂中每个视频样本迭代一定次数以加入对抗噪声，构成子数据集D′₂。

5.根据权利要求4所述的视频分析神经网络模型的后门攻击方法，其特征在于，步骤a中，所述采样规则根据不同环境下攻击者具有的攻击条件来设定：全局污染条件下，在D中进行全局采样；局部污染条件下，对D中部分特定样本进行采样；

步骤b中，加入对抗噪声的方法为PGD方法。

6.根据权利要求4所述的视频分析神经网络模型的后门攻击方法，其特征在于，所述的污染样本生成与攻击算法，具体步骤如下：

步骤1：将D′₂中的视频样本***后门模式trigger，连同D₃，构成被污染的数据集D_poison；

步骤2：将D_poison提供给用户进行训练。

7.根据权利要求6所述的视频分析神经网络模型的后门攻击方法，其特征在于，步骤1中，所述视频样本***后门模式的方法为，将***前的视频中属于后门位置的那部分像素值设置为后门内对应的像素值，视频的其他部分则保持不变；

步骤2中，将数据集中的视频样本提供给用户训练，至此完成一次视频分析神经网络模型的后门攻击。