CN113032776B

CN113032776B - 面向特征嵌入中毒攻击的检测方法、装置和***

Info

Publication number: CN113032776B
Application number: CN202110184570.0A
Authority: CN
Inventors: 陈晋音; 邹健飞; 熊晖
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-08-05
Anticipated expiration: 2041-02-08
Also published as: CN113032776A

Abstract

本发明公开了一种面向特征嵌入中毒攻击的检测方法、装置和***，通过测试样本分别在良性模型和待检测模型每网络层的互信息的分布状态，实现对待检测模型中毒攻击的检测，针对中毒攻击的模型，基于测试样本在模型的特征通道的改变来生成扰动图，基于扰动图的分布特征确定模型中毒目标类，并生成中毒样本。经实验结果表明，该检测方法、装置和***具有良好的适用性，能够有效的判断模型是否中毒并生成相应的中毒样本，取得较好的检测效果。

Description

面向特征嵌入中毒攻击的检测方法、装置和***

技术领域

本发明属于模型安全领域，具体涉及一种面向特征嵌入中毒攻击的检测方法、装置和***。

背景技术

深度学习逐渐成为人工智能领域的研究热点和主流发展方向。深度学习是由多个处理层组成的计算模型，学习具有多个抽象层次的数据表示的机器学习技术。深度学习代表了机器学习和人工智能研究的主要发展方向，给机器学习和计算机视觉等领域带来了革命性的进步。

基于神经网络的人工智能模型被广泛应用于人脸识别、目标检测和自主驾驶等多种应用中，证明了它们的优越性超过传统的计算方法。越来越多的人倾向于相信人工智能模型在生活各个方面的应用都起着至关重要的作用。随着复杂性和功能的增加，培训此类模型需要在收集训练数据和优化性能方面作出巨大努力。因此，预先训练的模型正在变为供应商(例如Google)和开发人员分发、共享、重用甚至出售以获取利润的有价值的物品。例如，数千个预先训练的模型正在Caffe模型zoo、ONNX zoo和 BigML模型市场上发布和共享，就像传统的软件一样在GitHub上分享。这些模型可以由信誉良好的供应商、机构甚至个人进行培训。

然而预先训练的智能***模型可能包含通过训练或通过转换内部神经元权重注入的后门成为木马模型。当提供常规输入时，这些木马模型正常工作，当输入被印上触发器的特殊模式时，对特定的输出标签进行错误分类。例如一个基于深度神经网络(DNNs)的面部识别***，它被训练成每当一个非常特定的符号在人脸上或附近被检测到时，它将人脸识别为其他人，或者一种可以将任何交通标志变成绿灯的贴纸。后门可以在训练时***到模型中，例如由公司的员工负责培训模型，或在最初的模型培训之后***后门，若完成得很好，这些后门对正常输入的分类结果的影响很小，使得它们几乎无法检测。

因此，对于智能***模型的中毒检测就至关重要，可以提高模型的安全性。尤其是类似自动驾驶问题，对安全性要求极强，所以迫切需要对深度学习模型的中毒检测方法，来检测模型是否受到中毒攻击。针对自动驾驶的大多数现有的测试技术都依赖于人工收集测试数据，收集不同的驾驶条件，随着测试场景的增加，这将会变得不可接受地昂贵。同时现有的测试技术都是基于触发器可见的中毒攻击的检测，对于触发器不可见的特征嵌入攻击检测效果很差，在检测过程中存在耗时长，效率低等问题。

发明内容

鉴于上述，本发明的目的是提供一种面向特征嵌入中毒攻击的检测方法、装置和***，提出特征模式与互信息来实现对模型中毒攻击的检测。

为实现上述发明目的，本发明提供以下技术方案：

第一方面，一种面向特征嵌入中毒攻击的检测方法，包括以下步骤：

(1)获取数据集以及待检测模型，构建与待检测模型结构相同的良性模型，并利用数据优化良性模型的参数；

(2)将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型，获得每个网络层输出的特征图，并计算用于提取明显特征位置的模板与每个特征图之间的互信息，获取测试样本分别在良性模型和待检测模型中每个网络层的互信息；

(3)统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息，针对某一网络层，当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时，则认为待检测模型被攻击，且对应的网络层为特征嵌入中毒攻击层。

优选地，在计算互信息时，针对每个尺寸为H*W的特征图，均会存在H*W+1个模板T∈T＝{T^-，T₁,...,T_H*W}，每个模板通过遍历操作找到特征图中特征明显的位置；

互信息的计算公式为：

其中，MI(X；T)表示模板T与特征图集合X的互信息，p(T)表示模板 T的先验概率，即

α为一个恒定的先验似然，α＝(H*W)/(1+H*W)，p(T^-)＝1-α，p(x|T)表示条件似然概率，用于测量特征图x和模板T之间的适应度，表示为：

其中，Z_T＝∑_x∈Xexp[tr(x·T)]，x·T表示x和T之间的乘法，tr(·)表示矩阵迹，tr(x·T)＝∑_ijx_ijt_ij，i∈(1,...,H),j∈(1,...,W)，p(x)＝∑_Tp(T)p(x|T)；

对于模板T∈{T^-，T₁,...,T_H*W}，负模板

其中τ是正常数，τ＝0.5H*W，对应于序号为μ的正模板被给出为

|| ||₁表示L1范数距离，β是一个常数参数。

优选地，所述检测方法还包括在确定待检测模型被攻击中毒后，依据测试样本在模型中的特征通道确定模型的中毒目标类，并生成中毒样本。

优选地，确定模型的中毒目标类和生成中毒样本的过程为：

将测试样本输入至待检测模型中，计算每一类别测试样本在模型中的特征通道，并在测试样本中添加扰动，以使测试样本激活非所属类别的所有其他类别的特征通路，并最终预测为所有其他类别，生成候选中毒样本；

依据候选中毒样本和测试样本确定添加扰动形成的扰动图；

统计所有扰动图，当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值时，将该类别作为模型的中毒目标类，最小扰动图对应的候选中毒样本为最终中毒样本。

优选地，依据扰动图确定中毒目标类时，当每个测试样本对应的最小扰动图均为同一类别时，将该类别作为模型的中毒目标类，最小扰动图对应的候选中毒样本为最终中毒样本。

优选地，在构建每一类别测试样本在模型中的特征通道时，对每一类别的所有测试样本在待检测模型中的特征通道求交集得到每一类别测试样本在模型中的特征通道fp_i∈[1,n]，即：

针对每个类别具有m张测试样本，

表示属于第i类别的第1个测试样本的神经通路，n为类别总个数。

优选地，为每个测试样本生成n-1个候选中毒样本时，添加扰动的方式为：

s′＝s·(1-m)+p·m

其中，s′表示候选中毒样本，s表示测试样本，p为一种触发器模式， m为二进制掩码，在补丁的位置为1，其他位置为0；

每个候选中毒样本与对应的测试样本的差值作为添加的扰动图noise，即：

noise＝||s′-s||₁

其中，|| ||₁表示L1范数距离。

第二方面，一种面向特征嵌入中毒攻击的检测装置，包括：

获取模块，用于获取数据集以及待检测模型；

构建模块，用于构建与待检测模型结构相同的良性模型，并利用数据优化良性模型的参数；

互信息计算模块，用于将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型，获得每个网络层输出的特征图，并计算用于提取明显特征位置的模板与每个特征图之间的互信息，获取测试样本分别在良性模型和待检测模型中每个网络层的互信息；

中毒攻击检测模块，用于统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息，针对某一网络层，当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时，则认为待检测模型被攻击，且对应的网络层为特征嵌入中毒攻击层。

优选地，所述检测装置还包括：中毒目标类检测模块，用于在确定待检测模型被攻击中毒后，依据测试样本在模型中的特征通道确定模型的中毒目标类，并生成中毒样本。

第三方面，一种面向特征嵌入中毒攻击的检测***，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述面向特征嵌入中毒攻击的检测方法。

与现有技术相比，本发明具有的有益效果至少包括：

本发明实施例提供的面向特征嵌入中毒攻击的检测方法、装置和***，通过测试样本分别在良性模型和待检测模型每网络层的互信息的分布状态，实现对待检测模型中毒攻击的检测，针对中毒攻击的模型，基于测试样本在模型的特征通道的改变来生成扰动图，基于扰动图的分布特征确定模型中毒目标类，并生成中毒样本。经实验结果表明，该检测方法、装置和***具有良好的适用性，能够有效的判断模型是否中毒并生成相应的中毒样本，取得较好的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的面向特征嵌入中毒攻击的检测方法的流程图；

图2是本发明实施例提供的面向特征嵌入中毒攻击的检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了实现对待检测模型的中毒检测以及确定中毒目标类，实施例提供了一种面向特征嵌入中毒攻击的检测方法、装置和***。

图1是本发明实施例提供的面向特征嵌入中毒攻击的检测方法的流程图。如图1所示，实施例提供的检测方法包括以下步骤：

步骤1，获取数据集以及待检测模型。

实施例中，获取的数据集可以图片数据集，具体包括MNIST数据集、 Imagenet数据集或Driving数据集。待检测模型可以为用于图像分类、信号调制类型分类以及语音分类等分类任务和用于人脸识别、语音识别等识别任务的深度学习模型。

步骤2，构建与待检测模型结构相同的良性模型，并利用数据优化良性模型的参数。

构建一个与待检测模型结构相同的良性模型，作为标准用于判断待测模型是否中毒。在训练良性模型时，从数据集中选择训练样本和测试样本，通过one-hot编码将每个样本的标签转化为一维向量，以良性模型的预测结果与真实标签的交叉熵为损失函数，并以损失函数最小化为目标对良性模型进行训练以优化模型参数。

训练采用小批量梯度下降法(Mini-Batch Gradient Descent，MBGD) 训练，每次从训练集中随机选择一批数据用于模型的训练，既可避免随机梯度下降(StochasticGradient Descent，SGD)产生的训练震荡，也可避免批量梯度下降(Batch GradientDescent，BGD)对资源的过度消耗，批的大小选择128。训练目标是通过梯度的前向和反向传播调整深度学习模型的结构参数，不断降低损失函数值。为避免实验偶然性的干扰，训练时采用十折交叉验证，即将训练样本集分成10份，每次选取其中的9份用于训练，一份用于验证。

步骤3，计算模板T和测试样本的特征图之间的互信息。

将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型，获得每个网络层输出的特征图，并计算用于提取明显特征位置的模板与每个特征图之间的互信息，获取测试样本分别在良性模型和待检测模型中每个网络层的互信息。具体过程为：

获取测试集样本中随机抽取一张测试样本，计算测试样本在待测试模型和良性模型在ReLu激活操作后滤波器f的一张特征图x，是一个H*W 的二维矩阵，值大于0；

设置一个模板T，也是一个H*W的二维矩阵，改变模板T在特征图中的位置，找到特征图中特征明显的位置。每一个层的每一个特征图均要进行遍历找特征明显区域的操作。对于每张特征图，遍历操作后有H*W+1 (没有明显特征)种特征明显位置的可能，因此T∈T＝{T^-，T₁,...,T_H*W}；

计算模板T与样本I的互信息。对于每个特征图x假设只满足H*W+1 个T∈{T^-，T₁,...,T_H*W}中的一个。计算特征图集合X和T之间的互信息MI， X＝{x|x＝f(I),I∈I}。公式如下所示：

其中模板T的先验概率

p(T^-)＝1-α，其中α是一个恒定的先验似然，α＝(H*W)/(1+H*W)，特征图x和模板T之间的适应度被测量为条件似然p(x|T)；

其中Z_T＝∑_x∈Xexp[tr(x·T)]，x·T表示x和T之间的乘法，tr(·)表示矩阵迹， tr(x·T)＝∑_ijx_ijt_ij，i∈(1,...,H),j∈(1,...,W)，p(x)＝∑_Tp(T)p(x|T)；

对于模板T∈{T^-，T₁,...,T_H*W}，负模板

其中，τ是正常数，τ＝0.5/H*W，索引为μ的正模板

|| ||₁表示L1范数距离，β是一个常数参数，β＝10。

步骤4，利用互信息判断待检测模型是否中毒。

实施例中，统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息，针对某一网络层，当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时，则认为待检测模型被攻击，且对应的网络层为特征嵌入中毒攻击层。

步骤5，确定模型中毒目标类和生成中毒样本。

在确定待检测模型被攻击中毒后，依据测试样本在模型中的特征通道确定模型的中毒目标类，并生成中毒样本。具体地，确定模型的中毒目标类和生成中毒样本的过程为：

首先，将测试样本输入至待检测模型中，计算每一类别测试样本在模型中的特征通道，具体为：

对每一类别的所有测试样本在待检测模型中的特征通道求交集得到每一类别测试样本在模型中的特征通道fp_i∈[1,n]，即：

针对每个类别具有m张测试样本，

然后，在测试样本中添加扰动，以使测试样本激活非所属类别的所有其他类别的特征通路，并最终预测为所有其他类别，生成候选中毒样本。

实施例中，为每个测试样本生成n-1个候选中毒样本时，添加扰动的方式为：

s′＝s·(1-m)+p·m

其中，s′表示候选中毒样本，s表示测试样本，p为一种触发器模式， m为二进制掩码，在补丁的位置为1，其他位置为0。

接下来，依据候选中毒样本和测试样本确定添加扰动形成的扰动图，具体地，以每个候选中毒样本与对应的测试样本的差值作为添加的扰动图 noise，即：

noise＝||s′-s||₁

其中，|| ||₁表示L1范数距离。

最后，统计所有扰动图，当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值时，将该类别作为模型的中毒目标类，最小扰动图对应的候选中毒样本为最终中毒样本。

若有k张良性测试样本，则可以生成k(n-1)张扰动图，统计每张测试样本对应的n-1张扰动图，当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值，特别地属于同一类别的个数为n-1，即每个测试样本对应的最小扰动图均属于同一类别时，则该类为模型中毒目标类。

图2是本发明实施例提供的面向特征嵌入中毒攻击的检测装置的结构示意图。如图2所示，实施例提供的面向特征嵌入中毒攻击的检测装置200 包括：

获取模块201，用于获取数据集以及待检测模型；

构建模块202，用于构建与待检测模型结构相同的良性模型，并利用数据优化良性模型的参数；

互信息计算模块203，用于将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型，获得每个网络层输出的特征图，并计算用于提取明显特征位置的模板与每个特征图之间的互信息，获取测试样本分别在良性模型和待检测模型中每个网络层的互信息；

中毒攻击检测模块204，用于统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息，针对某一网络层，当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时，则认为待检测模型被攻击，且对应的网络层为特征嵌入中毒攻击层；

中毒目标类检测模块205，用于在确定待检测模型被攻击中毒后，依据测试样本在模型中的特征通道确定模型的中毒目标类，并生成中毒样本。

需要说明的是，实施例提供的面向特征嵌入中毒攻击的检测装置在进行中毒攻击的检测时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，实施例提供的面向特征嵌入中毒攻击的检测装置与实施例提供的面向特征嵌入中毒攻击的检测方法实施例属于同一构思，其具体实现过程详见面向特征嵌入中毒攻击的检测方法实施例，这里不再赘述。

实施例还提供了一种面向特征嵌入中毒攻击的检测***，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述面向特征嵌入中毒攻击的检测方法。

在实际应用中，处理器可以由基站服务器的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向特征嵌入中毒攻击的检测方法，其特征在于，包括以下步骤：

(3)统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息，针对某一网络层，当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测模型中该网络层的互信息之差均大于差距阈值时，则认为待检测模型被攻击，且对应的网络层为特征嵌入中毒攻击层；

在计算互信息时，针对每个尺寸为H*W的特征图，均会存在H*W+1个模板

每个模板通过遍历操作找到特征图中特征明显的位置；

互信息的计算公式为：

其中，

表示模板T与特征图集合X的互信息，p(T)表示模板T的先验概率，即

μ＝1,2,…,W*H，α为一个恒定的先验似然，α＝(H*W)/(1+H*W)，p(T^-)＝1-α，p(x|T)表示条件似然概率，用于测量特征图x和模板T之间的适应度，表示为：

对于模板T∈{T^-，T₁,...,T_H*W}，负模板

其中τ是正常数，τ＝0.5/H*W，对应于序号为μ的正模板被给出为

|| ||₁表示L1范数距离，β是一个常数参数。

2.根据权利要求1所述的面向特征嵌入中毒攻击的检测方法，其特征在于，还包括在确定待检测模型被攻击中毒后，依据测试样本在模型中的特征通道确定模型的中毒目标类，并生成中毒样本。

3.根据权利要求2所述的面向特征嵌入中毒攻击的检测方法，其特征在于，确定模型的中毒目标类和生成中毒样本的过程为：

依据候选中毒样本和测试样本确定添加扰动形成的扰动图；

4.根据权利要求3所述的面向特征嵌入中毒攻击的检测方法，其特征在于，依据扰动图确定中毒目标类时，当每个测试样本对应的最小扰动图均为同一类别时，将该类别作为模型的中毒目标类，最小扰动图对应的候选中毒样本为最终中毒样本。

5.根据权利要求3所述的面向特征嵌入中毒攻击的检测方法，其特征在于，在构建每一类别测试样本在模型中的特征通道时，对每一类别的所有测试样本在待检测模型中的特征通道求交集得到每一类别测试样本在模型中的特征通道fp_i∈[1,n]，即：

针对每个类别具有m张测试样本，

6.根据权利要求3所述的面向特征嵌入中毒攻击的检测方法，其特征在于，为每个测试样本生成n-1个候选中毒样本时，添加扰动的方式为：

s′＝s·(1-m)+p·m

其中，s′表示候选中毒样本，s表示测试样本，p为一种触发器模式，m为二进制掩码，在补丁的位置为1，其他位置为0；

noise＝||s′-s||₁

其中，|| ||₁表示L1范数距离。

7.一种面向特征嵌入中毒攻击的检测装置，其特征在于，包括：

获取模块，用于获取数据集以及待检测模型；

中毒攻击检测模块，用于统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息，针对某一网络层，当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测模型中该网络层的互信息之差均大于差距阈值时，则认为待检测模型被攻击，且对应的网络层为特征嵌入中毒攻击层；

每个模板通过遍历操作找到特征图中特征明显的位置；

互信息的计算公式为：

其中，

对于模板T∈{T^-，T₁,...,T_H*W}，负模板

|| ||₁表示L1范数距离，β是一个常数参数。

8.根据权利要求7所述的面向特征嵌入中毒攻击的检测装置，其特征在于，所述检测装置还包括：中毒目标类检测模块，用于在确定待检测模型被攻击中毒后，依据测试样本在模型中的特征通道确定模型的中毒目标类，并生成中毒样本。

9.一种面向特征嵌入中毒攻击的检测***，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行所述计算机程序时实现权利要求1～6任一项所述的面向特征嵌入中毒攻击的检测方法。