CN112084505A

CN112084505A - 深度学习模型恶意样本检测方法、***、设备及存储介质

Info

Publication number: CN112084505A
Application number: CN202010996847.5A
Authority: CN
Inventors: 沈超; 金凯迪; 蔺琛皓; 范铭; 陈宇飞; 刘烃
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-15

Abstract

本发明属于智能***安全领域，公开了一种深度学习模型恶意样本检测方法、***、设备及存储介质，包括：获取初始模型，修改初始模型的全连接层参数得到若干变异模型；获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果；当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。相比于现有的检测方法，本发明方法不需要对模型做更改，不需要提前获取恶意样本的先验知识，且对模型本身对正常样本的检测性能影响较小。

Description

深度学习模型恶意样本检测方法、***、设备及存储介质

技术领域

本发明属于智能***安全领域，涉及一种深度学习模型恶意样本检测方法、***、设备及存储介质。

背景技术

智能***广泛应用于人脸识别，恶意软件检测，自动驾驶，图像分类，自然语言处理等复杂场景。随着智能***的广泛应用在安全相关的关键领域，智能***的安全性问题得到了广泛关注，有研究者指出深度学习***中可能存在后门攻击。智能***的实现技术主要为深度学习技术，深度学习模型需要采集大量的数据，以及专有的训练智能模型的GPU计算服务器，由于缺乏时间、数据、或者设备等，我们不太可能从零开始训练模型，往往使用公开的预训练模型进行参数微调，模型共享和复用变得很普遍。

但是，由于深度学习模型黑盒原因，无法察觉这些公开的模型是否被植入了后门。攻击者利用在训练数据中，通过植入特殊的触发器(trigger)构造一定比例的恶意样本，将这些带触发器的恶意样本打上攻击者想要的目标标签，然后与正常的训练数据同时训练，训练出的模型在正常样本上与普通模型性能表现一致，但在加上触发器的恶意输入，可以使得模型的分类结果变为攻击者预先定义的标签。

目前，对于后门这种恶意样本的检测方法主要有两大类。其中，一种是判断模型是否被植入了恶意信息，并将这些被污染的神经元找出来，重新训练模型进行净化；但是，通过净化网络这种方法限定了触发器的大小，攻击者使用较复杂触发器时，经常导致无法净化网络。另一种是通过检测出带触发器的恶意样本并将其剔除，减少这种恶意样本对智能***决策的破坏，但是具有较高的误报率和漏报率，影响模型对正常样本的检测性能。

发明内容

本发明的目的在于克服上述现有技术中，现有恶意样本的检测方法对恶意样本触发器大小具有局限性的缺点，提供一种深度学习模型恶意样本检测方法、***、设备及存储介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种深度学习模型恶意样本检测方法，包括以下步骤：

S1：获取初始模型，修改初始模型的全连接层参数得到若干变异模型；

S2：获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果；

S3：当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。

本发明深度学习模型恶意样本检测方法进一步的改进在于：

所述S1的具体方法为：

S11：获取初始模型并遍历初始模型的所有全连接层，得到每个全连接层的权重参数矩阵；

S12：通过高斯模糊测试建立每个全连接层的高斯分布噪音矩阵，并将每个全连接层的权重参数矩阵与对应的高斯分布噪音矩阵叠加，得到每个全连接层的变异矩阵；每个全连接层均采用变异矩阵内的参数更新权重参数，得到变异模型；

S13：重复预设次数S12，得到预设个变异模型。

所述S12中通过高斯模糊测试建立每个全连接层的高斯分布噪音矩阵的具体方法为：

以权重参数矩阵内各参数的均值乘以高斯模糊测试的乘数因子为均值，以权重参数矩阵内各参数的最大值乘以高斯模糊测试的乘数因子为方差，生成高斯分布噪音矩阵。

所述S3的具体方法为：

S31：将若干变异预测结果组合得到变异模型预测序列；

S32：根据初始预测结果及变异模型预测序列进行序贯概率比假设检验；初始采样个数0，从变异模型预测序列中采样一个变异预测结果，进行S33；

S33：计算SPRT概率值；当SPRT概率值小于预设检测阈值时，待检测样本为恶意样本，结束；否则，当采样个数与变异预测结果的个数相同时，待检测样本为正常样本，结束；当采样个数与变异预测结果的个数不同时，进行S32。

所述S33中计算SPRT概率值的具体方法为：

S331：预设序贯概率比假设检验的检验参数δ和假设检验阈值S_h；根据式(1)得到第一参数P₁，根据式(2)得到第二参数P₂：

P₁＝S_h-δ (1)

P₂＝S_h+δ (2)

S332：通过式(3)得到SPRT概率值：

其中，n为采样个数，z为不相等计数，不相等计数初始化为0，每当从变异模型预测序列中采样的变异预测结果与初始预测结果不同，不相等计数加1。

所述预设检测阈值为：0.0124。

还包括以下步骤：

S4：存储恶意样本的信息，基于恶意样本的信息生成报告并发送。

本发明第二方面，一种深度学习模型恶意样本检测***，包括：

变异模型生成模块，用于获取初始模型，修改初始模型的全连接层参数得到若干变异模型；

预测结果生成模块，用于获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果；

样本检测模块，用于当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述深度学习模型恶意样本检测方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述深度学习模型恶意样本检测方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明深度学***衡漏报率与误报率之间的选择。本发明方法的实现简单，复杂度低，无需大的计算开销，经过实际验证，变异模型生成完毕后，对检测单个待检测样本的检测时间开销在0.5ms之内。

进一步的，基于高斯分布的噪音对模型进行变异，模型变异操作简单，对模型的结构依赖小，更方便操控变异率，能够较好的反映恶意样本和正常样本在变异模型中的预测差异性。

进一步的，通过序贯概率比假设检验进行差异的检测，实现简单，复杂度低，计算开销小。

附图说明

图1为本发明实施例的深度学习模型恶意样本检测方法流程框图；

图2为本发明实施例的变异模型生成流程框图；

图3为本发明实施例的待检测样本检测流程框图；

图4为本发明实施例的序贯概率比假设检验流程框图；

图5为本发明实施例的不同样本对模型变异敏感差异示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

随着近些年来突破性的发展，深度学习广泛应用在很多关键***场景中，然而由于深度学习的黑盒原因，使用者可能未发现自己的模型中已经被植入了后门，进而导致可能存在潜在的攻击威胁。

参见图1，本发明提供了一种深度学习模型恶意样本检测方法，利用恶意样本和正常样本对模型变异的敏感性不同，导致他们的预测的差异性的不同进行防御，通过对模型做变异操作，在模型的全连接层权重矩阵中加上高斯分布噪音，生成变异模型集合，将待检测样本输入给变异模型集合进行预测，获取到预测结果序列向量后，利用序贯概率比进行抽样假设检验判别输入是否为恶意样本。基于恶意样本和正常样本对于模型的变异敏感度存在一定的差异性，基于这种敏感性可以有效地判断输入是否包含恶意信息，以及有效地筛选检测出恶意样本，相比于现有的模型检测方法此种方法不需要对模型做更改，不需要提前获取恶意样本的先验知识，泛化性能强，并且对模型本身对正常样本的检测性能影响较小。

具体的，该深度学习模型恶意样本检测方法包括如下步骤。

S1：获取初始模型，修改初始模型的全连接层参数得到若干变异模型。具体的，参见图2，S1包括以下步骤：

S11：获取初始模型并遍历初始模型的所有全连接层，得到每个全连接层的权重参数矩阵。具体的，遍历初始模型Mo中的每个全连接层layer_i，获取第i个全连接层的权重参数矩阵M_w。

S12：通过高斯模糊测试建立每个全连接层的高斯分布噪音矩阵，并将每个全连接层的权重参数矩阵与对应的高斯分布噪音矩阵叠加，得到每个全连接层的变异矩阵；每个全连接层均采用变异矩阵内的参数更新权重参数，得到变异模型。

具体的，通过高斯模糊测试建立每个全连接层的高斯分布噪音矩阵M_GF的具体方法为：以权重参数矩阵内各参数的均值乘以高斯模糊测试的乘数因子r^μ为均值μ，以权重参数矩阵内各参数的最大值乘以高斯模糊测试的乘数因子r^δ为方差δ，生成高斯分布噪音矩阵MGF(μ*r^μ，δ*r^δ)。

然后，将初始模型的第i个全连接层的权重参数矩阵M_w和上述所生成的第i个全连接层的的高斯噪音分布的矩阵M_GF进行相加得到最终的变异矩阵，M_m＝(M_w+M_GF)。将初始模型中所有全连接层的权重参数矩阵中的参数

替换为新的变异矩阵中的参数

生成新的变异参数矩阵，模型整体所有参数进行更新，得到变异模型。

S13：重复预设次数S12，得到预设个变异模型。将预设个变异模型保存至文件用于后续的假设检验，由于每次循环所生成的高斯噪音不完全相同，所以满足生成不同的变异模型的要求，所有的变异模型都会接近一个相同的准确率性能表现，本实施例中，预设次数设置为100次。

S2：获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果。

具体的，通过将待测样本X输入到初始模型Mo中的获得初始预测结果Po。通过将待检测样本X输入到100个变异模型M_m(m₁,m₂,……,m_n,……m₁₀₀)当中，分别获取到这100个变异模型的变异预测结果，变异预测结果组成最终的变异模型预测序列R_p(p₁,p₂,……,p_n,……p₁₀₀)。

恶意样本在初始模型上的预测结果和变异模型上的预测结果几乎没变化，预测结果比较稳定，而正常样本在初始模型上的预测结果往往和变异模型上的预测结果不同，因此在这些变异模型的预测结果中，恶意样本输入的预测稳定性比正常样本的预测稳定性要更高，基于此便可进行恶意样本的检测。

S3：当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。具体的，参见图3，S3包括以下步骤

S31：将若干变异预测结果组合得到变异模型预测序列。

具体的，将100个变异预测结果组合，得到变异模型预测序列R_p(p₁,p₂,……,p_n,……p₁₀₀)。

S32：根据初始预测结果及变异模型预测序列进行序贯概率比假设检验(Sequential Probability Ratio Test，SPRT)，初始采样个数1，每从变异模型预测序列中采样一次，进行一次S303。

具体的，其中，序贯概率比假设检验是数理统计学的一个分支，其名称源出于亚伯拉罕·瓦尔德在1947年发表的一本同名著作，它研究的对象是所谓"序贯抽样方案"，及如何用这种抽样方案得到的样本去作统计推断。序贯抽样方案是指在抽样时，不事先规定总的抽样个数(观测或实验次数)，而是先抽少量样本，根据其结果，再决定停止抽样或继续抽样、抽多少，这样下去，直至决定停止抽样为止。反之，事先确定抽样个数的那种抽样方案，称为固定抽样方案。

例如，一个产品抽样检验方案规定按批抽样品20件，若其中不合格品件数不超过3，则接收该批，否则拒收。在此，抽样个数20是预定的，是固定抽样。若方案规定为:第一批抽出3个，若全为不合格品，拒收该批，若其中不合格品件数为x1<3，则第二批再抽3-x1个,若全为不合格品，则拒收该批，若其中不合格品数为x2<3-x1,则第三批再抽3-x1-x2个，这样下去,直到抽满20件或抽得3个不合格品为止。这是一个序贯抽样方案，其效果与前述固定抽样方案相同，但抽样个数平均讲要节省些。此例中，抽样个数是随机的，但有一个不能超过的上限20。有的序贯抽样方案，其可能抽样个数无上限，例如，序贯概率比假设检验的抽样个数就没有上限。

对于序贯概率比假设检验，首先初始化参数；初始化设定用以控制错误边界的检验参数δ，初始化采样数n为0，初始化采样后预测结果不相等的个数z为0。

具体的，参见图4，其中，计算SPRT概率值的具体方法为：

P₁＝S_h-δ (1)

P₂＝S_h+δ (2)

S332：动态从变异模型预测序列R_p(p₁,p₂,……,p_n,……p₁₀₀)中选取第i个变异预测结果P_i，采样个数n加1，若P_i不等初始预测结果Po，不相等计数z加1。通过式(3)得到SPRT概率值：

将SPRT概率值与预设检测阈值τ相比，当SPRT概率值小于预设检测阈值时，说明待检测样本为恶意样本，结束；否则，当采样个数与变异预测结果的个数不同时，继续进行S32；当采样个数与变异预测结果的个数相同时，本实施例中，n为100，说明待检测样本为正常样本，结束。且对于正常样本***的分类结果为初始模型的分类结果，不做其他改变。

其中，基于假设检验的检测阈值选择，可以调整检测阈值，平衡漏报率与误报率之间的选择，本实施例中，预设的检测阈值选择为：0.0124，该大小的检测阈值可以很好的平衡漏报率与误报率的平衡。

S4：存储恶意样本的信息，基于恶意样本的信息生成报告并发送。具体的，如果待检测样本判定为恶意样本，存储该恶意样本的信息，并基于恶意样本的信息生成报告发送给用户，用户结合恶意样本信息和正常样本输入做出进一步决策。

参见图5，示意了恶意样本和正常类别的输入样本对模型的差异示意图，正常样本更有可能跨越变异模型的决策边界，正常样本相比于恶意的后门输入对模型的变异更加敏感。

本发明深度学习模型恶意样本检测方法，在整个待检测样本的检测过程中，不需要关于输入触发器的先验知识，不依赖于模型的架构特性，使得该方法具有极强的泛化性能。使用高斯噪音变异初始模型并结合SPRT假设检验方法，基于这些方法的本身特性决定了本发明方法的实现简单，复杂度低，无需大的计算开销，经过实际验证，对于单个待检测样本的检测时间在0.5ms内。正常样本和恶意样本对模型变异的敏感度不同，基于两者对于变异模型的预测差异性不同的特性，给恶意样本的检测提供了新的思路，在具体的实际工业环境中，可以人工调节变异比率，更好的找出正常样本与恶意样本的变异边界；对于检测的准确率可以有很大的提升，本方法在工业生产环境中有很强的实用性。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一个实施例中，提供了一种深度学习模型恶意样本检测***，该深度学习模型恶意样本检测***可以用于实现上述深度学习模型恶意样本检测方法，具体的，该深度学习模型恶意样本检测包括变异模型生成模块、预测结果生成模块以及样本检测模块。

其中，变异模型生成模块用于获取初始模型，修改初始模型的全连接层参数得到若干变异模型；预测结果生成模块用于获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果；样本检测模块用于当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于深度学习模型恶意样本检测方法的操作，包括：S1：获取初始模型，修改初始模型的全连接层参数得到若干变异模型；S2：获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果；S3：当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。

再一个实施例中，本发明还提供了一种计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关深度学习模型恶意样本检测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：S1：获取初始模型，修改初始模型的全连接层参数得到若干变异模型；S2：获取待检测样本，将待检测样本分别输入初始模型和若干变异模型，得到初始预测结果及若干变异预测结果；S3：当初始预测结果与若干变异预测结果间的差异率小于预设检测阈值时，确定待检测样本为恶意样本；否则，确定待检测样本为正常样本。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种深度学习模型恶意样本检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的深度学习模型恶意样本检测方法，其特征在于，所述S1的具体方法为：

S13：重复预设次数S12，得到预设个变异模型。

3.根据权利要求2所述的深度学习模型恶意样本检测方法，其特征在于，所述S12中通过高斯模糊测试建立每个全连接层的高斯分布噪音矩阵的具体方法为：

4.根据权利要求1所述的深度学习模型恶意样本检测方法，其特征在于，所述S3的具体方法为：

S31：将若干变异预测结果组合得到变异模型预测序列；

5.根据权利要求4所述的深度学习模型恶意样本检测方法，其特征在于，所述S33中计算SPRT概率值的具体方法为：

P₁＝S_h-δ (1)

P₂＝S_h+δ (2)

S332：通过式(3)得到SPRT概率值：

6.根据权利要求4所述的深度学习模型恶意样本检测方法，其特征在于，所述预设检测阈值为：0.0124。

7.根据权利要求1所述的深度学习模型恶意样本检测方法，其特征在于，还包括以下步骤：

8.一种深度学习模型恶意样本检测***，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述深度学习模型恶意样本检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述深度学习模型恶意样本检测方法的步骤。