CN115952493A

CN115952493A - 一种黑盒模型的逆向攻击方法、攻击装置以及存储介质

Info

Publication number: CN115952493A
Application number: CN202211689305.9A
Authority: CN
Inventors: 罗文坚; 贾焰; 叶子鹏; 杨向凯
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-11

Abstract

本申请实施例公开了一种黑盒模型的逆向攻击方法、攻击装置以及存储介质，用于黑盒模型技术领域，包括：将预设训练数据分别输入黑盒模型以及特征提取模型，得到预设训练数据的预测概率以及预设训练数据的数据特征；基于预设训练数据的预测概率以及数据特征对映射网络进行训练；将待测数据输入黑盒模型得到的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征；基于预设白盒模型逆向攻击算法对待测数据的数据特征中的隐向量进行优化，得到待测数据对应的目标隐向量，并根据目标隐向量得到逆向攻击的目标数据；在黑盒模型逆向攻击时，能够实现高维度的数据回归。

Description

一种黑盒模型的逆向攻击方法、攻击装置以及存储介质

技术领域

本申请实施例涉及黑盒模型技术领域，尤其涉及一种黑盒模型的逆向攻击方法、攻击装置以及存储介质。

背景技术

现有的网络模型一般包括黑盒模型(black-box model)以及白盒模型(white-boxmodel)；黑盒模型是指诸如神经网络、梯度增强模型或复杂的集成模型。黑盒模型通常具有很高的准确性。然而，这些模型的内部工作机制却难以理解，也无法估计每个特征对模型预测结果的重要性，难以理解不同特征之间的相互作用关系。白盒模型如线性回归和决策树之类的简单模型，预测能力通常是有限的，且难以对数据集内在的复杂性进行建模(如特征交互)。然而，这类简单模型通常有更好的可解释性，内部的工作原理也更容易解释。

现有网络模型逆向攻击方法一般采用基于梯度的优化方法，在计算梯度时需要目标模型的网络结构、参数信息完全可知才可以成功实施。然而，对于现实中部署的大部分网络模型，对于攻击者而言其结构一般为黑盒模型。现有的黑盒模型逆向攻击旨在仅通过目标模型的预测输出，重构出模型的训练数据特征。当数据为图像时，模型逆向攻击的实现原理：给定需要攻击的标签类，重构出攻击图像，该攻击图像在目标模型的给定攻击标签类上具有极高预测置信度。攻击者只能通过输入-输出的形式访问目标模型，难以获取模型结构、参数的相关信息。目前，黑盒模型的逆向攻击相关研究仍非常匮乏，且仅有的少量研究在逆向攻击性能上表现较差。为发展安全可靠的行业智能化体系，有必要对黑盒模型逆向攻击开展研究。

已有的黑盒模型逆向攻击为基于逆向生成网络的方法直接通过辅助数据在目标模型(即黑盒模型)的预测输出，训练由输出空间到输入空间的逆向生成网络。然而，该方法存在以下问题：目标模型难训练，通常只能靠过拟合的形式去记忆点到点的映射关系；目标模型缺乏泛化能力，对于给定的类标签，难以生成正确的图像。其原因在于，图像的维度较大，仅通过预测输出，在黑盒模型逆向攻击时，难以实现高维度的图像回归。

发明内容

本申请实施例提供了一种黑盒模型的逆向攻击方法、攻击装置以及存储介质，能够在黑盒模型逆向攻击时，能够实现高维度的数据回归。

本申请实施例提供了一种黑盒模型的逆向攻击方法，包括：

获取基于预设训练数据训练完成的特征提取模型；

将所述预设训练数据分别输入所述黑盒模型以及所述特征提取模型，得到所述预设训练数据的预测概率以及所述预设训练数据的数据特征；

基于所述预设训练数据的预测概率以及所述预设训练数据的数据特征对映射网络进行训练；

将待测数据输入所述黑盒模型得到的目标预测概率输入训练完成的映射网络，得到所述待测数据的数据特征；

基于预设白盒模型逆向攻击算法对所述待测数据的数据特征中的隐向量进行优化，得到所述待测数据对应的目标隐向量，并根据所述目标隐向量得到逆向攻击的目标数据。

进一步的，所述预设训练数据包括：图像训练数据，所述黑盒模型包括：图像识别模型；

所述将所述预设训练数据分别输入所述黑盒模型以及所述特征提取模型，得到所述预设训练数据的预测概率以及所述预设训练数据的数据特征包括：

将所述图像训练数据输入所述图像识别模型，所述图像识别模型输出所述图像训练数据的预测概率；

将所述图像训练数据输入所述特征提取模型，所述特征提取模型输出所述图像训练数据的图像特征。

进一步的，所述基于所述预设训练数据的预测概率以及所述预设训练数据的数据特征对映射网络进行训练包括：

将所述图像训练数据的预测概率作为所述映射网络的输入，所述图像训练数据的图像特征作为所述映射网络的输出，基于所述图像训练数据中预测概率以及图像特征的映射关系对所述映射网络进行训练。

进一步的，所述待测数据包括：待测图像数据；所述将待测数据输入所述黑盒模型得到的目标预测概率输入训练完成的映射网络，得到所述待测数据的数据特征包括：

将所述待测图像数据输入所述图像识别模型，得到所述待测图像数据对应的目标预测概率；

将所述待测图像数据对应的目标预测概率转换成预设特征形式；

将所述预设特征形式输入所述训练完成的映射网络，基于所述训练完成的映射网络的映射关系输出所述待测图像数据的目标图像特征。

进一步的，所述基于预设白盒模型逆向攻击算法对所述待测数据的数据特征中的隐向量进行优化，得到所述待测数据对应的目标隐向量包括：

基于预设白盒模型逆向攻击算法：

得到所述待测数据对应的目标隐向量w^*；

其中，w为所述待测数据的数据特征中的隐向量，E为所述特征提取模型,M为所述映射网络，G为所述待测数据对应的生成器，y_c为所述待测数据对应的目标预测概率。

进一步的，所述得到所述待测数据的目标特征值后，还包括；

获取所述目标隐向量对应的第一适应度以及所述待测数据对应的预设测试向量；

将所述目标隐向量以及所述预设测试向量的维度进行交叉，得到所述目标隐向量对应的子代隐向量；

比较所述目标隐向量对应的第一适应度以及所述子代隐向量对应的第二适应度，确定适应度较高的隐向量；

将适应度较高的隐向量作为所述目标隐向量，并返回执行获取所述目标隐向量对应的第一适应度以及所述待测数据对应的预设测试向量的步骤，得到满足预设适应度的隐向量。

进一步的，所述获取所述待测数据对应的预设测试向量包括:

基于预设变异算子算法：

得到所述待测数据对应的预设测试向量u⁽ⁱ⁾；

其中，w⁽ⁱ⁾为所述待测数据对应的目标隐向量，β₁为最优适应度隐向量得到的差分向量的权重，

为适应度最大的隐向量，β₂为随机隐向量得到的差分向量的权重，nv为随机差分向量的数量，k为第k组随机差分向量，

为目标隐向量外任意两组隐向量。

本申请实施例还包括一种黑盒模型的逆向攻击装置，包括：

获取单元，用于获取基于预设训练数据训练完成的特征提取模型；

输入单元，用于将所述预设训练数据分别输入所述黑盒模型以及所述特征提取模型，得到第一训练数据以及所述第一训练数据的标签；

训练单元，用于基于所述第一训练数据以及所述第一训练数据的标签对映射网络进行训练；

执行单元，用于将待测数据的标签输入训练完成的映射网络，得到所述待测数据的特征值；

优化单元，用于基于预设白盒模型逆向攻击算法对所述特征值中的隐向量进行优化，得到所述待测数据对应的目标隐向量。

本申请实施例还包括一种黑盒模型的逆向攻击装置，包括：

中央处理器，存储器以及输入输出接口；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行上述的方法。

本申请实施例还包括一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

包括：将预设训练数据分别输入黑盒模型以及特征提取模型，得到预设训练数据的预测概率以及预设训练数据的数据特征；基于预设训练数据的预测概率以及数据特征对映射网络进行训练；将待测数据输入黑盒模型得到的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征；基于预设白盒模型逆向攻击算法对待测数据的数据特征中的隐向量进行优化，得到待测数据对应的目标隐向量，并根据目标隐向量得到逆向攻击的目标数据；通过待测数据输入黑盒模型得到的目标预测概率输入训练完成的映射网络，得到所述待测数据的数据特征，在黑盒模型逆向攻击时，无需获取黑盒模型的内部结构参数，即可实现高维度的数据回归。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一个黑盒模型的逆向攻击流程图；

图2为本申请实施例公开的一个基于映射网络的逆向攻击示意图；

图3为本申请实施例公开的另一黑盒模型的逆向攻击流程图；

图4为本申请实施例公开的一个黑盒模型的逆向攻击装置图；

图5为本申请实施例公开的另一黑盒模型的逆向攻击装置图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一个具体实施方式”或“一个实施例”等类似表达，其描述了所有可能实施例的子集，但是可以理解，“一个具体实施方式”或“一个实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。在以下的描述中，涉及到的术语多个是指至少两个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

现有的黑盒模型逆向攻击为基于逆向生成网络的方法直接通过辅助数据在目标模型(即黑盒模型)的预测输出，训练由输出空间到输入空间的逆向生成网络。然而，该方法存在以下问题：目标模型难训练，通常只能靠过拟合的形式去记忆点到点的映射关系；目标模型缺乏泛化能力，对于给定的类标签，难以生成正确的图像。其原因在于，图像的维度较大，仅通过预测输出，在黑盒模型逆向攻击时，难以实现高维度的图像回归。因此，本申请实施例提供了一种黑盒模型的逆向攻击方法，能够在黑盒模型逆向攻击时，能够实现高维度的数据回归，如图1所示，具体步骤如下：

101、获取基于预设训练数据训练完成的特征提取模型。

本申请实施例中，黑盒模型的逆向攻击装置可以获取基于预设训练数据训练完成的特征提取模型，其中，该预设训练数据可以为图像数据或音频数据，具体此处不做限定，该特征提取模型可以为神经网络模型，如ResNet网络模型，或者直接使用公开的预训练好的网络模型，具体此处不做限定。可以通过预设训练数据训练特征提取模型(特征提取网络)。

102、将预设训练数据分别输入黑盒模型以及特征提取模型，得到预设训练数据的预测概率以及数据特征。

本申请实施例中，获取预设训练数据后，可以将预设训练数据分别输入黑盒模型以及特征提取模型，得到预设训练数据的预测概率以及预设训练数据的数据特征。该黑盒模型为进行逆向攻击的目标模型，该黑盒模型内的结构参数一般为未知的。具体的，可以将预设训练数据输入黑盒模型，黑盒模型输出训练数据对应的目标标签上的预测概率；该预测概率为当预设训练数据输入黑盒模型后，黑盒模型输出多种训练数据的概率。将预设训练数据输入特征提取模型，在特征提取模型中提取预设训练数据的数据特征。

其中，当该预设训练数据为图像训练数据时，该黑盒模型可以为对应的图像识别模型；具体的，可以将图像训练数据输入图像识别模型，图像识别模型输出图像训练数据的预测概率；将图像训练数据输入特征提取模型，特征提取模型提取得到图像特征，特征提取模型输出图像训练数据的图像特征。

103、基于预设训练数据的预测概率以及预设训练数据的数据特征对映射网络进行训练。

得到预设训练数据的预测概率以及数据特征后，可以基于预设训练数据的预测概率以及预设训练数据的数据特征对映射网络进行训练，得到训练完成的映射网络，如图2所示，图中辅助数据为预设训练数据，目标模型为黑盒模型，M为映射网络，E为特征提取模型，可以理解的是，该特征提取模型的内部结构参数为可知的，即该特征提取模型可以理解为白盒模型，可以基于梯度下降法训练黑盒模型输出到特征空间的映射网络。该映射网络可以理解为逆向映射网路。

具体的，当该预设训练数据为图像训练数据时，可以将图像训练数据的预测概率作为映射网络的输入，图像训练数据的图像特征作为映射网络的输出，基于图像训练数据中预测概率以及图像特征的映射关系对映射网络进行训练。即映射网络可以学习图像训练数据中预测概率以及图像特征的映射关系，以便于后续使用该映射关系。可以理解的是，即使特征提取模型以及黑盒模型的模型结构不同，但图像在特征空间的特征组成是相似的，因此只需要将图像映射到特征提取模型的特征空间，再对已知结构和参数的特征提取模型发动白盒模型逆向攻击，既可得到逆向攻击对应的图像。

104、将待测数据对应的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征。

完成映射网络的训练后，可以将待测数据对应的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征。即将待测数据输入黑盒模型得到的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征。可以根据映射网络中预测概率与数据特征之间的映射关系，得到待测数据的数据特征。

具体的，该待测数据可以为：待测图像数据；将待测图像数据输入图像识别模型，得到待测图像数据对应的目标预测概率。将待测图像数据对应的目标预测概率转换成预设特征形式。该预设特征形式可以为one-hot向量形式，one-hot向量为将类别变量转换为机器学习算法易于利用的一种形式的过程，one-hot向量的表示为一项属性的特征向量，也就是同一时间只有一个激活点(不为0)，one-hot向量只有一个特征是不为0的，其他都是0。将预设特征形式输入训练完成的映射网络，基于训练完成的映射网络的映射关系输出待测图像数据的目标图像特征。即将目标预测概率对应的one-hot向量，输入到映射网络M，M的输出即为其特征值。

105、基于预设白盒模型逆向攻击算法对待测数据的数据特征中的隐向量进行优化，得到逆向攻击的目标数据。

得到待测数据的数据特征后，可以基于预设白盒模型逆向攻击算法对待测数据的数据特征中的隐向量进行优化，得到逆向攻击的目标数据。可以理解的是，可以基于预设白盒模型逆向攻击算法对待测数据的数据特征中的隐向量进行优化，得到待测数据对应的目标隐向量，并根据目标隐向量得到逆向攻击的目标数据。

其中，基于预设白盒模型逆向攻击算法对所述待测数据的数据特征中的隐向量进行优化，得到所述待测数据对应的目标隐向量包括：基于预设白盒模型逆向攻击算法：

得到待测数据对应的目标隐向量w^*；其中，w为待测数据的数据特征中的隐向量，E为特征提取模型,M为所述映射网络，G为待测数据对应的生成器，yc为待测数据对应的目标预测概率。

将优化后的隐向量输入待测数据对应的生成器，既可得到逆向攻击的目标数据。

可见，本申请实施例包括：将预设训练数据分别输入黑盒模型以及特征提取模型，得到预设训练数据的预测概率以及预设训练数据的数据特征；基于预设训练数据的预测概率以及数据特征对映射网络进行训练；将待测数据输入黑盒模型得到的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征；基于预设白盒模型逆向攻击算法对待测数据的数据特征中的隐向量进行优化，得到待测数据对应的目标隐向量，并根据目标隐向量得到逆向攻击的目标数据；通过待测数据输入黑盒模型得到的目标预测概率输入训练完成的映射网络，得到待测数据的数据特征，在黑盒模型逆向攻击时，无需获取黑盒模型的内部结构参数，即可实现高维度的数据回归。

进一步的，映射网络M通常是有损的，且对于较高维度的数据输入，会有较大的损失。因此，仅通过上述步骤得到的逆向攻击的目标数据准确度可能不够高。因此，上述步骤的待测数据将以多组随机值作为初值，并经过更新得到多组优化后的隐向量。下面将以这些多组优化后的隐向量作为初值，通过无梯度的群体智能优化算法进行更新，如图3所示，具体步骤如下：

301、获取目标隐向量对应的第一适应度以及待测数据对应的预设测试向量。

本申请实施例中，可以获取目标隐向量对应的第一适应度以及待测数据对应的预设测试向量，其中，当待测数据为图像数据时，可以将目标隐向量输入生成器可得到对应的生成图像，将图像输入到图像识别模型，可以得到预测输出值，预测输出在目标标签上的预测概率即为适应度，需要注意的是，本申请实施例所述的适应度可以理解为黑盒模型输出的预测概率，后面不再赘述。

获取所述待测数据对应的预设测试向量可以为：基于预设变异算子算法(current-to-best变异算子)：

得到待测数据对应的预设测试向量u⁽ⁱ⁾；其中，w⁽ⁱ⁾为待测数据对应的目标隐向量，β₁为最优适应度隐向量得到的差分向量的权重，

为适应度最大的隐向量，β₂为随机隐向量得到的差分向量的权重，nv为随机差分向量的数量，一共累加了nv组不同的差值，k为第k组随机差分向量，

为目标隐向量外任意两组隐向量。

302、将目标隐向量以及预设测试向量的维度进行交叉，得到目标隐向量对应的子代隐向量。

接着，将目标隐向量以及预设测试向量的维度进行交叉，得到目标隐向量对应的子代隐向量。即对每一对w⁽ⁱ⁾以及u⁽ⁱ⁾按照概率对各维度进行交叉，得到目标隐向量对应的子代隐向量

具体的，可以先设定隐向量各维度的阈值p，通常为0.5；将w⁽ⁱ⁾以及u⁽ⁱ⁾中各维度的向量取和并取平均值，将平均值生成0-1之间均匀分布的随机数r；在每个维度中，若r小于p，则选择w⁽ⁱ⁾中该维度对应的值；若r大于p，则选择u⁽ⁱ⁾中该维度对应的值。

303、比较目标隐向量对应的第一适应度以及子代隐向量对应的第二适应度，确定适应度较高的隐向量。

比较目标隐向量对应的第一适应度以及子代隐向量对应的第二适应度，确定适应度较高的隐向量。其中，当待测数据为图像数据时，子代隐向量对应的第二适应度为，通过生成器将子代隐向量生成图像数据，将图像数据输入图像识别模型(黑盒模型)，图像识别模型输出第二适应度(预测概率)。

304、将适应度较高的隐向量作为目标隐向量，并返回执行步骤301。

将适应度较高的隐向量作为目标隐向量，并返回执行获取目标隐向量对应的第一适应度以及待测数据对应的预设测试向量的步骤，得到满足预设适应度的隐向量。即将具有最佳适应度的个体作为最终的隐向量。

本申请实施例中，提出了一种二阶段的模型逆向攻击方法，可以在黑盒场景中实现高性能的模型逆向攻击。具体地，在第一阶段，设计一个简单的逆向映射网络M，将目标模型输出的预测概率映射到辅助特征提取器(特征提取模型)的特征空间。由于辅助特征提取器的参数是可获取的，得到映射的特征后，可以将其视作一个白盒问题，搜索生成对抗网络的输入空间，合成一个与映射的特征相似的图像。然而，通常训练的映射网络M是有损的，因此，在第二阶段，采用无梯度优化算法来优化得到的图像，以进一步提高攻击性能。无需目标模型任何内部结构参数信息，有效实现了黑盒模型逆向攻击。设计了易于训练的逆向网络实现模型预测输出到特征空间的逆向映射，并将问题转化为白盒形式；使用模型逆向攻击的无梯度优化策略，有效提升黑盒模型逆向攻击性能。整个二阶段的架构，有效实现了黑盒场景下的模型逆向攻击。

本申请实施例还提供了一种黑盒模型的逆向攻击装置，如图4所示，包括：

获取单元401，用于获取基于预设训练数据训练完成的特征提取模型；

输入单元402，用于将所述预设训练数据分别输入所述黑盒模型以及所述特征提取模型，得到第一训练数据以及所述第一训练数据的标签；

训练单元403，用于基于所述第一训练数据以及所述第一训练数据的标签对映射网络进行训练；

执行单元404，用于将待测数据的标签输入训练完成的映射网络，得到所述待测数据的特征值；

优化单元405，用于基于预设白盒模型逆向攻击算法对所述特征值中的隐向量进行优化，得到所述待测数据对应的目标隐向量。

本申请实施例提供了一种黑盒模型的逆向攻击装置500，如图5所示，包括：

中央处理器501，存储器502以及输入输出接口503；

所述存储器502为短暂存储存储器或持久存储存储器；

所述中央处理器501配置为与所述存储器502通信，并执行所述存储器502中的指令操作以执行上述的逆向攻击方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。