CN116523032B

CN116523032B - 一种图像文本双端迁移攻击方法、装置和介质

Info

Publication number: CN116523032B
Application number: CN202310235411.8A
Authority: CN
Inventors: 张音捷; 王之宇; 白冰; 张兴明; 邹涛; 孙才俊; 张奕鹏; 陈岱渊; 黎海燕; 孙天宁; 朱桢; 徐昊天
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-09-29
Anticipated expiration: 2043-03-13
Also published as: CN116523032A

Abstract

本发明公开了一种图像文本双端迁移攻击方法、装置和介质，该方法的步骤包括分析攻击目标模型、本地替代模型训练、对抗样本生成和对抗样本迁移，其中，分析攻击目标模型，即对比语言图像预训练模型，其可以接受图像与文本两端输入，之后根据输出向量的相似度进行结果预测；本地替代模型训练为根据目标模型的骨干网络训练替代模型，用于迁移攻击；对抗样本生成为对本地替代模型的进行攻击，进而获得图像和文本的对抗样本；对抗样本迁移为对抗样本输入对比语言图像预训练模型，最终导致网络无法正常工作，网络预测分类错误。本发明从图像和文本两个输入端口进行攻击，同时在本地训练相关模型进行迁移攻击，大幅提高了攻击成功率。

Description

一种图像文本双端迁移攻击方法、装置和介质

技术领域

本发明涉及人工智能安全领域，尤其涉及一种图像文本双端迁移攻击方法、装置和介质。

背景技术

随着计算机***的计算处理性能不断不提高，同时日趋成熟的大数据技术带来的海量数据积累，深度学习在各个领域都取得巨大的成功以及广泛的应用。然而部分研究者发现在输入的数据上加入少量精心构造的人类无法识别的“扰动”，可以导致深度神经网络预测结果错误，甚至以高置信度输出错误的结果，这种添加扰动的输入数据通常被称为对抗样本。近两年由于自注意力网络（Transformer）框架的提出，多模态模型逐渐成为人工智能研究热点。传统神经网络只能接受单一模态的输入，如单图像单文本，而多模态模型其可以接受多种模态类型的输入，具有比单模态模型更强大的性能，对比语言图像预训练（Contrastive Language–Image Pre-training，CLIP）模型，其可以接受图像与文本两端的输入，在各个下游任务中都获得了非常高的准确率，但同时由于支持多个模态的输入，受到对抗攻击的风险也会相应的成倍增加。

现有的对抗样本攻击主要集中在单模态领域，因为单模态领域输入形式较为单一，攻击场景也较为固定，对于多模态模型的结构复杂，只对于单一模态的攻击效果较差，对于其的攻击需要对多个模态同时进行攻击，其相关研究较为匮乏。部分多模态攻击手段在图像上直接添加文本补丁，使得多模态模型分类时大幅偏向添加的文本字段。但是上述攻击手段中的添加文本补丁，其会遮挡原图像中的物体信息，并且该类遮挡较为容易被人类察觉到，攻击隐蔽性不强；另一方面，由于多模态模型可以采用多种骨干网络，上述攻击手段只能针对于自注意力网络（Transformer）等骨干网络，对于残差骨干网络攻击成功率较低，攻击效果较差。实际环境中，攻击者通常无法获得被攻击模型的参数，无法直接针对被攻击模型设计对抗样本，需要利用训练本地替代模型进行攻击迁移或者对被攻击模型的多次查询以拟合被攻击模型的梯度信息。

本发明提出了一种图像文本双端迁移攻击方法，基于对比语言图像预训练模型的骨干网络于本地分别训练一个近似的替代模型，对图像与文本的替代模型进行双端攻击，获得图像与文本的对抗样本，之后将获得的对抗样本迁移至基于对比语言图像预训练模型，实现对于多模态模型的多端黑盒迁移攻击。

发明内容

本发明的目的在于针对现有技术的不足，提供一种图像文本双端迁移攻击方法、装置和介质。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种图像文本双端迁移攻击方法，包括以下步骤：

（1）分析对比语言图像预训练模型，以确定骨干网络；其中，所述对比语言图像预训练模型接受图像端与文本端两端输入，所述文本端在输入对比语言图像预训练模型前根据提示规则构造提示语句，所述对比语言图像预训练模型根据图像输出向量与文本输出向量的相似度进行结果预测；

（2）本地根据对比语言图像预训练模型的骨干网络训练用于迁移攻击的替代模型，其中，骨干网络为用于提取图像特征或者文本特征的后台网络；

（3）对本地的替代模型的图像输入和文本输入进行扰动，获得图像和文本的对抗样本；

（4）将所述步骤（3）获得的图像和文本的对抗样本输入对比语言图像预训练模型中，以获得被扰动的预测结果。

进一步地，所述对比语言图像预训练模型包括图像特征提取器和文本特征提取器，所述对比语言图像预训练模型的训练数据为匹配的图像-文本对。

进一步地，所述步骤（2）包括以下子步骤：

（2.1）获取对比语言图像预训练模型的骨干网络的类型；

（2.2）根据骨干网络的类型在数据集上进行训练，以获取替代模型。

进一步地，所述骨干网络的类型包括残差网络和自注意力网络。

进一步地，所述替代模型的输出为分类概率。

进一步地，所述步骤（3）包括以下子步骤：

（3.1）将待攻击的图像输入替代模型，通过分类概率和交叉熵损失函数回传获取图像梯度信息，根据图像梯度信息获取图像的扰动信息，以获取扰动后的图像；

（3.2）根据图像标签词构造文本端的提示语句，将提示语句输入替代模型以获取句向量的梯度信息，根据梯度信息获取文本的扰动信息，以获取扰动后的文本；

（3.3）将所述步骤（3.1）和所述步骤（3.2）获得的扰动后的图像与文本保存收集，作为图像和文本的对抗样本，用于下一步骤的迁移攻击。

进一步地，所述步骤（3.1）中获取扰动后的图像具体为：将图像的扰动信息与原图像相加以获取扰动后的图像；

所述步骤（3.2）中获取扰动后的文本具体为：将文本的扰动信息与原句向量相加以获取扰动后的文本。

进一步地，所述步骤（4）包括以下子步骤：

（4.1）将所述步骤（3）获得的文本的对抗样本输入对比语言图像预训练模型中，提取文本特征；

（4.2）将所述步骤（3）获得的图像的对抗样本输入对比语言图像预训练模型中，提取图像特征；

（4.3）将图像特征和文本特征进行比对匹配，以获取扰动后的预测结果。

本发明实施例第二方面提供了一种图像文本双端迁移攻击装置，包括一个或多个处理器，用于实现上述的图像文本双端迁移攻击方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的图像文本双端迁移攻击方法。

本发明的有益效果是，本发明综合考虑了对比语言图像预训练模型中图像文本双端输入的安全隐患，针对其不同端的输入分别进行对抗样本攻击，有效提高了扰动成功率和攻击成功率；本发明针对对比语言图像预训练模型的骨干网络设计本地替代模型，在本地替代模型上生成对抗样本，进行迁移攻击，更加具有实践意义。

附图说明

图1为本发明实施例中的迁移攻击架构图；

图2为本发明实施例中的对比语言图像预训练模型的训练流程图；

图3为本发明实施例中的VIT骨干网络图像攻击扰动灰度图；

图4为本发明实施例中的残差骨干网络图像攻击扰动灰度图；

图5为本发明实施例中的图像文本双端迁移攻击装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明算法的目标是通过基于对比语言图像预训练模型的骨干网络类型，于本地训练其替代模型，通过替代模型生成相应的对抗样本，之后将对抗样本迁移至对比语言图像预训练模型，实现对预训练模型的迁移攻击。

参见图1，本发明的图像文本双端迁移攻击方法，包括以下步骤：

（1）分析对比语言图像预训练模型，以确定骨干网络；其中，对比语言图像预训练模型可以接受图像端与文本端两端输入，文本端在输入对比语言图像预训练模型前根据提示规则构造提示语句，对比语言图像预训练模型根据图像输出向量与文本输出向量的相似度进行结果预测。

本实施例中，攻击目标网络为对比图像语言预训练模型，由一个图像特征提取器和一个文本特征提取器构成，所以该对比图像语言预训练模型可以接受图像端与文本端两端输入，它的训练数据主要由匹配的图像-文本对构成。如图2所示，通过对比学习进行数据增强，对于包含N个图像-文本对的训练批次，将N个文本特征和N个图像特征两两组合，获得N个正样本和N²-N个负样本。

目标函数为最大化正样本的相似度同时最小化负样本的相似度，具体可以转换为N分类的交叉熵损失，其表达式为：

其中，表示对比语言图像预训练模型对于i类的预测概率，j表示第j个图像-文本对。通过对图像到文本做交叉熵损失，和对文本到图像做交叉熵损失，通过优化这两个损失函数之和，从而达到图像和文本信息的语义空间对齐的效果。推理过程中，以图像分类为例，设存在M类样本，即M类标签，首先将类别信息通过与提示词模板拼接起来经过文本编码器，获得M个对应的文本特征向量；同时将图像经过图像特征提取器获得对应的图像特征向量，将图像特征向量和所有的类别对应的文本特征向量做内积计算相似度，取最大相似度的文本特征向量的对应标签，即是图像的标签。

（2）本地根据对比语言图像预训练模型的骨干网络训练用于迁移攻击的替代模型，其中，骨干网络为用于提取图像特征或者文本特征的后台网络。

通常情况下，攻击者不知道被攻击网络的具体参数，需要在本地构建类似于被攻击网络的本地模型，用于生成对抗样本，这个本地模型也被称为替代模型。

（2.1）获取对比语言图像预训练模型的骨干网络的类型。

骨干网络的类型包括但不限于：残差网络和自注意力网络（Transformer）。

骨干网络的类型有很多，可以根据不同的需求进行选择替换。例如，骨干网络为CNN，是一个用于提取图像特征的骨干网络；应当理解的是，骨干网络还可以为VIT，同样是用于提取图像特征的骨干网络，具体可以根据实际需要进行选择。

（2.2）根据骨干网络的类型在数据集上进行训练，可以获得替代模型。

其中，替代模型的输出为分类概率。

例如，例如，本实施例中，基于残差网络和自注意力网络（Transformer）两类骨干网络进行训练，可以生成一个图像本地替代模型，然后可以根据替代模型进行迁移攻击。该替代模型的网络输入为图像，输出为分类概率。假设收集到的数据集存在M类样本，通过M分类的交叉熵损失训练：

其中，表示替代模型对于i类的预测概率，j表示第j个样本。

需要说明的是，还可以根据骨干网络的类型收集类似的预训练模型，选择现有的部分已经训练完成的训练模型作为替代模型。

（3）对本地的替代模型的图像输入和文本输入进行扰动，获得图像和文本的对抗样本。

应当理解的是，同时对图像输入和文本输入进行扰动，实现了双端的扰动攻击；还可以只对图像输入或者文本输入进行扰动，可以实现单端的扰动攻击。

（3.1）将待攻击的图像输入替代模型，通过分类概率和交叉熵损失函数回传获取图像梯度信息，根据图像梯度信息/>获取图像的扰动信息，以获取扰动后的图像。

本实施例中，将待攻击的图像输入替代模型，可以输出图像的分类概率，再通过图像的分类概率和前述的交叉熵损失函数回传，即可获得图像梯度信息。然后根据图像梯度信息/>进行扰动计算，就可以获取到图像的扰动信息，其表达式为：

其中，表示扰动信息；/>表示扰动系数，其值越大，扰动程度越高；/>为符号函数；/>表示M分类的图像梯度信息，/>、/>、/>分别表示网络参数、图像信息以及图像的真实标签；s表示图像输入，/>表示对s求导。

进一步地，符号函数的表达式为：

其中，在本实施例中，u表示。

将图像的扰动信息直接与原图像进行相加，便可以获取到扰动后的图像，将其表示为：

其中，表示扰动后的图像，/>表示原图像，/>表示图像的扰动信息。

（3.2）根据图像标签词构造文本端的提示语句，将提示语句输入替代模型以获取句向量的梯度信息，根据梯度信息/>获取文本的扰动信息，以获取扰动后的文本。

本实施例中，在文本端输入图像标签词，即图像本身的标签，并且构造输入到文本端的提示语句，比如小狗图像的标签词为dog，则构造的提示语句为A photo of a dog，对提示语句进行扰动攻击。

具体地，需要先自行构造提示词数据库作为训练素材，图像数据集中存在M分类样本，设存在D分类提示模板，则可以构成D*M类样本，如表1所示：

表1：图像标签词及其提示语句

文本端模型采用双向编码预训练模型，微调也使用M类交叉熵损失进行训练。

本发明实施例直接在向量侧的连续空间上进行扰动，首先提示语句输入网络获得句向量：

其中，n表示提示语句的长度，表示第i个词的词向量。

根据获得句向量的梯度信息进行扰动计算，获得文本的扰动信息，其表达式为：

其中，表示文本的扰动信息；/>表示扰动系数，其值越大，扰动程度越高；，/>表示文本输入，/>表示对/>求导，/>表示句向量的梯度信息，/>、/>、/>分别表示网络参数、句向量以及文本的真实标签；/>表示矩阵二范数。

将文本的扰动信息直接与原句向量进行相加，便可以获取到扰动后的句向量，即扰动后的文本，将其表示为：

其中，表示扰动后的句向量，即扰动后的文本，/>表示原句向量，/>表示文本的扰动信息。

（3.3）将步骤（3.1）和步骤（3.2）获得的扰动后的图像与文本保存收集，作为图像和文本的对抗样本，用于下一步骤的迁移攻击。

（4）将步骤（3）获得的图像和文本的对抗样本输入对比语言图像预训练模型中，以获得被扰动的预测结果。

本实施例中，将对抗样本迁移到对比语言图像预训练模型，即步骤（3）得到的扰动后的图像与扰动后的句向量/>输入至对比语言图像预训练模型，可以获得被扰动的预测结果，最终导致网络无法正常工作，网络预测分类错误。

具体地，如图1所示，其中虚线表示正常输入路径，实线表示攻击路径。

（4.1）将步骤（3）获得的文本的对抗样本输入对比语言图像预训练模型中，提取文本特征。

（4.2）将步骤（3）获得的图像的对抗样本输入对比语言图像预训练模型中，提取图像特征。

示例性地，扰动后的结果如图3和图4所示，分别表现了在两种不同的骨干网络下，对于同一张图片生成的扰动灰度图像，从图中可以发现，相同算法扰动系数的情况下，不同骨干网络下添加的扰动样式会有些不同，并且与骨干网络的数据处理过程有一定关联程度。图3以自注意力网络（Transformer）中的VIT为骨干网络进行攻击，其扰动样式中明显存在分割的痕迹，与自注意力网络（Transformer）的将图像分割再输入网络的预处理过程相对应。

本实施例中，通过扰动成功率（Perturbed Success Rate，PSR）和攻击成功率（Attack Success Rate，ASR）两个指标衡量攻击的效果：

扰动成功率（Perturbed Success Rate，PSR）的表达式为：

其中，表示第/>个样本是否扰动成功，即扰动后的网络输出和对比语言图像预训练模型的输出是否相同，若不同，则表示扰动成功；若相同，则表示扰动失败。Images表示样本总数。

进一步地，根据下列表达式判断样本是否扰动成功：

其中，Perturbedbed label表示扰动后的预测标签，CLIP Label是对比语言图像预训练模型的预测标签。

攻击成功率（Attack Success Rate，ASR）的表达式为：

其中，表示第/>个样本是否攻击成功，即扰动后的网络输出和真实标签是否相同，若不同，则表示攻击成功；若相同，则表示攻击失败。Images表示样本总数。

进一步地，根据下列表达式判断样本是否攻击成功：

其中，Perturbedbed label表示扰动后的预测标签，Ground Truth是原始真实标签。

图像分类任务下，采用单模态攻击和多模态双端下攻击成功率和网络预测准确率如下表2所示：

表2：不同模态下攻击成功率和网络预测准确率对比

从表2可知，单文本端攻击强度高于单图像端攻击，推测是由于文本端主要作为图像标签导引而存在，对于最后分类影响较大。图像文本的联合攻击能够大幅提高攻击成功率和降低模型性能。

综上所述，本发明综合考虑了对比语言图像预训练模型中图像文本双端输入的安全隐患，针对其不同端的输入分别进行对抗样本攻击，有效提高了扰动成功率和攻击成功率；本发明针对对比语言图像预训练模型的骨干网络设计本地替代模型，在本地替代模型上生成对抗样本，进行迁移攻击，更加具有实践意义。

与前述图像文本双端迁移攻击方法的实施例相对应，本发明还提供了图像文本双端迁移攻击装置的实施例。

参见图5，本发明实施例提供的一种图像文本双端迁移攻击装置，包括一个或多个处理器，用于实现上述实施例中的图像文本双端迁移攻击方法。

本发明图像文本双端迁移攻击装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明图像文本双端迁移攻击装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的图像文本双端迁移攻击方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

应当理解的是，本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其他的修改、变化、应用和实施例，并且认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种图像文本双端迁移攻击方法，其特征在于，包括以下步骤：

(1)分析对比语言图像预训练模型，以确定骨干网络；其中，所述对比语言图像预训练模型接受图像端与文本端两端输入，所述文本端在输入对比语言图像预训练模型前根据提示规则构造提示语句，所述对比语言图像预训练模型根据图像输出向量与文本输出向量的相似度进行结果预测；

(2)本地根据对比语言图像预训练模型的骨干网络训练用于迁移攻击的替代模型，其中，骨干网络为用于提取图像特征或者文本特征的后台网络；

(3)对本地的替代模型的图像输入和文本输入进行扰动，获得图像和文本的对抗样本；

所述步骤(3)包括以下子步骤：

(3.1)将待攻击的图像输入替代模型，通过分类概率和交叉熵损失函数回传获取图像梯度信息，根据图像梯度信息获取图像的扰动信息，以获取扰动后的图像；

(3.2)根据图像标签词构造文本端的提示语句，将提示语句输入替代模型以获取句向量的梯度信息，根据梯度信息获取文本的扰动信息，以获取扰动后的文本；

(3.3)将所述步骤(3.1)和所述步骤(3.2)获得的扰动后的图像与文本保存收集，作为图像和文本的对抗样本，用于下一步骤的迁移攻击；

(4)将所述步骤(3)获得的图像和文本的对抗样本输入对比语言图像预训练模型中，以获得被扰动的预测结果。

2.根据权利要求1所述的图像文本双端迁移攻击方法，其特征在于，所述对比语言图像预训练模型包括图像特征提取器和文本特征提取器，所述对比语言图像预训练模型的训练数据为匹配的图像-文本对。

3.根据权利要求1所述的图像文本双端迁移攻击方法，其特征在于，所述步骤(2)包括以下子步骤：

(2.1)获取对比语言图像预训练模型的骨干网络的类型；

(2.2)根据骨干网络的类型在数据集上进行训练，以获取替代模型。

4.根据权利要求3所述的图像文本双端迁移攻击方法，其特征在于，所述骨干网络的类型包括残差网络和自注意力网络。

5.根据权利要求3所述的图像文本双端迁移攻击方法，其特征在于，所述替代模型的输出为分类概率。

6.根据权利要求1所述的图像文本双端迁移攻击方法，其特征在于，所述步骤(3.1)中获取扰动后的图像具体为：将图像的扰动信息与原图像相加以获取扰动后的图像；

所述步骤(3.2)中获取扰动后的文本具体为：将文本的扰动信息与原句向量相加以获取扰动后的文本。

7.根据权利要求1所述的图像文本双端迁移攻击方法，其特征在于，所述步骤(4)包括以下子步骤：

(4.1)将所述步骤(3)获得的文本的对抗样本输入对比语言图像预训练模型中，提取文本特征；

(4.2)将所述步骤(3)获得的图像的对抗样本输入对比语言图像预训练模型中，提取图像特征；

(4.3)将图像特征和文本特征进行比对匹配，以获取扰动后的预测结果。

8.一种图像文本双端迁移攻击装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的图像文本双端迁移攻击方法。

9.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-7中任一项所述的图像文本双端迁移攻击方法。