CN112364138A

CN112364138A - 一种基于对抗攻击技术的视觉问答数据增强方法及装置

Info

Publication number: CN112364138A
Application number: CN202011082774.5A
Authority: CN
Inventors: 马超; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-02-12

Abstract

本发明公开了一种基于对抗攻击技术的视觉问答数据增强方法及装置，该方法包括：将生成原始外文问题Q对应的对抗样本q_adv并保存；利用对抗样本q_adv进行训练，并在训练过程中动态生成原始图像v的对抗样本v_adv，计算损失函数，更新网络参数，直至网络收敛。该装置包括：对抗样本单元以及网络训练单元；对抗样本单元用于生成原始外文问题Q对应的对抗样本q_adv并保存；网络训练单元用于利用对抗样本q_adv进行训练，计算损失函数，更新网络参数，直至网络收敛。通过本发明，解决了视觉问答数据增强中图像、问题以及答案三种语义匹配难题，以及现有视觉问答的数据增强方法没有做到图像与文本的双增强。

Description

一种基于对抗攻击技术的视觉问答数据增强方法及装置

技术领域

本发明涉及视觉问答技术领域，特别涉及一种基于对抗攻击技术的视觉问答数据增强方法及装置。

背景技术

近年来，计算机视觉和自然语言处理在许多问题上都取得了巨大的进展。视觉问答是一个融合计算机视觉和自然语言处理技术的研究领域。视觉问答算法的目的是根据图像预测给定问题的正确答案。最近的研究表明，视觉问答算法的性能取决于训练数据的数量，现有的算法总是能从更多的训练数据中获益。这表明，不使用人工注释的数据增强方法是提高视觉问答算法性能的一种最直接的尝试。现有的数据增加方法大致分为两类：数据扭曲和过采样。1.数据扭曲转换数据并保留其标签，典型的例子包括几何和颜色变换、随机擦除、对抗训练和神经风格迁移；2.过采样将生成合成的样本添加到训练集中。国内外研究证明数据增强能有效缓解深度神经网络的过拟合问题。

然而，由于保持图像、问题、答案三者语义匹配是一个难题，关于视觉问答领域的数据增强研究很少。无论是几何变换还是随机擦除，都不能保证原来的答案的正确。例如，当询问“计算机的位置是什么？”、“汽车是在垃圾桶的左边还是右边？”，翻转或旋转图像后得到的答案是相反的。这种图像增强方法定制的答案，而这些答案是难得到的。在文本方面，自然语言处理中的通用数据增强技术还没有得到充分的探索。因此，研究视觉问答领域的数据增强技术是很重要的。

国内外专家和学者有提出基于图像内容和答案生成问题的技术，即视觉问题生成技术。然而，由这种技术生成的文本有语法错误或措辞怪异的问题。此外，该技术学习同一个目标数据集中的问题和图像，会使生成的数据和原始数据具有相同分布，因此生成的数据无助于缓解过拟合。

发明内容

本发明针对上述现有技术中存在的问题，提出一种基于对抗攻击技术的视觉问答数据增强方法及装置，解决了视觉问答数据增强中图像、问题以及答案三种语义匹配难题，以及现有视觉问答的数据增强方法没有做到图像与文本的双增强。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明第一方面，提供一种基于对抗攻击技术的视觉问答数据增强方法，其包括：

S11：生成原始外文问题Q对应的对抗样本q_adv并保存；

S12：利用所述S11生成的所述对抗样本q_adv进行训练，并在训练过程中动态生成原始图像v的对抗样本v_adv，计算损失函数，更新网络参数，直至网络收敛。

较佳地，所述S11进一步包括：

S111：基于机器翻译的编码-解码技术，将原始外文问题

翻译成至少一种其他外文文本，得到关于所述其他外文文本的分布得分；

S112：再将所述S111中的得到的所述其他外文文本翻译回原始外文，得到单个原始外文单词得分；

当其他外文文本包括一种时，所述原始外文单词得分为所述其他外文文本的分布得分；

当其他外文文本包括多种时，所述原始外文单词得分为多种所述其他外文文本的分布得分的平均值；

S113：将至少一种其他外文文本的每种其他外文文本的得分最高的K个其他外文文本翻译得到的原始外文单词得分求和；

S114：得到等义文本句子的分布P(Q′|Q)，其中Q′是等义文本；

S115：利用上述分布构造衡量等义文本与原始文本相似性的分数

所述相似性的分数值越高代表两个文本语义相似度越高；

S116：选取所述相似性分数最高的一个等义文本作为所述原始外文问题的对抗样本q_adv，并将q_adv保存下来。

较佳地，所述S115与所述S116之间还包括：

S117：对所述S115中相似性的分数值加入编辑距离惩罚。具体为：当生成文本与原始文本的编辑距离大于一设定阈值时，所述相似性的分数值减去一设定数值。

较佳地，所述S12进一步包括：

S121：设定超参：(start，end)为需要加入对抗样本的训练阶段区间；

S122：将所述S11得到的对抗样本qadv以及原始外文问题放入训练；

S123：在训练阶段e时，获取一批原始图像样本v^b，原始外文问题样本q^b，生成的对抗

样本，以及答案a^b；

S124：若

跳至S127；

S125：根据Iterative Fast Gradient Sign Method算法计算出两种图像的对抗样本:

其中

N是计算对抗样本的迭代次数,e是扰动幅度，v表示原始图像，a表示每一次迭代的步长，于是有一批的图像对抗样本

根据上述所生成的对抗样本，组成四组增强数据样本：

S126：构成新的网络损失函数：

通过最小化该损失函数更新网络参数，重复步骤S124，直至网络收敛；

S127：最小化损失函数

重复步骤S124，直至网络收敛。

本发明第二方面，本发明还提供一种基于对抗攻击技术的视觉问答数据增强装置，用于实现上述的基于对抗攻击技术的视觉问答数据增强方法，其包括：对抗样本单元以及网络训练单元；其中，

所述对抗样本单元用于生成原始外文问题Q对应的对抗样本q_adv并保存；

所述网络训练单元用于利用所述对抗样本单元生成的所述对抗样本q_adv进行训练，并在训练过程中动态生成原始图像v的对抗样本v_adv，计算损失函数，更新网络参数，直至网络收敛。

本发明第三方面，还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一所述的基于对抗攻击技术的视觉问答数据增强方法。

本发明第四方面，还提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一所述的基于对抗攻击技术的视觉问答数据增强方法。

相较于现有技术，本发明实施例具有以下至少一种有益效果：

(1)本发明提供的基于对抗攻击技术的视觉问答数据增强方法及装置，通过生成原始外文问题Q对应的对抗样本，并在训练过程中生成原始图像v的对抗样本，解决了视觉问答数据增强中图像、问题以及答案三种语义匹配难题，以及现有视觉问答的数据增强方法没有做到图像与文本的双增强；

(2)本发明提供的基于对抗攻击技术的视觉问答数据增强方法及装置，利用对抗样本不改变数据语义信息的特性，分别生成了图像和问题的对抗样本作为增强数据；

(3)本发明提供的基于对抗攻击技术的视觉问答数据增强方法及装置，通过S121～S127的对抗训练框架，能够充分利用上述生成的增强数据提高原始算法的准确性和鲁棒性。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明一实施例的基于对抗攻击技术的视觉问答数据增强方法的流程图；

图2为本发明一较佳实施例的基于对抗攻击技术的视觉问答数据增强方法的流程图；

图3为本发明一较佳实施例的原始问题文本与其对应的等义文本的示例图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示为本发明一实施例的基于对抗攻击技术的视觉问答数据增强方法的流程图。

请参考图1，本实施例的基于对抗攻击技术的视觉问答数据增强方法包括以下步骤：

S11：生成原始外文问题Q对应的对抗样本q_adv并保存；

S12：利用S11生成的对抗样本q_adv进行训练，并在训练过程中动态生成原始图像v的对抗样本v_adv，计算损失函数，更新网络参数，直至网络收敛。

如图2所示为本发明一较佳实施例的基于对抗攻击技术的视觉问答数据增强方法的流程图。

请参考图2，较佳实施例中，S11进一步包括：

S111：基于机器翻译的编码-解码技术，将原始英文问题

翻译成葡萄牙语F^Po和法语F^Fr文本，得到关于葡萄牙语文本的分布得分

和法语的分布得分

S112：再将上述得到的葡萄牙语和法语文本翻译回英语，得到单个英语单词得分：

S113：利用得分最高的K个葡萄牙语文本

和法语文本

故将S112中由K个中间语言翻译得到的单词得分求和

S114：得到等义文本句子的分布

其中Q′是生成的等义文本，

是等义文本的长度；

S115：利用上述分布构造一个衡量等义文本与原始文本语义相似性的分数

其中P(Q′|Q)是S114中的等式，该分数越高代表两个文本语义相似度越高；

S116：选取语义相似性的分数最高的一个等义文本作为问题的增强数据q_adv，并将q_adv保存下来。

进一步地，较佳实施例中，为了能使生成文本与原始文本尽可能相似，S115与S116之间还包括：

S117：在S115中的相似性的分数加入了编辑距离惩罚。具体的，当生成文本与原始文本的编辑距离大于一设定阈值时，所述相似性的分数值减去一设定数值。比如，在本实施例中，可以按照以下设定的阈值和数值进行：当生成文本与原始文本编辑距离大于4的时候，S115中的在语义相似性的分数上减100。当然，在其他实施例中，也可以根据需要设定其他阈值和数值，并不局限于本实施例的参数。

请参考图2，较佳实施例中，S12进一步包括：

S121:设定超参：(start，end)为需要加入增强数据的训练阶段区间。

S122:将S11得到的q_adv和原始数据放入训练；

S123:在训练阶段e时，获取一批原始图像样本v^b，原始问题样本q^b，生成的增强问题

以及答案a^b；

S124:若

跳至S127；

S125:根据Iterative Fast Gradient Sign Method(IFGSM)算法计算出两种图像的对抗样本:

其中

N是计算对抗样本的迭代次数,e是扰动幅度，v表示原始图像，a表示每一次迭代的步长。于是有一批的图像对抗样本

根据上述所生成的对抗样本，能够组成四组增强数据样本：

S126:构成新的网络损失函数：

通过最小化该损失函数更新网络参数，重复S124，直至网络收敛；

S127：最小化损失函数

重复S124，直至网络收敛。

上述实施例中，原始外文文本采用英文文本为例，不同实施例中，也可为其他语言文本。另外，上述实施例中，其他外文文本以葡萄牙语和法语文本两种语言文本为例，不同实施例中，也可采用葡萄牙语和法语文本之外的其他外文文本，其他外文文本的数量也不一定为两种，也可以为一种或两种以上。

如图3所示为本发明一较佳实施例的原始问题文本与其对应的等义文本的示例图。该图加粗文本是原始问题，原始问题下面是本发明生成的等义文本，括号里的数字表示等义文本的语义相似性分数，括号里单词表示该文本作为算法输入后得到的答案。可以看到本发明生成的文本与原始文本语义大致相同但能混淆算法的判断，符合对抗样本的属性。

在本发明另一实施例中，还提供一种基于对抗攻击技术的视觉问答数据增强装置，其用于实现上述任一实施例的基于对抗攻击技术的视觉问答数据增强方法，其包括：对抗样本单元以及网络训练单元。其中，对抗样本单元用于生成原始外文问题Q对应的对抗样本q_adv并保存；网络训练单元用于利用对抗样本单元生成的对抗样本q_adv进行训练，并在训练过程中动态生成原始图像v的对抗样本v_adv，计算损失函数，更新网络参数，直至网络收敛。

本发明上述实施例中基于对抗攻击技术的视觉问答数据增强装置，其中的各单元具体实现的技术可以采用基于对抗攻击技术的视觉问答数据增强方法步骤中对应的技术，在此不再赘述。

在本发明另一实施例中，还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一实施例中所述的基于对抗攻击技术的视觉问答数据增强方法。

在本发明另一实施例中，还提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一实施例中所述的基于对抗攻击技术的视觉问答数据增强方法。

为了更好说明本发明上述实施例的效果，以下结合具体实验来说明：

依据上述基于对抗攻击技术的视觉问答数据增强方法和装置，在常用的视觉问答数据集VQAv2.0上进行测试。该数据集被分成了验证集，测试-开发集和测试集。该数据集以预测出准确的答案的数量百分比作为评价指标，同时也将问题分为了是非判断,数量问题和其他问题三种类型，分别评估算法回答该类问题的准确率。表1是本发明在VQAv2.0数据集上与现有的数据增强方法的性能对比。BUTD作为基准模型，带有“+”的算法表示在BUTD上实施的各种数据增强方法。可以看到本发明在基准模型上的提升明显优于其他算法。表2是本发明在训练集大小有限的情况下对基准模型的准确率提升对比，该表表明本发明在训练集越小的情况下准确率提升越明显。

表1

表2

训练集大小	BUTD	+本发明
			80％	62.77	64.27
60％	61.55	63.11
			40％	59.47	61.35
20％	55.45	57.39

实验表明，本实施例采用的方法能够获得有效的图像和文本的增强数据，提高视觉问答算法的准确率。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种基于对抗攻击技术的视觉问答数据增强方法，其特征在于，包括以下步骤：

S11：生成原始外文问题Q对应的对抗样本q_adv并保存；

2.根据权利要求1所述的基于对抗攻击技术的视觉问答数据增强方法，其特征在于，所述S11包括：

S111：基于机器翻译的编码-解码技术，将原始外文问题

所述相似性的分数值越高代表两个文本语义相似度越高；

3.根据权利要求2所述的基于对抗攻击技术的视觉问答数据增强方法，其特征在于，S112中，当其他外文文本包括一种时，所述原始外文单词得分为所述其他外文文本的分布得分。

4.根据权利要求2所述的基于对抗攻击技术的视觉问答数据增强方法，其特征在于，S112中，当其他外文文本包括多种时，所述原始外文单词得分为多种所述其他外文文本的分布得分的平均值。

5.根据权利要求2所述的基于对抗攻击技术的视觉问答数据增强方法，其特征在于，所述S115与所述S116之间还包括：

S117：对所述S115中相似性的分数值加入编辑距离惩罚。

6.根据权利要求5所述的基于对抗攻击技术的视觉问答数据增强方法，其特征在于，所述S117，具体为：当生成文本与原始文本的编辑距离大于一设定阈值时，所述相似性的分数值减去一设定数值。

7.根据权利要求1至6任一项所述的基于对抗攻击技术的视觉问答数据增强方法，其特征在于，所述S12，包括：

S122：将所述S11得到的对抗样本q_adv以及原始外文问题放入训练；

样本，以及答案a^b；

S124：若

跳至S127；

其中

N是计算对抗样本的迭代次数,∈是扰动幅度，v表示原始图像，a表示每一次迭代的步长，于是有一批的图像对抗样本

根据上述所生成的对抗样本，组成四组增强数据样本：

S126：构成新的网络损失函数：

S127：最小化损失函数

重复S124，直至网络收敛。

8.一种基于对抗攻击技术的视觉问答数据增强装置，其特征在于，用于实现如权利要求1至7任一项所述的基于对抗攻击技术的视觉问答数据增强方法，包括：对抗样本单元以及网络训练单元；其中，

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7任一所述的基于对抗攻击技术的视觉问答数据增强方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-7任一所述的基于对抗攻击技术的视觉问答数据增强方法。