WO2022001232A1

WO2022001232A1 - 一种问答数据增强方法、装置、计算机设备及存储介质

Info

Publication number: WO2022001232A1
Application number: PCT/CN2021/082936
Authority: WO
Inventors: 谯轶轩; 陈浩; 高鹏
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-30
Filing date: 2021-03-25
Publication date: 2022-01-06
Also published as: CN112308237B; CN112308237A

Abstract

一种问答数据增强方法、装置、计算机设备及存储介质，涉及人工智能技术，具体应用于深度学习中。该方法包括获取问答数据集，问答数据集包括多个数据点以及其对应的真实标签（S1）；基于预训练的预测模型和真实标签，对每个数据点进行第一软标签预测，得到每个数据点对应的第一软标签（S2）；将每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将软标签数据集和预测模型生成标注模型（S3）；获取待标签数据集，将待标签数据集输入到标注模型进行预标注，并根据标注结果对待标签数据集进行筛选，得到标注样本集（S4）。上述方法还涉及区块链技术，所述标注样本集和待标签数据集中的数据存储于区块链中。上述方法能提高标注标签的效率以及质量。

Description

一种问答数据增强方法、装置、计算机设备及存储介质

本申请要求于2020年10月30日提交中国专利局、申请号为202011192632.4，发明名称为“一种问答数据增强方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种问答数据增强方法、装置、计算机设备及存储介质。

背景技术

对于深度学习技术领域中的多模态学习是近两年的研究热点，对于结构化数据、图像、视频、语音、文本等任意不同的两个或多个领域都可以构建跨模态的深度学习模型。

在仅含有图像或文本的单模态领域中，有大量的特定领域的人工标注好的数据集，例如在图像领域用于解决分类，分割，检测等任务的数据集，在文本领域用于解决情感分析，命名实体识别，问答的数据集。目前现有技术主要基于已标注好的解决特定任务的图片数据集，生成对应标签所对应的文本。发明人意识到通过现有技术的方案，其生成的数据集存在无法涵盖待研究的多模态数据分布全貌的问题。

发明内容

本申请提供一种问答数据增强方法、装置、计算机设备及存储介质，以解决现有技术中数据集无法涵盖待研究的多模态数据分布全貌的问题。

为解决上述问题，本申请提供的一种问答数据增强方法，包括：

获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。

为了解决上述问题，本申请还提供一种问答数据增强装置，所述装置包括：

获取模块，用于获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

预测模块，用于基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

生成模块，用于将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

筛选预测模块，用于获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。

为了解决上述问题，本申请实施例还提供一种计算机设备，包括存储器、处理器，以及存储在所述存储器中，并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

为了解决上述问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

根据本申请实施例提供的问答数据增强方法、装置、计算机设备及存储介质，与现有技术相比至少具有以下有益效果：

通过获取已设定标签的问答数据集，以及利用预训练的预测模型来对问答数据集中每个数据点进行第一软标签预测并得到对应的第一软标签，所述软标签相较于已设定的真实标签而言，其泛化能力强；将数据点及其对应的第一软标签构建一个软标签数据集，并将软标签数据集与预测模型通过知识蒸馏技术生成标注模型；然后利用该标注模型来对待标签的数据集进行标注，并根据标注结果对所述待标签数据集进行筛选，最终得到标注样本集。通过上述步骤生成的样本集可以涵盖待研究的多模态数据分布的全貌，能对未标签的数据集进行全面的标注标签，提高了标注标签的效率以及质量。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图做一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的问答数据增强方法的流程示意图；

图2为本申请一实施例提供的预测模型的使用效果图；

图3为本申请一实施例提供的另一问答数据增强方法的流程示意图；

图4为本申请一实施例提供的问答数据增强装置的模块示意图；

图5为本申请一实施例的计算机设备的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例，也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供一种问答数据增强方法。参照图1所示，为本申请一实施例提供的问答数据增强方法的流程示意图。

在本实施例中，问答数据增强方法包括：

S1、获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

具体的，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签，所述数据点表示的是图片和问题，而数据点对应的真实标签即为针对该图片和问题，在图片上标注的标签，所述真实标签即为通过人工对图片进行标注而得到的标签；

所述获取问答数据集是获取的VQA(Visual Question Answering)官网公开的一个针对图片和问题已设定好标签的数据集。

S2、基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

具体的，利用预训练的预测模型和所述真实标签，对每个数据点进行第一软标签的预测，得到数据集中每个数据点对应的第一软标签，所述软标签相对于所述真实标签，其泛化能力强，即包含更多的信息，例如不同类别间的信息，能突显与其他标签的区别。

软标签在一定程度上相当于正则化项，防止模型过拟合，起到了稳定模型的作用。

例如，已设定真实标签的数据为[1,0,0]，经模型T预测处理后一次后，得到软标签[0.9,0.05,0.05]，经多次预测处理后，能得到泛化能力更强的软标签[0.7,0.27,0.03]。

参照图2所示，示出了预测模型将真实标签变化为软标签的状态。

进一步的，将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测，得到第一轮预测结果；

将上一轮预测结果作为输入，利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签，其中m>1。

具体的，将某一数据集中数据点对应的真实标签输入到预测模型中进行第一软标签的第一轮预测，得到第一轮预测结果；

随后将第一轮的预测结果作为输入，利用预测模型对所述某一数据集中每个数据点进行第一软标签的第二轮预测，得到第二轮预测结果；然后再将第二轮的预测结果作为输入，通过预测模型进行第三轮预测；即利用预测模型对真实标签进行多轮的预测，从第二轮预测开始，每一轮的输入为上一轮的预测结果，通过上述步骤以得到泛化能力更强的第一软标签。

上述的某一数据集其可以为所述问答数据集，也可为其他包含数据点以及其对应的真实标签的数据集。在本申请中采用的是所述问答数据集。

通过上述步骤，对数据点对应的真实标签进行多轮预测，从而得到泛化能力强的软标签。

S3、将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

具体的，将每个数据点及其对应的第一软标签构建为软标签数据集，并利用知识蒸馏技术奖软标签数据集合预测模型蒸馏为标注模型。

所述知识蒸馏技术即将一个复杂模型或多个模型学到的知识迁移到另一个轻量级模型上。在尽量不损失性能的情况下，使模型变轻量，即方便部署，推理速度快。即标注模型在参数量更小的同时，其标注效率提高了。

进一步的，利用Textbrewer知识蒸馏工具将所述软标签数据集和所述预测模型生成标注模型。

采用Textbrewer知识蒸馏工具的好处在于，其提供了简单的工作流程，方便快速搭建蒸馏实验，并且可以根据需求进行灵活的配置和拓展。

Textbrewer知识蒸馏工具为哈工大基于PyTorch框架制作的知识蒸馏工具，其对于知识蒸馏具有良好的性能。通过输入训练集，即本申请的软标签数据集、输入软标签数据与预测模型生成的权重并初始化预测模型和初始化预设的标注模型，通过Textbrewer知识蒸馏工具得到标注模型，所述标注模型在参数量更小的同时，其性能与预测模型一致。

S4、获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。

具体的，在得到标注模型后，将获取待标签数据并利用所述标注模型来对所述待标签数据进行预标注，并根据标注结果对待标签数据集进行筛选，最终得到标注样本集。

所述待标签数据集为其只包含了数据点，对数据点进行预标注即利用数据点来生成其对应的软标签；与所述问答数据集的不同在于，问答数据集包含了数据点以及针对数据点进行了人工标注的真实标签，而待标签数据集不含任何标签。

进一步的，所述获取待标签数据集包括：

向数据库发送调用请求，所述调用请求携带验签令牌；

接收所述数据库返回的验签结果，并在验签结果为通过时，调用所述数据库中的所述待标签数据集。

具体的，为了数据的安全性，在调用待标签数据集时需要进行数据库需要进行验签步骤。

所以要从数据库中获取待标签数据集需要向数据库发送调用请求，其中调用请求中其携带有验签令牌；数据库将对令牌进行验签步骤，并返回验签结果，只有在验签结果通过时，才能调用所述数据库中的待标签数据集。

所述数据库可以为分布式数据库，即为区块链。

通过上述步骤保证了数据的安全性。

所述根据标注结果对待标签数据集进行筛选为根据需求对标注结果设定筛选条件，对所有符合筛选条件的标注结果及其对应的数据点，来最终组成标注样本集。

需要强调的是，为了进一步保证数据的私密性和安全性，待标签数据集和标注样本集的所有数据还可以存储于一区块链的节点中。

进一步的，S4具体包括：

将所述待标签数据集中的待标签数据点输入到所述标注模型进行预标注得到标注结果，并计算每一个所述标注结果的置信度大小；

将所述标注结果的置信度大小与第一预设数值进行比较，删除置信度小于等于第一预设数值的所述标注结果和所述待标签数据点，并将所述待标签数据集中剩余的所述待标签数据点及其对应的所述标注结果组成所述标注样本集。

具体的，在标注模型在对所述待标签数据进行标注时，在输出标注结果的同时，还将输出该标注结果对应的置信度大小，总的置信度大小的和为1，利用标注模型进行预标注，将会得到多个标注结果，即多个软标签，并且标注模型还会同时输出多个标注结果对应的，置信度大小，本申请是直接输出的置信度最大的标注结果及其对应的置信度大小。

将所述标注结果的置信度大小与第一预设数值进行比较，并删除置信度小于等于第一预设数值的所述标注结果和所述标注结果对应的待标签数据点，并将待标签数据集中剩余的所述待标签数据点和对应标注结果组成所述标注样本集。

所述第一预设数值也将根据需要可以自由设定，在本申请中保留的都是置信度大于0.9的标注结果。

通过采用上述方案设定的较高预设数值确保了标注的相对可靠性，合理控制了利用模型标注样本的数量，并且便于后续同原始样本进行迭代标注。

进一步的，在获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集之后，还包括：

计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值；

若所述比值小于第二预设数值，则组合所述标注样本集和所述问答数据集，重新对所述预测模型进行训练，直至所述比值大于等于所述第二预设数值为止。

具体的，在筛选后，通过计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值，来判断标注模型对待标签数据集的标注质量情况，若比值小于第二预设数值，将组合所述标注样本集和所述问答数据集，重新对所述预测模型进行训练；即在所标注样本集中的数据点数量与待标签数据集中待标签数据点数量的比值达不到预设要求时，将对所述预测模型重新训练，并将问答数据集和标注样本集组合后的数据集进行软标签预测，得到数据点对应的软标签，并将组成软标签数据集，最后通过知识蒸馏将软标签数据集和预测模型变成标注模型，随后在对待标签数据集进行标注，随后再筛选，最终再次得到标注样本集。再计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值，直至所述比值大于所述第二预设数值为止。

即将所述标注样本集和问答数据模型替换最开始的数据集，再来重复上述步骤，直至最终得到的标注样本集中数据点数量与待标签数据集中数据点数量的比值大于等于所述第二预设数值为止。

所述第二预设数值可以根据需求来自由设定，在本申请中所述第二预设数值为90％。

通过上述步骤保证了标注模型对待标签数据标注的一个整体质量。

再进一步的，利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，以得到所述第一软标签具体包括：

根据第m轮与第m-1轮的预测结果计算交叉熵损失函数；

当所述损失函数小于第三预设数值，则停止预测，将所述第m轮的预测结果作为第一软标签输出，其中m≥2。

具体的，上述对真实标签进行了m轮预测，在进行预测的同时，将获取相邻两轮的预测结果来计算交叉熵损失函数，当所述损失函数小于第三预设数值时，将停止预测，并输出所述两轮预测中的后一轮预测结果作为第一软标签。

对于第三预设数值的设定将依据自身的需求来设定，例如当需要获取泛化能力强的第一软标签时，可以设定第三预设数值为0.1，在后续步骤中，对待标签数据进行标注时能直接得出置信度高的标签；当需要的获取泛化能力稍弱的第一软标签时，可以设定第三预设数值为1，在后续步骤中，对待标签数据进行标注时能直接得出置信度稍低的标签。所以根据需要可以对第三预设数值自由设定。

通过上述步骤，实现对真实标签预测次数的控制，可以根据需要间接的对预测次数进行控制，避免整个流程冗余。

通过获取已设定标签的问答数据集，以及利用预训练的预测模型来对问答数据集中每个数据点进行第一软标签预测并得到对应的第一软标签，所述软标签相较于已设定的真实标签而言，其泛化能力强；将数据点及其对应的第一软标签构建一个软标签数据集，并将软标签数据集与预测模型通过知识蒸馏技术生成标注模型；然后利用该标注模型来对待标签的数据集进行标注，并根据标注结果对所述待标签数据集进行筛选，最终得到标注样本集。通过上述步骤生成的样本集可以涵盖待研究的多模态数据分布的全貌，即能对未标签的数据集进行全面的标注标签，提高了标注标签的效率以及质量。

如图3所示，在步骤S2之前还包括：

将所述多个数据点向量化；

将向量化后的所述数据点通过交互处理得到新的向量表示；

将所述新的向量表示经过线性变换后得到的结果，再经过分类网络处理后得到第二软标签；

根据所述数据点对应的所述真实标签和所述第二软标签计算交叉熵损失函数，并基于所述交叉熵损失函数对初始预测模型的各层的权重参数进行调整，得到预训练的所述预测模型。

具体的，所述数据点即为图片或问题，真实标签即为图片或问题对应的真实标签；图片将通过开源的Faster-RCNN模型得到其向量表示；问题首先通过斯坦福公开的GloVe词向量进行Embedding处理，然后通过LSTM网络得到其向量表示；

图片和问题的向量表示通过交互处理得到新的向量表示；

将新的图片向量表示和新的问题向量表示通过线性变换后得到h_image和h_question；h_image和h_question还是图片和问题的一个向量表示，但其于前述的向量表示都不同。即将新的图片向量表示和新的问题向量表示通过线性变换后得到的h_image和h_question，还是一种向量表示，只不过其表示不同。

将h_image和h_question通过分类网络处理最终得到软标签y_soft，其中每个维度代表从属于每个类别的概率

y_soft＝softmax(h_image+h_question)，

其中h_image+h_question表示向量对应元素相加；

根据软标签y_soft与本身问题对应的真实标签y,计算交叉熵损失函数，并基于所述交叉熵损失函数对初始预测模型的各层的权重参数进行调整，得到预训练的所述预测模型。

其中k表示向量的第k维，y_ori是原始标签y通过one-hot编码后的向量。

通过上述步骤，实现对预测模型的预训练，并且基于上述步骤得出的预测模型其标注效率高且质量较优。

为解决上述技术问题，本申请实施例还提供一种问答数据增强装置100。

如图4所示，本申请所述问答数据增强装置100可以安装于电子设备中。根据实现的功能，所述问答数据增强装置100可以包括获取模块101、预测模块102、生成模块103和筛选预测模块104。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机可读指令的指令段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

获取模块101，用于获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

所述获取模块101是获取的VQA(Visual Question Answering)官网公开的一个针对图片和问题已设定好标签的数据集。

预测模块102，用于基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

具体的，预测模块102通过利用预训练的预测模型和所述真实标签，对每个数据点进行第一软标签的预测，得到数据集中每个数据点对应的第一软标签，所述软标签相对于所述真实标签，其泛化能力强，即包含更多的信息，例如不同类别间的信息，能突显与其他标签的区别。

进一步的，预测模块102包括第一预测子模块和多轮预测子模块。

所述第一轮预测子模块用于将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测，得到第一轮预测结果；

多轮预测子模块用于将上一轮预测结果作为输入，利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签，其中m>1。

具体的，第一轮预测子模块将某一数据集中数据点对应的真实标签输入到预测模型中进行第一软标签的第一轮预测，得到第一轮预测结果；

随后多轮预测子模块将第一轮的预测结果作为输入，利用预测模型对所述某一数据集中每个数据点进行第一软标签的第二轮预测，得到第二轮预测结果；然后再将第二轮的预测结果作为输入，通过预测模型进行第三轮预测；即利用预测模型对真实标签进行多轮的预测，从第二轮预测开始，每一轮的输入为上一轮的预测结果，通过上述步骤以得到泛化能力更强的第一软标签。

即利用预测模型对真实标签进行多轮的预测，并且每一轮的输入为上一轮的预测结果，通过上述步骤以得到泛化能力更强的软标签。

通过第一预测子模块和多轮预测子模块，对数据点对应的真实标签进行多轮预测，从而得到泛化能力强的软标签。

再进一步的，所述多轮预测子模块包括判断单元和软标签输出单元。

判断单元根据第m轮与第m-1轮的预测结果计算交叉熵损失函数；

软标签输出单元用于当所述损失函数小于第三预设数值，则停止预测，将所述第m轮的作为第一软标签输出，其中m≥2。

具体的，判断单元将获取相邻两轮的预测结果来计算交叉熵损失函数，软标签输出单元用于当所述损失函数小于第三预设数值时，将停止预测，并输出所述两轮预测中的后一轮预测结果作为第一软标签。

通过上述判断单元和软标签输出单元，实现对真实标签预测次数的控制，可以根据需要间接的对预测次数进行控制，避免整个流程冗余。

生成模块103，用于将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

具体的，生成模块103将每个数据点及其对应的第一软标签构建为软标签数据集，并利用知识蒸馏技术奖软标签数据集合预测模型蒸馏为标注模型。

进一步的，所述生成模块103包括Textbrewer子模块；

具体的，Textbrewer子模块通过采用Textbrewer知识蒸馏工具来实现将软标签数据集合所述预测模型生成标注模型。

采用Textbrewer子模块的好处在于，其提供了简单的工作流程，方便快速搭建蒸馏实验，并且可以根据需求进行灵活的配置和拓展。

Textbrewer子模块为哈工大基于PyTorch框架制作的知识蒸馏工具，其对于知识蒸馏具有良好的性能。通过输入训练集(即本申请的软标签数据集)、输入软标签数据与预测模型生成的权重并初始化预测模型和初始化预设的标注模型，通过Textbrewer知识蒸馏工具得到标注模型，所述标注模型在参数量更小的同时，其性能与预测模型一致。

筛选预测模块104，用于获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。

具体的，筛选预测模块104在得到标注模型后，将获取待标签数据并利用所述标注模型来对所述待标签数据进行预标注，并根据标注结果对待标签数据集进行筛选，最终得到标注样本集。

进一步的，筛选预测模块104包括获取子模块；

获取子模块向数据库发送调用请求，所述调用请求携带验签令牌；

具体的，获取子模块向数据库发送调用请求，其中调用请求中其携带有验签令牌；数据库将对令牌进行验签步骤，并返回验签结果，只有在验签结果通过时，才能调用所述数据库中的待标签数据集。

进一步的，筛选预测模块104包括置信度输出子模块和置信度判断子模块；

置信度输出子模块将所述待标签数据集中的待标签数据点输入到所述标注模型进行预标注得到标注结果，并计算每一个所述标注结果的置信度大小；

置信度判断子模块将所述标注结果的置信度大小与第一预设数值进行比较，删除置信度小于等于第一预设数值的所述标注结果和所述待标签数据点，并将所述待标签数据集中剩余的所述待标签数据点及其对应的所述标注结果组成所述标注样本集

具体的，置信度输出子模块在标注模型在对所述待标签数据进行标注时，在输出标注结果的同时，还将输出该标注结果对应的置信度大小，总的置信度大小的和为1，利用标注模型进行预标注，将会得到多个标注结果，即多个软标签，并且标注模型还会同时输出多个标注结果对应的，置信度大小，并且本申请是直接输出的置信度最大的标注结果及其对应的置信度大小。

置信度判断子模块将所述标注结果的置信度大小与第一预设数值进行比较，并删除置信度小于等于第一预设数值的所述标注结果和待标签数据点，并将待标签数据集中剩余的所述所述待标签数据点和对应标注结果组成所述标注样本集。

通过置信度输出子模块和置信度判断子模块配合，设定的较高预设数值确保了标注的相对可靠性，合理控制了利用模型标注样本的数量，并且便于后续同原始样本进行迭代标注。

进一步的，筛选预测模块104包括比值计算子模块和比值判断子模块；

具体的，在筛选后，比值计算子模块通过计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值，比值判断子模块来判断标注模型对待标签数据集的标注质量情况，若比值小于第二预设数值，将组合所述标注样本集和所述问答数据集，重新对所述预测模型进行训练；即在所标注样本集中的数据点数量与待标签数据集中待标签数据点数量的比值达不到预设要求时，将对所述预测模型重新训练，并将问答数据集和标注样本集组合后的数据集进行软标签预测，得到数据点对应的软标签，并将组成软标签数据集，最后通过知识蒸馏将软标签数据集和预测模型变成标注模型，随后在对待标签数据集进行标注，随后再筛选，最终再次得到标注样本集。再计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值，直至所述比值大于所述第二预设数值为止。

比值判断子模块将所述标注样本集和问答数据模型替换最开始的数据集，再来重复上述步骤，直至最终得到的标注样本集中数据点数量与待标签数据集中数据点数量的比值大于等于所述第二预设数值为止。

比值计算子模块和比值判断子模块保证了标注模型对待标签数据标注的一个整体质量。

通过采用上述装置，所述装置通过获取模块、预测模块、生成模块、判断模块和筛选预测模块配合使用，实现了涵盖待研究的多模态数据分布的全貌，即能对未标签的数据集进行全面的标注标签，提高了标注标签的效率以及质量。

所述装置还包括：预训练模块；

预训练模块，用于将所述多个数据点向量化；

将向量化后的所述数据点通过交互处理得到新的向量表示；

具体的，所述数据点即为图片或问题，真实标签即为图片或问题对应的真实标签；预训练模块将图片通过开源的Faster-RCNN模型得到其向量表示；并将问题首先通过斯坦福公开的GloVe词向量进行Embedding处理，然后通过LSTM网络得到其向量表示；

图片和问题的向量表示通过交互处理得到新的向量表示；

y_soft＝softmax(h_image+h_question)，

其中h_image+h_question表示向量对应元素相加；

通过预训练模块，实现对预测模型的预训练，并且基于上述步骤得出的预测模型其标注效率高且质量较优。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图5，图5为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如问答数据增强方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述问答数据增强方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例问答数据增强方法的步骤，通过获取已设定标签的问答数据集，以及利用预训练的预测模型来对问答数据集中每个数据点进行第一软标签预测并得到对应的第一软标签，所述软标签相较于已设定的真实标签而言，其泛化能力强；将数据点及其对应的第一软标签构建一个软标签数据集，并将软标签数据集与预测模型通过知识蒸馏技术生成标注模型；然后利用该标注模型来对待标签的数据集进行标注，并根据标注结果对所述待标签数据集进行筛选，最终得到标注样本集。通过上述步骤生成的样本集可以涵盖待研究的多模态数据分布的全貌，即能对未标签的数据集进行全面的标注标签，提高了标注标签的效率以及质量。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的问答数据增强方法的步骤，通过获取已设定标签的问答数据集，以及利用预训练的预测模型来对问答数据集中每个数据点进行第一软标签预测并得到对应的第一软标签，所述软标签相较于已设定的真实标签而言，其泛化能力强；将数据点及其对应的第一软标签构建一个软标签数据集，并将软标签数据集与预测模型通过知识蒸馏技术生成标注模型；然后利用该标注模型来对待标签的数据集进行标注，并根据标注结果对所述待标签数据集进行筛选，最终得到标注样本集。通过上述步骤生成的样本集可以涵盖待研究的多模态数据分布的全貌，即能对未标签的数据集进行全面的标注标签，提高了标注标签的效率以及质量。所述计算机可读存储介质可以是非易失性，也可以是易失性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种问答数据增强方法,所述方法包括：

获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。
根据权利要求1所述的问答数据增强方法，其中，所述获取待标签数据集包括：

向数据库发送调用请求，所述调用请求携带验签令牌；

接收所述数据库返回的验签结果，并在验签结果为通过时，调用所述数据库中的所述待标签数据集。
根据权利要求1所述的问答数据增强方法，其中，所述将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集包括：

将所述待标签数据集中的待标签数据点输入到所述标注模型进行预标注得到标注结果，并计算每一个所述标注结果的置信度大小；

将所述标注结果的置信度大小与第一预设数值进行比较，删除置信度小于等于第一预设数值的所述标注结果和所述待标签数据点，并将所述待标签数据集中剩余的所述待标签数据点及其对应的所述标注结果组成所述标注样本集。
根据权利要求1所述的问答数据增强方法，其中，在所述获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集之后，还包括：

计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值；

若所述比值小于第二预设数值，则组合所述标注样本集和所述问答数据集，重新对所述预测模型进行训练，直至所述比值大于等于所述第二预设数值为止。
根据权利要求1所述的问答数据增强方法，其中，所述基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签包括：

将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测，得到第一轮预测结果；

将上一轮预测结果作为输入，利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签，其中m>1。
根据权利要求5所述的问答数据增强方法，其中，所述利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签包括：

根据第m轮与第m-1轮的预测结果计算交叉熵损失函数；

当所述损失函数小于第三预设数值，则停止预测，将所述第m轮的预测结果作为第一软标签输出，其中m≥2。
根据权利要求1至6中任一项所述的问答数据增强方法，其中，所述基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测之前，还包括：

将所述多个数据点向量化；

将向量化后的所述数据点通过交互处理得到新的向量表示；

将所述新的向量表示经过线性变换后得到的结果，再经过分类网络处理后得到第二软标签；

根据所述数据点对应的所述真实标签和所述第二软标签计算交叉熵损失函数，并基于所述交叉熵损失函数对初始预测模型的各层的权重参数进行调整，得到预训练的所述预测模型。
一种问答数据增强装置，包括：

获取模块，用于获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

预测模块，用于基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

生成模块，用于将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

筛选预测模块，用于获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。
一种计算机设备，包括存储器、处理器，以及存储在所述存储器中，并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。
根据权利要求9所述的计算机设备，其中，所述将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集包括：

将所述待标签数据集中的待标签数据点输入到所述标注模型进行预标注得到标注结果，并计算每一个所述标注结果的置信度大小；

将所述标注结果的置信度大小与第一预设数值进行比较，删除置信度小于等于第一预设数值的所述标注结果和所述待标签数据点，并将所述待标签数据集中剩余的所述待标签数据点及其对应的所述标注结果组成所述标注样本集。
根据权利要求9所述的计算机设备，其中，在所述获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集之后，还包括：

计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值；

若所述比值小于第二预设数值，则组合所述标注样本集和所述问答数据集，重新对所述预测模型进行训练，直至所述比值大于等于所述第二预设数值为止。
根据权利要求9所述的计算机设备，其中，所述基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签包括：

将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测，得到第一轮预测结果；

将上一轮预测结果作为输入，利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签，其中m>1。
根据权利要求12所述的计算机设备，其中，所述利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签包括：

根据第m轮与第m-1轮的预测结果计算交叉熵损失函数；

当所述损失函数小于第三预设数值，则停止预测，将所述第m轮的预测结果作为第一软标签输出，其中m≥2。
根据权利要求9至13中任一项所述的计算机设备，其中，所述基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测之前，还包括：

将所述多个数据点向量化；

将向量化后的所述数据点通过交互处理得到新的向量表示；

将所述新的向量表示经过线性变换后得到的结果，再经过分类网络处理后得到第二软标签；

根据所述数据点对应的所述真实标签和所述第二软标签计算交叉熵损失函数，并基于所述交叉熵损失函数对初始预测模型的各层的权重参数进行调整，得到预训练的所述预测模型。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器执行如下步骤：

获取问答数据集，所述问答数据集包括多个数据点，以及每个数据点对应的真实标签；

基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签；

将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集，利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型；

获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集。
根据权利要求15所述的计算机可读存储介质，其中，所述将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集包括：

将所述待标签数据集中的待标签数据点输入到所述标注模型进行预标注得到标注结果，并计算每一个所述标注结果的置信度大小；

将所述标注结果的置信度大小与第一预设数值进行比较，删除置信度小于等于第一预设数值的所述标注结果和所述待标签数据点，并将所述待标签数据集中剩余的所述待标签数据点及其对应的所述标注结果组成所述标注样本集。
根据权利要求15所述的计算机可读存储介质，其中，在所述获取待标签数据集，将所述待标签数据集输入到所述标注模型进行预标注，并根据标注结果对所述待标签数据集进行筛选，得到标注样本集之后，还包括：

计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值；

若所述比值小于第二预设数值，则组合所述标注样本集和所述问答数据集，重新对所述预测模型进行训练，直至所述比值大于等于所述第二预设数值为止。
根据权利要求15所述的计算机可读存储介质，其中，所述基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测，得到所述问答数据集中每个数据点对应的第一软标签包括：

将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测，得到第一轮预测结果；

将上一轮预测结果作为输入，利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签，其中m>1。
根据权利要求18所述的计算机可读存储介质，其中，所述利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测，得到所述第一软标签包括：

根据第m轮与第m-1轮的预测结果计算交叉熵损失函数；

当所述损失函数小于第三预设数值，则停止预测，将所述第m轮的预测结果作为第一软标签输出，其中m≥2。
根据权利要求15-19中任一项所述的计算机可读存储介质，其中，所述基于预训练的预测模型和所述真实标签，对所述问答数据集中的每个数据点进行第一软标签预测之前，还包括：

将所述多个数据点向量化；

将向量化后的所述数据点通过交互处理得到新的向量表示；

将所述新的向量表示经过线性变换后得到的结果，再经过分类网络处理后得到第二软标签；

根据所述数据点对应的所述真实标签和所述第二软标签计算交叉熵损失函数，并基于所述交叉熵损失函数对初始预测模型的各层的权重参数进行调整，得到预训练的所述预测模型。