CN114708472A

CN114708472A - 面向ai实训的多模态数据集标注方法、装置及电子设备

Info

Publication number: CN114708472A
Application number: CN202210629969.XA
Authority: CN
Inventors: 吴超; 陈桂锟; 肖俊; 王朝; 张志猛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-07-05
Anticipated expiration: 2042-06-06
Also published as: CN114708472B

Abstract

本发明公开了一种面向AI实训的多模态数据集标注方法、装置及电子设备，属于计算机视觉领域。本发明通过基于深度学习技术和图对齐融合的场景图生成算法，利用图像描述的弱监督信息产生第一类场景图，进一步与基于图像生成的第二类场景图进行对齐和融合，最终产生候选的初始场景图作为人工标注的参考，避免了错误标注和漏标注。本发明可为多模态数据集的人工标注提供智能标注提示，使得人工标注时仅需优化侯选的场景图即可，大大降低了标注规模和标注难度，可有效提高多模态数据的标注效率。

Description

面向AI实训的多模态数据集标注方法、装置及电子设备

技术领域

本发明属于计算机视觉领域，具体涉及一种面向AI实训的多模态数据集标注方法、装置及电子设备。

背景技术

AI实训广泛应用于在线教育领域，如人工智能课程、特定任务培训等。AI实训需要根据用户的需要提供相应的教程、数据，但随着AI技术的不断发展和任务复杂度的不断提升，对多模态数据的质量和数量的要求变得越来越高。AI实训所需模型依赖高质量的标注数据进行训练，而传统的多模态数据集构建方法需要依赖于人工进行标注工作，其标注效率和质量均存在缺陷。

另外，在现有技术中，申请号为CN202010131160.5的发明专利提供了一种多模态数据标注方法、***及相关装置，该方案的做法是：将图像分割数据集的标注过程分为检测和分割两个过程，首先使用检测模型对ImageNet图像数据进行检测定位，然后使用图像分割方法，进行小范围mask标记，以得到标注数据信息，从而完成数据集的批量自动标注。但是，该方案依赖于图像检测模型和图像分割算法的性能，无法保证标注数据的完备性和可靠性。

因此，亟需一套高效可靠的标注工具来极大地提升标注质量和效率，从而提升AI实训效率和模型性能。

发明内容

本发明的目的在于解决多模态数据集构建时人工标注效率低下的问题，并提供一种面向AI实训的多模态数据集标注方法、装置及电子设备。本发明可以高效地由原始的非结构化数据输出高质量的结构化多模态数据，用于AI实训中提升算法模型性能。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种面向AI实训的多模态数据集标注方法，其包括：

S1、获取待标注样本，所述待标注样本包括原始图像和对应的图像描述；

S2、针对所述原始图像，通过目标检测得到多个带有类别和边框信息的目标，将得到的所有目标配对采样形成由目标对组成的目标对集合，所述目标对包括一个作为主语的目标和一个作为宾语的目标；抽取每个目标对中两个目标自身以及周围的语义信息形成目标对的上下文特征，将每个目标对中两个目标各自的视觉特征和类别标签以及目标对的上下文特征作为经过训练的深度自注意力网络的输入，预测目标对中两个目标的关系，得到由存在于所述原始图像中的关系三元组组成的第一关系三元组集合，将第一关系三元组集合中的关系三元组转换为图结构，从而得到基于图像的场景图；

S3、针对所述图像描述，通过实体提取规则从图像描述文本中识别得到第一实体集合，然后利用词典对第一实体集合中的实体进行筛选，保留的实体形成第二实体集合；利用关系抽取规则从图像描述文本中识别得到所述第二实体集合中实体之间存在的关系，得到由存在于所述图像描述中的关系三元组组成的第二关系三元组集合；根据实体之间的关系过滤规则，对第二关系三元组集合中的关系三元组进行过滤，保留的关系三元组形成第三关系三元组集合；将第三关系三元组集合中的关系三元组转换为图结构，从而得到基于图像描述的场景图；

S4、将基于图像的场景图和基于图像描述的场景图通过图层次的对齐和融合得到融合场景图；

S5、将所述融合场景图作为初始标注信息发送至人工校对端，并根据人工校对端返回的校对结果生成最终标注结果，并与所述待标注样本关联后加入多模态数据集中。

作为上述第一方面的优选，所述目标检测的方法为：将原始图像输入区域推荐网络，得到图像中目标的候选框和图像特征图，通过非极大值抑制对候选框进行筛选，根据保留的候选框从所述图像特征图中提取每个候选框对应区域的池化特征并作为对应候选框的特征向量；把每个候选框的特征向量分别输入分类网络和位置回归网络，得到每个候选框的类别和位置，从而得到多个带有类别和边框信息的目标。

作为上述第一方面的优选，所述深度自注意力网络由多个叠加的块和分类网络组成；其中每个块由多头注意力模块、多层感知机模块、层标准化模块级联而成，块的输入和多层感知机的输出进行残差连接后再输入到层标准化模块，层标准化模块的输出即为整个块的输出；上一个块的输出作为下一个块的输入，且第一个块的输入中带有一个可学习位置编码，最后一个块的输出作为分类网络的输入；所述分类网络仅包含一个多层感知机模块，使用softmax函数将多层感知机的结果转化为各个关系类别的概率分布，然后取概率最大的类别作为目标对中两个目标之间关系的预测结果。

作为上述第一方面的优选，所述深度自注意力网络预先通过半监督学习进行训练，训练时数据集包含原始图像数据集和增强图像数据集，所述原始图像数据集由已标注的原始图像组成，所述增强图像数据集由所有原始图像各自进行数据增强后的未标注的增强图像组成；训练时的总损失函数为深度自注意力网络在原始图像数据集上的交叉熵损失和在增强图像数据集上的KL散度损失的加权和。

作为上述第一方面的优选，得到所述第二关系三元组集合后，先针对所述目标对集合中的每一个目标对，按照先验知识和该目标对的上下文信息及约束，判断是否存在按规则提取过程中被忽略的关系三元组，若存在则将其补入所述第二关系三元组集合中，再按所述关系过滤规则执行过滤。

作为上述第一方面的优选，将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组中作为主语和宾语的两个实体是否存在于所述第二实体集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图。

作为上述第一方面的进一步优选，将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组是否存在于所述第三关系三元组集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图。

作为上述第一方面的优选，所述人工校对端通过UI界面显示当前待标注样本以及初始标注信息，同时在UI界面上提供对初始标注信息进行修改的功能组件；若所述初始标注信息在人工校对端被修改，则将修改后的标注信息作为所述最终标注结果，否则将初始标注信息作为所述最终标注结果。

第二方面，本发明提供了一种面向AI实训的多模态数据集标注装置，其包括：

样本获取模块，用于获取待标注样本，所述待标注样本包括原始图像和对应的图像描述；

第一场景图生成模块，用于针对所述原始图像，通过目标检测得到多个带有类别和边框信息的目标，将得到的所有目标配对采样形成由目标对组成的目标对集合，所述目标对包括一个作为主语的目标和一个作为宾语的目标；抽取每个目标对中两个目标自身以及周围的语义信息形成目标对的上下文特征，将每个目标对中两个目标各自的视觉特征和类别标签以及目标对的上下文特征作为经过训练的深度自注意力网络的输入，预测目标对中两个目标的关系，得到由存在于所述原始图像中的关系三元组组成的第一关系三元组集合，将第一关系三元组集合中的关系三元组转换为图结构，从而得到基于图像的场景图；

第二场景图生成模块，用于针对所述图像描述，通过实体提取规则从图像描述文本中识别得到第一实体集合，然后利用词典对第一实体集合中的实体进行筛选，保留的实体形成第二实体集合；利用关系抽取规则从图像描述文本中识别得到所述第二实体集合中实体之间存在的关系，得到由存在于所述图像描述中的关系三元组组成的第二关系三元组集合；根据实体之间的关系过滤规则，对第二关系三元组集合中的关系三元组进行过滤，保留的关系三元组形成第三关系三元组集合；将第三关系三元组集合中的关系三元组转换为图结构，从而得到基于图像描述的场景图；

场景图对齐融合模块，用于将基于图像的场景图和基于图像描述的场景图通过图层次的对齐和融合得到融合场景图；

人工校对模块，用于将所述融合场景图作为初始标注信息发送至人工校对端，并根据人工校对端返回的校对结果生成最终标注结果，并与所述待标注样本关联后加入多模态数据集中。

第三方面，本发明提供了一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如述第一方面任一方案所述的面向AI实训的多模态数据集标注方法。

本发明相对于现有技术而言，具有以下有益效果：

本发明通过基于深度学习技术和图对齐融合的场景图生成算法，利用图像描述的弱监督信息产生候选场景图，进一步与基于图像生成的场景图进行对齐和融合避免错误标注和漏标注，最终产生候选的初始场景图作为人工标注的参考。本发明可为多模态数据集的人工标注提供智能标注提示，从而人工标注时仅需优化侯选的场景图即可，大大降低了标注规模和标注难度，可有效提高多模态数据的标注效率，且标注流程简单，降低了外部干扰。本发明可以高效地由原始的非结构化数据输出高质量的结构化多模态数据，用于AI实训中提升算法模型性能。

附图说明

图1为面向AI实训的多模态数据集标注方法的步骤示意图；

图2为面向AI实训的多模态数据集标注方法流程的原理示意图；

图3为半监督学习的流程示意图；

图4为一个示例中的标注结果示意图；

图5为面向AI实训的多模态数据集标注装置的模块组成示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

多模态数据集能够为数据增强、网络训练等步骤提供数据支撑，是AI实训的重要基石。而多模态数据集中一个不可或缺的部分是场景图数据。场景图是一种由若干个三元组（主语、谓语、宾语）组成的结构化数据，表达了图像的高层次语义。由于传统的标注方式耗时长、效率低，本发明设计了一种智能标注辅助方式，先通过基于深度学习技术和图对齐融合的场景图生成算法，产生候选的初始场景图作为人工标注的参考，从而人工标注时仅需优化侯选的场景图即可，大大降低了标注规模和标注难度，可有效提高多模态数据的标注效率。

如图1所示，在本发明的一个较佳实施例中，提供了一种面向AI实训的多模态数据集标注方法，其包括S1~S5步骤。整个标注方法流程的原理如图2所示。下面分别对S1~S5步骤的具体实现形式进行详细展开描述。

S1、获取待标注样本，所述待标注样本包括原始图像和对应的图像描述。

需要说明的是，此处的待标注样本可以由用户逐个指定输入，也可以按未标注的多模态数据集形式进行输入，然后逐个从多模态数据集中进行样本抽取以便于生成标注信息。因此，待标注样本的具体获取形式不限，对此可不作限定。

S2、针对所述原始图像，通过目标检测得到多个带有类别和边框信息的目标，将得到的所有目标配对采样形成由目标对组成的目标对集合，所述目标对包括一个作为主语的目标和一个作为宾语的目标；抽取每个目标对中两个目标自身以及周围的语义信息形成目标对的上下文特征，将每个目标对中两个目标各自的视觉特征、两个目标各自的类别标签以及该目标对的上下文特征作为经过训练的深度自注意力网络的输入，预测目标对中两个目标之间的关系，得到由存在于所述原始图像中的关系三元组组成的第一关系三元组集合，将第一关系三元组集合中的关系三元组转换为图结构，从而得到基于图像的场景图。

需要说明的是，上述针对原始图像进行目标检测的方法可以采用任意的现有技术，以满足检测准确性为准。

作为本发明实施例的一种优选方式，采用的目标检测的方法具体流程如下：将原始图像输入区域推荐网络（Region Proposal Network,RPN），得到图像中目标的候选框和图像特征图，通过非极大值抑制对候选框进行筛选，根据保留的候选框从所述图像特征图中提取每个候选框对应区域的池化特征并作为对应候选框的特征向量；把每个候选框的特征向量分别输入分类网络和位置回归网络，得到每个候选框的类别和位置，从而得到多个带有类别和边框（即对应前述的候选框）信息的目标。具体而言，每个目标中带有候选框的左上和右下两个顶点坐标信息，以及目标所属的类别。上述RPN中获取图像中目标的候选框和图像特征图属于现有技术，本发明中优选采用ROI Align进行池化得到图像特征图。每个目标对应的边框的特征向量记为该目标的视觉特征。

需要说明的是，上述非极大值抑制（Non-Maximum Suppression，NMS）用于对存在重复的相似候选框进行筛选，保留具有最高置信度的边框，抑制其余冗余的相似边框。冗余边框的抑制的过程是一个迭代-遍历-消除的过程，每一次迭代均需要从候选框集合的剩余边框中挑选置信度最高的目标边框进行保留，然后去除所有与该目标边框的交并比（Intersection over Union, IoU）高于设定阈值（0.7）的候选框，重复该步骤直至没有剩余候选框。其具体的实现方式可参见现有技术，对此不再赘述。通过非极大值抑制获取到的候选框即作为最终的候选框参与分类和位置回归，这些候选框参与分类和位置回归时所需的特征向量可根据候选框的位置从图像特征图的对应区域中提取池化特征来实现。把候选框的特征向量输入经过训练的分类网络和位置回归网络，即可得到候选框的类别和位置优化参数，从而得到多个带有类别和边框信息的目标。

需要说明的是，本发明中需要通过选取目标对来处理场景信息。一个目标对（pair）指的是两个目标（即主语和宾语），如果目标对存在关系就是正样本，不存在关系即为负样本。目标对的关系即构成场景图中关系三元组中的谓语。深度自注意力网络对目标对中两个目标之间的关系进行预测时，需要结合目标对自身以及其上下文特征，而目标对的上下文特征可以通过对图像上这两个目标边框自身及周围的语义信息进行抽取得到。具体实现时，可以根据目标对中两个目标的边框形成包围两个目标的外包框，然后将该外包框映射到图像特征图相应的位置，从而提取外包框范围内的池化特征作为上下文特征，此时上下文特征包含了目标对自身以及其周围的语义信息。

作为本发明实施例的一种优选方式，上述深度自注意力网络由多个叠加的块（Block）和分类网络组成；其中每个块由多头注意力（multi-head attention）模块、多层感知机（Multilayer Perceptron）模块、层标准化（layer normalization）模块级联而成，块的输入和多层感知机的输出进行残差连接后再输入到层标准化模块，层标准化模块的输出即为整个块的输出；上一个块的输出作为下一个块的输入，且第一个块的输入中带有一个可学习位置编码，最后一个块的输出作为分类网络的输入；所述分类网络仅包含一个多层感知机模块，使用softmax函数将多层感知机的结果转化为各个关系类别的概率分布，然后取概率最大的类别作为目标对中两个目标之间关系的预测结果。此外，与传统自注意力机制的深度学习类似，上述深度自注意力网络中在第一个块的原始输入部分需要根据每个输入的位置额外累加一个可学习的位置编码，用以感知输入先后次序的语义信息。

需要说明的是，上述深度自注意力网络需要预先利用数据集进行训练，训练至满足性能要求后再投入实际使用。训练上述深度自注意力网络采用mask的方式对谓语进行mask，后续只要输入主语和宾语各自的类别标签信息、mask、主语的视觉特征、宾语的视觉特征、以及主语宾语目标对的上下文特征即可得到谓语的预测结果。深度自注意力网络的训练方式可参照现有技术实现，对此可不作限制。使用经过训练后的深度自注意力网络对采样得到的每个目标对和上下文特征进行编码和预测，判断两个目标之间的关系（两个目标也可能不存在关系）。在预测完所有目标对是否存在关系以后，解析存在关系的目标对，构建主语-谓语-宾语形式的关系三元组，所有关系三元组转换为由节点和边构成的图结构，即可得到基于图像的场景图。

需要说明的是，在实际应用时，通过目标检测得到的所有目标，均需要通过遍历的形式进行配对采样，得到所有可能的配对方式，然后将所有目标对组成目标对集合，通过深度自注意力网络预测每一对目标对之间可能存在的关系。但是，在训练过程中，训练样本的图像中通过目标检测得到的所有目标，可以不需要全部两两配对，以加快训练效率。此时，为了保证正负样本数量的平衡，对于每张图片的所有目标对及其标签，根据经验设置低于正样本总数量的最高正样本数量和低于负样本总数量的最高负样本数量，每一轮训练按照最高正样本数量和最高负样本数量进行随机采样配对，得到一系列用于训练的目标对，由此减少每一轮训练所需采用的目标对数量。

作为本发明实施例的一种优选方式，上述深度自注意力网络可预先通过半监督学习进行训练，训练时数据集包含原始图像数据集和增强图像数据集，其中原始图像数据集由已标注的原始图像组成，而增强图像数据集由所有原始图像各自进行数据增强后的未标注的增强图像组成。训练时的总损失函数为深度自注意力网络在原始图像数据集上的交叉熵损失和在增强图像数据集上的KL散度损失的加权和。具体可参见图3所示，在训练过程中需额外设置对增强图像进行场景图生成的操作。

具体而言，在预测完所有目标对是否存在关系以后，解析存在关系的目标对即可得到基于图像的场景图。假设原始图像数据集为

，可定义第一部分关系损失为深度自注意力网络在原始图像数据集上的交叉熵损失：

其中

是输入数据，

是对应的标签，

是交叉熵（cross entropy）损失，

是模型参数，

表示数据集

中的原始图像数量。

基于半监督学习，对原始图像数据集中的原始图像进行数据增强得到增强图像（augmented image），记为

。接着使用相同的深度自注意力网络对所有增强图像进行编码和预测，得出最后结果。第二部分关系损失通过最小化原始图像预测结果和增强图像预测结果的距离得到，距离度量方式采用KL（Kullback-Leiber）散度：

由此可以定义深度自注意力网络训练所采用的总损失函数如下：

式中：

和

是损失的权重。权重

和

可根据经验进行调整，本发明中优选将

设置为1，将

设置为0.5。

S3、针对所述图像描述，通过实体提取规则从图像描述文本中识别得到第一实体集合，然后利用词典对第一实体集合中的实体进行筛选，保留的实体形成第二实体集合；利用关系抽取规则从图像描述文本中识别得到所述第二实体集合中实体之间存在的关系，得到由存在于所述图像描述中的关系三元组组成的第二关系三元组集合；根据实体之间的关系过滤规则，对第二关系三元组集合中的关系三元组进行过滤，保留的关系三元组形成第三关系三元组集合；将第三关系三元组集合中的关系三元组转换为图结构，从而得到基于图像描述的场景图。

需要说明的是，基于规则的实体和关系提取属于现有技术，上述实体提取规则和关系抽取规则均需要根据具体的多模态数据集进行设定，以能够从文本中准确抽取实体和关系为准。上述用于对实体进行筛选的词典相当于一个包含了多模态数据集中可能包含的实体的词汇库，当识别得到第一实体集合后，仅保留与词汇库中实体意义相近或存在从属关系的那些实体，其余的实体属于不太可能会出现在该数据集中的实体，因此需进行过滤筛除，由此得到了第二实体集合。后续利用关系抽取规则进行关系抽取时，针对的实体均来源于第二实体集合。由于图像描述文本并非结构化文本，因此基于规则进行实体和关系抽取时，并不一定能够完全准确，因此关系过滤规则的作用正是对第二关系三元组集合中的关系三元组执行过滤操作，目标是过滤掉两个已知类别实体之间不应该存在的关系，因此关系过滤规则里面应当根据多模态数据集的实际情况设置不可能存在于该多模态数据集中的三元组关系，当第二关系三元组集合中出现了此类关系三元组时需要进行删除，最终保留形成第三关系三元组集合。第三关系三元组集合中所有主语-谓语-宾语形式的关系三元组，转换为由节点和边构成的图结构，即可得到基于图像描述的场景图。

S4、将基于图像的场景图和基于图像描述的场景图通过图层次（graph-level）的对齐和融合得到融合场景图。

需要说明的是，图层次的对齐和融合存在众多的实现形式，例如将其视为小规模知识融合（两个知识图谱融合）问题，通过本体对齐、实体匹配的方式求解，理论上任意能够实现的对齐融合方法都可以应用于本发明中。

作为本发明实施例的一种优选方式，由于基于图像的三元组关系识别，能够基于图像中的信息尽可能挖掘三元组关系，但是其容易出现误判的现象，而基于图像描述的场景图是从描述文本中基于规则进行识别的，其准确率较高，但是如果描述文本中不存在该关系描述，则无法提取。因此，为了有机结合这两种不同来源的异构场景图各自的有点，下面提供了两种实现基于图像的场景图和基于图像描述的场景图之间图层次对齐和融合的方法，具体描述如下：

第一种图层次对齐和融合的方法是基于两个场景图中关系三元组之间的实体对应关系进行匹配。具体做法是：将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组中作为主语和宾语的两个实体是否存在于所述第二实体集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图。

举例而言，基于图像的场景图里面有人骑自行车，而基于图像描述的场景图里根本没有自行车这个实体，那就意味着图像场景图的预测出现错误，应当删除人骑自行车这一个关系三元组。

需要说明的是，在判断关系三元组中作为主语和宾语的两个实体是否存在于所述第二实体集合中时，需要通过实体匹配来实现，而且实体匹配时除了匹配实体本身之外，还应当匹配实体的等价类别和等价子类别。等价类别是指实体可以等价的类别，等价子类别是指实体的概念存在从属关系的类别。这里的等价类别、等价子类别既可以是关系（例如：骑、坐），也可以是目标的类别（例如：人、自行车）。举例而言，如果基于图像的场景图中一个关系三元组出现了实体person，那么在第二实体集合中出现实体person即视为实体本身存在于第二实体集合中，而people是person的等价类别，man是person的等价子类别，第二实体集合中出现man、people也应当视为实体本身存在于第二实体集合中。

第二种图层次对齐和融合的方法是基于两个场景图中关系三元组之间的对应关系进行匹配。具体做法是：将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组是否存在于所述第三关系三元组集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图。

同样的，在判断关系三元组是否存在于第三关系三元组集合中时，需要通过关系三元组匹配来实现，而关系三元组匹配时其中的关系和实体除了关系和实体自身之外，还应当考虑关系和实体各自的等价类别和等价子类别。

进一步的，当采用第二种图层次对齐和融合的方法时，实际上比第一种图层次对齐和融合的方法有着更严格的匹配规则。考虑到图像描述文本中往往主要针对于视觉突出的区域进行了描述，而视觉不突出的区域则可能没有描述，因此若仅考虑图像描述文本中提取的关系三元组将忽略许多可能存在的关系。因此，作为本发明实施例的一种进一步优选方式，采用第二种图层次对齐和融合的方法时，可以对第二关系三元组集合预先进行补充，具体做法是：在得到第二关系三元组集合后，先针对前述针对原始图像进行目标检测和配对采样得到的目标对集合中的每一个目标对，按照先验知识（prior knowledge）和该目标对的上下文信息及约束，判断是否存在按规则提取过程中被忽略的关系三元组，若存在则将其补入第二关系三元组集合中，再按前述的关系过滤规则执行过滤。此处先验知识和目标对的上下文信息及约束的具体形式可根据实际的数据集进行设计。一种可行的方式是，预先根据专家经验设置先验知识库，先验知识库中存储有如果图像中出现了两个实体那么这两个实体之间大概率存在指定关系的所有实体对，同时目标对的上下文信息及约束主要考虑其在图像中的空间位置关系。在执行判断时，如果目标对集合中的一个目标对出现在先验知识库中，而且这两个目标在图像中的空间位置关系满足先验知识库中对应的指定关系所需满足的条件，那么视为这个目标对以及其对应的指定关系所构成的关系三元组是按规则提取过程中被忽略的关系三元组，将其补入第二关系三元组集合中，以便于进行图层次的对齐和融合，防止漏检。

需要说明的是，人工校对端的具体形式不限，只要能够为校对人员提供审核标注信息以及在标注信息错误时对其进行修改的功能即可。

作为本发明实施例的一种优选方式，人工校对端通过UI界面显示当前待标注样本以及初始标注信息，同时在UI界面上提供对初始标注信息进行修改的功能组件；若所述初始标注信息在人工校对端被修改，则将修改后的标注信息作为所述最终标注结果，否则将初始标注信息作为所述最终标注结果。

在一个较佳实施例中，各功能组件可以用按钮的形式设置于UI界面上并进行标识。优选的，UI界面上除了显示当前待标注样本以及初始标注信息的区域之外，可以进一步设置加载待标注的多模态数据集样本的按钮，同时设置确认初始标注信息或者修改初始标注信息的按钮。在人工审核时，当前待标注样本中的原始图像、图像描述均显示在UI界面上，同时最终融合场景图中的所有三元组关系的图结构也均显示在UI界面上，审核人员仅需对初始标注信息进行正误判断，若存在偏差或者错误，则通过修改按钮对其进行调整后再通过确认按钮进行确认，若不存在偏差或者错误，则直接通过确认按钮进行确认。确认后，将人工审核端所做的修改作为校对结果进行返回，以便于生成最终标注结果。若初始标注信息在人工校对端被修改，则将修改后的标注信息作为最终标注结果，否则直接将初始标注信息作为标注信息。

另外，当一次性加载一系列的样本时，可以进一步在UI界面上设置切换下一个样本的按钮，当完成一个样本的校对后，可通过切换按钮切换至下一个样本，继续对其进行审核。

进一步的，人工校对端的具体载体形式不限，可以是本地服务器，也可以是云平台，也可以搭载于移动终端中，对此不作限制，只要能够满足性能上的实现要求即可。上述S1~S5步骤可在相应的运行平台上通过编写软件程序的方式实现，而上述执行S1~S5步骤的运行平台与人工校对端所在的平台可以是相同的，也可以是不同的。

由此可见，通过本发明的上述S1~S5步骤，在对多模态数据集进行标注时，标注任意仅需对融合场景图进行校对，删除错误的实体和关系，补充缺失的实体和关系，即可得到最终标注结果。如图4所示，展示了一个示例性的多模态数据集标注样本案例，其中原始图像中显示了一只坐在草坪上的狗，经过上述S1~S4步骤后得到了融合场景图，融合场景图中带有三个关系三元组，分别为<狗>-<有>-<头>、<狗>-<有>-<眼睛>、<狗>-<有>-<鼻子>。该融合场景图作为初始标注信息发送至人工审核端的UI界面后，标注任意将其与原始图像结合进行校对，发现根据标注规则遗漏了<狗>-<有>-<耳朵>这一关系三元组，则需要将其补入最终的场景图中。

实际试验结果表明，以 Visual Genome数据集为例，每张图像平均包括35个实体和21个关系三元组。本发明的上述面向AI实训的多模态数据集标注方法可以有效减少待标注实体和关系三元组的数量，每张图像预估减少50%标注时间。

基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的面向AI实训的多模态数据集标注方法对应的面向AI实训的多模态数据集标注装置。如图5所示，在该面向AI实训的多模态数据集标注装置中包括五个基本的模块，分别为：

第一场景图生成模块，用于针对所述原始图像，通过目标检测得到多个带有类别和边框信息的目标，将得到的所有目标配对采样形成由目标对组成的目标对集合，所述目标对包括一个作为主语的目标和一个作为宾语的目标；抽取每个目标对中两个目标自身以及周围的语义信息形成目标对的上下文特征，将每个目标对中两个目标各自的视觉特征、两个目标各自的类别标签以及该目标对的上下文特征作为经过训练的深度自注意力网络的输入，预测目标对中两个目标的关系，得到由存在于所述原始图像中的关系三元组组成的第一关系三元组集合，将第一关系三元组集合中的关系三元组转换为图结构，从而得到基于图像的场景图；

由于本发明实施例中的面向AI实训的多模态数据集标注装置解决问题的原理与本发明上述实施例的面向AI实训的多模态数据集标注方法相似，因此该实施例中装置的各模块具体实现形式未尽之处亦可可以参见上述方法的具体实现形式，重复之处不再赘述。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的面向AI实训的多模态数据集标注方法对应的一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如前所述的面向AI实训的多模态数据集标注方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

由此，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的面向AI实训的多模态数据集标注方法对应的一种计算机可读存储介质，该所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前所述的面向AI实训的多模态数据集标注方法。

具体而言，在上述两个实施例的存储器或计算机可读存储介质中，存储的计算机程序被处理器执行，可执行下列S1~S5的步骤：

可以理解的是，上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory，RAM)，也可以采用非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的装置和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种面向AI实训的多模态数据集标注方法，其特征在于，包括：

2.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，所述目标检测的方法为：将原始图像输入区域推荐网络，得到图像中目标的候选框和图像特征图，通过非极大值抑制对候选框进行筛选，根据保留的候选框从所述图像特征图中提取每个候选框对应区域的池化特征并作为对应候选框的特征向量；把每个候选框的特征向量分别输入分类网络和位置回归网络，得到每个候选框的类别和位置，从而得到多个带有类别和边框信息的目标。

3.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，所述深度自注意力网络由多个叠加的块和分类网络组成；其中每个块由多头注意力模块、多层感知机模块、层标准化模块级联而成，块的输入和多层感知机的输出进行残差连接后再输入到层标准化模块，层标准化模块的输出即为整个块的输出；上一个块的输出作为下一个块的输入，且第一个块的输入中带有一个可学习位置编码，最后一个块的输出作为分类网络的输入；所述分类网络仅包含一个多层感知机模块，使用softmax函数将多层感知机的结果转化为各个关系类别的概率分布，然后取概率最大的类别作为目标对中两个目标之间关系的预测结果。

4.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，所述深度自注意力网络预先通过半监督学习进行训练，训练时数据集包含原始图像数据集和增强图像数据集，所述原始图像数据集由已标注的原始图像组成，所述增强图像数据集由所有原始图像各自进行数据增强后的未标注的增强图像组成；训练时的总损失函数为深度自注意力网络在原始图像数据集上的交叉熵损失和在增强图像数据集上的KL散度损失的加权和。

5.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，得到所述第二关系三元组集合后，先针对所述目标对集合中的每一个目标对，按照先验知识和该目标对的上下文信息及约束，判断是否存在按规则提取过程中被忽略的关系三元组，若存在则将其补入所述第二关系三元组集合中，再按所述关系过滤规则执行过滤。

6.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组中作为主语和宾语的两个实体是否存在于所述第二实体集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图。

7.如权利要求5所述的面向AI实训的多模态数据集标注方法，其特征在于，将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组是否存在于所述第三关系三元组集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图。

8.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，所述人工校对端通过UI界面显示当前待标注样本以及初始标注信息，同时在UI界面上提供对初始标注信息进行修改的功能组件；若所述初始标注信息在人工校对端被修改，则将修改后的标注信息作为所述最终标注结果，否则将初始标注信息作为所述最终标注结果。

9.一种面向AI实训的多模态数据集标注装置，其特征在于，包括：

10.一种计算机电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1~7任一所述的面向AI实训的多模态数据集标注方法。