CN115062208A

CN115062208A - 数据处理方法、***及计算机设备

Info

Publication number: CN115062208A
Application number: CN202210604227.1A
Authority: CN
Inventors: 李仁刚; 王立; 范宝余; 郭振华
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-16
Anticipated expiration: 2042-05-30
Also published as: CN115062208B

Abstract

本申请公开了一种数据处理方法、***及计算机设备，该方法包括：获取文本数据集与图像数据集，文本数据集中的文本数据与图像数据集中的图像数据一一内容对应；基于TreeLSTM模型提取并处理文本数据中每句话的特征生成文本输出特征数据；提取图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据；建立多模态数据集,多模态数据集中包括文本输出特征数据和图像输出特征数据；通过TreeLSTM模型提取并处理文本数据以及通过对图像数据进行异质图处理计算，获得准确对应的文本输出特征数据和图像输出特征数据，从而建立多模态数据库，有效提高后续进行双向检索时的检索结果准确率。

Description

数据处理方法、***及计算机设备

技术领域

本申请涉及数据处理领域，具体涉及一种数据处理方法、***及计算机设备。

背景技术

随着互联网技术的发展，大众的生活与网络息息相关，逐渐依赖于各个网络平台，而在各网络平台的使用中，检索是极为重要的一个模块。但在目前的网络平台使用中，用户在检索时体验较差。

例如在医疗平台使用中，患者通常需要在历次就诊记录中检索查找其中某一个具体就诊结果，此时患者通常希望能够在输入一个具体诊断记录关键词后检索到对应的医学图像；而在购物平台使用中，用户通常希望在输入一段商品关键词后搜索到准确对应的商品图，或者在上传商品图后能够出现准确的与该商品对应的关键字，从而去搜索同款或类似款；而在美食平台使用中，用户通常希望能够根据菜谱检索到对应的操作图，或者根据食物图片搜索到对应的菜谱操作文本。但在目前的平台使用中，用户往往难以搜索到准确对应的目标。这是由于目前难以将文本信息和图像信息处理成内容对应的数据，因此在检索时难以检索到对应的内容。

因此，目前仍然缺少实现能够准确实现将文本与图像处理成内容对应、能够准确进行检索的数据的方法。

发明内容

本申请目的是：提供一种能够将文本和图像进行处理，便于后续进行精确的双向数据检索的数据处理方法、***及计算机设备。

本申请的技术方案是：第一方面，本申请提供一种数据处理方法，所述方法包括：

获取文本数据集与图像数据集，所述文本数据集中的文本数据与所述图像数据集中的图像数据一一内容对应；

基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据；

提取所述图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据；

建立多模态数据集,所述多模态数据集中包括所述文本输出特征数据和所述图像输出特征数据。

在一种较佳的实施方式中，所述基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据之前，所述方法还包括：

对每个所述文本数据进行逐句拆分获得单句数据；

构建每个所述单句数据的句法结构树。

在一种较佳的实施方式中，所述构建每个所述单句数据的句法结构树包括：

基于Word2Vector模型或Bert模型获取所述单句数据中每个单词的特征向量；

基于所述每个单词的特征向量构建每个所述单句数据的句法结构树。

在一种较佳的实施方式中，所述基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据包括：

基于Tree LSTM模型提取所述句法结构树的特征；

采用所述Tree LSTM模型从所述句法结构树的最底层依层依次向上计算直至输出最顶层的句子特征作为句子输出特征；

基于所述TREE LSTM模型或LSTM模型级联处理所述句子输出特征获得文本输出特征。

在一种较佳的实施方式中，所述采用所述Tree LSTM模型从所述句法结构树的最底层依层依次向上计算直至输出最顶层的句子特征作为句子输出特征包括：

基于所述Tree LSTM模型对所述句法结构树的特征进行特征聚合处理，包括：

基于所述Tree LSTM模型按照所述句法结构树的属性结构从下至上两两聚合所述句法结构树的树形子节点特征为根节点特征，直至聚合生成最顶部的根节点；所述句子输出特征包括所述最顶部的根节点。

在一种较佳的实施方式中，每组所述文本数据均包括第一文本数据与第二文本数据，所述第一文本数据至少包括成分数据与关系数据，所述第二文本数据至少包括所述成分数据；

所述基于所述Tree LSTM模型按照所述句法结构树的属性结构从下至上两两聚合所述句法结构树的树形子节点特征为根节点特征包括：

将所述第一文本数据的句法结构树中相邻两个子节点特征输入所述Tree LSTM模型以进行计算；

判断所述当前子节点特征是否为单词特征；

若是，则遍历查询所述第二文本数据中是否存在与所述子节点内容相同的单词；

若是，则以所述内容相同的单词为关键词强调当前节点输入。

在一种较佳的实施方式中，所述提取所述图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据包括：

基于ResNet骨干网络提取每组所述图像数据中的关系特征数据以构建图像节点，并提取每组所述图像数据中的成分特征数据以构建异质图的成分节点；

基于分类网络、所述图像节点与所述成分节点构建异质图的边；

基于图注意力网络进行异质图信息更新获得更新图像节点和更新成分节点；

基于所述更新图像节点以及LSTM网络生成图像输出特征数据。

在一种较佳的实施方式中，所述基于图注意力网络进行异质图信息更新获得更新图像节点和更新成分节点包括：

基于图注意力网络更新成分节点获得更新成分节点；

遍历每个所述图像节点相连的边对应的更新成分节点；

归一化处理所述图像节点相连的边对应的更新成分节点的相关权重以获取所述图像节点相连的边对应的更新成分节点的相关权重的总和；

基于所述图像节点相连的边对应的更新成分节点的相关权重的综合更新所述图像节点获得更新图像节点。

第二方面，本申请还提供一种数据处理***，所述***包括：

获取模块，用于获取文本数据集与图像数据集，所述文本数据集中的文本数据与所述图像数据集中的图像数据一一内容对应；

处理模块，用于基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据；

计算模块，用于提取所述图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据；

建立模块，用于建立多模态数据集,所述多模态数据集中包括所述文本输出特征数据和所述图像输出特征数据。

第三方面，本申请还提供一种计算机设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行根据第一方面中任一所述的方法。

本申请的优点是：提供一种数据处理方法、***及计算机设备，该方法包括：获取文本数据集与图像数据集，文本数据集中的文本数据与图像数据集中的图像数据一一内容对应；基于Tree LSTM模型提取并处理文本数据中每句话的特征生成文本输出特征数据；提取图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据；建立多模态数据集,多模态数据集中包括文本输出特征数据和图像输出特征数据；通过Tree LSTM模型提取并处理文本数据以及通过对图像数据进行异质图处理计算，获得准确对应的文本输出特征数据和图像输出特征数据，从而建立多模态数据库，有效提高后续进行双向检索时的检索结果准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一所提供的数据处理方法流程图；

图2为本申请实施例一所提供的数据处理方法中内容对应的文本数据与图像数据示意图；

图3为本申请实施例一所提供的数据处理方法中定义的各语法类型相互转化的转换规则示意图；

图4为本申请实施例一所提供的数据处理方法中使用左推导的方式对单句话进行句法解析构建出的句法树的示意图；

图5为Tree LSTM模型的基本单元结构图；

图6为本申请实施例一所提供的数据处理方法中TREE LSTM模型级联处理的示意图；

图7为本申请实施例一所提供的数据处理方法中LSTM模型级联处理的示意图；

图8为本申请实施例一所提供的数据处理方法中基于ResNet骨干网络提取图像数据特征的示意图；

图9为于ResNet骨干网络结构图；

图10为本申请实施例一所提供的数据处理方法中异质图构建示意图；

图11本申请实施例二所提供的图像文本双向检索模型训练方法流程图；

图12为本申请实施例二所提供的图像文本双向检索模型训练方法损失函数训练过程示意图；

图13为本申请实施例三所提供的图像文本双向检索方法流程图；

图14为本申请实施例四所提供的数据处理***结构图；

图15为本申请实施例五所提供的计算机设备架构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术中所述，目前在很多平台的使用中都迫切需要实现图片与文本的精确互检，但当前的图文互检往往只能实现部分内容对应，即只能实现图像中最直观的内容(如物品、成分名称等)与相关文本的互检，而对于图片中深层次的内容(如物品关系、操作步骤等)，则无法实现与文本的准确互检，因此，需要对检索数据库中的文本和图像进行深层处理，处理成保留图像、文本直观内容和隐藏关系步骤内容的数据，实现精确对应关联，保证后续检索的精确性。

为解决上述问题，本申请创造性地提出了一种数据处理方法、***及计算机设备，通过Tree LSTM模型(Tree-Long-Short Term Memory树状拓扑结构递归神经网络模型)提取处理文本数据的特征，并对图像数据采用异质图计算获得图像输出特征数据，获得的文本输出特征数据与图像输出特征数据能够完整保留文本数据与图像数据的内容，实现建立文本数据与图像数据准确对应关联的多模态数据库，有效提高后续文本与图像双向检索的准确度。下面将结合具体实施例对本申请所提出的数据处理方法、***及计算机设备进行介绍。

实施例一：本实施例对本申请中所提供的数据处理方法进行介绍，参照图1所示，该方法包括：

S110、获取文本数据集与图像数据集，文本数据集中的文本数据与图像数据集中的图像数据一一内容对应。

其中，文本数据为多结构数据，至少包括关系特征数据和成分特征数据，与文本数据对应的，图像数据也包括关系特征数据和成分特征数据。示例性的，参照图2所示，食谱有文本与图片两种形式，均记录了准备食物所涉及的各种元素(菜名、原料和烹饪步骤说明等)。文本数据为食谱数据，该文本数据包括关系特征数据——烹饪步骤特征数据和成分特征数据——原料数据；图像数据为食谱数据的图像形式数据，该图像数据中也包括烹饪步骤特征数据(图片顺序)和成分特征数据。

在一种实施方式中，在S120之前，该方法还包括：

SA1、对每个文本数据进行逐句拆分获得单句数据。

具体的，文本信息中包含语义信息，同时也包含结构化的信息。对文本数据进行语义信息抽取时，不仅要考虑句子所包含单词的特征信息，而且需要挖掘句子本身所蕴含的结构信息。参照图2所示，文本数据通常由多个句子组成，处理时首先将文本数据逐句拆分成单个句子，获得单句数据。

SA2、构建每个单句数据的句法结构树。

将句法结构用于关系抽取，可以提高模型对语义的理解，取得更好的效果。为建立每个的句法结构树，首先利用句法依存分析提取出每个句子序列的句法结构。优选的，本步骤包括：

SA21、基于Word2Vector模型或Bert模型获取单句数据中每个单词的特征向量。

SA22、基于每个单词的特征向量构建每个单句数据的句法结构树。

具体的，首先定义句法语法类型：

VP 动词词组

NP 名词词组

PP 介词

DT 限定词

Vi 不及物动词

Vt 及物动词

NN 名词

IN 介词

然后定义各语法类型相互转化的转换规则，如图3所示。其中，S代表一句话，S->NPVP,代表一句话可以由1个或多个名词性词组组成，也即名词性词组+动词性词组构成一个句子。同理：

VP->Vi代表不及物动词Vi可以构成VP。

定义号句法语法类型和各语法类型相互转化的转换规则后，开始对单句数据进行语法树构建。具体的，参照图4所示，使用左推导的方式对单句数据进行句法解析，构建句法树：

单句数据为The man saw the dog with the telescope。

从左向右开始建立句法树：

The代表限定词DT,man代表名词NN，通过语法类型互转化规则，DT+NN->NP。再往后，Saw代表及物动词，The代表DT,dog代表NN，DT+NN->NP，With代表IN，The代表DT,telescope代表NN，DT+NN->NP，IN+NP->PP，NP+PP->NP。

通过上述方法，为每个单句数据构建其句法结构树。

当然，也可以先为每个单句数据构建语法树，再在使用Tree LSTM模型处理句法结构树前基于Word2Vector模型或Bert模型将句法结构树中的每个单词转化为单词的特征向量。

S120、基于Tree LSTM模型提取并处理文本数据中每句话的特征生成文本输出特征数据。

在一种实施方式中，本步骤包括：

S121、基于Tree LSTM模型提取句法结构树的特征。

具体的，Tree LSTM模型的基本单元结构如图5所示，包含3个节点，node1、node2和node3。对于所有节点，包含隐含状态h1,h2,h3，结点细胞状态c1,c2,c3,x1代表当前节点多结构文本特征输入，对于当前节点，可以有x1输入，也可以无x1输入。以Tree LSTM模型的基本单元结构从句法结构树的最底层开始提取句法结构树的特征代入到Tree LSTM模型的基本单元结构中。

S122、采用Tree LSTM模型从句法结构树的最底层依层依次向上计算直至输出最顶层的句子特征作为句子输出特征。

具体的，基于Tree LSTM模型对句法结构树的特征进行特征聚合处理，包括：

基于Tree LSTM模型按照句法结构树的属性结构从下至上两两聚合句法结构树的树形子节点特征为根节点特征，直至聚合生成最顶部的根节点；句子输出特征包括最顶部的根节点。

具体的，Tree LSTM模型的计算方法如下：

f_jk＝σ(W^f·x_j+U^f·h_k+b^f) (1)

公式1中的f_jk代表图5中的f2和f3,其中对于本案例，j＝1k＝2，3。其中，f_jk为遗忘系数，遗忘系数的值取决于当前结点输入x_j＝x₁和子结点的隐含状态输出h_k。

公式2取得所有子结点隐含状态并对其求和得到

公式3中i_j为输入门权重值，其控制当前j节点输入值的权重系数。

公式4中

为备选细胞状态，其代表当前j节点的输入值大小。

公式5是对根节点j的状态c_j更新。

最终根节点j的隐含状态输出h_j由下面公式计算：

h_j＝o_j·tanh(c_j) (7)

其中，o_j代表输出权重。公式1、2、3、4、5、6、7中所有的W、U、b矩阵都是训练参数，在初始化时为随机值。从句法结构树最底层开始，将句法结构树中的子节点代入节点细胞状态c1,c2,c3，计算隐含状态h1,h2,h3，依次聚合直至输出最顶层的根节点。

在一种实施方式中，每组文本数据均包括第一文本数据与第二文本数据，第一文本数据至少包括成分数据与关系数据，第二文本数据至少包括所述成分数据；以论文为例，每组文本数据包括第一文本数据摘要和第二文本数据关键词，其中摘要中包含了关键词和关系数据(如实验步骤等)；以食谱为例，每组文本数据包括第一文本数据——食材与烹饪步骤，以及第二文本数据——食材。

基于所述Tree LSTM模型按照所述句法结构树的属性结构从下至上两两聚合所述句法结构树的树形子节点特征为根节点特征包括：

S1221、将第一文本数据的句法结构树中相邻两个子节点特征输入Tree LSTM模型以进行计算。

示例性的，基于Tree LSTM模型计算图4中的句法结构树，从最底层右侧开始向左计算，将the、telescope输入Tree LSTM模型计算出NP值，再将计算出的NP值与左侧相邻的子节点with输入Tree LSTM模型聚合计算……依次类推。

S1222、判断当前子节点特征是否为单词特征。

具体的，由于子节点特征可以是最底层输入的单词的特征向量，也可以是已经由单词的特征向量聚合计算出的特征值。本申请认为在第一文本数据与第二文本数据中都出现的成分数据为需要强调的关键词，因此需要先筛选出单词特征子节点再筛选出关键词，本步骤先判断当前子节点特征是否为单词特征，若是，则进入S1223。

S1223、遍历查询第二文本数据中是否存在与子节点内容相同的单词。

具体的，遍历查询第二文本数据中是否存在与子节点内容相同的单词，内容相同的单词即为成分数据，是需要强调的关键词。若是，则进入S1224。

具体的，对于子节点内容是否相同的判断，可以通过单词数据完全相同或者单词语义相近进行判断。单词语义相近的判断可以是通过单词中相同字段量大于预设阈值进行判断，或者是通过已经由大量训练集进行训练的语义模型(如Bert模型等)进行识别判断，对此本实施例不作具体限制。

S1224、以内容相同的单词为关键词强调当前节点输入。

具体的，将内容相同的单词的特征向量输入代表当前节点多结构文本特征输入x1，Tree LSTM模型具有信息记忆能力，每个节点可以保留其子树中，所有节点中的重要信息或忘记不重要的信息，即节点可以选择是否需要其子树中的信息。在信息传递方式上Tree LSTM不再像LSTM一样线性的传递信息，而是把依存关系作为信息传递方向的约束，依照树形的语义结构自底向上传递信息。这样的信息传递方式更加高效，提高了捕捉长距离依赖关系的能力。最终计算出的根节点中包含了x1信息。

S123、基于TREE LSTM模型或LSTM模型级联处理句子输出特征获得文本输出特征。

由于每个文本数据都是由多个句子组成，因此使用Tree LSTM的级联，以计算出的根节点——每个单句数据的最终输出句子输出特征作为子节点进行编码，如图6所示，按照从左向右的顺序，紧邻两句话构成Tree LSTM的子节点，从左向右依次对由句子构成的子节点利用Tree LSTM进行编码。

在另一种实施方式中，基于LSTM模型级联处理句子输出特征获得文本输出特征，如图7所示，将每句话的输出送入LSTM(长短期记忆网络)，实现对多句话的时序信息挖掘和编码，本申请取最后一句话的对应的LSTM单元的输出做为整段话的输出。

S130、提取图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据。

在一种实施方式中，本步骤包括：

S131、基于ResNet骨干网络提取每组图像数据中的关系特征数据以构建图像节点，并提取每组图像数据中的成分特征数据以构建异质图的成分节点。

如图8所示，基于ResNet骨干网络提取每一张食谱步骤图特征，获取ResNet网络在分类层前一层的特征做为每一张图像的特征，并用该特征构建异质图的图像节点，记为

其中ResNet网络结构图如图9所示，其结构分为七个部分，第一部分不包含残差块，主要对输入进行卷积、正则化、激活函数、最大池化的计算，第二、三、四、五部分结构都包含了残差块，每个残差块含有三层卷积，经过前五部分的卷积计算后，池化层将其转化为一个特征向量，最后分类器对这个特征向量进行计算并输出类别概率。本申请取第六部分avgpool层输出特征做为每一张图像的关系特征数据。其中，i代表第i个节点，φ()代表ResNet骨干网络。csi＝cooking step images。成分特征提取同理。

S132、基于分类网络、图像节点与成分节点构建异质图的边。

参照图10所示，异质图由节点和关系组成。对于节点，上面一行的

代表了图像节点即关系特征，以食谱图为例，

代表食谱步骤特征，即：

下面一行的

代表了成分节点，来自于图像分类网络的对于图像的分类标签。将每个类别标签，例如芒果，将其输入到bert网络模型中，获取每个类别单词短语的编码特征，该特征代表节点特征。

关系的建立仍然通过分类网络建立，如果该图像分类结果中有该类别，则该步骤图像特征就和该成分建立一条边。如图10所示：芒果在所有食谱步骤图像中都出现了，所以所有食谱步骤图像都会与其建立边。

以上，建立好异质图的节点和边厚，使用异质图进行计算。

S133、基于图注意力网络进行异质图信息更新获得更新图像节点和更新成分节点。

在一种实施方式中，本步骤包括：

S1331、基于图注意力网络更新成分节点获得更新成分节点。

具体的，采用图注意力网络进行特征聚合与更新来实现异质图信息更新，更新方法是依次遍历每个异质节点进行更新。

其中，W_d，W_e，W_f是R^d×d维矩阵，R代表实数；

代表矩阵乘法，也代表了向量映射。

如上公式，首先对步骤图节点特征进行更新，

代表图像节点(instruction)的第m个节点的节点特征，

代表成分节点的第n个节点的特征。若图像节点的第m个节点与成分节点的第n个节点有连接(边)，则用成分节点的第n个节点的特征去更新图像节点的第m个节点特征，但是需要算一个权重，公式(8)就是算权重的，其中z_mn代表图像节点的第m个节点与成分节点的第n个节点特征的相关权重z_mn。

S1332、遍历每个图像节点相连的边对应的更新成分节点。

具体的，对于每个图像节点，例如

遍历所有与其有相连的边的成分节点，假设有N_N个，都会得到与其对应的相关权重z_mn。成分节点通过图神经网络实时更新。

S1333、归一化处理所述图像节点相连的边对应的更新成分节点的相关权重以获取所述图像节点相连的边对应的更新成分节点的相关权重的总和。

具体的，对所有与图像节点相连的边的成分节点，进行相关权重的归一化：

得到了归一化的相关权重α_mn，exp代表求指数函数。

代表求取所有与图像节点相连的边的成分节点的相关权重的总和。

S1334、基于所述图像节点相连的边对应的更新成分节点的相关权重的综合更新所述图像节点获得更新图像节点。

具体的，通过归一化的相关权重对图像节点的节点特征进行更新。公式如下：

其中，σ代表超参数，在[0,1]区间。W_v是R^d×d维矩阵。

是被与其相连的成分节点更新后的新的特征向量。

进一步，引入残差网络的思想，将更新后的

与未更前的初始特征

相加。公式如下：

同理，对成分节点也做相同的计算与更新。公式如下：

其中N_M代表共M个图像节点与该成分节点相连。

遍历完所有的成分节点和图像节点，即完成图注意力网络一层的网络更新。

叠加T层图注意力网络，每一层的节点特征的更新方式都如上所述。

用t代表第t层的图注意力网络。在每层图注意力网络后面加入集成全连接层，实现对节点特征(包括成分节点和图像节点)特征的再编码。公式如下：

其中，FFN代表全连接层。

代表t+1层的图注意力网络的初始化节点特征。

如上完成了对节点特征的更新，更新后的图像节点融合了成分节点信息，成分节点通过图神经网络更新，以关键词的形式对相关图像节点特征进行了强调。

S134、基于更新图像节点以及LSTM网络生成图像输出特征数据。

具体的，将融合了更新成分节点信息的更新图像节点特征输入到LSTM网络，获取整组图像数据的总体特征。公式如下：

其中，LSTM代表LSTM网络的每一个单元。

代表第m个LSTM单元的输出。

代表图像特征，来自于最后一层的异质图节点特征，m代表第m张图像。

取最后一个LSTM单元的特征编码输出作为整组图像数据的特征输出。如下所示：

其中，e_csi代表图像组特征的输出，用来进行下一步的检索。

S140、建立多模态数据集,多模态数据集中包括文本输出特征数据和图像输出特征数据。

具体的，多模态数据集中的文本输出特征数据中通过X1输入对关键词进行了强调，图像输出特征数据中也通过图像节点融合成分节点信息进行了关键词强调，文本输出特征数据与图像输出特征数据均完整保留了文本数据与图像数据且进行了关键词强调而高度对应，有效保证后续在多模态数据集中进行图像与文本互检的准确度。

本实施例提供的数据处理方法包括：获取文本数据集与图像数据集，文本数据集中的文本数据与图像数据集中的图像数据一一内容对应；基于Tree LSTM模型提取并处理文本数据中每句话的特征生成文本输出特征数据；提取图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据；建立多模态数据集,多模态数据集中包括文本输出特征数据和图像输出特征数据；通过Tree LSTM模型提取并处理文本数据以及通过对图像数据进行异质图处理计算，获得准确对应的文本输出特征数据和图像输出特征数据，从而建立多模态数据库，有效提高后续进行双向检索时的检索结果准确率。

实施例二：本实施例在实施例一的基础上提供一种图像文本双向检索模型训练方法，该方法使用实施例一所提供的多模态数据库，参照图11所示，该方法包括：

S1110、构建图像文本双向检索模型。

参照图12所示，图像文本双向检索模型包括文本信息特征编码器和图像特征编码器。

S1120、构建损失函数。

具体的，本申请使用recipe triplet loss函数,对以上S220中的模型损失进行评估。公式如下：

多模态数据库中文本输出特征数据与图像输出特征数据是成对出现的，一个文本特征的编码对应一个图像组特征编码。在损失函数构建中，对于这种成对的数据，会遍历每一对图像输出特征数据和文本输出特征数据求取损失函数的平均值。如上公式所示。

共遍历N次，N代表在本批次中共有N个成对的样本。首先对图像输出特征数据组

进行遍历(共N个)，遍历选中的那个就称为

a代表anchor(锚点样本)。与锚点样本成对的文本输出特征数据记为

p代表positive(确定样本)。同理，在本批次中与

不配对的文本特征记为

是超参数，在训练时固定，本申请设置为0.3。

同理，对于文本特征我也做相同的遍历操作，

代表遍历中被选中的那个样本，与其对应的正图像组特征样本记为

不对应的记为

是超参数。

S1130、基于损失函数训练图像文本双向检索模型获得目标图像文本双向检索模型。

具体的，图像文本双向检索模型采用卷积神经网络，卷积神经网络的训练过程分为两个阶段，第一个阶段是数据由低层次向高层次传播的阶段，即前向传播阶段，另外一个阶段是，当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段，即反向传播阶段。训练过程包括：

S1131、对图像文本双向检索模型进行初始化。

具体的，对像文本双向检索模型所采用的卷积神经网络中所有网络层权值进行随机初始化。

S1132、输入多模态数据库中的图像输出特征数据和文本输出特征数据至图像文本双向检索模型中获得网络输出值，具体包括：

选取多模态数据库中一个批次成对的图像输出特征数据和文本输出特征数据，图像输出特征数据和文本输出特征数据经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到网络输出值。

S1133、根据网络输出值计算其损失函数。

具体的，根据公式(17)求取网络输出值的损失函数。

S1134、根据网络输出值的损失函数更新图像文本双向检索模型。

具体的，本步骤包括：

S11341、将网络输出值的损失误差反向传回图像文本双向检索模型的卷积神经网络中，依次求得网络各层：图神经网络层，全连接层，卷积层等各层的反向传播误差。

S11342、根据网络各层的反向传播误差更新图像文本双向检索模型。

具体的，根据网络各层的反向传播误差对网络中的所有权重系数进行调整，即进行权重的更新。

S11343、从多模态数据库中随机选取另一批次的成对的图像输出特征数据和文本输出特征数据，返回S1132，获得网络前向传播得到输出值，无限往复迭代，直至求出网络的输出值与目标值(标签)之间的误差小于第一预设阈值，或者迭代次数超过第二预设阈值时，结束训练，保存当前网络各层的网络参数作为目标图像文本双向检索模型的参数获得目标图像文本双向检索模型。

实施例三：与上述实施例一与实施例二相对应的，本实施例提供一种图像文本数据双向检索方法，该方法使用实施例一所提供的多模态数据库和实施例二所提供的图像文本双向检索模型。下面结合图13简述该方法的检索匹配过程：

S1310、加载图像文本双向检索模型以提取待检索数据特征。

具体的，预先加载实施例二中训练好的目标图像文本双向检索模型中卷积神经网络的权重系数。

待检索数据为用户给定的待检索文本数据或待检索图像数据，采用图像文本双向检索模型提取待检索文本数据获得待检索文本数据特征，或提取待检索图像数据获得待检索图像数据特征。

S1320、基于图像文本双向检索模型和待检索数据从多模态数据库中匹配出目标数据。

具体的，采用实施例二所提供的目标图像文本双向检索模型根据待检索数据从多模态数据库中匹配出对应的目标数据。目标图像文本双向检索模型将待检索数据与多模态数据库中的所有不同形态的数据进行距离匹配，即求向量距离，示例性的，本申请求欧式距离。例如：待检索数据是待检索文本数据，目标图像文本双向检索模型分别计算待检索数据与多模态数据库中所有的图像输出特征数据求向量距离，选取向量距离最小的图像输出特征数据作为目标数据进行输出。同理待检索数据是待检索图像数据，目标图像文本双向检索模型分别计算待检索数据与多模态数据库中所有的文本输出特征数据求向量距离，选取向量距离最小的文本输出特征数据作为目标数据进行输出。

实施例四：与上述实施例一相对应的，下面将结合图14，对本申请提供的数据处理***进行介绍。其中，该***可以通过硬件或软件的方式实现，也可以通过软硬件结合的方式实现，本申请并不限定。

在一个示例中如图14所示，本申请提供了一种数据处理***，所述***包括：

获取模块1410，用于获取文本数据集与图像数据集，所述文本数据集中的文本数据与所述图像数据集中的图像数据一一内容对应；

处理模块1420，用于基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据；

计算模块1430，用于提取所述图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据；

建立模块1440，用于建立多模态数据集,所述多模态数据集中包括所述文本输出特征数据和所述图像输出特征数据。

在一种实施方式中，所述***还包括：

拆分模块1450，用于在处理模块1420基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据之前，对每个所述文本数据进行逐句拆分获得单句数据；

构建模块1460，用于在处理模块1420基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据之前，构建每个所述单句数据的句法结构树。

优选的，构建模块1460包括：

获取单元1461，用于基于Word2Vector模型或Bert模型获取所述单句数据中每个单词的特征向量；

第一构建单元1462，用于基于所述每个单词的特征向量构建每个所述单句数据的句法结构树。

优选的，处理模块1420包括：

提取单元1421，用于基于Tree LSTM模型提取所述句法结构树的特征；

计算单元1422，用于采用所述Tree LSTM模型从所述句法结构树的最底层依层依次向上计算直至输出最顶层的句子特征作为句子输出特征；

级联单元1423，用于基于所述TREE LSTM模型或LSTM模型级联处理所述句子输出特征获得文本输出特征。

优选的，计算单元1422具体用于基于所述Tree LSTM模型对所述句法结构树的特征进行特征聚合处理，包括：

优选的，每组所述文本数据均包括第一文本数据与第二文本数据，所述第一文本数据至少包括成分数据与关系数据，所述第二文本数据至少包括所述成分数据；计算单元1422包括：

输入子单元14221，用于将所述第一文本数据的句法结构树中相邻两个子节点特征输入所述Tree LSTM模型以进行计算；

判断子单元14222、用于判断所述当前子节点特征是否为单词特征；

查询子单元14223，用于在判断子单元14222的判断结果为是后，遍历查询所述第二文本数据中是否存在与所述子节点内容相同的单词；

强调子单元14224、用于在查询子单元14223的查询结果为是后，以所述内容相同的单词为关键词强调当前节点输入。

在一种实施方式中，计算模块1430包括：

第二构建单元1431，用于基于ResNet骨干网络提取每组所述图像数据中的关系特征数据以构建图像节点，并提取每组所述图像数据中的成分特征数据以构建异质图的成分节点；

第三构建单元1432，用于基于分类网络、所述图像节点与所述成分节点构建异质图的边；

更新单元1433，用于基于图注意力网络进行异质图信息更新获得更新图像节点和更新成分节点；

生成单元1434，用于基于所述更新图像节点以及LSTM网络生成图像输出特征数据。

优选的，更新单元1433包括：

第一更新子单元14331，用于基于图注意力网络更新成分节点获得更新成分节点；

遍历子单元14332，用于遍历每个所述图像节点相连的边对应的更新成分节点；

处理子单元14333，用于归一化处理所述图像节点相连的边对应的更新成分节点的相关权重以获取所述图像节点相连的边对应的更新成分节点的相关权重的总和；

第二更新子单元14334，用于基于所述图像节点相连的边对应的更新成分节点的相关权重的综合更新所述图像节点获得更新图像节点。

实施例五：与上述实施例一至实施例四相对应的，下面将结合图15，对本申请提供的计算机设备进行介绍。在一个示例如图15所示，本申请提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

或者执行如下操作：

构建图像文本双向检索模型；

构建损失函数；

基于损失函数训练图像文本双向检索模型获得目标图像文本双向检索模型。

或者执行如下操作：

加载图像文本双向检索模型以提取待检索数据特征；

基于图像文本双向检索模型和待检索数据从多模态数据库中匹配出目标数据

其中，图15示例性的展示出了计算机设备的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机设备1500运行的操作***1521，用于控制计算机设备1500的低级别操作的基本输入输出***(BIOS)1522。另外，还可以存储网页浏览器1523，数据存储管理1524，以及图标字体处理***1525等等。上述图标字体处理***1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机设备1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述计算机设备1500仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该计算机设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

另外需要说明的是：本申请中术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

当然上述实施例只为说明本申请的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本申请的内容并据以实施，并不能以此限制本申请的保护范围。凡根据本申请主要技术方案的精神实质所做的修饰，都应涵盖在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据之前，所述方法还包括：

对每个所述文本数据进行逐句拆分获得单句数据；

构建每个所述单句数据的句法结构树。

3.根据权利要求2所述的数据处理方法，其特征在于，所述构建每个所述单句数据的句法结构树包括：

4.根据权利要求2所述的数据处理方法，其特征在于，所述基于Tree LSTM模型提取并处理所述文本数据中每句话的特征生成文本输出特征数据包括：

基于Tree LSTM模型提取所述句法结构树的特征；

5.根据权利要求4所述的数据处理方法，其特征在于，所述采用所述Tree LSTM模型从所述句法结构树的最底层依层依次向上计算直至输出最顶层的句子特征作为句子输出特征包括：

6.根据权利要求5所述的数据处理方法，其特征在于，每组所述文本数据均包括第一文本数据与第二文本数据，所述第一文本数据至少包括成分数据与关系数据，所述第二文本数据至少包括所述成分数据；

判断所述当前子节点特征是否为单词特征；

7.根据权利要求1所述的数据处理方法，其特征在于，所述提取所述图像数据中的关系特征数据和成分特征数据并基于异质图进行计算以生成图像输出特征数据包括：

基于所述更新图像节点以及LSTM网络生成图像输出特征数据。

8.根据权利要求7所述的数据处理方法，其特征在于，所述基于图注意力网络进行异质图信息更新获得更新图像节点和更新成分节点包括：

基于图注意力网络更新成分节点获得更新成分节点；

遍历每个所述图像节点相连的边对应的更新成分节点；

9.一种数据处理***，其特征在于，所述***包括：

10.一种计算机设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行根据权利要求1-8中任一所述的方法。