CN111858882A

CN111858882A - 一种基于概念交互和关联语义的文本视觉问答***及方法

Info

Publication number: CN111858882A
Application number: CN202010584144.1A
Authority: CN
Inventors: 高联丽; 李向鹏; 宋井宽
Original assignee: University of Electronic Science and Technology of China; Guizhou University
Current assignee: University of Electronic Science and Technology of China; Guizhou University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-30
Anticipated expiration: 2040-06-24
Also published as: CN111858882B

Abstract

本发明提供了一种基于概念交互和关联语义的文本视觉问答***及方法，包括物***置提取模块、第一全连接层、文本信息提取模块、第二全连接层、OCR‑object图卷积网络、多门步机制图卷积网络、转换器网络以及双向转换器表征编码器BERT。本申请利用图像中物体和文本信息的位置关系建模，之后通过OCR‑object图卷积网络对文本信息和物体信息建模，通过门机制对关系的编码学习到丰富且具有指向性的特征，最后通过转换器网络对图像当中的物体和文本进行精准关注，从而得到更加准确的答案。

Description

一种基于概念交互和关联语义的文本视觉问答***及方法

技术领域

本发明属于视觉问答技术领域，尤其涉及一种基于概念交互和关联语义的文本视觉问答***及方法。

背景技术

随着视觉和语言交互领域的发展，文本视觉问答算法近些年取得了巨大的进步。作为视觉问答的一个分支，文本视觉问答算法把算法的重心放在如何挖掘图片中文本和物体关系，并用来支持问题回答，它在现实应用当中也是应用广泛，例如针对残障人士的视觉助理，针对低龄儿童教育助手等等。相比较于传统的视觉问答算法，文本视觉问答算法的目标是要求模型能够同时理解图像当中的视觉信息和文本信息，在这些重要线索的前提之下进行推理，并最终回答这个关于图像当中文本的问题。如果要完成如上的这些要求，此任务将涉及到多个领域的知识，例如物体检测，文本识别和多模态推理等等。因为其***算法的复杂性，它现在是机器智能方面一个亟待解决的问题。

目前大多数的视觉问答算法主要将其注意力聚焦在注意力机制和基于图的方法中。注意力机制要求模型将权值分配给图像当中的物体或者文本，重要的信息给定的权值较大，不相关的信息给定的权值比较小，因此这些算法能够准确的找到重要的信息，然而，这些方法没有办法对图像当中的复杂关系进行建模。基于图的方法能够成功的对图像当中的元素构建一张基于关系的图谱网络，算法能够根据图谱之中元素的关系进行推理进而得到答案。这些方法虽然在视觉问答数据集上表现得效果很好，但是一旦他们遇到与文本相关的问题的时候他们的效果就非常差，因为这些算法没有阅读图片中文本的能力。除此之外，当前的方法大多对于图片当中文本信息和物体信息之间的关系挖掘不够深入，大多数的模型都是只简单地将这些信息当作简单的输入送入到模型当中，但是在实际的推理过程中本申请会发现这些关系信息是非常重要的。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于概念交互和关联语义的文本视觉问答***及方法，解决了现有技术中忽略物体和视觉关系的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于概念交互和关联语义的文本视觉问答***，包括物***置提取模块、与所述物***置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的门步机制图卷积网络以及与所述门步机制图卷积网络连接的转换器网络，所述转换器网络与双向转换器表征编码器BERT连接；

所述物***置提取模块，用于利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息；

所述第一全连接层，用于将所述视觉特征及其对应的位置信息进行融合，得到物体的位置信息；

所述文本信息提取模块，用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息；

所述第二全连接层，用于对所述文本信息及其对应的位置信息进行融合，得到文本的位置信息；

所述OCR-object图卷积网络，用于根据物体的位置信息和文本的位置信息，提取物体的位置信息和文本的位置信息的重叠关系；

所述多门步机制图卷积网络，用于对重叠关系进行编码；

所述双向转换器表征编码器BERT，用于提取问题文本的问题信息；

所述转换器网络，用于根据问题信息以及编码信息得到文本视觉回答。

本发明的有益效果是：本发明在文本视觉问答方面能够有效利用文本和物体之间的关联关系，并得到更好的准确率，并且在数据集上已经验证比当前的方法效果更好。

进一步地，所述OCR-object图卷积网络包括OCR-OCR子图，object-object 子图以及OCR-object子图；

所述OCR-OCR子图，用于对图像中检测到的文本与文本之间的关系进行建模，建立任意两个文本之间的联系。

所述object-object子图，用于对图像中检测到的物体与物体之间的关系进行建模，建立任意两个物体之间的联系。

所述OCR-object子图，用于对文本和物体之间的关系进行建模，得到物体的位置信息和文本的位置信息的重叠关系。

上述进一步方案的有益效果是：通过关系的特征增强，生成的特征的指向性会更强，相当于用周围的物体或者文本作为修饰词，比如“印有apple品牌的手机”，“汽车的车牌号EA286”等等。这样生成的特征更加有益于进行复杂关系的推理。

基于上述***，本发明还提供了一种基于概念交互和关联语义的文本视觉问答方法，包括以下步骤：

S1、利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息，并利用第一全连接层将所述视觉特征及其对应的位置信息进行融合，得到物体的位置信息；

S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息，并利用第二全连接层对所述文本信息及其对应的位置信息进行融合，得到文本的位置信息；

S3、利用双向转换器表征编码器BERT提取问题文本的问题信息；

S4、根据物体的位置信息和文本的位置信息，利用OCR-object图卷积网络得到物体的位置信息和文本的位置信息的重叠关系；

S5、利用多门步机制图卷积网络对所述重叠关系进行编码；

S6、将所述问题信息以及编码信息输入至转换器网络，得到文本视觉回答，完成基于概念交互和关联语义的文本视觉问答。

进一步地，所述步骤S1中进行融合的表达式如下：

其中，F^v表示融合后的特征矩阵，LayerNorm表示正则化层，W_v和

分别表示神经网络中需要更新训练的参数，V表示检测到的物体的视觉特征，B^v表示检测到的物体外边框的位置信息。

上述进一步方案的有益效果是：将视觉对应的多种属性信息融合，增大视觉特征所包含信息的多样性。

再进一步地，所述步骤S2包括以下步骤：

S201、利用FastText快速文本模型提取每个检测图像中字母级别的文本信息；

S202、利用Faster-RCNN快速区域物体检测器提取每个检测图像中文本的外表信息；

S203、利用OCR模型检测字母级别的文本信息和文本中的外表信息对应的位置信息；

S204、利用第二全连接层对所述字母级别的文本信息、文本中的外表信息以及位置信息进行融合，得到文本的位置信息。

上述进一步方案的有益效果是：有利用提取文本获得多样化的特征：文本特征，视觉特征以及对应的位置特征。

再进一步地，所述步骤S204中文本的位置信息的表达式如下：

其中，F^o表示文本的位置信息，LayerNorm表示正则化层，

和

分别表示模型中可训练的参数，O^ft表示检测到文本的文本信息，O^fr表示检测到的文本的视觉信息，B^o表示检测到的文本外边框的位置信息。

上述进一步方案的有益效果是：将检测文本对应的多种属性信息融合，增大视觉特征所包含信息的多样性。

再进一步地，所述步骤S3中提取问题文本的问题信息的表达式如下：

Q＝{q₁,...,q_K}＝BERT(w₁,...,w_K)

其中，Q表示问题信息，q_K表示第K个单词的语义信息，BERT表示双向转换器表征编码器，w_K表示第K个单词表示的独热编码。

上述进一步方案的有益效果是：将问题信息进行编码，提取问题当中的重要语义信息。

再进一步地，所述步骤S4中OCR-object图卷积网络的表达式如下：

其中，A表示OCR-object关联图，A^v表示object-object子图，A^o表示为 OCR-OCR子图，A^r表示为OCR-object子图，A^rT表示A^r的共轭转置。

上述进一步方案的有益效果是：根据位置信息和语义层面的信息构建 OCR-object关联图。

再进一步地，所述步骤S5中多门步机制图卷积网络由单步门机制的图卷积网络执行J步构成；

所述单步门机制的图卷积网络的表达式如下：

X_t+1＝GatedGCN(A,X_t)

其中，X_t表示第t步的门控图卷积网络的输入，X_t+1表示第t步的门控图卷积网络的输出和t+1步门控图卷积网络的输入，A表示OCR-object关联图, GatedGCN单步的门控图卷积网络。

上述进一步方案的有益效果是：将检测文本和检测物体的关系信息编码进入特征之中，使得生成的特征更加具有指向性。

再进一步地，所述S6中文本视觉回答的表达式如下：

其中，y_t表示文本视觉回答，

表示从答案词表当中选取答案的概率分布，

表示答案从检测文本中选取答案的概率分布，

和

分别表示网络当中可训练的参数，O^joint表示多门步机制图卷积网络的输出中对应的位置坐标的输出，

表示多门步机制图卷积网络的输出中的最后一个隐藏单元,Concat 表示合并连接操作。

上述进一步方案的有益效果是：通过抄袭机制，确定最终答案是从答案此表中选取还是从检测到的文本当中选取，增加的问答模型的灵活性。

附图说明

图1为本发明的***结构图。

图2为本发明的方法流程图。

图3为本实施例中的算法框架图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，本发明提供了一种基于概念交互和关联语义的文本视觉问答***，包括物***置提取模块、与物***置提取模块连接的第一全连接层、文本信息提取模块、与文本信息提取模块连接的第二全连接层、与第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与OCR-object图卷积网络连接的门步机制图卷积网络以及与门步机制图卷积网络连接的转换器网络，转换器网络与双向转换器表征编码器BERT连接；物***置提取模块，用于利用预训练的快速区域物体检测器Faster-RCNN模型提取图像中的视觉特征及其对应的位置信息；第一全连接层，用于将视觉特征及其对应的位置信息进行融合，得到物体的位置信息；文本信息提取模块，用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息；第二全连接层，用于对文本信息及其对应的位置信息进行融合，得到文本的位置信息；OCR-object图卷积网络，用于根据物体的位置信息和文本的位置信息，提取物体的位置信息和文本的位置信息的重叠关系；多门步机制图卷积网络，用于对重叠关系进行编码；双向转换器表征编码器BERT，用于提取问题文本的问题信息；转换器网络，用于根据问题信息以及编码信息得到文本视觉回答。OCR-object图卷积网络包括OCR-OCR子图，object-object子图以及OCR-object子图；OCR-OCR子图，主要用于对图像中检测到的文本与文本之间的关系进行建模，将任意两个文本之间建立联系。 object-object子图，主要用于对图像中检测到的物体与物体之间的关系进行建模，将任意两个物体之间建立联系。OCR-object子图，主要用于对图像中检测到的文本和物体之间的关系进行建模，如果检测到的文本区域和物体区域在空间上存在重叠，就假设他们之间存在联系，如果两者不存在重叠，就假设他们之间不存在联系。

本实施例中，本发明主要是针对文本视觉问答问题提出了一种能够概念交互和关联语义探索的文本视觉问答算法(Concept Interaction：Exploring the RelationalSemantics for Text-based Visual Question Answering)，本发明将之前工作忽略的物体和视觉的关系进行了空间上的建模，如果文本和物体在空间上出现重叠，本申请就相信这两者之间是存在关系的，例如书本的名字，汽车的车牌号。其中，检测到的书本的名字一定是和书本存在重叠，车牌号也一定与汽车存在重叠，基于这种观察本申请构建了OCR-object图卷积网络，并依据这个关系进行了基于门机制的图卷积操作，它输出的特征能够保证自己节点会被周围相邻的节点进行描述，会使得最终的特征更加具有指向性，而这种指向性正是视觉问答算法所需要的。卷积之后的特征和问题信息共同输入到根据问题信息的转换器网络当中，它能够根据问题的信息对需要关注的物体和文本进行概念交互并发掘问题的最终答案。同时，他还能保证生成的答案长度是可变长度，更加符合现实当中回答问题的情况。本申请对***在当前主流的数据集上进行了验证，取得了当前最好的结果，这个也证明了本申请的方法要比当前主流的方法取得了更好的效果，预测的答案也更加精准。采用本申请的方法在TextVQA 数据集的验证集上获得了41.14％的准确率，在测试集上获得了40.77％的准确率。在ST-VQA数据集上，本申请的准确率也达到了41.1％，平均标准化莱温斯坦相似度也达到了0.500，取得了当前最好的结果。

实施例2

基于上述***，本发明还提供了一种基于概念交互和关联语义的文本视觉问答方法，基本思想是利用图像中物体和文本信息的位置关系来进行关系的建模，之后通过OCR-object图卷积网络来对文本信息和物体信息进行建模，通过基于门机制对于关系的编码学习到更加丰富的，更加具有指向性的特征，然后通过根据问题信息的转换器网络来对图像当中的物体和文本进行精准关注，从而得到更加准确的答案。如图2-图3所示，其实现方法如下：

S1、利用预训练的快速区域物体检测器Faster-RCNN模型提取图像中的视觉特征及其对应的位置信息，并利用第一全连接层将所述视觉特征及其对应的位置信息进行融合，得到物体的位置信息；

本实施例中，对于给定的图片，本申请首先使用预训练的Faster-RCNN模型来针对视觉特征进行提取。Faster-RCNN是在Visual Genome数据集上进行的与训练，它能够捕获到图片中出现的主要物体。针对每张图片，本申请使用 Faster-RCNN模型根据置信度高低提取出前100个局部物体特征，对应图片当中 100个不同的区域，每个局部特征是由一个2048维的向量表示，每个区域位置也由一个四维的向量表示，是区域框的左下和右上两个点的归一化的坐标位置，因此本申请能够得到一个100*2048的特征矩阵作为视觉表征和对应的100*4的位置信息。为了将这两种信息进行有效融合，本申请使用了一个全连接层来将两种信息进行融合，融合的公式如下所示：

表示神经网络中需要更新训练的参数，V表示检测到的物体的视觉特征，B^v表示检测到的物体外边框的位置信息。

S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息，并利用第二全连接层对所述文本信息及其对应的位置信息进行融合，得到文本的位置信息，其实现方法如下：

本实施例中，对于给定的图片，本申请使用与训练的OCR识别模型罗塞塔(Rosetta)来检测图像当中出现的文本信息和位置信息。考虑到文本信息也包括字母级别的文本信息，以及文本信息自身对应的外表信息，本申请针对每个检测到的文本，通过快速文本模型FastText提取它们字母级别的语义信息，通过快速区域物体检测器Faster-RCNN来提取文本的外表信息，同样的，本申请使用全连接层来融合字符集别的文本信息，文本信息的外观表示，和对应的位置信息，融合公式如下所示：

其中，F^o表示文本的位置信息，LayerNorm表示正则化层，

和

分别表示模型中可训练的参数，O^ft表示检测到文本的文本信息，O^fr表示检测到的文本的视觉信息，B^o表示的检测到的文本外边框的位置信息。

本实施例中，对于给定的问题，本申请使用双向转换器表征编码器(BERT，Bidirectional Encoder Representation Transformer)来提取问题文本的特征，双向转换器表征编码器是预训练过的，本申请会在本申请训练的过程中进行微调，问题特征的提取过程如下所示：

Q＝{q₁,...,q_K}＝BERT(w₁,...,w_K)

本实施例中，在现实世界的实例当中，如果图片当中的文本和物体有重叠的话，那么这两者之间存在关系，因此根据图片当中的物体的位置和文本位置的重叠关系定义了一个OCR-object图卷积网络，OCR-object图卷积网络包含有三个子图：OCR-OCR图，object-object图，OCR-object图。考虑到OCR内部之间的关系，object之间的关系都是在语义层面的，假设他们两个之间都存在语义上的关系，因此本申请将OCR-OCR图和object-object图定义为单位矩阵。对于 OCR-object图可根据重叠关系进行定义，如果第i个文本和第j个物体存在重叠关系，则对应A_i,j为1，如果两者不存在重叠关系，则对应A_i,j为0。因此最终的OCR-object图卷积网络A被定义为如下所示：

其中，A表示OCR-object关联图，A^v表示object-object图，A^o表示为 OCR-OCR图，A^r表示为OCR-object图，A^rT表示A^r的共轭转置。

S5、利用多门步机制图卷积网络对所述重叠关系进行编码；

本实施例中，为了将文本和物体之间的关联关系编码进入特征中，接下来使用一个多步门机制图卷积网络，单步的图卷积网络只能学习到相邻节点的语义信息，但是现实生活当中的逻辑可能是复杂的，单步的推理并不能满足显示要求，因此将其拓展为多步的图卷积网络。OCR-object图的节点特征X₀表示为：

X₀＝[F^v,F^o]

其中，F^v表示检测到的物体的特征，F^o表示检测到的文本的特征。

单步的门机制的图卷积网络单元的计算过程如下所示：

Y＝AW_gX_t

U＝σ(W₁Y+W₂X_t)

R＝σ(W₃Y+W₄X_t)

其中，A表示OCR-object关联图，W_g、W₁、W₂、W₃、W₄、W₅和W₆分别表示模型中可学习的参数，Y表示的初步的经过关系图融合的特征，σ(·)表示 Sigmoid函数，tanh(·)表示双曲正切函数，U表示更新门，R表示重置门，

表示经过重置门的特征信号，X_t表示的是第t步骤的门控图卷积网络的输入，X_t+1表示的是其输出，同时它也是t+1步的输入。

本申请将单步的门图卷积网络简化为：

X_t+1＝GatedGCN(A,X_t)

其中，X_t表示的是第t步骤的门控图卷积网络的输入，X_t+1表示的是其输出，同时它也是t+1步的输入，A表示的是OCR-object关联图，并且最终执行J步之后得到的融合特征为F^joint。

为了拓展图的关联长度，将门图卷积神经网络执行J步，确保关联长度为J，这样最终的输出特征为X_J。

本实施例中，因为文本视觉问答当中需要问题指出模型需要关注图片当中的哪些信息，因此设计了一个问题相关的转换器网络，转换器网络是由多层的转换器层组成的，将视觉图像信息，文本信息，问题信息和之前的输出这四个概念共同输入到概念交互转换器网络当中，具体的计算过程如公式所示：

F_t ^joint＝[X_J,Q,P_t-1]

F_t ^final＝Transformer(F_t ^joint)

其中，最终执行J步之后得到的融合特征为X_J，Q表示编码的之后的问题特征，P_t-1表示前t-1个答案的前t-1步的输出，F_t ^final表示经过转换器编码之后的第t步特征，Transformer表示多层转换器网络，F_t ^joint表示经过转换器编码之前的第t步特征。

本实施例中，取最终的特征表示F_t ^final的最后一个隐藏层单元

作为解码的隐藏层状态，并使用这个隐藏层状态来对最终的答案进行预测：

其中，

表示从答案词表当中选取答案时候的概率分布，

表示网络当中可训练的参数。

然而考虑到问题的答案有很大的可能会选取一个图片当中的文本来作为答案，因此引入了一个抄袭的思想来帮助模型直接从文本中选取作为最终的答案，假设从最终编码特征中截取OCR特征为O^joint，最终选取的结果答案计算过程为：

其中，

表示答案从检测文本中选取答案时候的概率分布，

和

分别表示网络当中可训练的参数，O^joint表示表示门控图卷积网络的输出中OCR对应的位置坐标的输出，

表示门控图卷积网络的输出F^joint中的最后一个隐藏单元。

如此得到了两个答案特征分布，将这两个答案特征分布连接在一块，最终选取得分最高的答案最为第t步的生成答案：

其中，y_t表示最终答案分布情况，

表示的是从答案词表当中选取答案时候的概率分布，

表示的是答案从检测文本中选取答案时候的概率分布。此外，在模型的训练阶段，本实施例使用二值化的交叉熵来作为最终的损失函数，在推理阶段，当答案生成“END”的时候模型就会停止继续运算，最终的答案就是这个问题的答案。

Claims

1.一种基于概念交互和关联语义的文本视觉问答***，其特征在于，包括物***置提取模块、与所述物***置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的多门步机制图卷积网络以及与所述多门步机制图卷积网络连接的转换器网络，所述转换器网络与双向转换器表征编码器BERT连接；

所述多门步机制图卷积网络，用于对重叠关系进行编码；

2.根据权利要求1所述的基于概念交互和关联语义的文本视觉问答***，其特征在于，所述OCR-object图卷积网络包括OCR-OCR子图，object-object子图以及OCR-object子图；

3.一种基于概念交互和关联语义的文本视觉问答方法，其特征在于，包括以下步骤：

S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息，并利用第二全连接层对文本信息及其对应的位置信息进行融合，得到文本的位置信息；

S5、利用多门步机制图卷积网络对所述重叠关系进行编码；

4.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法，其特征在于，所述步骤S1中进行融合的表达式如下：