CN113360621A - 一种基于模态推理图神经网络的场景文本视觉问答方法 - Google Patents

一种基于模态推理图神经网络的场景文本视觉问答方法 Download PDF

Info

Publication number
CN113360621A
CN113360621A CN202110691232.6A CN202110691232A CN113360621A CN 113360621 A CN113360621 A CN 113360621A CN 202110691232 A CN202110691232 A CN 202110691232A CN 113360621 A CN113360621 A CN 113360621A
Authority
CN
China
Prior art keywords
visual
text
question
features
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110691232.6A
Other languages
English (en)
Inventor
郭欣雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202110691232.6A priority Critical patent/CN113360621A/zh
Publication of CN113360621A publication Critical patent/CN113360621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模态推理图神经网络的场景文本视觉问答方法,包括:构建多模态图;将经过预处理的问题词嵌入与两个独立的权重相乘分别得到视觉问题特征和文本问题特征;将权重与特征节点对应相乘即得到过滤后的向量;更准确地回答关于场景图像中文本的问题;更新之后的节点与对应问题特征相乘后连接输出预测答案。本发明利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。

Description

一种基于模态推理图神经网络的场景文本视觉问答方法
技术领域
本发明属于视觉问答的技术领域,尤其涉及一种基于模态推理图神经网络的场景文本视觉问答方法。
背景技术
深度学习使计算机视觉(CV)和自然语言处理(NLP)获得巨大的进展,视觉和自然语言之间的跨领域学科已经吸引了强烈的关注,如视觉问答(visual questionanswering,VQA),视觉问答的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。针对一张特定的图片,如果想要有效的通过图像中的视觉特征与问题中的语义特征相关联从而推断出问题的答案,需要让视觉问答模型对图片的内容、问题的含义和意图以及相关的常识有一定的理解。视觉问答任务涉及到细粒度识别、物体识别和对问题所包含文本的理解等多方面的技术。通常视觉问答模型由三个模块构成。特征提取模块使用卷积神经网络提取图片的特征,使用循环神经网络提取问题的特征;特征融合模块将问题特征与图片特征融合为一个能够表征当前任务的抽象特征;答案分类模块将融合后的特征作为输入,对该特征进行分类,分类类别数由候选答案的数量决定。而最近提出的数据集TextVQA和ST-VQA都是带有文字信息的场景图片,数据集中每张图像都带有真实存在的文字语义并且需要理解图像场景文本来回答问题。使用一般的视觉问答模型去处理,在这些数据集上普遍表现的效果并不好。针对带有视觉、文本和问题信息特征的多模态数据集,目前更多的是使用Transformer或者使用图神经网络(Graph NeuralNetwork,GNN)来将不同的模态信息融合在一起,其中,多模态图神经网络MM-GNN使用图神经网络将图像表示为三个图,并引入三个聚合器来引导消息从一个图传递到另一个图预测生成答案。
现有技术的MM-GNN用于回答需要阅读的许多问题。给定一个包含可视对象和场景文本的图像和一个问题,其目标是生成答案。MM-GNN分三个步骤回答了问题:(1)构建构建一个三层图结构,用于表示图像中的三种模态,即视觉实体(包括文本和对象)的视觉模态、场景文本的语义模态和与数字相关的文本的数值模态,三个图中节点的初始表示是由先验得到的,例如从语料库学习到的单词嵌入和更快的RCNN特征。(2)MM-GNN用三个基于注意力的聚合器,这些聚合器根据两个节点在图像中的视觉外观和布局信息以及问题来计算它们的相关性得分,通过图间或图内的方式传递信息,它们可以引导一个子图之间的信息流到另一个子图或自身,依次动态更新节点的表示,更新后的表示包含更丰富、更精确的信息,使回答模型更容易注意到正确的答案。(3)答案预测模块,利用这些特性输出答案。
MM-GNN在聚合之前使用隐式的全连接图没有进行特征过滤,即没有去掉无用或者冗余的特征,提取特征时会效果不好。在聚合时候使用三个聚合器去聚合特征,对于语义和语义集合和语义-数值聚合相比较视觉-语义聚合意义作用不大,消耗计算量过多。
发明内容
基于以上现有技术的不足,本发明所解决的技术问题在于提供一种基于模态推理图神经网络的场景文本视觉问答方法,利用图像中多种形式的信息帮助理解场景文本内容,利用不同模态的上下文信息为答疑模块提供了更好的功能。
为了解决上述技术问题,本发明提供一种基于模态推理图神经网络的场景文本视觉问答方法,包括以下步骤:
步骤1:构建多模态图;
步骤2:使用问题词序列来生成自注意力权重,将经过预处理的问题词嵌入与两个独立的权重相乘分别得到视觉问题特征和文本问题特征;
步骤3:在视觉问题特征和文本问题特征的指导下计算注意力权重,输入到softmax中,然后将权重与特征节点对应相乘即得到过滤后的向量;
步骤4:利用语义上下文完善视觉节点,使子图之间的信息相互融合,更准确地回答关于场景图像中文本的问题;
步骤5:更新之后的节点与对应问题特征相乘后连接输出预测答案。
可选的,在步骤2中,给定T个单词的问题,使用预训练的BERT把单词嵌入到特征序列中,然后使用两个独立的双层MLP生成两组注意力权重,生成视觉问题特征和文本问题特征。
由上,本发明的基于模态推理图神经网络的场景文本视觉问答方法具有如下有益效果:
本发明利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,本发明所提出模型MRGNN(multi-modal reasoning graph neural network,MRGNN)在此任务上有明显的提升。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为基于多模态图神经网络推理视觉问答模型结构图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
视觉问答(visual question answering,VQA)模型在处理场景文本任务时,需要通过阅读图像中的视觉内容和文本内容以及推理问题来得到答案,文本阅读能力差和视觉推理能力不足是现有的视觉问答模型效果不好的主要原因,如图1所示,针对以上问题,本发明提供一种基于模态推理图神经网络的场景文本视觉问答方法,包括:
构建多模态图
提取每个模态的特征,并通过如下的特定领域嵌入方法将它们投射到一个公共的d维语义空间。构建视觉全连通图GV={vVV},节点
Figure BDA0003126838860000041
通过两个学习的线性变换投射到d维空间,并将其总结为最终嵌入,每个边
Figure BDA0003126838860000042
表示两个对象之间的相对空间关系,使用Faster-RCNN检测器来确定一组K个对象,对象由2048维的视觉特征向量
Figure BDA0003126838860000051
和四维目标坐标向量
Figure BDA0003126838860000052
组成,其中bi=[xi,yi,wi,hi],(xi,yi)、wi和hi分别表示的坐标、边框的宽度和高度。如公式(1)所示:
Figure BDA0003126838860000053
其中W1和W2是学习的投影矩阵。LN是层归一化文本图Gt也是一个全连通图,使用四种不同类型的特征来表示OCR形式:(1)一个300维的FastText向量
Figure BDA0003126838860000054
(2)使用Faster-RCNN提取的OCR字段的Rol-Pooling边框的特征
Figure BDA0003126838860000055
(3)一个604维PHOC向量
Figure BDA0003126838860000056
(4)边界框位置
Figure BDA0003126838860000057
然后把每一个特征线性映射到d维空间中,把它们相加作为最终的OCR字段的嵌入,如公式(2)所示:
Figure BDA0003126838860000058
问题自注意模块
问题特征的提取对最终的答案起着关键性的作用,为了把握模态之间的相互作用,来获得最佳的效果。从BERTBASE的前3层中提取问题词特征,使用问题词序列来生成自注意力权重,将经过预处理的问题词嵌入与两个独立的权重相乘分别得到视觉问题特征QV和文本问题特征QS。具体来说,给定T个单词的问题
Figure BDA0003126838860000059
使用预训练的BERT把单词嵌入到特征序列中得到
Figure BDA00031268388600000510
然后使用两个独立的双层MLP生成两组注意力权重,
Figure BDA00031268388600000511
Figure BDA00031268388600000512
生成视觉问题特征QV和文本问题特征QS,以视觉问题特征为例,公式如下:
Figure BDA00031268388600000513
Figure BDA00031268388600000514
特征过滤模块
本发明在进入融合之前过滤掉不相关或多余的特征,问题自注意力模块,把视觉问题特征QV和文本问题特征QS作为特征的query,在视觉问题特征QV和文本问题特征QS的指导下计算注意力权重,输入到softmax中,然后将权重与特征节点对应相乘即得到过滤后的向量。以视觉特征为例,公式如下:
Figure BDA0003126838860000061
si=soft max(ai) (6)
Figure BDA0003126838860000062
多模态聚合模块
使用聚合器来聚合视觉和文本节点,目标是用图像视觉内容去精炼文本图的节点,利用语义上下文完善视觉节点,使子图之间的信息相互融合从而能够更准确地回答关于场景图像中文本的问题。对于过滤后的文本节点
Figure BDA0003126838860000063
聚合器首先对视觉图中相关的节点进行访问,然后将参与节点的信息进行聚合,更新
Figure BDA0003126838860000064
的表示。具体需要计算节点之间的相关性分数
Figure BDA0003126838860000065
视觉节点
Figure BDA0003126838860000066
及其边界框特征bti和bvi(即边界框的坐标),问题特征是问题自注意模块来提取获得,计算公式为:
Figure BDA0003126838860000067
fs,fv,fb分别为处理语义节点,视觉节点,边界框特征的MLP,|;|表示连接两个向量。
Figure BDA0003126838860000068
Figure BDA0003126838860000069
将聚合后的特征与节点
Figure BDA00031268388600000610
连接,从而得到更新的语义表达,其中
Figure BDA00031268388600000611
是更新的节点表示,fv~是一个用于编码相关节点特征的MLP。
与文本节点更新类似,我们获取
Figure BDA0003126838860000071
的更新节点。公式如下:
Figure BDA0003126838860000072
Figure BDA0003126838860000073
答案预测模块
更新之后的节点与对应问题特征相乘后连接输出预测答案,如公式(5)所示,其中为fpMLP,
Figure BDA0003126838860000076
为element-wise。得到预测结果
Figure BDA0003126838860000074
(K为候选答案数目),之后预测答案输入到二元交叉熵损中进行优化训练。
Figure BDA0003126838860000075
问题特征:将问题最大长度设为20,使用经过***数据集预先训练的三层BERT模型来对问题进行编码,并且在训练中进行微调。
视觉特征:对象区域的最大数为36,使用Faster-RCNN模型检测对象,通过fc6提取特征并使用Faster-RCNN的池化层,微调fc7输出2048维的特征向量,并且使用边框坐标嵌入到特征里。
文本特征:在图中最多识别50个OCR令牌,使用Rosetta OCR***在每个图像上提取文本标记(我们只使用Rosetta-en),使用与视觉特征相同的提取器(Faster R-CNN是为一般目标检测而训练的),并加入Fasttext和PHOC(是从识别的OCR字符序列中提取的)以及坐标嵌入。
本发明使用PyTorch实现,AdaMax优化,在NVIDIA GeForce 1080Ti gpu上进行实验,批处理大小为128个,学习速率设置为0.0001,我们在14000和19000次迭代时将学习率乘以0.1,并且训练的最大迭代次数为24000次。
对于场景文本图片进行多模块推理时,模型可以识别、复制和标记图像中文本信息并且结合其固定词汇来预测答案,无论是特征识别还是空间推理效果,在大多数情况下都是优秀的。通过球员的问题查询,注意力模块引导OCR***关注更多与球员名字相关的信息和球员所在的区域,因为模型知道“Casilla”下面的单词很可能是数字。OCR token“RX405”结合了问题中“boat”的位置和语义信息,可以在回答模块中进行选择。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

Claims (2)

1.一种基于模态推理图神经网络的场景文本视觉问答方法,其特征在于,包括以下步骤:
步骤1:构建多模态图;
步骤2:使用问题词序列来生成自注意力权重,将经过预处理的问题词嵌入与两个独立的权重相乘分别得到视觉问题特征和文本问题特征;
步骤3:在视觉问题特征和文本问题特征的指导下计算注意力权重,输入到softmax中,然后将权重与特征节点对应相乘即得到过滤后的向量;
步骤4:利用语义上下文完善视觉节点,使子图之间的信息相互融合,更准确地回答关于场景图像中文本的问题;
步骤5:更新之后的节点与对应问题特征相乘后连接输出预测答案。
2.如权利要求1所述的基于模态推理图神经网络的场景文本视觉问答方法,其特征在于,在步骤2中,给定T个单词的问题,使用预训练的BERT把单词嵌入到特征序列中,然后使用两个独立的双层MLP生成两组注意力权重,生成视觉问题特征和文本问题特征。
CN202110691232.6A 2021-06-22 2021-06-22 一种基于模态推理图神经网络的场景文本视觉问答方法 Pending CN113360621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110691232.6A CN113360621A (zh) 2021-06-22 2021-06-22 一种基于模态推理图神经网络的场景文本视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110691232.6A CN113360621A (zh) 2021-06-22 2021-06-22 一种基于模态推理图神经网络的场景文本视觉问答方法

Publications (1)

Publication Number Publication Date
CN113360621A true CN113360621A (zh) 2021-09-07

Family

ID=77535678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110691232.6A Pending CN113360621A (zh) 2021-06-22 2021-06-22 一种基于模态推理图神经网络的场景文本视觉问答方法

Country Status (1)

Country Link
CN (1) CN113360621A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020954A (zh) * 2021-09-10 2022-02-08 广西师范大学 一种用于体现用户意图和风格的个性化图像描述方法
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解***
CN114398471A (zh) * 2021-12-24 2022-04-26 哈尔滨工程大学 一种基于深层推理注意力机制的视觉问答方法
WO2023207059A1 (zh) * 2022-04-29 2023-11-02 山东海量信息技术研究院 一种视觉问答任务处理方法、***、电子设备及存储介质
CN118152548A (zh) * 2024-05-13 2024-06-07 杭州律途科技有限公司 基于问答式图片文本提取模型的医保数据溯源方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN111984772A (zh) * 2020-07-23 2020-11-24 中山大学 一种基于深度学习的医疗影像问答方法及***
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答***及方法
CN112818889A (zh) * 2021-02-09 2021-05-18 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
CN111984772A (zh) * 2020-07-23 2020-11-24 中山大学 一种基于深度学习的医疗影像问答方法及***
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答***及方法
CN112818889A (zh) * 2021-02-09 2021-05-18 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020954A (zh) * 2021-09-10 2022-02-08 广西师范大学 一种用于体现用户意图和风格的个性化图像描述方法
CN114168104A (zh) * 2021-12-08 2022-03-11 杭州电子科技大学 一种面向视障人群的场景文字交互式理解***
CN114398471A (zh) * 2021-12-24 2022-04-26 哈尔滨工程大学 一种基于深层推理注意力机制的视觉问答方法
WO2023207059A1 (zh) * 2022-04-29 2023-11-02 山东海量信息技术研究院 一种视觉问答任务处理方法、***、电子设备及存储介质
CN118152548A (zh) * 2024-05-13 2024-06-07 杭州律途科技有限公司 基于问答式图片文本提取模型的医保数据溯源方法及***

Similar Documents

Publication Publication Date Title
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN113360621A (zh) 一种基于模态推理图神经网络的场景文本视觉问答方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111079444A (zh) 一种基于多模态关系的网络谣言检测方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Zhi et al. Action unit analysis enhanced facial expression recognition by deep neural network evolution
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和***
CN115017911A (zh) 针对视觉和语言的跨模态处理
CN107247755A (zh) 一种基于上下文序列记忆网络的个性化图像字幕生成方法
Liu et al. Fact-based visual question answering via dual-process system
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN111611367B (zh) 一种引入外部知识的视觉问答方法
CN115223020A (zh) 图像处理方法、装置、电子设备以及可读存储介质
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和***
CN115588193A (zh) 基于图注意力神经网络与视觉关系的视觉问答方法及装置
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN111598252A (zh) 基于深度学习的大学计算机基础知识解题方法
Miao et al. Research on visual question answering based on GAT relational reasoning
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
Tüselmann et al. Recognition-free question answering on handwritten document collections
CN117636326A (zh) 车牌检测方法、装置、存储介质和电子设备
Zhu et al. Configurable graph reasoning for visual relationship detection
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210907