CN111858882A - 一种基于概念交互和关联语义的文本视觉问答***及方法 - Google Patents

一种基于概念交互和关联语义的文本视觉问答***及方法 Download PDF

Info

Publication number
CN111858882A
CN111858882A CN202010584144.1A CN202010584144A CN111858882A CN 111858882 A CN111858882 A CN 111858882A CN 202010584144 A CN202010584144 A CN 202010584144A CN 111858882 A CN111858882 A CN 111858882A
Authority
CN
China
Prior art keywords
text
information
position information
ocr
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010584144.1A
Other languages
English (en)
Other versions
CN111858882B (zh
Inventor
高联丽
李向鹏
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Guizhou University
Original Assignee
University of Electronic Science and Technology of China
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Guizhou University filed Critical University of Electronic Science and Technology of China
Priority to CN202010584144.1A priority Critical patent/CN111858882B/zh
Publication of CN111858882A publication Critical patent/CN111858882A/zh
Application granted granted Critical
Publication of CN111858882B publication Critical patent/CN111858882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于概念交互和关联语义的文本视觉问答***及方法,包括物***置提取模块、第一全连接层、文本信息提取模块、第二全连接层、OCR‑object图卷积网络、多门步机制图卷积网络、转换器网络以及双向转换器表征编码器BERT。本申请利用图像中物体和文本信息的位置关系建模,之后通过OCR‑object图卷积网络对文本信息和物体信息建模,通过门机制对关系的编码学习到丰富且具有指向性的特征,最后通过转换器网络对图像当中的物体和文本进行精准关注,从而得到更加准确的答案。

Description

一种基于概念交互和关联语义的文本视觉问答***及方法
技术领域
本发明属于视觉问答技术领域,尤其涉及一种基于概念交互和关联语义的文本视觉问答***及方法。
背景技术
随着视觉和语言交互领域的发展,文本视觉问答算法近些年取得了巨大的进步。作为视觉问答的一个分支,文本视觉问答算法把算法的重心放在如何挖掘图片中文本和物体关系,并用来支持问题回答,它在现实应用当中也是应用广泛,例如针对残障人士的视觉助理,针对低龄儿童教育助手等等。相比较于传统的视觉问答算法,文本视觉问答算法的目标是要求模型能够同时理解图像当中的视觉信息和文本信息,在这些重要线索的前提之下进行推理,并最终回答这个关于图像当中文本的问题。如果要完成如上的这些要求,此任务将涉及到多个领域的知识,例如物体检测,文本识别和多模态推理等等。因为其***算法的复杂性,它现在是机器智能方面一个亟待解决的问题。
目前大多数的视觉问答算法主要将其注意力聚焦在注意力机制和基于图的方法中。注意力机制要求模型将权值分配给图像当中的物体或者文本,重要的信息给定的权值较大,不相关的信息给定的权值比较小,因此这些算法能够准确的找到重要的信息,然而,这些方法没有办法对图像当中的复杂关系进行建模。基于图的方法能够成功的对图像当中的元素构建一张基于关系的图谱网络,算法能够根据图谱之中元素的关系进行推理进而得到答案。这些方法虽然在视觉问答数据集上表现得效果很好,但是一旦他们遇到与文本相关的问题的时候他们的效果就非常差,因为这些算法没有阅读图片中文本的能力。除此之外,当前的方法大多对于图片当中文本信息和物体信息之间的关系挖掘不够深入,大多数的模型都是只简单地将这些信息当作简单的输入送入到模型当中,但是在实际的推理过程中本申请会发现这些关系信息是非常重要的。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于概念交互和关联语义的文本视觉问答***及方法,解决了现有技术中忽略物体和视觉关系的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于概念交互和关联语义的文本视觉问答***,包括物***置提取模块、与所述物***置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的门步机制图卷积网络以及与所述门步机制图卷积网络连接的转换器网络,所述转换器网络与双向转换器表征编码器BERT连接;
所述物***置提取模块,用于利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息;
所述第一全连接层,用于将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
所述文本信息提取模块,用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息;
所述第二全连接层,用于对所述文本信息及其对应的位置信息进行融合,得到文本的位置信息;
所述OCR-object图卷积网络,用于根据物体的位置信息和文本的位置信息,提取物体的位置信息和文本的位置信息的重叠关系;
所述多门步机制图卷积网络,用于对重叠关系进行编码;
所述双向转换器表征编码器BERT,用于提取问题文本的问题信息;
所述转换器网络,用于根据问题信息以及编码信息得到文本视觉回答。
本发明的有益效果是:本发明在文本视觉问答方面能够有效利用文本和物体之间的关联关系,并得到更好的准确率,并且在数据集上已经验证比当前的方法效果更好。
进一步地,所述OCR-object图卷积网络包括OCR-OCR子图,object-object 子图以及OCR-object子图;
所述OCR-OCR子图,用于对图像中检测到的文本与文本之间的关系进行建模,建立任意两个文本之间的联系。
所述object-object子图,用于对图像中检测到的物体与物体之间的关系进行建模,建立任意两个物体之间的联系。
所述OCR-object子图,用于对文本和物体之间的关系进行建模,得到物体的位置信息和文本的位置信息的重叠关系。
上述进一步方案的有益效果是:通过关系的特征增强,生成的特征的指向性会更强,相当于用周围的物体或者文本作为修饰词,比如“印有apple品牌的手机”,“汽车的车牌号EA286”等等。这样生成的特征更加有益于进行复杂关系的推理。
基于上述***,本发明还提供了一种基于概念交互和关联语义的文本视觉问答方法,包括以下步骤:
S1、利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息,并利用第一全连接层将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息,并利用第二全连接层对所述文本信息及其对应的位置信息进行融合,得到文本的位置信息;
S3、利用双向转换器表征编码器BERT提取问题文本的问题信息;
S4、根据物体的位置信息和文本的位置信息,利用OCR-object图卷积网络得到物体的位置信息和文本的位置信息的重叠关系;
S5、利用多门步机制图卷积网络对所述重叠关系进行编码;
S6、将所述问题信息以及编码信息输入至转换器网络,得到文本视觉回答,完成基于概念交互和关联语义的文本视觉问答。
本发明的有益效果是:本发明在文本视觉问答方面能够有效利用文本和物体之间的关联关系,并得到更好的准确率,并且在数据集上已经验证比当前的方法效果更好。
进一步地,所述步骤S1中进行融合的表达式如下:
Figure BDA0002553991820000041
其中,Fv表示融合后的特征矩阵,LayerNorm表示正则化层,Wv
Figure BDA0002553991820000042
分别表示神经网络中需要更新训练的参数,V表示检测到的物体的视觉特征,Bv表示检测到的物体外边框的位置信息。
上述进一步方案的有益效果是:将视觉对应的多种属性信息融合,增大视觉特征所包含信息的多样性。
再进一步地,所述步骤S2包括以下步骤:
S201、利用FastText快速文本模型提取每个检测图像中字母级别的文本信息;
S202、利用Faster-RCNN快速区域物体检测器提取每个检测图像中文本的外表信息;
S203、利用OCR模型检测字母级别的文本信息和文本中的外表信息对应的位置信息;
S204、利用第二全连接层对所述字母级别的文本信息、文本中的外表信息以及位置信息进行融合,得到文本的位置信息。
上述进一步方案的有益效果是:有利用提取文本获得多样化的特征:文本特征,视觉特征以及对应的位置特征。
再进一步地,所述步骤S204中文本的位置信息的表达式如下:
其中,Fo表示文本的位置信息,LayerNorm表示正则化层,
Figure BDA0002553991820000051
Figure BDA0002553991820000052
分别表示模型中可训练的参数,Oft表示检测到文本的文本信息,Ofr表示检测到的文本的视觉信息,Bo表示检测到的文本外边框的位置信息。
上述进一步方案的有益效果是:将检测文本对应的多种属性信息融合,增大视觉特征所包含信息的多样性。
再进一步地,所述步骤S3中提取问题文本的问题信息的表达式如下:
Q={q1,...,qK}=BERT(w1,...,wK)
其中,Q表示问题信息,qK表示第K个单词的语义信息,BERT表示双向转换器表征编码器,wK表示第K个单词表示的独热编码。
上述进一步方案的有益效果是:将问题信息进行编码,提取问题当中的重要语义信息。
再进一步地,所述步骤S4中OCR-object图卷积网络的表达式如下:
Figure BDA0002553991820000053
其中,A表示OCR-object关联图,Av表示object-object子图,Ao表示为 OCR-OCR子图,Ar表示为OCR-object子图,ArT表示Ar的共轭转置。
上述进一步方案的有益效果是:根据位置信息和语义层面的信息构建 OCR-object关联图。
再进一步地,所述步骤S5中多门步机制图卷积网络由单步门机制的图卷积网络执行J步构成;
所述单步门机制的图卷积网络的表达式如下:
Xt+1=GatedGCN(A,Xt)
其中,Xt表示第t步的门控图卷积网络的输入,Xt+1表示第t步的门控图卷积网络的输出和t+1步门控图卷积网络的输入,A表示OCR-object关联图, GatedGCN单步的门控图卷积网络。
上述进一步方案的有益效果是:将检测文本和检测物体的关系信息编码进入特征之中,使得生成的特征更加具有指向性。
再进一步地,所述S6中文本视觉回答的表达式如下:
Figure BDA0002553991820000061
Figure BDA0002553991820000062
Figure BDA0002553991820000063
其中,yt表示文本视觉回答,
Figure BDA0002553991820000064
表示从答案词表当中选取答案的概率分布,
Figure BDA0002553991820000065
表示答案从检测文本中选取答案的概率分布,
Figure BDA0002553991820000066
Figure BDA0002553991820000067
分别表示网络当中可训练的参数,Ojoint表示多门步机制图卷积网络的输出中对应的位置坐标的输出,
Figure BDA0002553991820000068
表示多门步机制图卷积网络的输出中的最后一个隐藏单元,Concat 表示合并连接操作。
上述进一步方案的有益效果是:通过抄袭机制,确定最终答案是从答案此表中选取还是从检测到的文本当中选取,增加的问答模型的灵活性。
附图说明
图1为本发明的***结构图。
图2为本发明的方法流程图。
图3为本实施例中的算法框架图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
如图1所示,本发明提供了一种基于概念交互和关联语义的文本视觉问答***,包括物***置提取模块、与物***置提取模块连接的第一全连接层、文本信息提取模块、与文本信息提取模块连接的第二全连接层、与第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与OCR-object图卷积网络连接的门步机制图卷积网络以及与门步机制图卷积网络连接的转换器网络,转换器网络与双向转换器表征编码器BERT连接;物***置提取模块,用于利用预训练的快速区域物体检测器Faster-RCNN模型提取图像中的视觉特征及其对应的位置信息;第一全连接层,用于将视觉特征及其对应的位置信息进行融合,得到物体的位置信息;文本信息提取模块,用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息;第二全连接层,用于对文本信息及其对应的位置信息进行融合,得到文本的位置信息;OCR-object图卷积网络,用于根据物体的位置信息和文本的位置信息,提取物体的位置信息和文本的位置信息的重叠关系;多门步机制图卷积网络,用于对重叠关系进行编码;双向转换器表征编码器BERT,用于提取问题文本的问题信息;转换器网络,用于根据问题信息以及编码信息得到文本视觉回答。OCR-object图卷积网络包括OCR-OCR子图,object-object子图以及OCR-object子图;OCR-OCR子图,主要用于对图像中检测到的文本与文本之间的关系进行建模,将任意两个文本之间建立联系。 object-object子图,主要用于对图像中检测到的物体与物体之间的关系进行建模,将任意两个物体之间建立联系。OCR-object子图,主要用于对图像中检测到的文本和物体之间的关系进行建模,如果检测到的文本区域和物体区域在空间上存在重叠,就假设他们之间存在联系,如果两者不存在重叠,就假设他们之间不存在联系。
本实施例中,本发明主要是针对文本视觉问答问题提出了一种能够概念交互和关联语义探索的文本视觉问答算法(Concept Interaction:Exploring the RelationalSemantics for Text-based Visual Question Answering),本发明将之前工作忽略的物体和视觉的关系进行了空间上的建模,如果文本和物体在空间上出现重叠,本申请就相信这两者之间是存在关系的,例如书本的名字,汽车的车牌号。其中,检测到的书本的名字一定是和书本存在重叠,车牌号也一定与汽车存在重叠,基于这种观察本申请构建了OCR-object图卷积网络,并依据这个关系进行了基于门机制的图卷积操作,它输出的特征能够保证自己节点会被周围相邻的节点进行描述,会使得最终的特征更加具有指向性,而这种指向性正是视觉问答算法所需要的。卷积之后的特征和问题信息共同输入到根据问题信息的转换器网络当中,它能够根据问题的信息对需要关注的物体和文本进行概念交互并发掘问题的最终答案。同时,他还能保证生成的答案长度是可变长度,更加符合现实当中回答问题的情况。本申请对***在当前主流的数据集上进行了验证,取得了当前最好的结果,这个也证明了本申请的方法要比当前主流的方法取得了更好的效果,预测的答案也更加精准。采用本申请的方法在TextVQA 数据集的验证集上获得了41.14%的准确率,在测试集上获得了40.77%的准确率。在ST-VQA数据集上,本申请的准确率也达到了41.1%,平均标准化莱温斯坦相似度也达到了0.500,取得了当前最好的结果。
实施例2
基于上述***,本发明还提供了一种基于概念交互和关联语义的文本视觉问答方法,基本思想是利用图像中物体和文本信息的位置关系来进行关系的建模,之后通过OCR-object图卷积网络来对文本信息和物体信息进行建模,通过基于门机制对于关系的编码学习到更加丰富的,更加具有指向性的特征,然后通过根据问题信息的转换器网络来对图像当中的物体和文本进行精准关注,从而得到更加准确的答案。如图2-图3所示,其实现方法如下:
S1、利用预训练的快速区域物体检测器Faster-RCNN模型提取图像中的视觉特征及其对应的位置信息,并利用第一全连接层将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
本实施例中,对于给定的图片,本申请首先使用预训练的Faster-RCNN模型来针对视觉特征进行提取。Faster-RCNN是在Visual Genome数据集上进行的与训练,它能够捕获到图片中出现的主要物体。针对每张图片,本申请使用 Faster-RCNN模型根据置信度高低提取出前100个局部物体特征,对应图片当中 100个不同的区域,每个局部特征是由一个2048维的向量表示,每个区域位置也由一个四维的向量表示,是区域框的左下和右上两个点的归一化的坐标位置,因此本申请能够得到一个100*2048的特征矩阵作为视觉表征和对应的100*4的位置信息。为了将这两种信息进行有效融合,本申请使用了一个全连接层来将两种信息进行融合,融合的公式如下所示:
Figure BDA0002553991820000101
其中,Fv表示融合后的特征矩阵,LayerNorm表示正则化层,Wv
Figure BDA0002553991820000102
表示神经网络中需要更新训练的参数,V表示检测到的物体的视觉特征,Bv表示检测到的物体外边框的位置信息。
S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息,并利用第二全连接层对所述文本信息及其对应的位置信息进行融合,得到文本的位置信息,其实现方法如下:
S201、利用FastText快速文本模型提取每个检测图像中字母级别的文本信息;
S202、利用Faster-RCNN快速区域物体检测器提取每个检测图像中文本的外表信息;
S203、利用OCR模型检测字母级别的文本信息和文本中的外表信息对应的位置信息;
S204、利用第二全连接层对所述字母级别的文本信息、文本中的外表信息以及位置信息进行融合,得到文本的位置信息。
本实施例中,对于给定的图片,本申请使用与训练的OCR识别模型罗塞塔(Rosetta)来检测图像当中出现的文本信息和位置信息。考虑到文本信息也包括字母级别的文本信息,以及文本信息自身对应的外表信息,本申请针对每个检测到的文本,通过快速文本模型FastText提取它们字母级别的语义信息,通过快速区域物体检测器Faster-RCNN来提取文本的外表信息,同样的,本申请使用全连接层来融合字符集别的文本信息,文本信息的外观表示,和对应的位置信息,融合公式如下所示:
Figure BDA0002553991820000103
其中,Fo表示文本的位置信息,LayerNorm表示正则化层,
Figure BDA0002553991820000111
Figure BDA0002553991820000112
分别表示模型中可训练的参数,Oft表示检测到文本的文本信息,Ofr表示检测到的文本的视觉信息,Bo表示的检测到的文本外边框的位置信息。
S3、利用双向转换器表征编码器BERT提取问题文本的问题信息;
本实施例中,对于给定的问题,本申请使用双向转换器表征编码器(BERT,Bidirectional Encoder Representation Transformer)来提取问题文本的特征,双向转换器表征编码器是预训练过的,本申请会在本申请训练的过程中进行微调,问题特征的提取过程如下所示:
Q={q1,...,qK}=BERT(w1,...,wK)
其中,Q表示问题信息,qK表示第K个单词的语义信息,BERT表示双向转换器表征编码器,wK表示第K个单词表示的独热编码。
S4、根据物体的位置信息和文本的位置信息,利用OCR-object图卷积网络得到物体的位置信息和文本的位置信息的重叠关系;
本实施例中,在现实世界的实例当中,如果图片当中的文本和物体有重叠的话,那么这两者之间存在关系,因此根据图片当中的物体的位置和文本位置的重叠关系定义了一个OCR-object图卷积网络,OCR-object图卷积网络包含有三个子图:OCR-OCR图,object-object图,OCR-object图。考虑到OCR内部之间的关系,object之间的关系都是在语义层面的,假设他们两个之间都存在语义上的关系,因此本申请将OCR-OCR图和object-object图定义为单位矩阵。对于 OCR-object图可根据重叠关系进行定义,如果第i个文本和第j个物体存在重叠关系,则对应Ai,j为1,如果两者不存在重叠关系,则对应Ai,j为0。因此最终的OCR-object图卷积网络A被定义为如下所示:
Figure BDA0002553991820000121
其中,A表示OCR-object关联图,Av表示object-object图,Ao表示为 OCR-OCR图,Ar表示为OCR-object图,ArT表示Ar的共轭转置。
S5、利用多门步机制图卷积网络对所述重叠关系进行编码;
本实施例中,为了将文本和物体之间的关联关系编码进入特征中,接下来使用一个多步门机制图卷积网络,单步的图卷积网络只能学习到相邻节点的语义信息,但是现实生活当中的逻辑可能是复杂的,单步的推理并不能满足显示要求,因此将其拓展为多步的图卷积网络。OCR-object图的节点特征X0表示为:
X0=[Fv,Fo]
其中,Fv表示检测到的物体的特征,Fo表示检测到的文本的特征。
单步的门机制的图卷积网络单元的计算过程如下所示:
Y=AWgXt
U=σ(W1Y+W2Xt)
R=σ(W3Y+W4Xt)
Figure BDA0002553991820000122
Figure BDA0002553991820000123
其中,A表示OCR-object关联图,Wg、W1、W2、W3、W4、W5和W6分别表示模型中可学习的参数,Y表示的初步的经过关系图融合的特征,σ(·)表示 Sigmoid函数,tanh(·)表示双曲正切函数,U表示更新门,R表示重置门,
Figure BDA0002553991820000124
表示经过重置门的特征信号,Xt表示的是第t步骤的门控图卷积网络的输入,Xt+1表示的是其输出,同时它也是t+1步的输入。
本申请将单步的门图卷积网络简化为:
Xt+1=GatedGCN(A,Xt)
其中,Xt表示的是第t步骤的门控图卷积网络的输入,Xt+1表示的是其输出,同时它也是t+1步的输入,A表示的是OCR-object关联图,并且最终执行J步之后得到的融合特征为Fjoint
为了拓展图的关联长度,将门图卷积神经网络执行J步,确保关联长度为J,这样最终的输出特征为XJ
S6、将所述问题信息以及编码信息输入至转换器网络,得到文本视觉回答,完成基于概念交互和关联语义的文本视觉问答。
本实施例中,因为文本视觉问答当中需要问题指出模型需要关注图片当中的哪些信息,因此设计了一个问题相关的转换器网络,转换器网络是由多层的转换器层组成的,将视觉图像信息,文本信息,问题信息和之前的输出这四个概念共同输入到概念交互转换器网络当中,具体的计算过程如公式所示:
Ft joint=[XJ,Q,Pt-1]
Ft final=Transformer(Ft joint)
其中,最终执行J步之后得到的融合特征为XJ,Q表示编码的之后的问题特征,Pt-1表示前t-1个答案的前t-1步的输出,Ft final表示经过转换器编码之后的第t步特征,Transformer表示多层转换器网络,Ft joint表示经过转换器编码之前的第t步特征。
本实施例中,取最终的特征表示Ft final的最后一个隐藏层单元
Figure BDA0002553991820000131
作为解码的隐藏层状态,并使用这个隐藏层状态来对最终的答案进行预测:
Figure BDA0002553991820000132
其中,
Figure BDA0002553991820000133
表示从答案词表当中选取答案时候的概率分布,
Figure BDA0002553991820000134
表示网络当中可训练的参数。
然而考虑到问题的答案有很大的可能会选取一个图片当中的文本来作为答案,因此引入了一个抄袭的思想来帮助模型直接从文本中选取作为最终的答案,假设从最终编码特征中截取OCR特征为Ojoint,最终选取的结果答案计算过程为:
Figure BDA0002553991820000141
其中,
Figure BDA0002553991820000142
表示答案从检测文本中选取答案时候的概率分布,
Figure BDA0002553991820000143
Figure BDA0002553991820000144
分别表示网络当中可训练的参数,Ojoint表示表示门控图卷积网络的输出中OCR对应的位置坐标的输出,
Figure BDA0002553991820000145
表示门控图卷积网络的输出Fjoint中的最后一个隐藏单元。
如此得到了两个答案特征分布,将这两个答案特征分布连接在一块,最终选取得分最高的答案最为第t步的生成答案:
Figure BDA0002553991820000146
其中,yt表示最终答案分布情况,
Figure BDA0002553991820000147
表示的是从答案词表当中选取答案时候的概率分布,
Figure BDA0002553991820000148
表示的是答案从检测文本中选取答案时候的概率分布。此外,在模型的训练阶段,本实施例使用二值化的交叉熵来作为最终的损失函数,在推理阶段,当答案生成“END”的时候模型就会停止继续运算,最终的答案就是这个问题的答案。

Claims (10)

1.一种基于概念交互和关联语义的文本视觉问答***,其特征在于,包括物***置提取模块、与所述物***置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的多门步机制图卷积网络以及与所述多门步机制图卷积网络连接的转换器网络,所述转换器网络与双向转换器表征编码器BERT连接;
所述物***置提取模块,用于利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息;
所述第一全连接层,用于将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
所述文本信息提取模块,用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息;
所述第二全连接层,用于对所述文本信息及其对应的位置信息进行融合,得到文本的位置信息;
所述OCR-object图卷积网络,用于根据物体的位置信息和文本的位置信息,提取物体的位置信息和文本的位置信息的重叠关系;
所述多门步机制图卷积网络,用于对重叠关系进行编码;
所述双向转换器表征编码器BERT,用于提取问题文本的问题信息;
所述转换器网络,用于根据问题信息以及编码信息得到文本视觉回答。
2.根据权利要求1所述的基于概念交互和关联语义的文本视觉问答***,其特征在于,所述OCR-object图卷积网络包括OCR-OCR子图,object-object子图以及OCR-object子图;
所述OCR-OCR子图,用于对图像中检测到的文本与文本之间的关系进行建模,建立任意两个文本之间的联系。
所述object-object子图,用于对图像中检测到的物体与物体之间的关系进行建模,建立任意两个物体之间的联系。
所述OCR-object子图,用于对文本和物体之间的关系进行建模,得到物体的位置信息和文本的位置信息的重叠关系。
3.一种基于概念交互和关联语义的文本视觉问答方法,其特征在于,包括以下步骤:
S1、利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息,并利用第一全连接层将所述视觉特征及其对应的位置信息进行融合,得到物体的位置信息;
S2、利用OCR识别模型检测图像中的文本信息及其对应的位置信息,并利用第二全连接层对文本信息及其对应的位置信息进行融合,得到文本的位置信息;
S3、利用双向转换器表征编码器BERT提取问题文本的问题信息;
S4、根据物体的位置信息和文本的位置信息,利用OCR-object图卷积网络得到物体的位置信息和文本的位置信息的重叠关系;
S5、利用多门步机制图卷积网络对所述重叠关系进行编码;
S6、将所述问题信息以及编码信息输入至转换器网络,得到文本视觉回答,完成基于概念交互和关联语义的文本视觉问答。
4.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S1中进行融合的表达式如下:
Figure FDA0002553991810000021
其中,Fv表示融合后的特征矩阵,LayerNorm表示正则化层,Wv
Figure FDA0002553991810000022
分别表示神经网络中需要更新训练的参数,V表示检测到的物体的视觉特征,Bv表示检测到的物体外边框的位置信息。
5.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S2包括以下步骤:
S201、利用FastText快速文本模型提取每个检测图像中字母级别的文本信息;
S202、利用Faster-RCNN快速区域物体检测器提取每个检测图像中文本的外表信息;
S203、利用OCR模型检测字母级别的文本信息和文本中的外表信息对应的位置信息;
S204、利用第二全连接层对所述字母级别的文本信息、文本中的外表信息以及位置信息进行融合,得到文本的位置信息。
6.根据权利要求5所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S204中文本的位置信息的表达式如下:
Figure FDA0002553991810000031
其中,Fo表示文本的位置信息,LayerNorm表示正则化层,
Figure FDA0002553991810000032
Figure FDA0002553991810000033
分别表示模型中可训练的参数,Oft表示检测到文本的文本信息,Ofr表示检测到的文本的视觉信息,Bo表示检测到的文本外边框的位置信息。
7.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S3中提取问题文本的问题信息的表达式如下:
Q={q1,...,qK}=BERT(w1,...,wK)
其中,Q表示问题信息,qK表示第K个单词的语义信息,BERT表示双向转换器表征编码器,wK表示第K个单词表示的独热编码。
8.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S4中OCR-object图卷积网络的表达式如下:
Figure FDA0002553991810000041
其中,A表示OCR-object关联图,Av表示object-object子图,Ao表示为OCR-OCR子图,Ar表示为OCR-object子图,ArT表示Ar的共轭转置。
9.根据权利要求3所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述步骤S5中多门步机制图卷积网络由单步门机制的图卷积网络执行J步构成;
所述单步门机制的图卷积网络的表达式如下:
Xt+1=GatedGCN(A,Xt)
其中,Xt表示第t步的门控图卷积网络的输入,Xt+1表示第t步的门控图卷积网络的输出和t+1步门控图卷积网络的输入,A表示OCR-object关联图,GatedGCN单步的门控图卷积网络。
10.根据权利要求1所述的基于概念交互和关联语义的文本视觉问答方法,其特征在于,所述S6中文本视觉回答的表达式如下:
Figure FDA0002553991810000042
Figure FDA0002553991810000043
Figure FDA0002553991810000044
其中,yt表示文本视觉回答,
Figure FDA0002553991810000045
表示从答案词表当中选取答案的概率分布,
Figure FDA0002553991810000046
表示答案从检测文本中选取答案的概率分布,
Figure FDA0002553991810000047
Figure FDA0002553991810000048
分别表示网络当中可训练的参数,Ojoint表示多门步机制图卷积网络的输出中对应的位置坐标的输出,
Figure FDA0002553991810000049
表示多门步机制图卷积网络的输出中的最后一个隐藏单元,Concat表示合并连接操作。
CN202010584144.1A 2020-06-24 2020-06-24 一种基于概念交互和关联语义的文本视觉问答***及方法 Active CN111858882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010584144.1A CN111858882B (zh) 2020-06-24 2020-06-24 一种基于概念交互和关联语义的文本视觉问答***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010584144.1A CN111858882B (zh) 2020-06-24 2020-06-24 一种基于概念交互和关联语义的文本视觉问答***及方法

Publications (2)

Publication Number Publication Date
CN111858882A true CN111858882A (zh) 2020-10-30
CN111858882B CN111858882B (zh) 2022-08-09

Family

ID=72988448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010584144.1A Active CN111858882B (zh) 2020-06-24 2020-06-24 一种基于概念交互和关联语义的文本视觉问答***及方法

Country Status (1)

Country Link
CN (1) CN111858882B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308080A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 面向指向性视觉理解和分割的图像描述预测方法
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答***及方法
CN112800191A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN113204666A (zh) * 2021-05-26 2021-08-03 杭州联汇科技股份有限公司 一种基于文字查找匹配图片的方法
CN113360699A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答***、方法、计算机及存储介质
CN113807218A (zh) * 2021-09-03 2021-12-17 科大讯飞股份有限公司 版面分析方法、装置、计算机设备和存储介质
US20220171980A1 (en) * 2020-12-02 2022-06-02 Sap Se Detecting The Same Type of Objects in Images Using Machine Learning Models
CN114707017A (zh) * 2022-04-20 2022-07-05 北京百度网讯科技有限公司 视觉问答方法、装置、电子设备和存储介质
CN115512765A (zh) * 2022-09-19 2022-12-23 郑州轻工业大学 一种基于量子表示学习的致病circRNA预测方法
CN115512765B (zh) * 2022-09-19 2024-07-30 郑州轻工业大学 一种基于量子表示学习的致病circRNA预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN109255359A (zh) * 2018-09-27 2019-01-22 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
CN110019749A (zh) * 2018-09-28 2019-07-16 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN109255359A (zh) * 2018-09-27 2019-01-22 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法
CN110019749A (zh) * 2018-09-28 2019-07-16 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BANG LIU: "Matching Article Pairs with Graphical Decomposition and Convolutions", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
JINGKUAN SONG: "Self-Supervised Video Hashing with Hierarchical Binary Auto-encoder", 《TRANSACTIONS ON IMAGE PROCESSING》 *
LIANLI GAO: "Hierarchical LSTMs with Adaptive Attention for Visual Captioning", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
TOBIAS FÄRDIG: "Query Concept Interaction over Time", 《MASTER OF SCIENCE THESIS IN THE PROGRAMME COMPUTER SCIENCE: ALGORITHMS LANGUAGES AND LOGIC》 *
XIANGPENG LI: "Beyond RNNs: Positional Self-Attention with Co-Attention for Video Question Answering", 《THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-19)》 *
ZICHAO YANG: "Stacked Attention Networks for Image Question Answering", 《2016 CVPR》 *
俞俊等: "视觉问答技术研究", 《计算机研究与发展》 *
周俊佐: "面向人机对话意图分类的混合神经网络模型", 《软件学报》 *
段金菊: "学习科学视域下的e-Learning 深度学习研究", 《远程教育杂志》 *
白林亭等: "基于深度学习的视觉问答技术研究", 《航空计算技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308080B (zh) * 2020-11-05 2023-05-30 南强智视(厦门)科技有限公司 面向指向性视觉理解和分割的图像描述预测方法
CN112308080A (zh) * 2020-11-05 2021-02-02 南强智视(厦门)科技有限公司 面向指向性视觉理解和分割的图像描述预测方法
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答***及方法
US20220171980A1 (en) * 2020-12-02 2022-06-02 Sap Se Detecting The Same Type of Objects in Images Using Machine Learning Models
CN112800191A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN113204666A (zh) * 2021-05-26 2021-08-03 杭州联汇科技股份有限公司 一种基于文字查找匹配图片的方法
CN113360699A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113360699B (zh) * 2021-06-30 2023-09-26 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113609355A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答***、方法、计算机及存储介质
CN113609355B (zh) * 2021-07-15 2022-06-03 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答***、方法、计算机及存储介质
CN113807218A (zh) * 2021-09-03 2021-12-17 科大讯飞股份有限公司 版面分析方法、装置、计算机设备和存储介质
CN113807218B (zh) * 2021-09-03 2024-02-20 科大讯飞股份有限公司 版面分析方法、装置、计算机设备和存储介质
CN114707017A (zh) * 2022-04-20 2022-07-05 北京百度网讯科技有限公司 视觉问答方法、装置、电子设备和存储介质
CN115512765A (zh) * 2022-09-19 2022-12-23 郑州轻工业大学 一种基于量子表示学习的致病circRNA预测方法
CN115512765B (zh) * 2022-09-19 2024-07-30 郑州轻工业大学 一种基于量子表示学习的致病circRNA预测方法

Also Published As

Publication number Publication date
CN111858882B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111858882B (zh) 一种基于概念交互和关联语义的文本视觉问答***及方法
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
US20210406468A1 (en) Method and device for visual question answering, computer apparatus and medium
Das et al. Handwritten arabic numeral recognition using a multi layer perceptron
CN112036276B (zh) 一种人工智能视频问答方法
Yuan et al. 3G structure for image caption generation
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
Liu et al. Cross-part learning for fine-grained image classification
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN111598183A (zh) 一种多特征融合图像描述方法
CN114996502A (zh) 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备
CN111967272A (zh) 基于语义对齐的视觉对话生成***
CN114663915A (zh) 基于Transformer模型的图像人-物交互定位方法及***
CN112507727A (zh) 一种基于文本的文本视觉问答***及方法
Pezzelle et al. Is the red square big? MALeViC: Modeling adjectives leveraging visual contexts
CN113204675A (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN115860152B (zh) 一种面向人物军事知识发现的跨模态联合学习方法
Lu et al. An improved target detection method based on multiscale features fusion
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
Magassouba et al. A multimodal target-source classifier with attention branches to understand ambiguous instructions for fetching daily objects
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、***、电子设备
Yang et al. GID-Net: Detecting human-object interaction with global and instance dependency
CN117609536A (zh) 基于语言引导的指称表达理解推理网络***及推理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant