CN115375984A - 一种基于图神经网络的图表问答方法 - Google Patents

一种基于图神经网络的图表问答方法 Download PDF

Info

Publication number
CN115375984A
CN115375984A CN202211142426.1A CN202211142426A CN115375984A CN 115375984 A CN115375984 A CN 115375984A CN 202211142426 A CN202211142426 A CN 202211142426A CN 115375984 A CN115375984 A CN 115375984A
Authority
CN
China
Prior art keywords
modal
cross
representation
feature
order cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211142426.1A
Other languages
English (en)
Inventor
沈玮祺
贺樑
肖路巍
吴兴蛟
马天龙
何峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202211142426.1A priority Critical patent/CN115375984A/zh
Publication of CN115375984A publication Critical patent/CN115375984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图神经网络的图表问答方法,包括以下步骤:a)使用视觉图神经网络和双向长短时记忆网络分别建模图表和文本两种模态特征,然后对得到的图表和文本两种特征表示拼接后进行跨模态特征融合;b)使用1X1卷积核以及双向GRU对拼接后得到的跨模态特征表示进行第一阶段特征融合,得到低阶跨模态特征表示;c)使用多头自注意力机制和密集连接的图卷积网络对低阶跨模态特征表示进行第二阶段特征融合,提取跨模态语义依存关系,得到高阶跨模态特征表示;d)将高阶跨模态特征表示输入一个全连接网络,最后再输入分类器预测问题答案。本发明相较于现有方法具有特征提取能力强,跨模态信息融合程度高,可在一定程度上提升图表问答的准确度。

Description

一种基于图神经网络的图表问答方法
技术领域
本发明涉及多模态数据融合研究相关的视觉问答领域,具体涉及一种基于图神经网络的图表问答方法。
背景技术
视觉问答任务是人工智能领域一项具有挑战性和实用性的任务,属于一种多模态任务,主要是涉及计算机视觉和自然语言处理的一个交叉研究方向。图表问答(chartquestion answering,CQA)是视觉问答中的一种任务类型,是用于处理图表图像与文本问题的多模态的推理任务。图表问答是指:给定一张图表和该图表的相关问题,图表问答的目标是结合图表的视觉信息和问题文本内容,通过对图表和文本进行特征融合以及推理来获得问题的答案。
图表问答早期的研究主要是采用的简单的神经网络组合以及单一的跨模态交互方法。例如将单向长短期记忆网络建模的问题文本表示与卷积神经网络提取到图像特征拼接后输入分类器;又例如基于简单关系网络的方法,将通过卷积神经网络得到的特征图上的每个像素点看作一个对象,然后将每两个像素的特征向量配对,构造一个包含所有像素之间关系的关系对特征,然后用一个全连接网络来推理每两个对象之间的关系,最后 把这些关系对相加,预测最终的答案。这些基于简单特征组合的模型往往只能建模低阶的图像和文本信息且包含较多冗余信息,实际模型表现不佳。
近几年研究者们也设计了一些新颖的算法来提升图表问答任务的性能。例如采用多次迭代的传统注意力机制来实现对图表中关键区域特征的采集;也有方法通过使用与训练好的开源光学字符识别(optical character recognition,OCR)来挖掘图表中的字符信息,然后将其定位到嵌入问题中,再利用预训练的 ResNet-152 提取图表特征图,最后通过空间注意力机制将特征图作为隐藏层信息加到长短期记忆网络中,来获得文本表示。但是,上述方法难以建模图表中结构化的特征,尤其是图表内部元素间的对比关系,如大小、比例和折线趋势等,同时也难以提取图表和问题关键词之间的高阶语义关系,跨模态特征无法得到充分交互。
发明内容
有鉴于此,本发明的目的在于提供一种基于图神经网络的图表问答方法。为了建模图表中结构化的特征,尤其是图表内部元素间的对比关系,如大小、比例和折线趋势等,本方法采用视觉图神经网络来提取图表特征。为了提取图表和问题关键词之间的高阶语义关系,使得跨模态特征得到充分交互融合,本方法提出采用两个不同阶段的跨模态融合。
为实现上述目的,本发明采用如下技术方案:
一种基于图神经网络的图表问答方法,包括以下步骤:
(1) 利用视觉图神经网络和双向长短时记忆网络分别提取图像和文本两种模态特征表示,并将两部分模态特征表示对齐后拼接,包括如下子步骤:
(1.1)以从FigureQA数据集采集得到的科学图表即垂直柱状图、水平柱状图、折线图、饼图以及散点图和所述科学图表对应的问题以及人工标注后的答案作为训练集和验证集,训练集和验证集采集比例为8:2;其中,所述的人工标注即对问题给出的答案;
(1.2)利用视觉图神经网络对科学图表的视觉信息进行建模;首先将整张科学图表网格化处理分解为多个子图,然后将每个子图的RGB三通道矩阵在通道方向进行展平,每个即子图用一个向量表示;将每个子图看作一个节点,利用K近邻算法计算与当前节点距离最近的K个节点,并且将当前节点与这K个节点建立对应依存关系;以此迭代,构造出每个子图与其他子图之间的依存关系矩阵,然后将所有子图表示向量与依存关系矩阵输入图神经网络中,建模图像的特征表示;
(1.3)对输入文本进行预处理;问题中每个单词对应的词向量利用BERT得到,然后将整个问题输入双向长短期记忆网络进行序列建模,得到文本特征表示;
(1.4)将图像特征表示的通道维度与文本特征表示的单词维度对齐后拼接,得到跨模态特征表示。
(2)对跨模态特征表示进行第一阶段特征融合,得到低阶跨模态特征表示,包括以下子步骤:
(2.1)对跨模态特征表示进行第一阶段特征融合;利用卷积核为1x1的卷积神经网络,对跨模态特征表示进行特征提取;
(2.2)将卷积核为1x1的卷积神经网络提取到的跨模态特征表示输入双向GRU网络中,进行跨模态特征融合,得到低阶跨模态特征表示。
(3)对低阶跨模态特征表示进行第二阶段特征融合,得到高阶跨模态特征表示,包括如下子步骤:
(3.1)对低阶跨模态特征表示进行第二阶段特征融合;对第一阶段特征融合后得到的低阶跨模态特征表示使用多头自注意力机制,根据头数生成多个自注意力矩阵;对多个自注意力矩阵进行平均池化,然后得到交互注意力权重矩阵;
(3.2)将经过第一阶段特征融合后得到的低阶跨模态特征表示与交互注意力权重矩阵,输入一个密集连接的深度图卷积网络,建模文本与图像之间的语义依存关系,得到一个中阶跨模态特征表示;
(3.3)将中阶跨模态特征表示进行平均池化操作,得到高阶跨模态特征表示。
(4) 将高阶跨模态特征表示输入分类器中,得到预测结果,包括如下子步骤:
(4.1)将高阶跨模态特征表示输入一个全连接网络中,然后输入到分类器中得到预测结果。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
本发明提出一种基于图神经网络的图表问答方法,本发明是使用视觉图神经网络来对图表图像中的不同子图像块的依存关系进行建模,能够更好提取图表中结构化的特征,尤其是图表内部元素间的对比关系,如大小、比例和折线趋势等。
本发明提出的两阶段跨模态特征融合机制,使得跨模态特征得到充分交互,能够更好地挖掘图表和问题关键词之间的高阶语义关系。
附图说明
图1为本发明的流程图;
图 2为本发明实施例的流程示意图。
具体实施方式
下面结合具体的实施例以及附图对本发明进行进一步说明。
如图1所示,本发明的基于图神经网络的图表问答方法,包括以下步骤:
(1) 利用视觉图神经网络和双向长短时记忆网络分别提取图像和文本两种模态特征表示,并将两部分模态特征表示对齐后拼接,包括如下子步骤:
(1.1)以从FigureQA数据集采集得到的科学图表即垂直柱状图、水平柱状图、折线图、饼图以及散点图和所述科学图表对应的问题以及人工标注后的答案作为训练集和验证集,训练集和验证集采集比例为8:2;其中,所述的人工标注即对问题给出的答案。
(1.2)利用视觉图神经网络对科学图表的视觉信息进行建模;首先将整张科学图表网格化处理分解为多个子图,然后将每个子图的RGB三通道矩阵在通道方向进行展平,每个即子图用一个向量表示;将每个子图看作一个节点,利用K近邻算法计算与当前节点距离最近的K个节点,并且将当前节点与这K个节点建立对应依存关系;以此迭代,构造出每个子图与其他子图之间的依存关系矩阵,然后将所有子图表示向量与依存关系矩阵输入图神经网络中,建模图像的特征表示。
(1.3)对输入文本进行预处理;问题中每个单词对应的词向量利用BERT得到,然后将整个问题输入双向长短期记忆网络进行序列建模,得到文本特征表示。
(1.4)将图像特征表示的通道维度与文本特征表示的单词维度对齐后拼接,得到跨模态特征表示。
(2) 对跨模态特征表示进行第一阶段特征融合,得到低阶跨模态特征表示,包括以下步骤:
(2.1)对跨模态特征表示进行第一阶段特征融合;利用卷积核为1x1的卷积神经网络,对跨模态特征表示进行特征提取。
(2.2)将卷积核为1x1的卷积神经网络提取到的跨模态特征表示输入双向GRU网络中,进行跨模态特征融合,得到低阶跨模态特征表示。
(3) 对低阶跨模态特征表示进行第二阶段特征融合,得到高阶跨模态特征表示,包括如下子步骤:
(3.1)对低阶跨模态特征表示进行第二阶段特征融合;对第一阶段特征融合后得到的低阶跨模态特征表示使用多头自注意力机制,根据头数生成多个自注意力矩阵;对多个自注意力矩阵进行平均池化,然后得到交互注意力权重矩阵。
(3.2)将经过第一阶段特征融合后得到的低阶跨模态特征表示与交互注意力权重矩阵,输入一个密集连接的深度图卷积网络,建模文本与图像之间的语义依存关系,得到一个中阶跨模态特征表示。
(3.3)将中阶跨模态特征表示进行平均池化操作,得到高阶跨模态特征表示。
(4) 将高阶跨模态特征表示输入分类器中,得到预测结果,包括如下子步骤:
(4.1)将高阶跨模态特征表示输入一个全连接网络中,然后输入到分类器中得到预测结果。
实施例
参阅图2,本实施例将FigureQA数据集采集得到的科学图表和所述科学图表对应的问题分别进行预处理后输入到视觉图神经网络和双向长短期记忆网络中,得到图表和文本两部分模态特征,然后对得到的图表和文本两部分特征表示拼接后进行跨模态特征融合。使用1X1卷积核以及双向GRU对拼接后得到的跨模态特征表示进行第一阶段特征融合,得到低阶跨模态特征表示。使用多头自注意力机制和密集连接的图卷积网络对低阶跨模态特征表示进行第二阶段特征融合,提取跨模态语义依存关系,再进行平均池化后得到高阶跨模态特征表示。将高阶跨模态特征表示向量输入一个全连接网络,输出为问答预测结果。
以上所述仅为本发明的较佳实施例,在本发明权利要求所限定的范围内可对其进行一定修改,但都将落入本发明的保护范围内。

Claims (1)

1.一种基于图神经网络的图表问答方法,其特征在于,该方法包括以下具体步骤:
步骤1:利用视觉图神经网络和双向长短时记忆网络分别提取图像和文本两部分模态特征表示,并将两部分模态特征表示对齐后拼接,得到跨模态特征表示;
步骤2:对跨模态特征表示进行第一阶段特征融合,得到低阶跨模态特征表示;
步骤3:对低阶跨模态特征表示进行第二阶段特征融合,得到高阶跨模态特征表示;
步骤4:将高阶跨模态特征表示输入分类器中,得到问答预测结果;其中:
所述步骤1具体为:
1.1:以从FigureQA数据集采集得到的科学图表即垂直柱状图、水平柱状图、折线图、饼图以及散点图和所述科学图表对应的问题以及人工标注后的答案作为训练集和验证集,训练集和验证集采集比例为8∶2;其中,所述的人工标注即对问题给出的答案;
1.2:利用视觉图神经网络对科学图表的视觉信息进行建模;首先将整张科学图表网格化处理分解为多个子图,然后将每个子图的RGB三通道矩阵在通道方向进行展平,每个即子图用一个向量表示;将每个子图看作一个节点,利用K近邻算法计算与当前节点距离最近的K个节点,并且将当前节点与这K个节点建立对应依存关系;以此迭代,构造出每个子图与其他子图之间的依存关系矩阵,然后将所有子图表示向量与依存关系矩阵输入图神经网络中,建模图像的特征表示;
1.3:对输入文本进行预处理;问题中每个单词对应的词向量利用BERT得到,然后将整个问题输入双向长短期记忆网络进行序列建模,得到文本特征表示;
1.4:将图像特征表示的通道维度与文本特征表示的单词维度对齐后拼接,得到跨模态特征表示;
所述步骤2具体为:
2.1:对跨模态特征表示进行第一阶段特征融合;利用卷积核为1x1的卷积神经网络,对跨模态特征表示进行特征提取;
2.2:将卷积核为1x1的卷积神经网络提取到的跨模态特征表示输入双向GRU网络中,进行跨模态特征融合,得到低阶跨模态特征表示;
所述步骤3具体为:
3.1:对低阶跨模态特征表示进行第二阶段特征融合;对第一阶段特征融合后得到的低阶跨模态特征表示使用多头自注意力机制,根据头数生成多个自注意力矩阵;对多个自注意力矩阵进行平均池化,然后得到交互注意力权重矩阵;
3.2:将经过第一阶段特征融合后得到的低阶跨模态特征表示与交互注意力权重矩阵,输入一个密集连接的深度图卷积网络,建模文本与图像之间的语义依存关系,得到一个中阶跨模态特征表示;
3.3:将中阶跨模态特征表示进行平均池化操作,得到高阶跨模态特征表示。
CN202211142426.1A 2022-09-20 2022-09-20 一种基于图神经网络的图表问答方法 Pending CN115375984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211142426.1A CN115375984A (zh) 2022-09-20 2022-09-20 一种基于图神经网络的图表问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211142426.1A CN115375984A (zh) 2022-09-20 2022-09-20 一种基于图神经网络的图表问答方法

Publications (1)

Publication Number Publication Date
CN115375984A true CN115375984A (zh) 2022-11-22

Family

ID=84072506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211142426.1A Pending CN115375984A (zh) 2022-09-20 2022-09-20 一种基于图神经网络的图表问答方法

Country Status (1)

Country Link
CN (1) CN115375984A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390165A (zh) * 2023-10-27 2024-01-12 北京中科闻歌科技股份有限公司 基于多模态大模型的图表问答方法、***、介质和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390165A (zh) * 2023-10-27 2024-01-12 北京中科闻歌科技股份有限公司 基于多模态大模型的图表问答方法、***、介质和设备

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及***
CN113191357B (zh) 基于图注意力网络的多层次图像-文本匹配方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111046661A (zh) 基于图卷积网络的阅读理解方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112686345A (zh) 一种基于注意力机制的脱机英文手写识别方法
CN113283336A (zh) 一种文本识别方法与***
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与***
CN115375984A (zh) 一种基于图神经网络的图表问答方法
Liu et al. A semantic-driven coupled network for infrared and visible image fusion
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
CN114241497B (zh) 基于上下文关系注意力机制的表格序列识别方法及***
Wang Improved facial expression recognition method based on gan
Hua et al. Collaborative Generative Adversarial Network with Visual perception and memory reasoning
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN111858682A (zh) 一种基于深度学习的裁判文书逻辑评估方法及***
CN116386148B (zh) 基于知识图谱引导的小样本动作识别方法及***
CN117952206B (zh) 一种知识图谱链路预测方法
US20230360367A1 (en) Neural network architectures for invariant object representation and classification using local hebbian rule-based updates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Shen Qiwei

Inventor after: He Liang

Inventor after: Xiao Luwei

Inventor after: Wu Xingjiao

Inventor after: Ma Tianlong

Inventor after: He Jun

Inventor before: Shen Weiqi

Inventor before: He Liang

Inventor before: Xiao Luwei

Inventor before: Wu Xingjiao

Inventor before: Ma Tianlong

Inventor before: He Jun

CB03 Change of inventor or designer information