CN113672716A - 基于深度学习和多模态数值推理的几何题解答方法及模型 - Google Patents

基于深度学习和多模态数值推理的几何题解答方法及模型 Download PDF

Info

Publication number
CN113672716A
CN113672716A CN202110982368.2A CN202110982368A CN113672716A CN 113672716 A CN113672716 A CN 113672716A CN 202110982368 A CN202110982368 A CN 202110982368A CN 113672716 A CN113672716 A CN 113672716A
Authority
CN
China
Prior art keywords
text
semantics
program
image
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110982368.2A
Other languages
English (en)
Inventor
梁小丹
李橦
李奇文
陈嘉奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Sun Yat Sen University Shenzhen Campus
Original Assignee
Sun Yat Sen University
Sun Yat Sen University Shenzhen Campus
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, Sun Yat Sen University Shenzhen Campus filed Critical Sun Yat Sen University
Priority to CN202110982368.2A priority Critical patent/CN113672716A/zh
Publication of CN113672716A publication Critical patent/CN113672716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习和多模态数值推理的几何题解答方法及文本和图像双模态联合的神经网络模型,所述方法包括:分别获取关于题目内容的文本信息与图像信息;将所述文本信息编码成对应的文本隐藏状态得到文本语义,以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义;融合与对齐所述文本语义和所述视觉语义得到解答程序;按照所述解答程序的运算方式计算解答结果。本发明不但可以增加解答准确率,又可以提高处理的效率,以实现一种具有良好正确率、实用性强、且能通过深度学习自主生成答案的代码序列的技术。

Description

基于深度学习和多模态数值推理的几何题解答方法及模型
技术领域
本发明涉及智能教育的技术领域,尤其涉及一种基于深度学习和多模态数值推理的几何题解答方法及文本和图像双模态联合的神经网络模型。
背景技术
随着人工智能的发展和普及,人工智能已应用至各行各业中,其中一个应用领域是智能教育。
目前其中一种最常用的应用是智能解答,其操作方式是用户拍摄相应的题目图片,通过识别图片中的题目内容,基于题目内容在通过海量题目构建的大题库中搜索,从而找到相应的解答答案。
但目前常用的方式有如下技术问题:由于涉及的题目众多,而各个题目只要改变一下参数或数据,其解答方式又会发生变化,从而衍生出更多答案,若仅仅通过识别图像进行答案搜索,只能从大量答案中筛选得到单一用户输入的答案,不利于学生延伸学习,且需要处理数据的数量大,增加处理耗时,降低处理效率,而且若题目相类似,容易出现误筛选的情况,降低筛选的准确率,影响用户的使用体验。
发明内容
本发明提出一种基于深度学习和多模态数值推理的几何题解答方法及文本和图像双模态联合的神经网络模型,所述方法可以识别题目语义,基于题目语义进行自主的推理与解答,既可以增加解答准确率,又可以提高处理的效率。
本发明实施例的第一方面提供了一种基于深度学习和多模态数值推理的几何题解答方法,所述方法应用于文本和图像双模态联合的神经网络模型,所述方法包括:
分别获取关于题目内容的文本信息与图像信息;
将所述文本信息编码成对应的文本隐藏状态得到文本语义,以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义;
融合与对齐所述文本语义和所述视觉语义得到解答程序;
按照所述解答程序的运算方式计算解答结果。
在第一方面的一种可能的实现方式中,所述融合与对齐所述文本语义和所述视觉语义得到解答程序,包括:
分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义;
使用深度学习中的attention机制对齐所述编码文本语义和所述编码视觉语义得到对齐语义数据;
将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
在第一方面的一种可能的实现方式中,所述按照所述解答程序的运算方式计算解答结果,包括:
从所述解答程序筛选程序序列;
获取所述程序序列所包含的运算符和运算数据;
按照所述程序序列、所述运算符和所述运算数据计算得到解答结果。
在第一方面的一种可能的实现方式中,所述从所述解答程序筛选程序序列,包括:
利用预设的LSTM解码器解码所述文本语义和所述视觉语义得到解码信息;
将所述解码信息输入至预设的全连接层以获得初始状态,并利用所述初始状态与预设的注意力机制串联得到LSTM解码器的解码隐藏状态;
通过预设的softmax函数将所述解码隐藏状态输入至预设的全连接层以预测多个预设序列;
利用预设的负对数似然估计预设每个所述预设序列的概率值,得到多个概率值;
从所述多个概率值中筛选数值最大的概率值,以数值最大的概率值对应的预设序列为程序序列。
在第一方面的一种可能的实现方式中,所述将所述图像信息编码成对应的图像隐藏状态得到视觉语义,包括:
调用经过模型训练的残差神经网络的前三层将图像信息编码成对应的图像隐藏状态得到视觉语义。
在第一方面的一种可能的实现方式中,所述模型训练包括拼图位置预测训练、几何元素预测训练和知识点分类训练;
其中,所述拼图位置预测训练具体为:将所述图像信息的图像切成若干块图像块,随机裁剪一块所述图像块并预测被裁剪的图像块在图像中的位置信息;
所述几何元素预测训练具体为:将所述图像信息输入至残差神经网络中,供残差神经网络预测所述图像信息中所包含的几何元素;
所述知识点分类训练具体为:从所述文本信息中提取几何元素以及从预设的题目答案中的几何元素作为模型训练标签,部署一个N类的分类器,利用二元交叉熵的损失函数采用进行训练,其中,N为几何元素总数。
在第一方面的一种可能的实现方式中,所述模型训练的损失函数如下式所示:
Figure BDA0003229412180000031
其中,损失函数Lg是目标程序序列的负对数似然估计,用于在计算各个预设序列的概率值;
上式中,θ是没有图形编码器时的整个NGS结构的参数,x是程序文本和提取的图形特征的输入。
在第一方面的一种可能的实现方式中,所述将所述文本信息编码成对应的文本隐藏状态得到文本语义,包括:
将所述文本信息中的每一个单词转换成词向量;
将每个所述词向量输入至预设的单层非双向的LSTM模型得到每个单词对应的隐藏状态;
编码每个所述隐藏状态的顺序得到文本语义。
本发明实施例的第二方面提供了一种文本和图像双模态联合的神经网络模型,所述神经网络模型适用于如上所述的基于深度学习和多模态数值推理的几何题解答方法,所述神经网络模型包括:文本编码器、图像编码器、联合推理模块和程序解码器;
其中,所述文本编码器、所述图像编码器和所述程序解码器分别与所述联合推理模块连接;
所述文本编码器,用于采集关于题目内容的文本信息,并将所述文本信息编码成对应的文本隐藏状态得到文本语义;
所述图像编码器,用于采集关于题目内容的图像信息,并将所述图像信息编码成对应的图像隐藏状态得到视觉语义;
所述联合推理模块,用于融合与对齐所述文本语义和所述视觉语义得到解答程序;
所述程序解码器,用于按照所述解答程序的运算方式计算解答结果。
在第二方面的一种可能的实现方式中,所述联合推理模块包括12个自我注意单元和6个指导注意单元;
其中,6个自我注意单元,用于分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义;
6个自我注意单元和6个指导注意单元,用于使用深度学习中的attention机制将编码文本语义对应到编码视觉语义得到对齐语义数据,以及用于将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
相比于现有技术,本发明实施例提供的基于深度学习和多模态数值推理的几何题解答方法及模型,其有益效果在于:本发明可以获取关于题目内容的文本信息与图像信息,从文本信息和图像信息中获取其包含的语义,然后将文本语义和图像的视觉语义进行融合与对齐,从而可以准备理解题目的内容并生成对应的解答程序,最后按照解答程序的运算方式计算解答结果,不但可以增加解答准确率,又可以提高处理的效率,以实现一种具有良好正确率、实用性强、且能通过深度学习自主生成答案的代码序列的技术。
附图说明
图1是本发明一实施例提供的一种基于深度学习和多模态数值推理的几何题解答方法的流程示意图;
图2是本发明一实施例提供的解答程序的组成示意图;
图3是本发明一实施例提供的解答程序的程序符号组成示意图;
图4是本发明一实施例提供的一种基于深度学习和多模态数值推理的几何题解答***的结构示意图;
图5是本发明一实施例提供的一种文本和图像双模态联合的神经网络模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前常用的方式有如下技术问题:由于涉及的题目众多,而各个题目只要改变一下参数或数据,其解答方式又会发生变化,从而衍生出更多答案,若仅仅通过识别图像进行答案搜索,只能从大量答案中筛选得到单一用户输入的答案,不利于学生延伸学习,且需要处理数据的数量大,增加处理耗时,降低处理效率,而且若题目相类似,容易出现误筛选的情况,降低筛选的准确率,影响用户的使用体验。
为了解决上述问题,下面将通过以下具体的实施例对本申请实施例提供的一种基于深度学习和多模态数值推理的几何题解答方法进行详细介绍和说明。
参照图1,示出了本发明一实施例提供的一种基于深度学习和多模态数值推理的几何题解答方法的流程示意图。
在其中一种实施例中,所述方法应用于文本和图像双模态联合的神经网络模型。
其中,作为示例的,所述基于深度学习和多模态数值推理的几何题解答方法,可以包括:
S11、分别获取关于题目内容的文本信息与图像信息。
该文本信息为题目的文字信息,该图像信息为题目的几何图像。
在实际操作中,本申请可以应用在几何题目的解答上,可选地,可以是平面几何和立体几何。
具体地,用户可以直接将题目的文本信息与图像信息输入至文本和图像双模态联合的神经网络模型中,以便文本和图像双模态联合的神经网络模型执行相应的解答操作。
S12、将所述文本信息编码成对应的文本隐藏状态得到文本语义,以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义。
为了确定该题目的具体内容,从而根据题目的具体内容进行智能学习以生成正确的答案,可以将文本信息编码成对应的文本隐藏状态得到文本语义,以及将图像信息编码成对应的图像隐藏状态得到视觉语义。
为了准确得到文本语义,在一可选的实施例中,步骤S12可以包括以下子步骤:
子步骤S121、将所述文本信息中的每一个单词转换成词向量。
子步骤S122、将每个所述词向量输入至预设的单层非双向的LSTM模型得到每个单词对应的隐藏状态。
子步骤S123、编码每个所述隐藏状态的顺序得到文本语义。
例如,假定一个文本信息的文本序列为
Figure BDA0003229412180000071
可以将文本信息中的每一个单词xi视为一个词向量xi,然后经过一个单层的非双向的LSTM模型(长短期记忆人工神经网络)来编码每一个词嵌入得到对应的隐藏状态hi,然后在LSTM模型中词嵌入的隐藏编码状态被输入后得到整个问题序列的隐藏状态HP=[h0;...;hn],从而得到其对应的文本语义。
为了准确得到图像对应的视觉语义,在一实施例中,步骤S12还可以包括以下子步骤:
子步骤S124、调用经过模型训练的残差神经网络的前三层将图像信息编码成对应的图像隐藏状态得到视觉语义。
具体地,该残差神经网络的前三层可以是ResNet-101神经网络的前三层。
为了提高神经网络的读取能力,在其中一种实施例中,可以对神经网络进行相应的模型训练。
具体地,上述模型训练包括拼图位置预测训练、几何元素预测训练和知识点分类训练;
其中,所述拼图位置预测训练具体为:将所述图像信息的图像切成若干块图像块,随机裁剪一块所述图像块并预测被裁剪的图像块在图像中的位置信息。
具体地,拼图位置预测训练的训练方式可以如下:以对图表编码器进行预训练。在执行每次感知的像素级别的拼图位置预测任务中,可以将图像拆分为m×m个色块,并随机选择色块。接着,训练图表编码器来预测所选色块的正确相对位置,并生成交叉熵损失。交叉熵损失如果较大则可以判断为模型训练欠拟合,模型给出的题目答案准确性较低;反之,交叉熵损失如果太过于小,则可以判断为模型训练过拟合,模型“记住了”训练集答案;若交叉熵损失处于一个可以接受的中间值,则代表模型回答较为精确。
所述几何元素预测训练具体为:将所述图像信息输入至残差神经网络中,供残差神经网络预测所述图像信息中所包含的几何元素。
具体地,由于一个图可以包含多个几何元素,为了提高几何元素的预测准确率,几何元素预测训练的训练方式如下:首先提取几何元素作为标签,所述标签可以是题目文本中的几何元素与该题目答案中的几何元素。然后,使用具有二进制交叉熵(BCE)作为损失函数的N向分类器来训练图编码器,其中N是训练集上可能的几何元素的数量。
在本实施例中,拼图位置预测训练和几何元素预测训练的损失函数的权重可以设置为1.0。
所述知识点分类训练具体为:从所述文本信息中提取几何元素以及从预设的题目答案中的几何元素作为模型训练标签,部署一个N类的分类器,利用二元交叉熵的损失函数采用进行训练,其中,N为几何元素总数。
具体地,为了增加模型对问题的整体感知,知识点分类训练的具体方式如下:预先设定一个数据集,该数据集可以总结集合了若干个知识点,并用一个或多个知识点标记了每个问题。接着,基于输出的解答程序预测每个问题的知识点。此外,还可以部署一种具有二进制交叉熵(BCE)作为损失函数的K向分类器来训练知识点预测多标签任务,其中K是训练集上可能的知识点的总数。
上述训练任务完成后能够更好的辅助模型进行训练,每个训练任务分别提升模型的各部分能力,拼图位置预测训练可以加强模型对于图片中几何元素查找的能力;几何元素预测训练可以加强模型对于题目的理解能力;知识点分类训练可以加强模型在解题时使用正确解题公式的能力。
具体地,所述模型训练的损失函数如下式所示:
Figure BDA0003229412180000081
其中,损失函数Lg是目标程序序列的负对数似然估计,用于在后续计算各个预设序列的概率值;
上式中,θ是没有图形编码器时的整个NGS结构的参数,x是程序文本和提取的图形特征的输入。
S13、融合与对齐所述文本语义和所述视觉语义得到解答程序。
对于解决几何多项选择问题,共同理解问题文本及其图的语义,并对齐其语义信息至关重要。可以通过将两个语义进行对齐,以确定题目的内容,从而能生成对应的解答程序以得到正确答案。
在一可选的实施例中,可以采用注意力机制来进行两种语义的传输和聚集,最后,我们通过组合文本信息与图像信息得到推理模块输出解答的操作程序。
为了促进两种语义的对齐与融合,在其中一种的实施例中,步骤S13可以包括以下子步骤:
子步骤S131、分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义。
子步骤S132、使用深度学习中的attention机制对齐所述编码文本语义和所述编码视觉语义得到对齐语义数据。
子步骤S133、将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
在实际操作中,可以设置12个自我注意单元和6个指导注意单元。首先由6个自我注意单元(即原始Transformer)均对文本语义与视觉语义进行编码,然后将把第6个自我注意单元输出的最终隐藏状态的编码文本语义和编码视觉语义作为指导信息,该指导信息可以在问题文本及其图表之间进行语义表征与视觉语义进行充分的融合与对齐。
在一可选的实施例中,也可以在6个自我注意单元对文本语义与视觉语义进行融合和对齐的过程中,使用深度学习中的attention机制,该机制能够将输入的文本表示对应到输入的视觉表示中,实现文本语义表示与视觉语义表示的对齐,以进一步提高模型能力以及解题的准确率。
具体地,可以将剩余的6个自我注意单元和6个引导注意单元相互间彼此堆叠,共同输出对应的对齐与融合后的数据,以增强文本语义表示与视觉语义表示的对齐与融合,其能够更好的让模型理解题目的文字信息与视觉信息,两者信息的结合可以让模型解题正确率更高。
在一实施例中,本申请还引入了两层多层感知机,可以应用具有两个多层感知机的注意力减少网络来将特征聚合。
具体地,可以将对齐后的对齐语义数据输入至两个多层感知机中,从而输出聚合的特征,该聚合的特征FD为多峰特征向量
Figure BDA0003229412180000102
可选地,可以将聚合的特征
Figure BDA0003229412180000103
和文本编码器hn的最后一个编码器状态串联起来,获得
Figure BDA0003229412180000101
作为最终收集的多峰特征向量,用于在后续的解题程序。
参照图2,示出了本发明一实施例提供的解答程序的组成示意图。
在一可选的实施例中,在输出表示包含有关问题词和图表的丰富信息时,可以对指导信息进行操作,然后输出的信息中包含了文本与视觉的对应信息,如:题目文本中的“三角形”对应题目图像中的三角形元素。
需要说明的是,除了常见的数学运算之外,解答程序还可以包含一些表示定理和公式知识的运算,以更好地解决几何问题,例如勾股定理和圆环的面积计算。而对于一些常用或简单的几何公式可以不附加定义。例如,对于边长为a的正方形,其面积可以直接通过Multiply(a,a)计算。
在输出解答程序时,也可以将可解释性反映在操作的顺序过程,选定的常量和变量以及定理和公式的应用上。如图2所示,用户在阅读程序后可以对整个问题解决过程有一个大致的了解。
参照图3,示出了本发明一实施例提供的解答程序的程序符号组成示意图。在其中一种展示方式中,也可以设计的一种新的领域特定语言来建模与几何问题相对应的精确运算程序,例如,该解答程序的词汇库中可以包含运算符OP(operations)、常量Const、以及该文本-图像几何体中出现的变量N、以及运行过程中出现的变量V。如图3所示,运算符OP被分为了多个类别,包括基本运算、算数运算、三角函数、定理及公式。每个运算符OP都涉及n个常量元素或变量元素。其中,常量Const可以是预先定义好的,可以被用在几何题中,比如π或者直角90度。文本-图像几何体中出现的变量N依赖于具体的题目,而运行过程中出现的变量V依赖于具体的运算过程。
参照图3,本申请定义的各种操作符与常量可以包括:基本运算符:赋值、乘2、除2;算数运算符:加减乘除;三角函数:sin、cos、tan、arcsin、arccos;定理与公式,毕达哥拉斯定理求斜边与短边、圆面积公式、圆周长公式、圆锥面积公式、比例计算公式;常量:30°、60°、90°、180°、360°、π、0.618。通过各种操作符与常量的排列组合,可以根据解答程序直接运行,从而可以快速便捷地得到解答结果。
S14、按照所述解答程序的运算方式计算解答结果。
参照图3,在实际操作中,可以从解答程序中根据各个操作符合和数值,计算得到最后的解答结果。
为了快速计算解答结果,其中,作为示例的,步骤S14可以包括以下子步骤:
子步骤S141、从所述解答程序筛选程序序列。
由于解答方式有多种,生成的解答程序也可以有多条,为了筛选最便捷且准确的解答程序,在一实施例中,子步骤S141可以包括以下子步骤:
子步骤S1411、利用预设的LSTM解码器解码所述文本语义和所述视觉语义得到解码信息。
子步骤S1412、将所述解码信息输入至预设的全连接层以获得初始状态,并利用所述初始状态与预设的注意力机制串联得到LSTM解码器的解码隐藏状态。
子步骤S1413、通过预设的softmax函数将所述解码隐藏状态输入至预设的全连接层以预测多个预设序列。
子步骤S1414、利用预设的负对数似然估计预设每个所述预设序列的概率值,得到多个概率值。
子步骤S1415、从所述多个概率值中筛选数值最大的概率值,以数值最大的概率值对应的预设序列为程序序列。
具体地,使用LSTM解码器对解答程序进行解码,接着,令{yt}(1≤t≤T)为要生成的目标程序,st为时间t处LSTM的隐藏状态。将多峰特征向量
Figure BDA0003229412180000111
输入到线性层以获得初始状态s0。让st与上述融合的结果串联在一起,并通过softmax函数后输入线性层以预测下一个程序符号Pt的分布。此处的线性层即为全连接层,P代表一个程序序列,Pt即为程序序列中的第t个。训练时,通过对目标程序的负对数似然估计(NLL,negative log-likehood)的loss约束进行预测;测试时,给出所有程序集合的概率分布,选取概率最大的那一个,从而得到对应的程序序列。
子步骤S142、获取所述程序序列所包含的运算符和运算数据。
子步骤S143、按照所述程序序列、所述运算符和所述运算数据计算得到解答结果。
另外,需要说明的是,一旦完整的解答程序被解码,解答程序中的每个运算符将被顺序执行以获得数值结果。在生成一束前N个解答程序{g1,...,gn}后,执行解答程序将逐步对其进行计算。如果gi具有语法错误(例如,参数的个数与当前运算符不匹配),或者执行的值与当前问题中的任何选项都不匹配,则执行过程将失败。可以采用第一个成功执行的程序作为预测解决方案,然后选择相应的操作。如果所有N个解答程序均失败,则执行解答程序将直接报告“无结果”,而不用猜测一个选项。
在本实施例中,本发明实施例提供了一种基于深度学习和多模态数值推理的几何题解答方法,其有益效果在于:本发明可以获取关于题目内容的文本信息与图像信息,从文本信息和图像信息中获取其包含的语义,然后将文本语义和图像的视觉语义进行融合与对齐,从而可以准备理解题目的内容并生成对应的解答程序,最后按照解答程序的运算方式计算解答结果,不但可以增加解答准确率,又可以提高处理的效率,以实现一种具有良好正确率、实用性强、且能通过深度学习自主生成答案的代码序列的技术。
参照图4,示出了本发明一实施例提供的一种基于深度学习和多模态数值推理的几何题解答***的结构示意图。
所述***应用于文本和图像双模态联合的神经网络模型。
其中,作为示例的,所述基于深度学习和多模态数值推理的几何题解答***可以包括:
获取模块401,用于分别获取关于题目内容的文本信息与图像信息;
编码模块402,用于将所述文本信息编码成对应的文本隐藏状态得到文本语义,以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义;
融合与对齐模块403,用于融合与对齐所述文本语义和所述视觉语义得到解答程序;
计算模块404,用于按照所述解答程序的运算方式计算解答结果。
可选地,所述融合与对齐模块还用于:
分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义;
使用深度学习中的attention机制对齐所述编码文本语义和所述编码视觉语义得到对齐语义数据;
将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
可选地,所述计算模块还用于:
从所述解答程序筛选程序序列;
获取所述程序序列所包含的运算符和运算数据;
按照所述程序序列、所述运算符和所述运算数据计算得到解答结果。
可选地,所述计算模块还用于:
利用预设的LSTM解码器解码所述文本语义和所述视觉语义得到解码信息;
将所述解码信息输入至预设的全连接层以获得初始状态,并利用所述初始状态与预设的注意力机制串联得到LSTM解码器的解码隐藏状态;
通过预设的softmax函数将所述解码隐藏状态输入至预设的全连接层以预测多个预设序列;
利用预设的负对数似然估计预设每个所述预设序列的概率值,得到多个概率值;
从所述多个概率值中筛选数值最大的概率值,以数值最大的概率值对应的预设序列为程序序列。
可选地,所述编码模块还用于:
调用经过模型训练的残差神经网络的前三层将图像信息编码成对应的图像隐藏状态得到视觉语义。
可选地,所述模型训练包括拼图位置预测训练、几何元素预测训练和知识点分类训练;
其中,所述拼图位置预测训练具体为:将所述图像信息的图像切成若干块图像块,随机裁剪一块所述图像块并预测被裁剪的图像块在图像中的位置信息;
所述几何元素预测训练具体为:将所述图像信息输入至残差神经网络中,供残差神经网络预测所述图像信息中所包含的几何元素;
所述知识点分类训练具体为:从所述文本信息中提取几何元素以及从预设的题目答案中的几何元素作为模型训练标签,部署一个N类的分类器,利用二元交叉熵的损失函数采用进行训练,其中,N为几何元素总数。
可选地,所述模型训练的损失函数如下式所示:
Figure BDA0003229412180000141
其中,损失函数Lg是目标程序序列的负对数似然估计,用于在计算各个预设序列的概率值;
上式中,θ是没有图形编码器时的整个NGS结构的参数,x是程序文本和提取的图形特征的输入。
可选地,所述编码模块还用于:
将所述文本信息中的每一个单词转换成词向量;
将每个所述词向量输入至预设的单层非双向的LSTM模型得到每个单词对应的隐藏状态;
编码每个所述隐藏状态的顺序得到文本语义。
本发明实施例还提供了一种文本和图像双模态联合的神经网络模型,参见图5,示出了本发明一实施例提供的一种文本和图像双模态联合的神经网络模型的结构示意图。
所述神经网络模型适用于如上所述的基于深度学习和多模态数值推理的几何题解答方法,
其中,作为示例的,所述文本和图像双模态联合的神经网络模型可以包括:文本编码器、图像编码器、联合推理模块和程序解码器;
其中,所述文本编码器、所述图像编码器和所述程序解码器分别与所述联合推理模块连接;
所述文本编码器,用于采集关于题目内容的文本信息,并将所述文本信息编码成对应的文本隐藏状态得到文本语义;
所述图像编码器,用于采集关于题目内容的图像信息,并将所述图像信息编码成对应的图像隐藏状态得到视觉语义;
所述联合推理模块,用于融合与对齐所述文本语义和所述视觉语义得到解答程序;
所述程序解码器,用于按照所述解答程序的运算方式计算解答结果。
可选地,所述联合推理模块包括12个自我注意单元和6个指导注意单元;
其中,6个自我注意单元,用于分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义;
6个自我注意单元和6个指导注意单元,用于使用深度学习中的attention机制将编码文本语义对应到编码视觉语义得到对齐语义数据,以及用于将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
进一步的,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的基于深度学习和多模态数值推理的几何题解答方法。
进一步的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述实施例所述的基于深度学习和多模态数值推理的几何题解答方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述方法应用于文本和图像双模态联合的神经网络模型,所述方法包括:
分别获取关于题目内容的文本信息与图像信息;
将所述文本信息编码成对应的文本隐藏状态得到文本语义,以及将所述图像信息编码成对应的图像隐藏状态得到视觉语义;
融合与对齐所述文本语义和所述视觉语义得到解答程序;
按照所述解答程序的运算方式计算解答结果。
2.根据权利要求1所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述融合与对齐所述文本语义和所述视觉语义得到解答程序,包括:
分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义;
使用深度学习中的attention机制对齐所述编码文本语义和所述编码视觉语义得到对齐语义数据;
将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
3.根据权利要求1所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述按照所述解答程序的运算方式计算解答结果,包括:
从所述解答程序筛选程序序列;
获取所述程序序列所包含的运算符和运算数据;
按照所述程序序列、所述运算符和所述运算数据计算得到解答结果。
4.根据权利要求3所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述从所述解答程序筛选程序序列,包括:
利用预设的LSTM解码器解码所述文本语义和所述视觉语义得到解码信息;
将所述解码信息输入至预设的全连接层以获得初始状态,并利用所述初始状态与预设的注意力机制串联得到LSTM解码器的解码隐藏状态;
通过预设的softmax函数将所述解码隐藏状态输入至预设的全连接层以预测多个预设序列;
利用预设的负对数似然估计预设每个所述预设序列的概率值,得到多个概率值;
从所述多个概率值中筛选数值最大的概率值,以数值最大的概率值对应的预设序列为程序序列。
5.根据权利要求1所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述将所述图像信息编码成对应的图像隐藏状态得到视觉语义,包括:
调用经过模型训练的残差神经网络的前三层将图像信息编码成对应的图像隐藏状态得到视觉语义。
6.根据权利要求5所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述模型训练包括拼图位置预测训练、几何元素预测训练和知识点分类训练;
其中,所述拼图位置预测训练具体为:将所述图像信息的图像切成若干块图像块,随机裁剪一块所述图像块并预测被裁剪的图像块在图像中的位置信息;
所述几何元素预测训练具体为:将所述图像信息输入至残差神经网络中,供残差神经网络预测所述图像信息中所包含的几何元素;
所述知识点分类训练具体为:从所述文本信息中提取几何元素以及从预设的题目答案中的几何元素作为模型训练标签,部署一个N类的分类器,利用二元交叉熵的损失函数采用进行训练,其中,N为几何元素总数。
7.根据权利要求6所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述模型训练的损失函数如下式所示:
Figure FDA0003229412170000031
其中,损失函数Lg是目标程序序列的负对数似然估计,用于在计算各个预设序列的概率值;
上式中,θ是没有图形编码器时的整个NGS结构的参数,x是程序文本和提取的图形特征的输入。
8.根据权利要求1所述的基于深度学习和多模态数值推理的几何题解答方法,其特征在于,所述将所述文本信息编码成对应的文本隐藏状态得到文本语义,包括:
将所述文本信息中的每一个单词转换成词向量;
将每个所述词向量输入至预设的单层非双向的LSTM模型得到每个单词对应的隐藏状态;
编码每个所述隐藏状态的顺序得到文本语义。
9.一种文本和图像双模态联合的神经网络模型,其特征在于,所述神经网络模型适用于如权利要求1-8任意一项所述的基于深度学习和多模态数值推理的几何题解答方法,所述神经网络模型包括:文本编码器、图像编码器、联合推理模块和程序解码器;
其中,所述文本编码器、所述图像编码器和所述程序解码器分别与所述联合推理模块连接;
所述文本编码器,用于采集关于题目内容的文本信息,并将所述文本信息编码成对应的文本隐藏状态得到文本语义;
所述图像编码器,用于采集关于题目内容的图像信息,并将所述图像信息编码成对应的图像隐藏状态得到视觉语义;
所述联合推理模块,用于融合与对齐所述文本语义和所述视觉语义得到解答程序;
所述程序解码器,用于按照所述解答程序的运算方式计算解答结果。
10.根据权利要求9所述的文本和图像双模态联合的神经网络模型,其特征在于,所述联合推理模块包括12个自我注意单元和6个指导注意单元;
其中,6个自我注意单元,用于分别对所述文本语义与所述视觉语义进行编码输出表示隐藏状态的编码文本语义和编码视觉语义;
6个自我注意单元和6个指导注意单元,用于使用深度学习中的attention机制将编码文本语义对应到编码视觉语义得到对齐语义数据,以及用于将所述对齐语义数据输入至预设的两个多层感知机得出聚合的多峰特征向量,并利用所述多峰特征向量构建解答程序。
CN202110982368.2A 2021-08-25 2021-08-25 基于深度学习和多模态数值推理的几何题解答方法及模型 Pending CN113672716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110982368.2A CN113672716A (zh) 2021-08-25 2021-08-25 基于深度学习和多模态数值推理的几何题解答方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110982368.2A CN113672716A (zh) 2021-08-25 2021-08-25 基于深度学习和多模态数值推理的几何题解答方法及模型

Publications (1)

Publication Number Publication Date
CN113672716A true CN113672716A (zh) 2021-11-19

Family

ID=78546252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110982368.2A Pending CN113672716A (zh) 2021-08-25 2021-08-25 基于深度学习和多模态数值推理的几何题解答方法及模型

Country Status (1)

Country Link
CN (1) CN113672716A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780775A (zh) * 2022-04-24 2022-07-22 西安交通大学 一种基于内容选择和引导机制的图像描述文本生成方法
CN114861889A (zh) * 2022-07-04 2022-08-05 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN116071835A (zh) * 2023-04-07 2023-05-05 平安银行股份有限公司 人脸识别攻击事后筛查的方法、装置和电子设备
CN117633643A (zh) * 2024-01-26 2024-03-01 江西师范大学 一种基于对比学习的中学几何问题自动求解方法
CN117726721A (zh) * 2024-02-08 2024-03-19 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质
CN117892140A (zh) * 2024-03-15 2024-04-16 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN113656570A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN113656570A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAQI CHEN等: "GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning", 《HTTPS://ARXIV.ORG/PDF/2105.14517V1.PDF》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780775A (zh) * 2022-04-24 2022-07-22 西安交通大学 一种基于内容选择和引导机制的图像描述文本生成方法
CN114861889A (zh) * 2022-07-04 2022-08-05 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN114861889B (zh) * 2022-07-04 2022-09-27 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN116071835A (zh) * 2023-04-07 2023-05-05 平安银行股份有限公司 人脸识别攻击事后筛查的方法、装置和电子设备
CN116071835B (zh) * 2023-04-07 2023-06-20 平安银行股份有限公司 人脸识别攻击事后筛查的方法、装置和电子设备
CN117633643A (zh) * 2024-01-26 2024-03-01 江西师范大学 一种基于对比学习的中学几何问题自动求解方法
CN117633643B (zh) * 2024-01-26 2024-05-14 江西师范大学 一种基于对比学习的中学几何问题自动求解方法
CN117726721A (zh) * 2024-02-08 2024-03-19 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质
CN117726721B (zh) * 2024-02-08 2024-04-30 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质
CN117892140A (zh) * 2024-03-15 2024-04-16 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN117892140B (zh) * 2024-03-15 2024-05-31 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN113672716A (zh) 基于深度学习和多模态数值推理的几何题解答方法及模型
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
Chen et al. GeoQA: A geometric question answering benchmark towards multimodal numerical reasoning
CN110825875B (zh) 文本实体类型识别方法、装置、电子设备和存储介质
CN114511860B (zh) 一种差异描述语句生成方法、装置、设备及介质
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN115829033B (zh) 数学应用题知识构建与解答方法、***、设备及存储介质
CN111160606B (zh) 试题难度预测方法及相关装置
CN110825867A (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN113282713A (zh) 基于差异性神经表示模型的事件触发词检测方法
CN111694935A (zh) 多轮问答的情绪确定方法、装置、计算机设备及存储介质
CN111126610A (zh) 题目分析方法、装置、电子设备和存储介质
CN110765241B (zh) 推荐题的超纲检测方法、装置、电子设备和存储介质
CN111784048B (zh) 试题难度预测方法、装置、电子设备和存储介质
CN117421410A (zh) 问答***中的文本匹配方法及装置
CN114358579A (zh) 评阅方法、评阅装置、电子设备以及计算机可读存储介质
CN113010662B (zh) 一种层次化会话式机器阅读理解***和方法
CN114707518A (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN112818688A (zh) 文本处理方法、装置、设备及存储介质
CN114238587A (zh) 阅读理解方法、装置、存储介质及计算机设备
CN115510199A (zh) 数据处理方法、装置和***
CN113505603A (zh) 适用于司法考试主观题的多任务学习智能阅卷方法及装置
CN117633643B (zh) 一种基于对比学习的中学几何问题自动求解方法
CN117173530B (zh) 目标异常检测方法及装置
Grashoff On how transformers learn to understand and evaluate nested arithmetic expressions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211119