CN111340661B

CN111340661B - 一种基于图神经网络的应用题自动解题方法

Info

Publication number: CN111340661B
Application number: CN202010107940.6A
Authority: CN
Inventors: 张骥鹏; 王磊; 邵杰; 徐行
Original assignee: Research Institute Of Yibin University Of Electronic Science And Technology; University of Electronic Science and Technology of China
Current assignee: Research Institute Of Yibin University Of Electronic Science And Technology; University of Electronic Science and Technology of China
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-12-01
Anticipated expiration: 2040-02-21
Also published as: CN111340661A

Abstract

本发明公开了一种基于图神经网络的应用题自动解题方法，本发明首先使用循环神经网络编码输入的应用题文本，并同时构造数值单元图和数值比较图，循环神经网络的输出(词级表示)用作节点特征。节点特征与两个构造的图一起输入到基于图神经网络的编码器中，以学习题目的图表示特征，使最终的图特征能够包含数值的文本关系和大小信息。并将一个池化项用于将不同组的图特征聚合为一个，得到图转换器的输出。最后，将输出的图特征用作基于树结构的解码器的输入，以生成最终的求解表达式树。本发明通过丰富问题中的数值表征来提高任务性能，可以取得更好的解题效果。

Description

一种基于图神经网络的应用题自动解题方法

技术领域

本发明涉及计算语言学领域，具体涉及一种基于图神经网络的应用题自动解题方法。

背景技术

解数学题即根据文本描述自动回答数学问题，自1960年代以来一直吸引着研究者的关注，是一项重要的自然语言理解任务。典型的数学应用题是给出一个问题的描述并给出一个有关未知数量的问题的简短叙述。较早的研究尝试通过统计机器学习方法和语义解析方法来设计自动求解器。但是这些方法因为需要花费大量的精力来设计合适的功能和表达模板，泛化性比较差。

近年来开始出现了基于深度学习的自动求解器。这些深度学习方法能够自动获取特征学习信息，并能够生成训练数据集中不存在的新求解表达式，同时它们在规模较大且复杂的数据集上也达到了很高的性能。该类方法中最先被提出的是在2017年出现的深度神经解题器(DNS)。该方法在提出模型的同时收集了一个大规模数学题(Math Word Problem,MWP)数据集来评估自动解题器的性能。从那时起，许多研究工作都投身于了改、进基于深度学习的自动求解器。一方面，比较有代表性的改进是分组注意模型(GROUPATT)和表达式规范化方法(Math-EN)，它们分别着眼于改进中间过程和模型的输入。另一方面，改进数量表征的获取方式和生成过程也是实现更好的解决方案表达方式的潜在方法，具体来说，现有的深度学习模型无法有效地获取题目中数量之间的大小关系和顺序信息，而且无法很好地在生成过程中利用相关信息，从而导致获取的特征无法准确地表达题目中的关键信息，最终导致生成的求解表达式不准确。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于图神经网络的应用题自动解题方法解决了现有的深度学习模型生成的解题表达式正确率低的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于图神经网络的应用题自动解题方法，其包括以下步骤：

S1、将题干文本中的文字单词和数值单词分别归至文字集合和数值集合；

S2、通过循环神经网络将所有文字单词表示为具有固定维度的实值向量；

S3、对于题干文本中每一个数值，找出与其相关的一组词并连上无向边，得到数值单元图；

S4、对于题干文本中每两个不同数值，从数值大的作一条单向边至数值小的，得到数值比较图；

S5、通过基于图神经网络构建的编码器将实值向量、数值单元图和数值比较图转化为中间特征；

S6、通过基于树形神经网络构造的解码器将中间特征转化为解题等式；

S7、根据解题等式求取对应的答案，完成自动解题。

进一步的，步骤S2的具体方法为：

通过双向循环神经网络获取文字单词的集合V_p＝{v₁,...,v_m}的单词级隐状态表征H＝{h₁,...,h_N}，并将得到的单词级隐状态表征H作为该题干文本对应的实值向量；其中N＝m+1，v_m为题干文本中第m个文字单词，h_N为单词级隐状态表征中第N个元素。

进一步的，步骤S3的具体方法包括以下子步骤：

S3-1、通过斯坦福核心自然语言处理工具包实现的依赖关系解析和POS标记获取题干文本中每个文字单词的属性，并找出与题干文本中每一个数值相关联的一组词；其中文字单词的属性包括：

数值：数值信息；

关联名词：在依存关系树中通过num，number，prep_of和数值相关的名词；

关联形容词：在依存关系树中通过amod和数值以及关联名词相关的形容词；

关联动词：在依存关系树中通过nsubj，dobj和数值相关的动词；

单位和比率：在依存关系树中和数值相关的名词中包含了“每”这一类的词；

S3-2、将每个数值和与其相关的词的属性之间连上无向边，得到数值单元图。

进一步的，步骤S5的具体方法包括以下子步骤：

S5-1、对于数值单元图和数值比较图，将每个数值视为一个节点，判断第i个节点和第j个节点之间是否存在一条边，若是则将边A_i,j赋值为1，否则赋值为0，得到第i个节点和第j个节点的邻接矩阵(i,j,A_i,j)，进而得到整个数值单元图对应的邻接矩阵A_qcell和整个数值比较图对应的邻接矩阵A_qcomp；

S5-2、构造图转换网络，将实值向量H和

作为图转换网络的输入；其中K是数值单元图对应的邻接矩阵和整个数值比较图对应的邻接矩阵的总数；

S5-3、根据公式：

GConv(A_k,H)＝relu(A_kH^TW_gk)

GCN(A_k,H)＝GConv₂(A_k,GConv₁(A_k,H))

对图转换网络的输入进行K头图卷积，得到K个d_k维的输出特征GCN(A_k,H)；其中relu(·)为线性整流函数，(·)^T为矩阵的转置，GConv₁(·)和GConv₂(·)均为GConv(·)运算，即图卷积运算；

S5-4、根据公式：

将每个输出特征连接起来并经过全连接层处理，得到中间特征Z。

进一步的，步骤S6的具体方法包括以下子步骤：

S6-1、将数值作为基于树形神经网络的解码器的叶子节点，将运算符作为非叶子节点；

S6-2、将中间特征Z进行池化后得到基于树形神经网络的解码器的根节点q_root；将属于运算符的词y表征定义为e_(y,op)，将属于常量数值的词y表征定义为e_(y,con)，将属于题干文本中的数值的词y表征定义为

为目标词典的嵌入向量矩阵；P为题干文本中的词的序列集合；

S6-3、根据公式：

G_c＝GTS-Attention(q_root,Z)

使用注意力模块将中间特征Z中的所有节点进行编码得到全局图向量G_c；其中GTS-Attention(·)表示注意力模块；中间特征Z中的所有节点包括数值和运算符；

S6-4、根据公式：

q_l＝GTS-left(q_p,G_c,e(y|P))

y_l＝GTS-Predict(q_l,G_c,e(y|P))

基于当前父节点q_p生成新的左子节点q_l并预测对应的词y_l；其中GTS-left(·)为左子节点生成模块，GTS-Predict(·)表示预测模块；根节点q_root为初始父节点；

S6-5、判断词y₁是否为运算符，若是则将新的左子节点q_l作为新的父节点创建两个空的子节点位置，并返回步骤S6-4；否则进入步骤S6-6；

S6-6、根据公式：

q_r＝GTS-Right(q_p,G_c,t,e(y|P))

y_r＝GTS-Predict(q_r,G_c,e(y|P))

基于当前父节点q_p生成新的右子节点q_r并预测对应的词y_r；其中GTS-Right(·)为右子节点生成模块；t嵌入参数；

S6-7、判断是否还存在空右节点，若是则返回步骤S6-4，否则完成一个以前缀表达式形式存在的解题等式树的生成，并进入步骤S6-8；

S6-8、建立数字栈，从右到左遍历生成的解题等式树，对于遍历到的数字，将其入栈；对于遍历到的运算符，则将栈顶的数字弹出，即将后遍历的数字放在等式的前面，并和运算符合并写入等式中，进而通过解题等式树得到解题表达式。

进一步的，注意力模块的表达式为：

其中

和W_a为训练参数；Z_s为中间特征Z中第s个节点，a_s为Z_s对应的权值；exp(·)为以自然常数e为底的指数函数。

进一步的，左子节点生成模块的表达式为：

o_l＝σ(W_ol[q_p,G_c,e(y|P)])

C_l＝tanh(W_cl[q_p,G_c,e(y|P)])

h_l＝o_l⊙C_l

g_l＝σ(W_glh_l)

Q_le＝tanh(W_leh_l)

q_l＝g_l⊙Q_le

其中W_ol、W_cl、W_gl和W_le均为训练参数，o_l、C_l、h_l、g_l和Q_le均为中间参数，⊙表示同或运算；σ(·)为sigma函数；tanh(·)为双曲正切函数；

右子节点生成模块的表达式为：

o_r＝σ(W_or[q_p,G_c,e(y|P)])

C_r＝tanh(W_cr[q_p,G_c,e(y|P)])

h_r＝o_r⊙C_r

g_r＝σ(W_gr[h_r,t])

Q_re＝tanh(W_re[h_r,t])

q_r＝g_r⊙Q_re

其中W_or、W_cr、W_gr和W_re均为训练参数；o_r、C_r、h_r、g_r和Q_re均为中间参数。

进一步的，预测模块的预测方法为：

根据公式：

生成某个运算符或数值y'的概率s(y'|q_p,G_c,P)，进而得到每个运算符、常量和题干文本中数值的概率；其中

和W_s为训练参数；

根据公式：

获取概率s(y'|q_p,G_c,P)对应的概率prob(y'|q_p,G_c,P)；选取概率最高的prob(y'|q_p,G_c,P)对应的运算符或数值作为预测的词y_r；其中exp(·)为以自然常数e为底的指数函数。

进一步的，嵌入参数t的获取方法为：

判断当前右子节点对应的左子节点所预测的词y_l是运算符还是数值，若是运算符，则根据公式：

t＝σ(W_gt[t_l,t_r,e(y_l|P)])⊙tanh(W_ct[t_l,t_r,e(y_l|P)])

获取嵌入参数t；若是数值，则将e(y_l|P)作为嵌入参数t；其中⊙表示同或运算；σ(·)为sigma函数；tanh(·)为双曲正切函数；W_gt和W_ct均为训练参数；t_l和t_r分别为该右子节点对应的左子节点作为父节点时对应生成的左子节点和右子节点的嵌入参数。

本发明的有益效果为：

1、本发明首先使用循环神经网络编码输入的应用题文本，并同时构造数值单元图和数值比较图，循环神经网络的输出(词级表示)用作节点特征。节点特征与两个构造的图一起输入到基于图神经网络的编码器中，以学习题目的图表示特征，使最终的图特征能够包含数值的文本关系和大小信息。并将一个池化项用于将不同组的图特征聚合为一个，得到图转换器的输出。最后，将输出的图特征用作基于树结构的解码器的输入，以生成最终的求解表达式树。本发明通过丰富问题中的数值表征来提高任务性能，可以取得更好的解题效果。

2、本方法提取题干文本中数值的相关名词，动词，形容词，单位和比率等信息，基于这些相关信息和数值构造一个数值单元图，即将提取相关描述性词语直接连接到相关的数值，基于构造的数值单元图，使用神经网络模型来学习数值表示，可以有效地对数值与描述词关系进行建模。

3、本方法通过建立数值比较图解决了数值信息的损失问题，避免了应用题数据上生成不符合实际的错误答案。

附图说明

图1为本发明的流程示意图；

图2为实施例中的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于图神经网络的应用题自动解题方法包括以下步骤：

S7、根据解题等式求取对应的答案，完成自动解题。

步骤S2的具体方法为：通过双向循环神经网络获取文字单词的集合V_p＝{v₁,...,v_m}的单词级隐状态表征H＝{h₁,...,h_N}，并将得到的单词级隐状态表征H作为该题干文本对应的实值向量；其中N＝m+1，v_m为题干文本中第m个文字单词，h_N为单词级隐状态表征中第N个元素。

步骤S3的具体方法包括以下子步骤：

数值：数值信息；

步骤S5的具体方法包括以下子步骤：

S5-2、构造图转换网络，将实值向量H和

S5-3、根据公式：

GConv(A_k,H)＝relu(A_kH^TW_gk)

GCN(A_k,H)＝GConv₂(A_k,GConv₁(A_k,H))

S5-4、根据公式：

步骤S6的具体方法包括以下子步骤：

S6-3、根据公式：

G_c＝GTS-Attention(q_root,Z)

S6-4、根据公式：

q_l＝GTS-left(q_p,G_c,e(y|P))

y_l＝GTS-Predict(q_l,G_c,e(y|P))

S6-6、根据公式：

q_r＝GTS-Right(q_p,G_c,t,e(y|P))

y_r＝GTS-Predict(q_r,G_c,e(y|P))

注意力模块的表达式为：

其中

左子节点生成模块的表达式为：

o_l＝σ(W_ol[q_p,G_c,e(y|P)])

C_l＝tanh(W_cl[q_p,G_c,e(y|P)])

h_l＝o_l⊙C_l

g_l＝σ(W_glh_l)

Q_le＝tanh(W_leh_l)

q_l＝g_l⊙Q_le

右子节点生成模块的表达式为：

o_r＝σ(W_or[q_p,G_c,e(y|P)])

C_r＝tanh(W_cr[q_p,G_c,e(y|P)])

h_r＝o_r⊙C_r

g_r＝σ(W_gr[h_r,t])

Q_re＝tanh(W_re[h_r,t])

q_r＝g_r⊙Q_re

预测模块的预测方法为：根据公式：

和W_s为训练参数；

根据公式：

嵌入参数t的获取方法为：判断当前右子节点对应的左子节点所预测的词y_l是运算符还是数值，若是运算符，则根据公式：

t＝σ(W_gt[t_l,t_r,e(y_l|P)])⊙tanh(W_ct[t_l,t_r,e(y_l|P)])

在具体实施过程中，以应用题文本：348teddy bears are sold for＄23each.There are total 470teddy bears in a store and the remaining teddybears are sold for＄17 each.How much did the store earn after selling all theteddy bears？为例，如图2所示，该应用题文本通过本方法依次通过节点初始化、图构建、图编辑器和解码器，得到的以前缀表达式形式存在的解题等式树形式为“+×348 23×17–470348”，然后根据步骤S6-8的方法首先遍历到的是“348，470”，将它们入栈；然后遇到“-”，得到计算式“(470-348)”；接下来入栈“17”并遍历到“×”，得到计算式“17×(470-348)”；之后再入栈“23，348”，遍历到×+后，得到计算式“348×23+17×(470-348)”。

在本发明的一个实施例中，两个常用的数据集：其中MAWPS有2,373个问题，而Math23K有23,162个问题。对于Math23K数据集，某些方法使用“Math23K*”表示的5折交叉验证进行评估，而其他方法则使用公开可用的训练测试集划分(表示为“Math23K”)进行评估。对于MAWPS数据集，通过5折交叉验证对模型进行评估。在先前的工作之后，将解决方***率用作评估指标。由表1(数据代表模型在测试集上的准确率，数值越大越好)可以看出，本方法相比现有的GROUPATT方法、Math-EN方法和DNS方法的效果都好。

表1：本方法与现有方法的效果对比

	MAWPS	Math23K	Math23K*
				DNS	59.5	-	58.1
Math-EN	69.2	66.9	-
				GROUPATT	76.1	69.5	66.9
本方法	83.7	77.4	75.5

综上所述，本发明首先使用循环神经网络编码输入的应用题文本，并同时构造数值单元图和数值比较图，循环神经网络的输出(词级表示)用作节点特征。节点特征与两个构造的图一起输入到基于图神经网络的编码器中，以学习题目的图表示特征，使最终的图特征能够包含数值的文本关系和大小信息。并将一个池化项用于将不同组的图特征聚合为一个，得到图转换器的输出。最后，将输出的图特征用作基于树结构的解码器的输入，以生成最终的求解表达式树。本发明通过丰富问题中的数值表征来提高任务性能，可以取得更好的解题效果。