CN113836893A

CN113836893A - 一种融入多个段落信息的抽取式机器阅读理解方法

Info

Publication number: CN113836893A
Application number: CN202111074789.1A
Authority: CN
Inventors: 毛先领; 熊婧雯; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-24
Anticipated expiration: 2041-09-14
Also published as: CN113836893B

Abstract

本发明提出了一种融入多个段落信息的抽取式机器阅读理解方法，属于自然语言处理中的阅读理解技术领域。所述融入多个段落信息的抽取式机器阅读理解方法依托的阅读理解***包括段落评分器、段落阅读器和答案选择器，包括以下步骤：S1，段落评分器根据问题和段落的相关程度得出段落包含正确答案的可能性；S2，段落阅读器根据问题抽取出段落中最有可能的N个答案，并量化它们是正确答案的可能性；S3，答案选择器融合段落阅读器和段落评分器的结果，将答案和答案所在段落可能性相乘，得出整篇文章中最有可能的答案。所述方法摆脱了现有技术对输入长度的限制，可以帮助用户在科研论文上进行阅读理解，从而快速了解论文内容，紧跟领域内最新进展。

Description

一种融入多个段落信息的抽取式机器阅读理解方法

技术领域

本发明涉及一种融入多个段落信息的抽取式机器阅读理解方法，属于自然语言处理中的阅读理解技术领域。

背景技术

机器阅读理解是一种使计算机***理解输入文章的语义并回答相关问题的技术。因为阅读理解的任务可以恰当地评估计算机***对自然语言的理解能力，所以一直是自然语言处理技术领域内备受关注的研究热点。随着大规模数据集的提出，使得深度神经网络的训练成为可能。例如，主流的机器阅读理解方法大多使用斯坦福大学于2016年提出的SQUAD数据集进行训练和评价。

另一方面，进入21世纪以来，人类科学技术每天都在以超乎想象的速度飞速发展。科研工作者为了更加快速地交流最新进展，会将科技论文等研究成果在学术会议或互联网发布。例如，arXiv作为全球最大的预印本***，截止至2021 年6月，共收到来自计算机科学、数学、生物学等领域1,915,793件提交内容，每月论文提交数已超过17000篇。尽管互联网上有大量的科技论文，个人能***性阅读并理解的也只有本学科内很少的一部分。因此，出现了使用计算机***阅读理解科技论文内容，回答相关问题的需求。

现有机器阅读理解方法大多存在使用LSTM等循环神经网络或Transformer 结构来处理输入内容，都无法有效地处理长文本，前者难以捕捉长期依赖，即模型会忘记距离当前时刻较远的相关内容，在模型的训练过程中也容易出现梯度消失、梯度***等难以优化的问题；后者虽用Attention机制解决了长期依赖的问题，但模型的计算量也随之提升，模型输入也有512词的限制。

发明内容

本发明的目的在于针对现有机器阅读理解模型因输入长度限制导致无法有效处理篇幅较长科技论文，且即使满足输入长度要求生成文本的语义相似性性能有待提高的技术缺陷，提出了一种融入多个段落信息的抽取式机器阅读理解方法，所述方法能自动阅读科技论文，回答诸如“这篇论文的动机是什么 (Motivation)”、“模型是什么样(Model)”、“实验结果怎么样(Experiment)”、“研究人员得出了什么结论(Conclusion)”等问题，最后将所有答案整合成一篇完整的论文讲解，帮助科研工作者获取高语义相似性的文献总结，以便快速了解论文内容，紧跟领域内最新进展。

所述抽取式机器阅读理解方法依托的阅读理解***，包括：段落评分器、段落阅读器以及答案选择器；

其中，段落评分器包括段落编码单元1、问题编码单元、问题自注意力单元、注意力单元、池化单元和归一化单元；问题编码单元连接问题自注意力单元，再通过注意力单元和段落编码单元1相连，注意力单元连接到归一化单元；

其中，段落阅读器包括段落编码单元2、问题编码单元、问题自注意力单元、开始位置预测单元、结束位置预测单元和答案解码单元；问题编码单元连接问题自注意力单元，再和段落编码单元2连接到开始位置预测单元以及结束位置预测单元，最终开始位置以及结束位置两个预测单元一起连接到答案解码单元；

其中，答案选择器分别与段落评分器和段落阅读器相连，用于融合段落评分器中归一化单元的输出和段落阅读器中答案解码单元的输出；

所述抽取式机器阅读理解方法，包括如下步骤：

步骤1：段落评分器循环处理每个段落，根据问题和段落的相关程度打分，得出段落得分；

其中，段落得分表示该段落包含正确答案的可能性；

步骤1.1：问题编码单元使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到输入问题序列中每个单词的向量表示；

步骤1.2：问题自注意力单元使用self-attention机制将问题序列中所有单词的向量表示压缩成一个问题表示；

步骤1.3：段落编码单元1使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到每个单词的向量表示；

步骤1.4：注意力单元使用Attention机制计算步骤1.3得到的每个单词的向量表示和步骤1.2中得到的问题表示之间的相关性；

步骤1.5：池化单元使用max-pooling机制，从步骤1.4得到的相关性中取最大值作为当前段落与问题的相关性；

步骤1.6：归一化单元使用softmax函数将所有段落与问题的相关性归一化，作为段落得分；

步骤2：段落阅读器循环处理每个段落，根据问题抽取出段落中最有可能的 top_n个答案，并计算该top_n答案是正确答案的可能性；

步骤2.1：问题编码单元使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到输入问题序列中每个单词的向量表示；

步骤2.2：问题自注意力单元使用self-attention机制将问题序列中所有向量表示压缩成一个向量表示；

步骤2.3：将段落中每个单词的特征构成的特征序列输入到段落编码单元2，使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到段落序列中每个单词的向量表示；

其中，段落中每个单词的特征构成的特征序列，称为段落序列；

步骤2.4：在开始位置预测单元和结束位置预测单元利用Attention机制分别计算段落中每个位置是答案开始位置的可能性和结束位置的可能性；

步骤2.5：答案解码单元计算段落区间是答案的可能性，从中抽取可能性最大的top_n个答案；

其中，段落区间为答案开始位置和结束位置之间；

步骤3：答案选择器综合步骤1输出的段落评分和步骤2输出的答案可能性，在包含所有段落的整篇文章中选择最有可能的答案作为最终结果；

其中，从步骤1到步骤3，完成了一种融入多个段落信息的抽取式机器阅读理解方法。

有益效果

本发明所述的一种融入多个段落信息的抽取式机器阅读理解方法，与现有技术相比，具有如下优点和效果；

1.所述方法通过对段落的循环处理，摆脱了现有技术对输入长度的限制，能够基于像科技论文一样的长文本进行机器阅读理解；

2.所述方法创新性地融合段落可能性和答案可能性，更有可能得到与问题相关的正确答案，相比于现有技术，在测试数据集上效果有明显提升；

3.所述方法具有良好的泛化性，在回答不同类型的问题时都超过了现有技术的表现。

附图说明

图1为本发明一种融入多个段落信息的抽取式机器阅读理解方法的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明一种融入多个段落信息的抽取式机器阅读理解方法作进一步详细说明。

实施例1

本实施例阐述了构造数据集的步骤、数据集的统计信息、完整的算法流程、模型参数以及实验结果。

(1)数据构造阶段

为了能够更好地评价本发明和现有技术在回答科技论文问题时的表现，本发明构建了一个数据集用于测试，总共包含200条数据，构建过程分为以下步骤：

步骤A：在paperweekly网站上使用爬虫爬取(论文链接，论文讲解链接) 对保存在数据库中；

步骤B：格式化处理论文讲解；

步骤B.1：根据论文讲解链接，人工筛选去掉具有排版混乱、内容过短、文不对题等问题的数据；

步骤B.2：由8名计算机学院大四学生筛选每篇论文讲解中可以作为问题答案的内容；

步骤B.3：调用百度翻译的API将讲解内容转译成英文文本；

步骤C：格式化处理论文；

步骤C.1：根据论文链接，使用爬虫自动下载PDF格式的论文；

步骤C.2：使用自动化工具Grobid将论文从PDF格式转化成计算机可处理的 JSON格式；

步骤C.3：根据正则匹配，从论文全文中筛选出论文摘要和论文介绍；

步骤D：将(论文摘要，论文介绍，论文讲解)组合成一条数据；

步骤D.1：对于论文摘要和论文介绍，按段落分别保存在列表中；

步骤D.2：对于论文讲解，合并成一个字符串；

步骤D.3：将步骤D.1和步骤D.2的结果组合成一个字典，如下所示；

本发明构造的数据集中输入的统计信息如表1所示，从中可以发现科技论文存在篇章长、段落多的问题，例如论文介绍部分的平均长度为700个词，大致是SQUAD数据集输入的5倍；论文介绍也包含多个段落，与问题相关的答案片段可能分布在多个段落中，因此需要全面考虑来自多个段落的信息。

本发明构造的数据集中输出的统计信息如表2所示，从中可以发现，输出不仅由多个句子构成，而且平均长度为188个词，大致是SQUAD数据集输出的 60倍。一旦输出的长度变长，如何保证句子的流畅性和准确度对模型是一个挑战。而本发明使用的是抽取式方法，原理是判断原文中重要的片段，选择最有可能是答案的一个片段作为结果输出，即输出内容全部来自于原文。模型实际上只需要预测开始和结束两个位置，流畅性和可读性更有保证，尽可能避免产生语法和语序错误、甚至是不完整的内容。

表1本发明构造的数据集中输入的统计信息

	论文摘要(abstract)	论文介绍(introduction)
			段落数	1.08	5.83
句子总数	6.94	27.72
			每段句子数	6.63	4.94
单词总数	180.89	697.35
			每段单词数	172.64	126.12

表2本发明构造的数据集中输出的统计信息

	论文讲解(note)
		句子数	8.04
单词数	188.24

(2)模型运行阶段

本发明提出的一种融入多个段落信息的抽取式机器阅读理解，包括段落评分器、段落阅读器和答案选择器三个部分，输入一个问题q和一篇论文介绍的所有段落P＝{p₁,p₂,…p_i}，数据的流动过程由文字说明。

本发明使用Pytorch实现，将batch size设为32，将每个batch中的输入段落填充到num_docs＝10段，在GPU上运行模型，包含以下步骤：

步骤a：使用段落评分器循环处理num_docs个段落，根据问题和段落的相关程度打分，得出段落得分；

步骤a.1：问题编码单元使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到输入问题序列中每个单词的向量表示，具体实施时：问题编码单元使用一层双向LSTM网络处理输入的问题词向量序列{q¹,q²,…,q^lq}，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到每个单词的向量表示，具体通过公式(1)；

其中，l_q是问题中的单词总数，q^j表示输入的问题序列中第j个单词的词向量，这里使用300维的Glove词向量；

表示输出的第j个单词的向量表示，维度为128；

步骤a.2：问题自注意力单元使用self-attention机制将问题序列中所有单词的向量表示压缩成一个问题表示，具体为：问题自注意力单元使用self-attention机制将问题序列中所有单词表示压缩成一个向量表示

具体通过公式(2)和公式 (3)；

其中，a^j是衡量问题序列中第j个单词重要程度的注意力权重，通过softmax 归一化得到；

是步骤1.1得到的第j个单词的向量表示；W_a是一个可学习的参数；

步骤a.3：段落编码单元1使用一层双向的LSTM网络处理输入的第i个段落的词向量序列

并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到第i个段落序列中每个单词的向量表示，具体通过公式(4)；

其中，

是第i个段落中的单词总数，

表示输入的段落序列中第j个单词的词向量，这里使用300维的Glove词向量；

表示输出的第j的单词的向量表示，维度为128；

步骤a.4：注意力单元使用Attention机制计算段落序列中每个向量表示和步骤a.2中得到的问题表示

之间的相关性，具体通过公式(5)；

其中，

是步骤a.3得到的段落序列中第j个单词的向量表示；

是第j个单词与问题表示

的相关性；W是一个可学习的参数；

步骤a.5：池化单元使用max-pooling机制，从步骤a.4得到的相关性中取最大值作为当前段落与问题的相关性s_i，具体通过公式(6)；

步骤a.6：归一化单元使用softmax函数将所有段落与问题的相关性归一化，作为段落得分，具体通过公式(7)；

其中s_i为第i个段落与问题的相关性，Pr(p_i|q)为第i个段落的得分；

步骤b：段落阅读器循环处理每个段落，根据问题抽取出段落中最有可能的top_n个答案，并计算该top_n答案是正确答案的可能性，具体实施时：使用段落阅读器循环处理num_docs个段落，在每个段落中选择最长长度max_len＝200， top_n＝10个可能性最高的答案。

步骤b.1：问题编码单元使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到输入问题序列中每个单词的向量表示，具体实施时：问题编码单元使用一层双向LSTM网络处理输入的问题词向量序列{q¹,q²,…,q^lq}，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到每个单词的向量表示，具体通过公式(8)；

步骤b.2：问题自注意力单元使用self-attention机制将问题序列中所有单词表示压缩成一个向量表示

具体通过公式(9)和(10)；

是步骤b.1得到的第j个单词的向量表示；w_b是一个可学习的参数；

步骤b.3：将段落中每个单词的特征构成的特征序列输入到段落编码单元2，使用一层双向的LSTM网络，并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到段落序列中每个单词的向量表示，具体为：段落编码单元2 使用一层双向的LSTM网络处理输入的第i个段落的特征序列

并将向前传播和向后传播两个方向上的所有隐状态拼接起来，得到第i个段落序列中每个单词的向量表示，具体通过公式(11)；

其中，

是第i个段落中的单词总数，

表示输入的段落序列中第j个单词的词向量，包括如表4所示的两部分；

表示输出的第j的单词的向量表示，维度为128；

表4输入段落阅读器中段落编码单元的单词特征

步骤b.4：在开始位置预测单元和结束位置预测单元，计算段落中每个位置是答案开始位置的可能性和结束位置的可能性。具体而言，利用Attention机制分别计算段落序列中每个向量表示和步骤b.2中得到的问题表示

之间的相关性，再通过softmax函数在所有位置上进行归一化，见公式(12)和公式(13)；

其中，p_i ^(start)(j)表示段落中第j个位置是答案开始位置的可能性；p_i ^(end)(j) 表示段落中第j个位置是答案结束位置的可能性；W^(start)和W^(end)都是可学习的参数；

步骤b.5：答案解码单元计算段落区间是答案的可能性，从中抽取可能性最大的top_n个答案；

其中，段落区间为答案开始位置和结束位置之间；

步骤b.5.1：将开始位置预测单元和结束位置预测单元的输出p_i ^(start)和p_i ^(end)相乘，得到一个

维度的矩阵Aⁱ，具体通过公式(14)；

其中，

是第i个段落中单词总数，即段落长度；

步骤b.5.2：将矩阵Aⁱ下三角部分的值清零，保证开始位置在结束位置之前，具体通过公式(15)；

步骤b.5.3：对矩阵Aⁱ的每行，保留从主对角线开始，最多不超过max_len个值，其余值清0，以保证答案长度不超过max_len，具体通过公式(16)；

步骤b.5.4：从矩阵Aⁱ中选出值最大的top_n个元素，同时得到它们的下标，具体通过公式(17)得到；

{(j,k)}_{top_n}＝argmax_{top_n}(Aⁱ) (17)

步骤b.5.5：从步骤b.5.4中得到矩阵下标(j,k)对应从第i个段落中位置j到位置k的区间p_i[j：k]，则p_i[j：k]为答案的可能性

通过公式(18)得到；

步骤c：答案选择器综合步骤1输出的段落评分和步骤2输出的答案可能性，在包含所有段落的整篇文章中选择最有可能的答案作为最终结果，具体为：使用答案选择器结合段落评分器和段落阅读器的输出，得出最终的答案；

步骤c.1：在答案选择器中，对于段落阅读器从每段产生的top_n个答案：如果答案

不在字典中，则作为键***字典，值为

如果答案a已经在字典中，则将

累加至现有值；

步骤c.2：字典中每个键代表一个答案，选择值最大的一个作为最终答案输出；

(3)实验结果比较

在本发明构建的论文讲解自动生成的数据集上评价模型表现。其中，基线模型选择了Match-LSTM with Ans-Ptr和QANet，前者使用LSTM结构，后者利用 Attention机制。但受到输入长度的限制，它们都只能使用Embedding Average 方法选择论文介绍中最相关的一个段落作为输入，不能利用所有段落的内容。而本发明的方法可以使用论文介绍中的所有段落作为输入，记为Our Model。

步骤1：要求模型预测q为“What is the motivation of this paper？”的答案，分别计算在测试数据集上的BLEU和Rouge值，如表4所示；

表4.本发明提出的方法与基线模型在数据集上的整体表现

观察表4，本发明提出的一种融入多个段落信息的抽取式机器阅读理解方法OurModel在多个指标上的结果都远好于另外2个基线模型，这说明在所有段落中都含有丰富的、模型可利用的信息，如果受到输入长度限制，只能使用一个段落作为输入，模型的表现就会急剧下滑。本发明摆脱了现有技术对输入长度的限制，在测试数据集上效果有明显提升。

步骤2：要求模型预测不同的问题q的答案，如表5所示。前2个问题都是 what类型的，但使用的关键词不同，分别是motivation和model，后2个问题分别是why和how类型的，答案相对宽泛。使用what-motivation、what-model、 why和how分别代表4个问题，分别计算模型在测试数据集上的Rouge值，如表6所示；

表5.输入的不同问题

表6.本发明提出的方法与基线模型对于不同输入问题的表现

观察表6，我们提出的一种融入多个段落信息的抽取式论文讲解生成方法OurModel在所有问题上的结果都超过另外2个基线模型，具有更好的泛化性。因此，本发明具有回答不同种类问题的能力，得出的答案涵盖了一篇科技论文的诸多方面，能够帮助科研工作者全面地了解一篇科技论文。

步骤3.选择2个BLEU值最高的预测输出作为结果展示。如表6所示。左侧是目标输出，右侧是预测输出，相同语义的片段通过斜体加粗强调，可以发现预测输出在研究背景、方法名称、方法概述、实验结果等多个关键点上和目标输出相匹配，取得了比较理想的效果。

表6.目标输出和模型预测输出对比展示

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。