CN113836893A - 一种融入多个段落信息的抽取式机器阅读理解方法 - Google Patents

一种融入多个段落信息的抽取式机器阅读理解方法 Download PDF

Info

Publication number
CN113836893A
CN113836893A CN202111074789.1A CN202111074789A CN113836893A CN 113836893 A CN113836893 A CN 113836893A CN 202111074789 A CN202111074789 A CN 202111074789A CN 113836893 A CN113836893 A CN 113836893A
Authority
CN
China
Prior art keywords
paragraph
unit
answer
question
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111074789.1A
Other languages
English (en)
Other versions
CN113836893B (zh
Inventor
毛先领
熊婧雯
黄河燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111074789.1A priority Critical patent/CN113836893B/zh
Publication of CN113836893A publication Critical patent/CN113836893A/zh
Application granted granted Critical
Publication of CN113836893B publication Critical patent/CN113836893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种融入多个段落信息的抽取式机器阅读理解方法,属于自然语言处理中的阅读理解技术领域。所述融入多个段落信息的抽取式机器阅读理解方法依托的阅读理解***包括段落评分器、段落阅读器和答案选择器,包括以下步骤:S1,段落评分器根据问题和段落的相关程度得出段落包含正确答案的可能性;S2,段落阅读器根据问题抽取出段落中最有可能的N个答案,并量化它们是正确答案的可能性;S3,答案选择器融合段落阅读器和段落评分器的结果,将答案和答案所在段落可能性相乘,得出整篇文章中最有可能的答案。所述方法摆脱了现有技术对输入长度的限制,可以帮助用户在科研论文上进行阅读理解,从而快速了解论文内容,紧跟领域内最新进展。

Description

一种融入多个段落信息的抽取式机器阅读理解方法
技术领域
本发明涉及一种融入多个段落信息的抽取式机器阅读理解方法,属于自然语言处理中的阅读理解技术领域。
背景技术
机器阅读理解是一种使计算机***理解输入文章的语义并回答相关问题的技术。因为阅读理解的任务可以恰当地评估计算机***对自然语言的理解能力,所以一直是自然语言处理技术领域内备受关注的研究热点。随着大规模数据集的提出,使得深度神经网络的训练成为可能。例如,主流的机器阅读理解方法大多使用斯坦福大学于2016年提出的SQUAD数据集进行训练和评价。
另一方面,进入21世纪以来,人类科学技术每天都在以超乎想象的速度飞速发展。科研工作者为了更加快速地交流最新进展,会将科技论文等研究成果在学术会议或互联网发布。例如,arXiv作为全球最大的预印本***,截止至2021 年6月,共收到来自计算机科学、数学、生物学等领域1,915,793件提交内容,每月论文提交数已超过17000篇。尽管互联网上有大量的科技论文,个人能***性阅读并理解的也只有本学科内很少的一部分。因此,出现了使用计算机***阅读理解科技论文内容,回答相关问题的需求。
现有机器阅读理解方法大多存在使用LSTM等循环神经网络或Transformer 结构来处理输入内容,都无法有效地处理长文本,前者难以捕捉长期依赖,即模型会忘记距离当前时刻较远的相关内容,在模型的训练过程中也容易出现梯度消失、梯度***等难以优化的问题;后者虽用Attention机制解决了长期依赖的问题,但模型的计算量也随之提升,模型输入也有512词的限制。
发明内容
本发明的目的在于针对现有机器阅读理解模型因输入长度限制导致无法有效处理篇幅较长科技论文,且即使满足输入长度要求生成文本的语义相似性性能有待提高的技术缺陷,提出了一种融入多个段落信息的抽取式机器阅读理解方法,所述方法能自动阅读科技论文,回答诸如“这篇论文的动机是什么 (Motivation)”、“模型是什么样(Model)”、“实验结果怎么样(Experiment)”、“研究人员得出了什么结论(Conclusion)”等问题,最后将所有答案整合成一篇完整的论文讲解,帮助科研工作者获取高语义相似性的文献总结,以便快速了解论文内容,紧跟领域内最新进展。
所述抽取式机器阅读理解方法依托的阅读理解***,包括:段落评分器、段落阅读器以及答案选择器;
其中,段落评分器包括段落编码单元1、问题编码单元、问题自注意力单元、注意力单元、池化单元和归一化单元;问题编码单元连接问题自注意力单元,再通过注意力单元和段落编码单元1相连,注意力单元连接到归一化单元;
其中,段落阅读器包括段落编码单元2、问题编码单元、问题自注意力单元、开始位置预测单元、结束位置预测单元和答案解码单元;问题编码单元连接问题自注意力单元,再和段落编码单元2连接到开始位置预测单元以及结束位置预测单元,最终开始位置以及结束位置两个预测单元一起连接到答案解码单元;
其中,答案选择器分别与段落评分器和段落阅读器相连,用于融合段落评分器中归一化单元的输出和段落阅读器中答案解码单元的输出;
所述抽取式机器阅读理解方法,包括如下步骤:
步骤1:段落评分器循环处理每个段落,根据问题和段落的相关程度打分,得出段落得分;
其中,段落得分表示该段落包含正确答案的可能性;
步骤1.1:问题编码单元使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到输入问题序列中每个单词的向量表示;
步骤1.2:问题自注意力单元使用self-attention机制将问题序列中所有单词的向量表示压缩成一个问题表示;
步骤1.3:段落编码单元1使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到每个单词的向量表示;
步骤1.4:注意力单元使用Attention机制计算步骤1.3得到的每个单词的向量表示和步骤1.2中得到的问题表示之间的相关性;
步骤1.5:池化单元使用max-pooling机制,从步骤1.4得到的相关性中取最大值作为当前段落与问题的相关性;
步骤1.6:归一化单元使用softmax函数将所有段落与问题的相关性归一化,作为段落得分;
步骤2:段落阅读器循环处理每个段落,根据问题抽取出段落中最有可能的 top_n个答案,并计算该top_n答案是正确答案的可能性;
步骤2.1:问题编码单元使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到输入问题序列中每个单词的向量表示;
步骤2.2:问题自注意力单元使用self-attention机制将问题序列中所有向量表示压缩成一个向量表示;
步骤2.3:将段落中每个单词的特征构成的特征序列输入到段落编码单元2,使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到段落序列中每个单词的向量表示;
其中,段落中每个单词的特征构成的特征序列,称为段落序列;
步骤2.4:在开始位置预测单元和结束位置预测单元利用Attention机制分别计算段落中每个位置是答案开始位置的可能性和结束位置的可能性;
步骤2.5:答案解码单元计算段落区间是答案的可能性,从中抽取可能性最大的top_n个答案;
其中,段落区间为答案开始位置和结束位置之间;
步骤3:答案选择器综合步骤1输出的段落评分和步骤2输出的答案可能性,在包含所有段落的整篇文章中选择最有可能的答案作为最终结果;
其中,从步骤1到步骤3,完成了一种融入多个段落信息的抽取式机器阅读理解方法。
有益效果
本发明所述的一种融入多个段落信息的抽取式机器阅读理解方法,与现有技术相比,具有如下优点和效果;
1.所述方法通过对段落的循环处理,摆脱了现有技术对输入长度的限制,能够基于像科技论文一样的长文本进行机器阅读理解;
2.所述方法创新性地融合段落可能性和答案可能性,更有可能得到与问题相关的正确答案,相比于现有技术,在测试数据集上效果有明显提升;
3.所述方法具有良好的泛化性,在回答不同类型的问题时都超过了现有技术的表现。
附图说明
图1为本发明一种融入多个段落信息的抽取式机器阅读理解方法的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明一种融入多个段落信息的抽取式机器阅读理解方法作进一步详细说明。
实施例1
本实施例阐述了构造数据集的步骤、数据集的统计信息、完整的算法流程、模型参数以及实验结果。
(1)数据构造阶段
为了能够更好地评价本发明和现有技术在回答科技论文问题时的表现,本发明构建了一个数据集用于测试,总共包含200条数据,构建过程分为以下步骤:
步骤A:在paperweekly网站上使用爬虫爬取(论文链接,论文讲解链接) 对保存在数据库中;
步骤B:格式化处理论文讲解;
步骤B.1:根据论文讲解链接,人工筛选去掉具有排版混乱、内容过短、文不对题等问题的数据;
步骤B.2:由8名计算机学院大四学生筛选每篇论文讲解中可以作为问题答案的内容;
步骤B.3:调用百度翻译的API将讲解内容转译成英文文本;
步骤C:格式化处理论文;
步骤C.1:根据论文链接,使用爬虫自动下载PDF格式的论文;
步骤C.2:使用自动化工具Grobid将论文从PDF格式转化成计算机可处理的 JSON格式;
步骤C.3:根据正则匹配,从论文全文中筛选出论文摘要和论文介绍;
步骤D:将(论文摘要,论文介绍,论文讲解)组合成一条数据;
步骤D.1:对于论文摘要和论文介绍,按段落分别保存在列表中;
步骤D.2:对于论文讲解,合并成一个字符串;
步骤D.3:将步骤D.1和步骤D.2的结果组合成一个字典,如下所示;
Figure RE-GDA0003329409220000051
本发明构造的数据集中输入的统计信息如表1所示,从中可以发现科技论文存在篇章长、段落多的问题,例如论文介绍部分的平均长度为700个词,大致是SQUAD数据集输入的5倍;论文介绍也包含多个段落,与问题相关的答案片段可能分布在多个段落中,因此需要全面考虑来自多个段落的信息。
本发明构造的数据集中输出的统计信息如表2所示,从中可以发现,输出不仅由多个句子构成,而且平均长度为188个词,大致是SQUAD数据集输出的 60倍。一旦输出的长度变长,如何保证句子的流畅性和准确度对模型是一个挑战。而本发明使用的是抽取式方法,原理是判断原文中重要的片段,选择最有可能是答案的一个片段作为结果输出,即输出内容全部来自于原文。模型实际上只需要预测开始和结束两个位置,流畅性和可读性更有保证,尽可能避免产生语法和语序错误、甚至是不完整的内容。
表1本发明构造的数据集中输入的统计信息
论文摘要(abstract) 论文介绍(introduction)
段落数 1.08 5.83
句子总数 6.94 27.72
每段句子数 6.63 4.94
单词总数 180.89 697.35
每段单词数 172.64 126.12
表2本发明构造的数据集中输出的统计信息
论文讲解(note)
句子数 8.04
单词数 188.24
(2)模型运行阶段
本发明提出的一种融入多个段落信息的抽取式机器阅读理解,包括段落评分器、段落阅读器和答案选择器三个部分,输入一个问题q和一篇论文介绍的所有段落P={p1,p2,…pi},数据的流动过程由文字说明。
本发明使用Pytorch实现,将batch size设为32,将每个batch中的输入段落填充到num_docs=10段,在GPU上运行模型,包含以下步骤:
步骤a:使用段落评分器循环处理num_docs个段落,根据问题和段落的相关程度打分,得出段落得分;
步骤a.1:问题编码单元使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到输入问题序列中每个单词的向量表示,具体实施时:问题编码单元使用一层双向LSTM网络处理输入的问题词向量序列{q1,q2,…,qlq},并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到每个单词的向量表示,具体通过公式(1);
Figure RE-GDA0003329409220000061
其中,lq是问题中的单词总数,qj表示输入的问题序列中第j个单词的词向量,这里使用300维的Glove词向量;
Figure RE-GDA0003329409220000062
表示输出的第j个单词的向量表示,维度为128;
步骤a.2:问题自注意力单元使用self-attention机制将问题序列中所有单词的向量表示压缩成一个问题表示,具体为:问题自注意力单元使用self-attention机制将问题序列中所有单词表示压缩成一个向量表示
Figure RE-GDA0003329409220000071
具体通过公式(2)和公式 (3);
Figure RE-GDA0003329409220000072
Figure RE-GDA0003329409220000073
其中,aj是衡量问题序列中第j个单词重要程度的注意力权重,通过softmax 归一化得到;
Figure RE-GDA0003329409220000074
是步骤1.1得到的第j个单词的向量表示;Wa是一个可学习的参数;
步骤a.3:段落编码单元1使用一层双向的LSTM网络处理输入的第i个段落的词向量序列
Figure RE-GDA0003329409220000075
并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到第i个段落序列中每个单词的向量表示,具体通过公式(4);
Figure RE-GDA0003329409220000076
其中,
Figure RE-GDA0003329409220000077
是第i个段落中的单词总数,
Figure RE-GDA0003329409220000078
表示输入的段落序列中第j个单词的词向量,这里使用300维的Glove词向量;
Figure RE-GDA0003329409220000079
表示输出的第j的单词的向量表示,维度为128;
步骤a.4:注意力单元使用Attention机制计算段落序列中每个向量表示和步骤a.2中得到的问题表示
Figure RE-GDA00033294092200000710
之间的相关性,具体通过公式(5);
Figure RE-GDA00033294092200000711
其中,
Figure RE-GDA00033294092200000712
是步骤a.3得到的段落序列中第j个单词的向量表示;
Figure RE-GDA00033294092200000713
是第j个单词与问题表示
Figure RE-GDA00033294092200000714
的相关性;W是一个可学习的参数;
步骤a.5:池化单元使用max-pooling机制,从步骤a.4得到的相关性中取最大值作为当前段落与问题的相关性si,具体通过公式(6);
Figure RE-GDA00033294092200000715
步骤a.6:归一化单元使用softmax函数将所有段落与问题的相关性归一化,作为段落得分,具体通过公式(7);
Figure RE-GDA00033294092200000716
其中si为第i个段落与问题的相关性,Pr(pi|q)为第i个段落的得分;
步骤b:段落阅读器循环处理每个段落,根据问题抽取出段落中最有可能的top_n个答案,并计算该top_n答案是正确答案的可能性,具体实施时:使用段落阅读器循环处理num_docs个段落,在每个段落中选择最长长度max_len=200, top_n=10个可能性最高的答案。
步骤b.1:问题编码单元使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到输入问题序列中每个单词的向量表示,具体实施时:问题编码单元使用一层双向LSTM网络处理输入的问题词向量序列{q1,q2,…,qlq},并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到每个单词的向量表示,具体通过公式(8);
Figure RE-GDA0003329409220000081
步骤b.2:问题自注意力单元使用self-attention机制将问题序列中所有单词表示压缩成一个向量表示
Figure RE-GDA0003329409220000082
具体通过公式(9)和(10);
Figure RE-GDA0003329409220000083
Figure RE-GDA0003329409220000084
其中,aj是衡量问题序列中第j个单词重要程度的注意力权重,通过softmax 归一化得到;
Figure RE-GDA0003329409220000085
是步骤b.1得到的第j个单词的向量表示;wb是一个可学习的参数;
步骤b.3:将段落中每个单词的特征构成的特征序列输入到段落编码单元2,使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到段落序列中每个单词的向量表示,具体为:段落编码单元2 使用一层双向的LSTM网络处理输入的第i个段落的特征序列
Figure RE-GDA0003329409220000086
并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到第i个段落序列中每个单词的向量表示,具体通过公式(11);
Figure RE-GDA0003329409220000087
其中,段落中每个单词的特征构成的特征序列,称为段落序列;
其中,
Figure RE-GDA0003329409220000088
是第i个段落中的单词总数,
Figure RE-GDA0003329409220000089
表示输入的段落序列中第j个单词的词向量,包括如表4所示的两部分;
Figure RE-GDA00033294092200000810
表示输出的第j的单词的向量表示,维度为128;
表4输入段落阅读器中段落编码单元的单词特征
Figure RE-GDA0003329409220000091
步骤b.4:在开始位置预测单元和结束位置预测单元,计算段落中每个位置是答案开始位置的可能性和结束位置的可能性。具体而言,利用Attention机制分别计算段落序列中每个向量表示和步骤b.2中得到的问题表示
Figure RE-GDA0003329409220000092
之间的相关性,再通过softmax函数在所有位置上进行归一化,见公式(12)和公式(13);
Figure RE-GDA0003329409220000093
Figure RE-GDA0003329409220000094
其中,pi (start)(j)表示段落中第j个位置是答案开始位置的可能性;pi (end)(j) 表示段落中第j个位置是答案结束位置的可能性;W(start)和W(end)都是可学习的参数;
步骤b.5:答案解码单元计算段落区间是答案的可能性,从中抽取可能性最大的top_n个答案;
其中,段落区间为答案开始位置和结束位置之间;
步骤b.5.1:将开始位置预测单元和结束位置预测单元的输出pi (start)和pi (end)相乘,得到一个
Figure RE-GDA0003329409220000095
维度的矩阵Ai,具体通过公式(14);
Figure RE-GDA0003329409220000096
其中,
Figure RE-GDA0003329409220000101
是第i个段落中单词总数,即段落长度;
步骤b.5.2:将矩阵Ai下三角部分的值清零,保证开始位置在结束位置之前,具体通过公式(15);
Figure RE-GDA0003329409220000102
步骤b.5.3:对矩阵Ai的每行,保留从主对角线开始,最多不超过max_len个值,其余值清0,以保证答案长度不超过max_len,具体通过公式(16);
Figure RE-GDA0003329409220000103
步骤b.5.4:从矩阵Ai中选出值最大的top_n个元素,同时得到它们的下标,具体通过公式(17)得到;
{(j,k)}top_n=argmaxtop_n(Ai) (17)
步骤b.5.5:从步骤b.5.4中得到矩阵下标(j,k)对应从第i个段落中位置j到位置k的区间pi[j:k],则pi[j:k]为答案的可能性
Figure RE-GDA0003329409220000104
通过公式(18)得到;
Figure RE-GDA0003329409220000105
步骤c:答案选择器综合步骤1输出的段落评分和步骤2输出的答案可能性,在包含所有段落的整篇文章中选择最有可能的答案作为最终结果,具体为:使用答案选择器结合段落评分器和段落阅读器的输出,得出最终的答案;
步骤c.1:在答案选择器中,对于段落阅读器从每段产生的top_n个答案:如果答案
Figure RE-GDA0003329409220000106
不在字典中,则作为键***字典,值为
Figure RE-GDA0003329409220000107
如果答案a已经在字典中,则将
Figure RE-GDA0003329409220000108
累加至现有值;
步骤c.2:字典中每个键代表一个答案,选择值最大的一个作为最终答案输出;
Figure RE-GDA0003329409220000109
(3)实验结果比较
在本发明构建的论文讲解自动生成的数据集上评价模型表现。其中,基线模型选择了Match-LSTM with Ans-Ptr和QANet,前者使用LSTM结构,后者利用 Attention机制。但受到输入长度的限制,它们都只能使用Embedding Average 方法选择论文介绍中最相关的一个段落作为输入,不能利用所有段落的内容。而本发明的方法可以使用论文介绍中的所有段落作为输入,记为Our Model。
步骤1:要求模型预测q为“What is the motivation of this paper?”的答案,分别计算在测试数据集上的BLEU和Rouge值,如表4所示;
表4.本发明提出的方法与基线模型在数据集上的整体表现
Figure RE-GDA0003329409220000111
观察表4,本发明提出的一种融入多个段落信息的抽取式机器阅读理解方法OurModel在多个指标上的结果都远好于另外2个基线模型,这说明在所有段落中都含有丰富的、模型可利用的信息,如果受到输入长度限制,只能使用一个段落作为输入,模型的表现就会急剧下滑。本发明摆脱了现有技术对输入长度的限制,在测试数据集上效果有明显提升。
步骤2:要求模型预测不同的问题q的答案,如表5所示。前2个问题都是 what类型的,但使用的关键词不同,分别是motivation和model,后2个问题分别是why和how类型的,答案相对宽泛。使用what-motivation、what-model、 why和how分别代表4个问题,分别计算模型在测试数据集上的Rouge值,如表6所示;
表5.输入的不同问题
Figure RE-GDA0003329409220000112
表6.本发明提出的方法与基线模型对于不同输入问题的表现
Figure RE-GDA0003329409220000113
Figure RE-GDA0003329409220000121
观察表6,我们提出的一种融入多个段落信息的抽取式论文讲解生成方法OurModel在所有问题上的结果都超过另外2个基线模型,具有更好的泛化性。因此,本发明具有回答不同种类问题的能力,得出的答案涵盖了一篇科技论文的诸多方面,能够帮助科研工作者全面地了解一篇科技论文。
步骤3.选择2个BLEU值最高的预测输出作为结果展示。如表6所示。左侧是目标输出,右侧是预测输出,相同语义的片段通过斜体加粗强调,可以发现预测输出在研究背景、方法名称、方法概述、实验结果等多个关键点上和目标输出相匹配,取得了比较理想的效果。
表6.目标输出和模型预测输出对比展示
Figure RE-GDA0003329409220000122
Figure RE-GDA0003329409220000131
Figure RE-GDA0003329409220000141
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (4)

1.一种融入多个段落信息的抽取式机器阅读理解方法,其特征在于:依托的阅读理解***,包括:段落评分器、段落阅读器以及答案选择器;
其中,段落评分器包括段落编码单元1、问题编码单元、问题自注意力单元、注意力单元、池化单元和归一化单元;问题编码单元连接问题自注意力单元,再通过注意力单元和段落编码单元1相连,注意力单元连接到归一化单元;
其中,段落阅读器包括段落编码单元2、问题编码单元、问题自注意力单元、开始位置预测单元、结束位置预测单元和答案解码单元;问题编码单元连接问题自注意力单元,再和段落编码单元2连接到开始位置预测单元以及结束位置预测单元,最终开始位置以及结束位置两个预测单元一起连接到答案解码单元;
其中,答案选择器分别与段落评分器和段落阅读器相连,用于融合段落评分器中归一化单元的输出和段落阅读器中答案解码单元的输出;
所述抽取式机器阅读理解方法,包括如下步骤:
步骤1:段落评分器循环处理每个段落,根据问题和段落的相关程度打分,得出段落得分;
步骤1.1:问题编码单元使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到输入问题序列中每个单词的向量表示;
步骤1.2:问题自注意力单元使用self-attention机制将问题序列中所有单词的向量表示压缩成一个问题表示;
步骤1.3:段落编码单元1使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到每个单词的向量表示;
步骤1.4:注意力单元使用Attention机制计算步骤1.3得到的每个单词的向量表示和步骤1.2中得到的问题表示之间的相关性;
步骤1.5:池化单元使用max-pooling机制,从步骤1.4得到的相关性中取最大值作为当前段落与问题的相关性;
步骤1.6:归一化单元使用softmax函数将所有段落与问题的相关性归一化,作为段落得分;
步骤2:段落阅读器循环处理每个段落,根据问题抽取出段落中最有可能的top_n个答案,并计算该top_n答案是正确答案的可能性;
步骤2.1:问题编码单元使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来,得到输入问题序列中每个单词的向量表示;
步骤2.2:问题自注意力单元使用self-attention机制将问题序列中所有向量表示压缩成一个向量表示;
步骤2.3:将段落中每个单词特征构成的特征序列输入到段落编码单元2,得到段落序列中每个单词的向量表示;
其中,段落中每个单词的特征构成的特征序列,称为段落序列;
步骤2.4:在开始位置预测单元和结束位置预测单元利用Attention机制分别计算段落中每个位置是答案开始位置的可能性和结束位置的可能性;
步骤2.5:答案解码单元计算段落区间是答案的可能性,从中抽取可能性最大的top_n个答案;
步骤3:答案选择器综合步骤1输出的段落评分和步骤2输出的答案可能性,在包含所有段落的整篇文章中选择最有可能的答案作为最终结果。
2.根据权利要求1所述的一种融入多个段落信息的抽取式机器阅读理解方法,其特征在于:步骤1中,段落得分表示该段落包含正确答案的可能性。
3.根据权利要求2所述的一种融入多个段落信息的抽取式机器阅读理解方法,其特征在于:步骤2.3中的每个单词的向量表示,具体为:使用一层双向的LSTM网络,并将向前传播和向后传播两个方向上的所有隐状态拼接起来得到。
4.根据权利要求3所述的一种融入多个段落信息的抽取式机器阅读理解方法,其特征在于:步骤2.5中,段落区间为答案开始位置和结束位置之间。
CN202111074789.1A 2021-09-14 2021-09-14 一种融入多个段落信息的抽取式机器阅读理解方法 Active CN113836893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111074789.1A CN113836893B (zh) 2021-09-14 2021-09-14 一种融入多个段落信息的抽取式机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111074789.1A CN113836893B (zh) 2021-09-14 2021-09-14 一种融入多个段落信息的抽取式机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN113836893A true CN113836893A (zh) 2021-12-24
CN113836893B CN113836893B (zh) 2024-07-23

Family

ID=78959317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111074789.1A Active CN113836893B (zh) 2021-09-14 2021-09-14 一种融入多个段落信息的抽取式机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN113836893B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134946A (zh) * 2019-04-15 2019-08-16 深圳智能思创科技有限公司 一种针对复杂数据的机器阅读理解方法
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111090734A (zh) * 2019-12-25 2020-05-01 湖南大学 基于层级注意力机制优化机器阅读理解能力的方法和***
CN111563378A (zh) * 2020-04-30 2020-08-21 神思电子技术股份有限公司 一种联合学习的多文档阅读理解实现方法
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及***
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN110134946A (zh) * 2019-04-15 2019-08-16 深圳智能思创科技有限公司 一种针对复杂数据的机器阅读理解方法
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
WO2021082953A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111090734A (zh) * 2019-12-25 2020-05-01 湖南大学 基于层级注意力机制优化机器阅读理解能力的方法和***
CN111563378A (zh) * 2020-04-30 2020-08-21 神思电子技术股份有限公司 一种联合学习的多文档阅读理解实现方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解***
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
万静;郭雅志;: "基于多段落排序的机器阅读理解研究", 北京化工大学学报(自然科学版), no. 03, 20 May 2019 (2019-05-20), pages 95 - 100 *
孙驰: "基于段落选择的分层融合阅读理解模型", 《青岛科技大学学报(自然科学版)》, 30 April 2021 (2021-04-30), pages 104 - 111 *
郑玉昆;李丹;范臻;刘奕群;张敏;马少平;: "T-Reader:一种基于自注意力机制的多任务深度阅读理解模型", 中文信息学报, no. 11, 15 November 2018 (2018-11-15), pages 133 - 139 *

Also Published As

Publication number Publication date
CN113836893B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
WO2019214145A1 (zh) 文本情绪分析方法、装置及存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
EP3398082A1 (en) Systems and methods for suggesting emoji
CN110309511B (zh) 基于共享表示的多任务语言分析***及方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索***及其观点检索方法
CN109740158B (zh) 一种文本语义解析方法及装置
KR20080021017A (ko) 텍스트 기반의 문서 비교
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
Wu et al. Community answer generation based on knowledge graph
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN112417119A (zh) 一种基于深度学习的开放域问答预测方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及***
Downey et al. Computational feature-sensitive reconstruction of language relationships: Developing the ALINE distance for comparative historical linguistic reconstruction
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM
Khan et al. A clustering framework for lexical normalization of Roman Urdu
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
Shahid et al. Next word prediction for Urdu language using deep learning models
CN113836893A (zh) 一种融入多个段落信息的抽取式机器阅读理解方法
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant