CN115510814B - 一种基于双重规划的篇章级复杂问题生成方法 - Google Patents

一种基于双重规划的篇章级复杂问题生成方法 Download PDF

Info

Publication number
CN115510814B
CN115510814B CN202211394785.6A CN202211394785A CN115510814B CN 115510814 B CN115510814 B CN 115510814B CN 202211394785 A CN202211394785 A CN 202211394785A CN 115510814 B CN115510814 B CN 115510814B
Authority
CN
China
Prior art keywords
semantic
fact
sentence
vector
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211394785.6A
Other languages
English (en)
Other versions
CN115510814A (zh
Inventor
毕胜
程茜雅
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211394785.6A priority Critical patent/CN115510814B/zh
Publication of CN115510814A publication Critical patent/CN115510814A/zh
Application granted granted Critical
Publication of CN115510814B publication Critical patent/CN115510814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双重规划的篇章级复杂问题生成方法,主要用于依据给定的一篇文章和答案,生成能够被答案回答的自然语言问题序列。本发明首先使用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用神经网络Transformer作为解码器生成复杂问题,在解码的每个时间步,基于双重规划,即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词汇的生成。

Description

一种基于双重规划的篇章级复杂问题生成方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于双重规划的篇章级复杂问题生成方法。
背景技术
近年来,随着人工智能的快速发展,问题生成(Question Generation,QG)任务成为了当下的研究热点。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成内容相关、语言通顺的自然语言问题。而本发明研究的问题生成任务就是以事实文本和答案作为输入的。问题生成任务具有广阔的应用前景,可以为问答任务产生训练数据;在对话***中主动提出问题提升对话的流畅性;构建自动辅导***(automatic tutoringsystems)根据课程材料生成针对性的问题,辅导学生学习等。
当前基于深度学***。对于能力强的学生,需要用复杂问题进行测试才能得到真实的反馈。另外,现有问答(Question Answering,QA)***在简单问题上的表现已经达到了瓶颈,而复杂问题更有利于提升QA***。因此,研究复杂问题生成具有一定的实用价值和应用前景。但是现有的复杂问题生成方法大多是基于知识图谱的复杂问题生成,这类方法无法直接应用于缺乏明确逻辑结构的非结构化文本的问题生成中。而在基于文本的复杂问题生成中,通常是以多文本作为输入的,没有考虑在单文本上生成复杂问题的情况。另外,这些方法在建模有效信息时直接融入了节点所在的句子序列,没有对句子中的事实进行进一步的筛选。而一个句子往往也包含多个事实。因此,这种篇章层面的问题生成方法缺乏整体规划,无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性。而且句子中包含其他冗余信息,可能会引入噪声。
因此,本发明提出了一种基于双重规划的篇章级问题生成模型,给文本中的每个句子都构建语义结构图,通过双重规划(事实级规划和语义图级规划)准确的定位每个解码时间步需要重点关注的信息。具体来说,在解码的时候,先选择需要关注的语义结构图,再进一步确定需要关注的事实三元组信息,通过融入这些信息增强生成问题的复杂度。
发明内容
本发明要解决的技术问题在于现有的复杂问题生成方法大多构建一个语义图,忽略了单个句子包含的丰富事实信息,缺乏整体规划导致无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性,提供一种基于双重规划的篇章级复杂问题生成方法。
本发明解决其技术问题所采用的技术方案是:一种基于双重规划的篇章级复杂问题生成方法。该方法首先使用BERT对给定的文章和答案进行编码,获得答案感知的语义向量。然后针对给定文章中的每个句子序列构建语义结构图,并采用多头注意力机制对这些语义结构图进行编码,获取它们之间的相关信息,用来指导复杂问题生成。最后,采用Transformer解码生成复杂问题,在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息增强生成问题的复杂度,辅助当前词的生成。
本发明的基于双重规划的篇章级复杂问题生成方法,包括如下步骤:
1)采用BERT对给定的文章和答案进行编码,获得答案感知的文本向量表示。
2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图。
3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,首先获得句子中每个节点的向量表示,然后获得单个事实的向量表示,最后获得整张图的向量表示。
4)对所述步骤1)得到答案感知的文本向量表示,将其送入Transformer模型中解码。并且在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。
5)设计损失函数,经过多次迭代,训练问题生成模型。
作为本发明的进一步改进,所述步骤1)中,采用BERT对给定的文本和答案进行编码,输入形式为
Figure 944259DEST_PATH_IMAGE001
,具体为,将文本序列和答案进行拼接,中间***分隔符
Figure 606184DEST_PATH_IMAGE002
,将文本和答案分隔开来,在开头***特定的分类标识符
Figure 777665DEST_PATH_IMAGE003
,通过BERT的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量C表示。
作为本发明的进一步改进,所述步骤2)中,对给定文章中的每个句子序列都构建一个细粒度语义结构图。首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合。在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体。首先要将每个实体mention表示成语义向量。然后通过在softmax层中输入相似性特征来预测查询实体
Figure 626672DEST_PATH_IMAGE004
和一组候选对象之间的共指链接,并预测实体
Figure 407547DEST_PATH_IMAGE004
和具有最大共指概率的候选者之间的联系。
作为本发明的进一步改进,所述步骤2)中,采用了自适应跨句指代消解技术,为了预测跨句子的共指链接,采用一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集群之间的共指链接,该算法首先对句子列表D进行任意排序,然后,对于每个句子
Figure 923979DEST_PATH_IMAGE005
中的实体
Figure 764896DEST_PATH_IMAGE006
,从先前的句子
Figure 101199DEST_PATH_IMAGE007
的共指集中计算候选集
Figure 420185DEST_PATH_IMAGE008
,其中,
Figure 791123DEST_PATH_IMAGE009
Figure 802942DEST_PATH_IMAGE010
表示句子的数量,
Figure 390656DEST_PATH_IMAGE011
,之后预测
Figure 247753DEST_PATH_IMAGE006
和一个候选对象
Figure 738777DEST_PATH_IMAGE012
之间的共指链接
Figure 921497DEST_PATH_IMAGE013
,最后,更新预测的候选集并重新计算
Figure 232393DEST_PATH_IMAGE014
的新候选对象。
作为本发明的进一步改进,所述步骤2)中,采用自适应跨句指代消解技术预测共指链接时,每个实体
Figure 158760DEST_PATH_IMAGE006
的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本大大增加。为了降低计算成本,本发明提出在计算过程中仅考虑与
Figure 238712DEST_PATH_IMAGE005
相似的先前句子
Figure 592333DEST_PATH_IMAGE007
作为本发明的进一步改进,所述步骤2)中,对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出实体关系三元组,构建出语义图。在记忆感知的语义图构建方法中,本发明使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取。具体来说,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成EndOfExtractions,该符号表示抽取过程已结束。
作为本发明的进一步改进,所述步骤2)中,采用记忆感知的语义图构建方法中使用了序列到序列模型。为了训练该序列到序列模型,本发明需要一组句子—抽取对作为训练数据。人工构建数据集虽然效果很好,但是耗时耗力,无法构建大规模数据集。因此,本发明提出了一种自动构建句子—抽取对数据集的方法。通常来说,自动构建数据集分为两步,首先按照原始***输出的置信度降序对所有抽取结果进行排序。然后,按照模型的输入输出格式构建训练数据。但是简单地汇集所有抽取结果是行不通的。因为存在以下问题:1)无校准:不同***分配的置信度分数未校准到可比较的尺度。2)冗余提取:除了完全重复之外,多个***会产生类似的提取,但边际效用较低。3)错误的提取:池化不可避免地会污染数据,并且会放大错误的实例,迫使下游开放的信息抽取***学习质量较差的提取。为了解决上述问题,本发明使用了得评分—过滤框架来获得高质量的抽取结果。首先对汇集的抽取结果进行评分,通常来说,好的(正确的、信息丰富的)抽取结果会比坏的(不正确的)和冗余的抽取结果获得更高的值。然后过滤掉抽取结果中的冗余数据。通过上述的评分—过滤框架,可以获得高质量的事实三元组,从而构建语义图。
作为本发明的进一步改进,所述步骤3)中,对语义结构图进行编码时,将结构图中的边也当作节点进行编码。对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量。接着为了能够捕获节点之间的语义联系,采用了关系增强的图Transformer对节点进行编码。该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,使得对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系。最后,将语义结构图中的所有节点向量输入到全联接前馈网络(Fully ConnectedFeed-forward Network,FFN)中获得最终的节点语义表示向量,并采用残差连接解决深度学***均池化层中,得到该事实三元组的语义向量表示。类似的,在计算第i个语义结构图的向量表示时,将图中包含的所有事实三元组表示向量输入到平均池化层中,得到该语义结构图的语义向量表示。
作为本发明的进一步改进,所述步骤4)中,基于文本和语义结构图的编码结果,利用Transformer作为解码器,生成问题。在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词。
其中,语义图级规划旨在在每个解码时间步,基于文本语义向量C和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示。然后将基于注意力的语义结构图表示和文本语义向量C拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成。
事实级规划旨在在每个解码时间步,基于文本语义向量C、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到第k个语义结构图中基于注意力的事实三元组表示。与语义图级规划相似,将基于注意力的事实三元组表示和文本语义向量C拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。
作为本发明的进一步改进,所述步骤4)中,基于文本和语义结构图的编码结果,利用Transformer作为解码器,生成问题。在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词。
作为本发明的进一步改进,所述步骤5)中,损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失。其中,交叉熵损失指的是最小化所有模型参数的负对数似然。监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差。覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,以此来约束模型反复注意某个语义图或者某个事实。
有益效果:
相比于现有技术,本发明具有以下优点:1)现有的问题生成方法仅仅从篇章层面构建一个语义图,容易忽略掉句子中包含的丰富的事实信息。而本发明对于给定的一篇文章中的每个句子序列都构建了语义结构图,通过这种方式能够全面准确的获取句子中的事实,为复杂问题生成提供强大的数据支撑。2)现有的方法缺乏整体规划,无法选择特定事实,容易造成实体和关系不匹配,从而影响问题的事实正确性。而本发明使用双重规划,能够在解码的过程中通过语义图级规划和事实级规划选择需要重点关注的语义图和其中的事实三元组,通过融入这些信息辅助当前词的生成,确保生成的关系和实体相匹配,从而提升问题的事实正确性。
经过实验分析证明,本方法提出的基于双重规划的篇章级复杂问题生成方法对于提高生成复杂问题的事实正确性起到了改进作用,增强了问题生成的效果。
附图说明
图1是本发明的基本过程示意图;
图2是本发明的模型框架图;
图3是本发明的基于双重规划的解码实现图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
实施例:本发明的基于句法感知提示学习的句子级问题生成方法,包括以下几个步骤:1)使用BERT对给定的文章和答案进行编码,获得答案感知的文本向量表示。BERT基于双向Transformer结构,采用掩码语言模型实现了一体化的特征融合,能够建模一词多义现象,并且生成深层次的双向语言表征。因此,本发明采用BERT编码,具体输入形式为
Figure 390524DEST_PATH_IMAGE001
,具体来说,将文本序列和答案进行拼接,中间***分隔符
Figure 622048DEST_PATH_IMAGE002
,将文本和答案分隔开来。在开头***特定的分类标识符
Figure 556506DEST_PATH_IMAGE003
,通过BERT的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量C表示。
2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图。构建语义结构图能够清晰的展示文本中不同实体间的语义信息,从而在解码过程中方便选择合适的信息融入到问题中,辅助复杂问题生成。由于单篇文本的篇幅较长,所以本章对于文本中的每个句子序列都单独构建了一个语义结构图,这样做有利于更加精准的捕获语义信息。对于每个句子序列,首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合。在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体。对于每个实体mention,定义为
Figure 81028DEST_PATH_IMAGE015
,其中
Figure 366516DEST_PATH_IMAGE016
是实体,
Figure 634686DEST_PATH_IMAGE017
是实体
Figure 689230DEST_PATH_IMAGE016
参与的事件集合。首先要将每个实体mention表示成语义向量。本发明将实体跨度输入到BERT中编码获得其初始向量表示
Figure 384653DEST_PATH_IMAGE018
,然后利用同样的方式获得每个事件
Figure 891858DEST_PATH_IMAGE019
的向量表示
Figure 963719DEST_PATH_IMAGE020
,并将其输入到BiLSTM中,外接均值池化层获得事件集合的向量表示
Figure 371305DEST_PATH_IMAGE021
。最后将实体初始向量表示和事件集合的向量表示结合起来,获得最终的实体mention语义表示向量
Figure 503209DEST_PATH_IMAGE022
假设
Figure 232130DEST_PATH_IMAGE023
是一组关于实体
Figure 638841DEST_PATH_IMAGE024
的先行词的共指簇。本发明通过增量的组合句子级信息
Figure 402398DEST_PATH_IMAGE025
和单词级信息
Figure 439624DEST_PATH_IMAGE026
Figure 921421DEST_PATH_IMAGE027
中的每个共指实体先行词集合P计算候选集群表示
Figure 335084DEST_PATH_IMAGE028
。其中,
Figure 953148DEST_PATH_IMAGE029
指将包含
Figure 928319DEST_PATH_IMAGE024
的句子通过BERT获得的CLS的向量表示,包含了句子的语义信息。计算方式如下:
Figure 897412DEST_PATH_IMAGE030
,其中,
Figure 114767DEST_PATH_IMAGE031
都是学习参数。然后将每个共指实体先行词集合P中所有的
Figure 852916DEST_PATH_IMAGE032
求均值,得到候选集群表示
Figure 231944DEST_PATH_IMAGE033
然后通过在softmax层中输入相似性特征来预测查询实体
Figure 688334DEST_PATH_IMAGE034
和一组候选对象之间的共指链接。假设
Figure 443800DEST_PATH_IMAGE035
Figure 36455DEST_PATH_IMAGE036
Figure 586385DEST_PATH_IMAGE037
个候选表示的集合,本发明首先利用余弦相似度
Figure 40325DEST_PATH_IMAGE038
和多视角余弦相似度
Figure 333903DEST_PATH_IMAGE039
计算每个候选
Figure 46644DEST_PATH_IMAGE040
和实体
Figure 33054DEST_PATH_IMAGE034
的相似性。然后将这些相似性特征与候选和查询的差异以及点乘相结合,以
获得最终的特征表示,计算公式如下:
Figure 932877DEST_PATH_IMAGE041
,然后,对于所有候选者
Figure 30146DEST_PATH_IMAGE040
,我们计算查询实体
Figure 862973DEST_PATH_IMAGE034
与之关联的概率
Figure 754706DEST_PATH_IMAGE042
,计算方式如下:
Figure 407404DEST_PATH_IMAGE043
;并预测实体
Figure 809829DEST_PATH_IMAGE034
和具有最大共指概率的候选者之间的联系。
为了预测跨句子的共指链接,本发明设计了一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集群之间的共指链接。该算法首先对句子列表D进行任意排序,然后,对于每个句子
Figure 497162DEST_PATH_IMAGE005
中的实体
Figure 559796DEST_PATH_IMAGE006
,从先前的句子
Figure 699790DEST_PATH_IMAGE007
的共指集中计算候选集
Figure 138862DEST_PATH_IMAGE008
,其中,
Figure 415122DEST_PATH_IMAGE009
Figure 914237DEST_PATH_IMAGE010
表示句子的数量,
Figure 541527DEST_PATH_IMAGE011
,之后预测
Figure 784290DEST_PATH_IMAGE006
和一个候选对象
Figure 915057DEST_PATH_IMAGE012
之间的共指链接
Figure 83608DEST_PATH_IMAGE013
,最后,更新预测的候选集并重新计算
Figure 198194DEST_PATH_IMAGE014
的新候选对象。
采用自适应跨句指代消解技术预测共指链接时,每个实体
Figure 244648DEST_PATH_IMAGE044
的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本大大增加。为了降低计算成本,本发明提出在计算过程中仅考虑与
Figure 495500DEST_PATH_IMAGE045
相似的先前句子
Figure 70838DEST_PATH_IMAGE046
。本发明认为具有相同主题的句子即为相似句子。在训练期间,本发明使用标准的实体集群来计算候选者和标准的句子主题集群。相比之下,在推理过程中,使用当前预测的共指簇来计算候选者。此外,使用 K-means计算的预测主题集群。通过最小化批量计算的交叉熵损失训练模型,单个句子中的所有M个实体形成一个批次,并且在M个顺序预测之后计算损失。对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出格式为(头实体,关系,尾实体)的三元组。头实体和尾实体分别表示主语和宾语,而关系就相当于连接主语和宾语的谓语。在记忆感知的语义图构建方法中,本发明使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代可以访问所有先前的提取。具体来说,首先通过将句子输入到序列到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列到序列架构中生成新的抽取结果,一直重复该过程直到生成EndOfExtractions,该符号表示抽取过程已结束。由于采用记忆感知的语义图构建方法中使用了序列到序列模型,为了训练该序列到序列模型,本发明需要一组句子—抽取对作为训练数据。人工构建数据集虽然效果很好,但是耗时耗力,无法构建大规模数据集。因此,本发明提出了一种自动构建句子—抽取对数据集的方法。通常来说,自动构建数据集分为两步,首先按照原始***输出的置信度降序对所有抽取结果进行排序。然后,按照模型的输入输出格式构建训练数据。但是简单地汇集所有抽取结果是行不通的。因为存在以下问题:1)无校准:不同***分配的置信度分数未校准到可比较的尺度。2)冗余提取:除了完全重复之外,多个***会产生类似的提取,但边际效用较低。3)错误的提取:池化不可避免地会污染数据,并且会放大错误的实例,迫使下游开放的信息抽取***学习质量较差的提取。为了解决上述问题,本发明使用了评分—过滤框架来获得高质量的抽取结果。评分:本发明涉及了一种模型对汇集的抽取结果进行评分,该模型在随机引导数据集上进行了预训练。随机引导数据集是通过从任何一个正在聚合的引导***中随机抽取每个句子的提取来生成的。该模型根据它的置信度值为池中的每个提取分配一个分数,通常来说,好的(正确的、信息丰富的)抽取结果会比坏的(不正确的)和冗余的抽取结果获得更高的值。过滤:然后过滤掉抽取结果中的冗余数据。对于给定的一组排序后的抽取结果,本发明希望选择具有最佳置信度分数的提取子集(由随机自举模型分配),同时与其他选定的提取具有最小的相似性。因此,本发明基于一组排序中所有的抽取结果构建了一个完整的加权图
Figure 672721DEST_PATH_IMAGE047
,图中的每个节点对应于一个抽取结果。每对节点
Figure 257286DEST_PATH_IMAGE048
由一条边连接。每条边都有一个相关的权重
Figure 362645DEST_PATH_IMAGE049
,表示两个对应提取之间的相似性。每个节点
Figure 374463DEST_PATH_IMAGE050
被分配一个分数
Figure 965107DEST_PATH_IMAGE051
,该分数等于随机引导模型给出的置信度。然后从中选择最佳子图
Figure 822205DEST_PATH_IMAGE052
,作为质量高的抽取结果,而图中的其他节点就默认为是冗余数据,被自动过滤。该过程用数学公式表示如下:
Figure 47650DEST_PATH_IMAGE053
,其中,
Figure 495948DEST_PATH_IMAGE054
表示图
Figure 541265DEST_PATH_IMAGE055
中的节点,
Figure 467633DEST_PATH_IMAGE056
表示节点
Figure 813163DEST_PATH_IMAGE057
Figure 901205DEST_PATH_IMAGE058
之间的ROUGE2分数。该公式的第一项指的是所有选定三元组的显着性总和,第二项指的是这些三元组之间的冗余信息。如果图
Figure 699397DEST_PATH_IMAGE059
有n个节点,那么上述目标可以设置为:
Figure 927990DEST_PATH_IMAGE060
;其中
Figure 128028DEST_PATH_IMAGE061
表示节点的得分,即
Figure 386971DEST_PATH_IMAGE062
,并且
Figure 672458DEST_PATH_IMAGE063
是具有条目
Figure 940629DEST_PATH_IMAGE064
Figure 729593DEST_PATH_IMAGE065
的对称矩阵。
Figure 690596DEST_PATH_IMAGE066
是决策向量,其中
Figure 463380DEST_PATH_IMAGE067
表示特定节点
Figure 269662DEST_PATH_IMAGE068
是否属于图
Figure 178712DEST_PATH_IMAGE069
。通过上述的评分—过滤框架,可以获得高质量的事实三元组,最后将实体作为节点,关系作为连接两个实体之间的边,构建出语义结构图。
3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,获得整张图的向量表示。具体来说,对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量。接着为了能够捕获节点之间的语义联系,本发明采用了关系增强的图Transformer对节点进行编码。该方法使用了关系增强的多头注意力机制得到每个节点
Figure 546502DEST_PATH_IMAGE070
的embedding向量
Figure 806582DEST_PATH_IMAGE071
Figure 150975DEST_PATH_IMAGE072
是节点embedding的大小,计算公式如下:
Figure 180111DEST_PATH_IMAGE073
其中,
Figure 482917DEST_PATH_IMAGE074
都是模型参数,多头注意力机制的作用是在对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系。这个过程用公式表示如下:
Figure 699134DEST_PATH_IMAGE075
,从公式中可以看出,多头注意力机制的关键点就在于将节点间的语义关系融入了查询向量
Figure 112798DEST_PATH_IMAGE076
和键向量
Figure 996441DEST_PATH_IMAGE077
中。其中,
Figure 204568DEST_PATH_IMAGE078
分别是是节点
Figure 672196DEST_PATH_IMAGE079
之间最短关系路径
Figure 623972DEST_PATH_IMAGE080
的编码。该编码结果通过将路径中所有关系节点的embedding向量相加得到。
最后,将语义结构图中的所有节点向量输入到全联接前馈网络(FullyConnectedFeed-forward Network,FFN)中获得最终的节点语义表示向量,并采用残差连接解决深度学习中的退化问题,计算公式如下:
Figure 362121DEST_PATH_IMAGE081
;其中,
Figure 6729DEST_PATH_IMAGE082
都是可训练的参数,
Figure 463118DEST_PATH_IMAGE083
是使用gelu激活函数的线性网络。
获得节点语义表示向量后,将图中位于同一事实三元组的节点向量输入到平均池化层中,得到该事实三元组的语义向量表示
Figure 218584DEST_PATH_IMAGE084
表示第
Figure 545660DEST_PATH_IMAGE085
个语义结构图中的第
Figure 361169DEST_PATH_IMAGE086
个事实三元组。类似的,在计算第
Figure 304855DEST_PATH_IMAGE085
个语义结构图的向量表示时,将图中包含的所有事实三元组表示向量输入到平均池化层中,得到该语义结构图的语义向量表示
Figure 365477DEST_PATH_IMAGE087
,计算公式如下:
Figure 78218DEST_PATH_IMAGE088
;其中,
Figure 799049DEST_PATH_IMAGE089
表示平均池化函数,
Figure 964451DEST_PATH_IMAGE090
代表第
Figure 61720DEST_PATH_IMAGE085
个语义结构图中的第
Figure 628968DEST_PATH_IMAGE086
个事实三元组中所有的节点embedding向量,
Figure 520701DEST_PATH_IMAGE091
代表第
Figure 438978DEST_PATH_IMAGE092
个语义结构图中所有的事实三元组向量。
4)对所述步骤1)得到答案感知的文本向量表示,将其送入Transformer模型中解码。并且在解码的每个时间步,基于双重规划(事实级规划和语义图级规划)选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成。如图3所示,具体来说,首先选择语义结构图
Figure 339938DEST_PATH_IMAGE093
,然后从语义结构图中选择相关的事实三元组
Figure 496113DEST_PATH_IMAGE094
,最后基于文本向量和选择的事实三元组更新解码器的隐状态
Figure 334580DEST_PATH_IMAGE095
,并生成当前词
Figure 474574DEST_PATH_IMAGE096
,计算过程如下:
Figure 913646DEST_PATH_IMAGE097
,其中,语义图级规划旨在在每个解码时间步,基于文本语义向量C和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示
Figure 455486DEST_PATH_IMAGE098
,为了防止解码器多次重复选择同一个语义图,本发明融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的语义结构图。计算过程如下:
Figure 220179DEST_PATH_IMAGE099
;其中,
Figure 581890DEST_PATH_IMAGE100
分别是对语义结构图
Figure 824653DEST_PATH_IMAGE101
的注意力和覆盖程度,
Figure 220999DEST_PATH_IMAGE102
都是模型参数。
在模型解码的每个时间步,对于选中的语义图会计算一个覆盖损失,计算方式如下:
Figure 625436DEST_PATH_IMAGE103
,然后将基于注意力的语义结构图表示
Figure 241487DEST_PATH_IMAGE104
和文本语义向量C拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成。
事实级规划旨在在每个解码时间步,基于文本语义向量C、之前时间步生成的单词以及被选择的语义结构图
Figure 22361DEST_PATH_IMAGE105
,通过注意力机制选择当前需要重点关注的事实三元组,得到第
Figure 538793DEST_PATH_IMAGE106
个语义结构图中基于注意力的事实三元组表示
Figure 114131DEST_PATH_IMAGE107
。与语义图级规划相似,为了防止解码器多次重复选择同一个事实三元组,本发明融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的事实三元组。
Figure 716014DEST_PATH_IMAGE108
,其中,
Figure 300579DEST_PATH_IMAGE109
分别是对事实三元组
Figure 671517DEST_PATH_IMAGE110
的注意力和覆盖程度,
Figure 417756DEST_PATH_IMAGE111
Figure 5470DEST_PATH_IMAGE112
都是模型参数。
同样的,在模型解码的每个时间步,对于选中的事实三元组会计算一个覆盖损失,计算方式如下:
Figure 393726DEST_PATH_IMAGE113
,然后将基于注意力的事实三元组表示
Figure 884751DEST_PATH_IMAGE114
和文本语义向量C拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。
5)设计损失函数,经过多次迭代,训练问题生成模型。损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失。其中,交叉熵损失指的是最小化所有模型参数的负对数似然,当给定文本D,答案A时,计算方式如下:
Figure 333049DEST_PATH_IMAGE115
,监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差,本发明还对每一步推理过程中选取的语义结构图和事实三元组的监督信息进行了统计,同时,对问题和答案进行解析,将答案和问题中涉及到的实体在文本中找到,由此确定标准的语义图
Figure 909524DEST_PATH_IMAGE116
和事实三元组
Figure 835892DEST_PATH_IMAGE117
。在问题生成的每个时间步,都会产生语义结构图的概率分布
Figure 915843DEST_PATH_IMAGE118
以及事实三元组的概率分布
Figure 269464DEST_PATH_IMAGE119
,这时将其与标准的应该被选择的语义结构图
Figure 569121DEST_PATH_IMAGE116
和事实三元组
Figure 299180DEST_PATH_IMAGE117
进行匹配,并计算相应的损失
Figure 968058DEST_PATH_IMAGE120
,公式如下:
Figure 758160DEST_PATH_IMAGE121
;覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,通过覆盖损失能有效避免重复选择同一个图里面的信息,因为一个图在过往选择的attention越高,产生的loss也越大。
最终的损失函数如下,其中,
Figure 43648DEST_PATH_IMAGE122
是用来平衡这些损失项的参数:
Figure 311818DEST_PATH_IMAGE123
;本实施例使用了如下指标进行评估:在自动评估方面,双语评估辅助(Bilingual Evaluation Understudy,BLEU)用于评测生成结果与标准结果的重合程度;显示排序翻译评估(Metric forEvaluation of Translation with Explicit Ordering,METEOR)用于评估生成结果与标准结果之间的语义相关性;面向召回率的摘要评估辅助(Recall-Oriented Understudyfor Gisting Evaluation,ROUGE-L)评估生成结果和标准结果之间的最长公共子串。在人工评估方面,流畅性用于说明生成结果表述的流畅程度;相关性评测生成结果和给定输入文本的相关程度;复杂性指的是生成问题是否复杂,对复杂性的评估可以通过观察句子中包含从句的数量、修饰词的个数以及回答该问题需要进行多跳推理的步数。正确性指的是生成问题中包含的事实是否正确,即事实三元组是否存在于给定的源文本中、实体和关系是否匹配。
为了验证本发明的效果,在常用数据集SQuAD、MSMARCO上进行了自动评测和人工评测。实验结果如下:
表1不同方法在SQuAD上的自动评测结果;
Figure 100782DEST_PATH_IMAGE124
表2不同方法在MSMARCO上的自动评测结果;
Figure 61785DEST_PATH_IMAGE125
表3不同方法在MSMARCO上的人工评测结果;
Figure 568990DEST_PATH_IMAGE126
本发明在多个数据集上都达到了最优的性能,相较于其他方法,有较大的提升。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (9)

1.一种基于双重规划的篇章级复杂问题生成方法,其特征在于,该方法包括如下步骤:
1)采用预训练语言模型BERT对给定的文章和答案进行编码,获得答案感知的文本向量表示,
2)对于给定文章中的每个句子序列,利用自适应跨句指代消解技术对该句子序列进行初步处理,然后采用记忆感知的语义图构建方法构建出细粒度的语义结构图,
3)对所述步骤2)最终得到的细粒度语义结构图,将图中的边也当作节点进行处理,通过多头注意力图编码器,首先获得句子中每个节点的向量表示,然后获得单个事实的向量表示,最后获得整张图的向量表示,
4)对所述步骤1)得到答案感知的文本向量表示,将其送入Transformer模型中解码,并且在解码的每个时间步,基于双重规划即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成,
5)设计损失函数,经过多次迭代,训练问题生成模型;
其中,所述步骤4)中,基于文本和语义结构图的编码结果,利用Transformer作为解码器,生成问题,在解码的每个时间步,基于双重规划即事实级规划和语义图级规划,选择需要重点关注的语义图和其中的事实三元组,辅助当前词的生成,具体来说,首先选择语义结构图,然后从语义结构图中选择相关的事实三元组,最后基于文本向量和选择的事实三元组更新解码器的隐状态,并生成当前词,
其中,语义图级规划旨在在每个解码时间步,基于文本语义向量
Figure QLYQS_1
和之前时间步生成的单词,通过注意力机制选择当前需要重点关注的语义结构图,得到基于注意力的语义结构图表示,然后将基于注意力的语义结构图表示和文本语义向量
Figure QLYQS_2
拼接起来,共同通过softmax层,计算得到每个子图的概率,从中选出概率最高的子图指导当前问题生成,
事实级规划旨在在每个解码时间步,基于文本语义向量
Figure QLYQS_3
、之前时间步生成的单词以及被选择的语义结构图,通过注意力机制选择当前需要重点关注的事实三元组,得到第k个语义结构图中基于注意力的事实三元组表示,然后将基于注意力的事实三元组表示和文本语义向量
Figure QLYQS_4
拼接起来,共同通过softmax层,计算得到每个事实三元组的概率,从中选出概率最高的事实三元组指导当前问题生成。
2.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤1)中,采用BERT对给定的文本和答案进行编码,输入形式为
Figure QLYQS_5
,具体为,将文本序列和答案进行拼接,中间***分隔符
Figure QLYQS_6
,将文本和答案分隔开来,在开头***特定的分类标识符
Figure QLYQS_7
,通过BERT的预训练过程后,该分类标识符会学到融合文本和答案的表征信息,用向量C表示。
3.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,对给定文章中的每个句子序列都构建一个细粒度语义结构图,首先采用自适应跨句指代消解技术,将代词替换成其指代的实体,便于后续构图时对实体进行融合,在自适应跨句指代消解技术中,需要将实体mention替换成现实世界的实体,首先要将每个实体mention表示成语义向量,然后通过在softmax层中输入相似性特征来预测查询实体
Figure QLYQS_8
和一组候选对象之间的共指链接,并预测实体
Figure QLYQS_9
和具有最大共指概率的候选者之间的联系。
4.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,采用了自适应跨句指代消解技术,为了预测跨句子的共指链接,采用一种算法,来遍历句子列表并预测当前句子中提及的实体和跨所有先前句子计算的候选集群之间的共指链接,该算法首先对句子列表D进行任意排序,然后,对于每个句子
Figure QLYQS_11
中的实体
Figure QLYQS_14
,从先前的句子
Figure QLYQS_17
的共指集中计算候选集
Figure QLYQS_12
,其中,
Figure QLYQS_15
Figure QLYQS_18
表示句子的数量,
Figure QLYQS_20
,之后预测
Figure QLYQS_10
和一个候选对象
Figure QLYQS_13
之间的共指链接
Figure QLYQS_16
,最后,更新预测的候选集并重新计算
Figure QLYQS_19
的新候选对象。
5.根据权利要求4所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,采用自适应跨句指代消解技术预测共指链接时,每个实体
Figure QLYQS_21
的可能候选者的数量会随着先前句子的数量的增加而增长,计算成本增加,在计算过程中仅考虑与句子
Figure QLYQS_22
相似的先前句子
Figure QLYQS_23
6.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤2)中,对每个句子经过指代消解后,采用记忆感知的语义图构建方法,从句子中抽取出实体关系三元组,构建出语义图,在记忆感知的语义图构建方法中,使用了迭代存储器将每轮生成的抽取结果都存储到内存中,以便下一次解码迭代访问所有先前的提取,首先通过将句子输入到序列架构中生成第一次抽取结果,然后将抽取结果与源句子拼接后再次输入到序列架构中生成新的抽取结果,一直重复该过程直到生成EndOfExtractions,表示抽取过程已结束;
所述步骤2)中,采用记忆感知的语义图构建方法中使用了序列到序列模型,使用了得评分框架来获得高质量的抽取结果,首先对汇集的抽取结果进行评分,好的抽取结果会比坏的和冗余的抽取结果获得更高的值,然后过滤掉抽取结果中的冗余数据,通过上述的评分框架,获得高质量的事实三元组,从而构建语义图。
7.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤3)中,对语义结构图进行编码时,将结构图中的边也当作节点进行编码,对于某个语义结构图,首先采用预先训练好的词向量初始化其中的节点embedding向量,接着为了能够捕获节点之间的语义联系,采用了关系增强的图Transformer对节点进行编码,该方法使用了关系增强的多头注意力机制得到每个节点的embedding向量,使得对语义结构图中的每个节点进行编码的时候,不仅包含当前节点的编码信息,还包含语义结构图中其他节点的信息,即保留了当前节点和其余节点之间的联系,最后,将语义结构图中的所有节点向量输入到全联接前馈网络(Fully ConnectedFeed-forward Network,FFN)中获得最终的节点语义表示向量,并采用残差连接解决深度学***均池化层中,得到该事实三元组的语义向量表示。
8.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤4)中,解码生成问题的过程中,融入了覆盖机制,鼓励解码器在生成单词时能够覆盖到所有的语义结构图和所有的事实三元组。
9.根据权利要求1所述的基于双重规划的篇章级复杂问题生成方法,其特征在于,所述步骤5)中,损失函数由三个部分组成—交叉熵损失、监督信息损失、覆盖损失,其中,交叉熵损失指的是最小化所有模型参数的负对数似然,监督信息损失指的是双重规划选择的语义图和事实与标准的语义图和事实之间存在的偏差,覆盖损失指的是在所述步骤4)中计算语义图和事实的覆盖向量时,会额外计算覆盖损失,以此来约束模型反复注意某个语义图或者某个事实。
CN202211394785.6A 2022-11-09 2022-11-09 一种基于双重规划的篇章级复杂问题生成方法 Active CN115510814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211394785.6A CN115510814B (zh) 2022-11-09 2022-11-09 一种基于双重规划的篇章级复杂问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211394785.6A CN115510814B (zh) 2022-11-09 2022-11-09 一种基于双重规划的篇章级复杂问题生成方法

Publications (2)

Publication Number Publication Date
CN115510814A CN115510814A (zh) 2022-12-23
CN115510814B true CN115510814B (zh) 2023-03-14

Family

ID=84513613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211394785.6A Active CN115510814B (zh) 2022-11-09 2022-11-09 一种基于双重规划的篇章级复杂问题生成方法

Country Status (1)

Country Link
CN (1) CN115510814B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795018B (zh) * 2023-02-13 2023-05-09 广州海昇计算机科技有限公司 一种面向电网领域的多策略智能搜索问答方法及***
CN116662582B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
CN117151069B (zh) * 2023-10-31 2024-01-02 中国电子科技集团公司第十五研究所 一种保障方案生成***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538838B (zh) * 2020-04-28 2023-06-16 中国科学技术大学 基于文章的问题生成方法
CN113065336B (zh) * 2021-05-06 2022-11-25 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置

Also Published As

Publication number Publication date
CN115510814A (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
US20180329884A1 (en) Neural contextual conversation learning
CN107944027B (zh) 创建语义键索引的方法及***
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN116450796B (zh) 一种智能问答模型构建方法及设备
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN111125520A (zh) 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
US20230014904A1 (en) Searchable data structure for electronic documents
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN114429143A (zh) 一种基于强化蒸馏的跨语言属性级情感分类方法
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN113283488B (zh) 一种基于学习行为的认知诊断方法及***
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质
CN113590745B (zh) 一种可解释的文本推断方法
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
CN111767388B (zh) 一种候选池生成方法
Song Distilling knowledge from user information for document level sentiment classification
CN114896966A (zh) 一种中文文本语法错误定位方法、***、设备及介质
Pei et al. Visual relational reasoning for image caption
CN115729532B (zh) 基于生成对抗网络的Java程序方法名推荐方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant