CN112597296A

CN112597296A - 一种基于计划机制和知识图谱引导的摘要生成方法

Info

Publication number: CN112597296A
Application number: CN202011495634.0A
Authority: CN
Inventors: 林镇坤; 苏勤亮
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-02
Anticipated expiration: 2040-12-17
Also published as: CN112597296B

Abstract

本发明提供一种基于计划机制和知识图谱引导的摘要生成方法，该方法直接将知识图谱作为模型的输入，并且在摘要解码的过程中无间断的知识图谱的全局语义特征上抽取注意力特征，维持摘要上下文的语义一致性；相对于采用图神经网络作为编码器的文本生成模型，本发明通过有监督的标注摘要中各个句段所涵盖的实体信息，以训练模型的计划机制模块能够在生成句段前捕获已生成文本的语义特征，由此进一步显式的抽取知识图谱的子图作为细粒度的引导，从而指引模型生成语义更加流畅，逻辑更加自洽的摘要文本。

Description

一种基于计划机制和知识图谱引导的摘要生成方法

技术领域

本发明涉及人工智能算法领域，更具体地，涉及一种基于计划机制和知识图谱引导的摘要生成方法。

背景技术

互联网的资讯呈指数级增长，为数亿互联网用户提供各种内容和信息。用户的期望是能够快速，便利的获取资讯的主要信息和阅读摘要，然而，目前互联网上各类长文的摘要文本生成和提炼主要通过专业编辑人工撰写完成，不仅耗时耗力，还无法满足市场的需求。

近年来，随着人工智能和大数据的发展，机器写稿和文本类信息摘要技术取得了显著的进展。摘要自动生成技术逐渐商用，并且在各个应用场景中逐渐取代人工进行生产和服务。摘要生成是自然语言处理的一个重要领域，其可以分为抽取式摘要和生成式摘要。抽取式摘要主要是计算机程序从较长的源文本中筛选出重要的，具有代表性的短句，作为该文的摘要，而生成式摘要的任务是计算机程序在理解源文本蕴含的语义后，重新自主的生成摘要内容。生成式摘要的适用场景较为灵活，困难和问题也更有挑战。

生成式摘要主要有2大局限和挑战：首先，计算机程序在进行源文本的输入和处理时，往往无法捕捉关键信息和理解复杂的语义逻辑，更进一步的，在本发明；其次是现有的自动撰写***还无法很好的利用人类高度概括和总结的知识和经验以辅助文本的生成，导致生成式摘要大多会出现逻辑矛盾，语序不通，重复等缺陷。这种情况下，就需要计算机程序既能够理解和处理输入端的复杂领域知识，又能够利用人类知识来提升生成文本的语法和语义质量。

发明内容

本发明提供一种提高模型表达能力的基于计划机制和知识图谱引导的摘要生成方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于计划机制和知识图谱引导的摘要生成方法，该方法应用在一种基于计划机制和知识图谱引导的摘要生成***上，该***包括语义编码器、计划机制模块、摘要解码器和内容理解器，包括以下步骤：

S1：语义编码器提取知识图谱特征，得到命名实体在多关系描述下的全局语义特征；

S2：内容理解器将已经生成的句段进行内容理解，得到已经表达的三元组子序列的特征；计划机制模块利用双向注意力流，计算三元组的在当前语境下的注意力权重，进而得出当前语境下需要蕴含的局部语义特征；

S3：摘要解码器将S1和S2得到的全局和局部语义特征进行融合，以句段为单位生成文本摘要。

进一步地，所述步骤S1的具体过是：

首先对其本发明通过信息抽取工具在大规模语料上进行命名实体识别和关系抽取，得到专业领域的知识经验，从而显式的描述和用户期望生成摘要的语义；

特征向量初始化模块，将异构的知识图谱转换为特征向量初始化表示：

s＝node_encode(x_s) (1)

r＝relation_encode(x_t) (2)

其中，实体经过node_encode函数实现特征向量化得到s，多关系属性边经过relation_encode实现特征向量化得到r；relation_encode函数的具体实现是，首先将输入源x映射到one hot层，然后通过one hot层的索引到embedding层查找相对应的特征向量，如公式(3)；node_encode函数实现和relation_encode函数类似，不同在于，由于实体多数情况下由若干个词组成，所以node_encode函数在得到各个词的特征向量表示后，还需要序列神经网络串联，取最后一个时刻的隐层状态特征作为实体的特征向量表示：

relation_encode()＝embedding(one_hot()) (3)

node_encode()＝lstm(embedding(one_hot())) (4)

使用异构图神经网络将信息在实体与实体之间进行传播，从而更新实体的特征向量表示，实现整体语义信息的融合；给定已经初始化的实体特征s，经过图神经网络层，得到知识图谱的最终特征向量kg，如公式(5)：

s_graph＝graph_encode(s) (5)

其中，图神经网络的具体实现为，每个实体的信息都通过三元组所定义的属性边进行广播，即每个实体都会聚合来自邻居节点的信息；广播的信息经过不同的图注意力权重和边信息加工，最终与实体节点信息融合，实现实体信息的更新，如公式(6)：

其中，N代表节点s的一阶邻居集合，a_(n，s)代表s相对于n的经过softmax的注意力权重，r是连接节点s和节点n的属性边的特征向量，W是可训练的融合信息矩阵，RELU是激活函数；通过该异构图神经网络，模块S1最终得到名实体在多关系描述下的全局语义特征，该特征为实体最终的特征向量的无序集合，如公式(7)：

KG＝{s_graph} (7)。

进一步地，所述步骤S2中，所述内容理解模块理解已经生成的句段所涵盖的信息：

若当前已经生成m-1句话，首先通过正则表达式，抽取当前语境下，模型已经覆盖和表达的三元组子集x_past，然后复用语义编码器，得到当前已经涵盖的知识图谱子图的语义特征KG_past。

进一步地，所述步骤S2中，所述计划机制模块通过计算输入源的知识图谱KG和已经涵盖的知识图谱子图的语义特征KG_past的交互融合语义特征，得出相似度分数，从而筛选出第m-1句所要表达的知识图谱子图：

通过双向注意力流链接与融合KG和KG_past的信息，假设KG由T个实体构成，KG_past由J(T≥J)个实体构成，经过双向的注意力机制，可以得到相似度矩阵S∈R^T*J，相似度矩阵的计算方法如公式(8)：

S^tj＝w^T[h_t；u_j] (8)

其中S^tj的含义是KG中的第t个节点特征向量h_t与已经涵盖的子图KG_past的第j个节点特征向量u_j的相似度分数，w是可学习的权重向量，分号“；”为向量拼接；相似度矩阵S，首先筛选出第m句所要表达的知识图谱子图，筛选机制会计算KG节点与当前语义特征的重合度，并挑选出重合度较低的实体节点子集，如公式(9)(10)

α^repeat＝softmax(S^t) (9)

其中，S^t为相似度矩阵第t行求和，α^repeat为KG的每个节点与当前KG_past的重合度得分，γ为人工设置的经验参数，KG_next为KG中重合度得分小于γ的实体子集。

进一步地，所述步骤S3的具体过程是：

摘要解码器包括序列神经网络，注意力机制和拷贝机制构成，序列神经网络以句段为单位进行生成，输入端为步骤S2得到的局部语义特征KG_next和步骤S1得到的全局语义特征KG；在当前句段，序列神经网络将历史生成文本编码至隐藏层状态，结合当前词的特征和当前隐藏层与全局语义特征的注意力机制，得到下一个词的隐藏层状态特征，如公式(11)(12)：

h^t＝RNN([h^t-1；c]) (11)

c＝∑_s∈KGα(h^t-1，s)·s (12)

其中h^t为序列神经网络的第t个隐藏层状态，c为语义向量特征，由KG中的节点s特征向量加权和得到，α(h^t-1，s)为t-1时刻的隐藏层状态和KG中的节点s的经过softmax的注意力权重；

拷贝机制，得到第t个时刻的隐藏层状态h^t后，分别经过多层感知机网络得到拷贝概率，经过多层感知机网络得到词表概率分布，以及与S2模块的知识图谱子图的所有节点做注意力交互得到实体概率分布，通过拷贝权重的加权，得到下一个词的概率分布，如公式(13)(14)(15)(16)：

p_copy＝W_copyh^t (13)

p_vocab＝softmax(W_vocabh^t) (14)

p_entity＝α(h^t，KG_next) (15)

p_word＝(1-p_copy)*p_vocab+p_copy*p_entity (16)

摘要解码器完成当前句段的生成后，驱动计划机制模块更新历史覆盖知识图谱子图和内容理解模块，从而实现下一句段的计划机制模块。

进一步地，异构图神经网络、序列神经网络和注意力模型均采用摘要生成的机器文本和人工撰写的摘要文本之间的交叉熵损失函数进行学习。

进一步地，针对计划机制所涉及的知识图谱子图，预先人为的标注当前摘要的所有句段所涵盖的实体子集作为监督信号；在训练阶段，直接选择真实的实体子集参与到步骤S3中的摘要生成，并且利用真实实体子集构成的概率分布和模型预测的实体子集概率分布之间的交叉熵损失函数进行学习。

进一步地，在上线阶段，该方法采用模型预测的实体子集，进一步辅助步骤S3中的摘要生成。

与现有技术相比，本发明技术方案的有益效果是：

本发明直接将知识图谱作为模型的输入，并且在摘要解码的过程中无间断的知识图谱的全局语义特征上抽取注意力特征，维持摘要上下文的语义一致性；相对于采用图神经网络作为编码器的文本生成模型，本发明通过有监督的标注摘要中各个句段所涵盖的实体信息，以训练模型的计划机制模块能够在生成句段前捕获已生成文本的语义特征，由此进一步显式的抽取知识图谱的子图作为细粒度的引导，从而指引模型生成语义更加流畅，逻辑更加自洽的摘要文本。另外，传统的神经网络文本生成模型，大多数利用单向注意力机制来理解语义生成文本，即通过decoder的隐藏层作为query，encoder的输入源的特征作为key，从而得到语义特征；而本发明采用双向注意力流机制，不仅让decoder去“理解”encoder，还让encoder去理解decoder，即encoder的输入源作为query，decoder已经表达的知识图谱子图作为key，从而确定decoder已经蕴含的语义，由此通过筛选，得到下一句段期望表达的知识特征。本发明能够理解人类知识以生成复杂的摘要文本，提高模型的表达能力；

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于计划机制和知识图谱引导的摘要生成方法，该方法应用在一种基于计划机制和知识图谱引导的摘要生成***上，该***包括语义编码器、计划机制模块、摘要解码器和内容理解器，包括以下步骤：

步骤S1的具体过是：

s＝node_encode(x_s) (1)

r＝relation_encode(x_t) (2)

relation_encode()＝embedding(one_hot()) (3)

node_encode()＝lstm(embedding(one_hot())) (4)

s_graph＝graph_encode(s) (5)

其中，N代表节点s的一阶邻居集合，a_(n,s)代表相对于n的经过softmax的注意力权重，r是连接节点s和节点n的属性边的特征向量，W是可训练的融合信息矩阵，RELU是激活函数；通过该异构图神经网络，模块S1最终得到名实体在多关系描述下的全局语义特征，该特征为实体最终的特征向量的无序集合，如公式(7)：

KG＝{s_graph} (7)。

步骤S2中，所述内容理解模块理解已经生成的句段所涵盖的信息：

步骤S2中，所述计划机制模块通过计算输入源的知识图谱KG和已经涵盖的知识图谱子图的语义特征KG_past的交互融合语义特征，得出相似度分数，从而筛选出第m-1句所要表达的知识图谱子图：

S^tj＝w^T[h_t；u_j] (8)

α^repeat＝softmax(S^t) (9)

步骤S3的具体过程是：

h^t＝RNN([h^t-1；c]) (11)

c＝∑_s∈KGα(h^t-1，s)·s (12)

p_copy＝W_copyh^t (13)

p_vocab＝softmax(W_vocabh^t) (14)

p_entity＝α(h^t，KG_next) (15)

p_word＝(1-p_copy)*p_vocab+p_copy*p_entity (16)

异构图神经网络、序列神经网络和注意力模型均采用摘要生成的机器文本和人工撰写的摘要文本之间的交叉熵损失函数进行学习。

针对计划机制所涉及的知识图谱子图，预先人为的标注当前摘要的所有句段所涵盖的实体子集作为监督信号；在训练阶段，直接选择真实的实体子集参与到步骤S3中的摘要生成，并且利用真实实体子集构成的概率分布和模型预测的实体子集概率分布之间的交叉熵损失函数进行学习。

在上线阶段，该方法采用模型预测的实体子集，进一步辅助步骤S3中的摘要生成。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于计划机制和知识图谱引导的摘要生成方法，该方法应用在一种基于计划机制和知识图谱引导的摘要生成***上，该***包括语义编码器、计划机制模块、摘要解码器和内容理解器，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，所述步骤S1的具体过是：

s＝node_encode(x_s) (1)

r＝relation_encode(x_t) (2)

relation_encode()＝embedding(one_hot()) (3)

node_encode()＝lstm(embedding(one_hot())) (4)

s_graph＝graph_encode(s) (5)

KG＝{s_graph} (7)。

3.根据权利要求2所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，所述步骤S2中，所述内容理解模块理解已经生成的句段所涵盖的信息：

4.根据权利要求3所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，所述步骤S2中，所述计划机制模块通过计算输入源的知识图谱KG和已经涵盖的知识图谱子图的语义特征KG_past的交互融合语义特征，得出相似度分数，从而筛选出第m-1句所要表达的知识图谱子图：

S^tj＝w^T[h_t；u_j] (8)

α^repeat＝softmax(S^t) (9)

5.根据权利要求4所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，所述步骤S3的具体过程是：

h^t＝RNN([h^t-1；c]) (11)

c＝∑_s∈KGα(h^t-1，s)·s (12)

p_copy＝W_copyh^t (13)

p_vocab＝softmax(W_vocabh^t) (14)

p_entity＝α(h^t，KG_next) (15)

p_word＝(1-p_copy)*p_vocab+p_copy*p_entity (16)

6.根据权利要求5所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，异构图神经网络、序列神经网络和注意力模型均采用摘要生成的机器文本和人工撰写的摘要文本之间的交叉熵损失函数进行学习。

7.根据权利要求6所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，针对计划机制所涉及的知识图谱子图，预先人为的标注当前摘要的所有句段所涵盖的实体子集作为监督信号；在训练阶段，直接选择真实的实体子集参与到步骤S3中的摘要生成，并且利用真实实体子集构成的概率分布和模型预测的实体子集概率分布之间的交叉熵损失函数进行学习。

8.根据权利要求7所述的基于计划机制和知识图谱引导的摘要生成方法，其特征在于，在上线阶段，该方法采用模型预测的实体子集，进一步辅助步骤S3中的摘要生成。