CN112148863B

CN112148863B - 一种融入常识知识的生成式对话摘要方法

Info

Publication number: CN112148863B
Application number: CN202011104023.9A
Authority: CN
Inventors: 冯骁骋; 冯夏冲; 秦兵; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-07-01
Anticipated expiration: 2040-10-15
Also published as: CN112148863A

Abstract

一种融入常识知识的生成式对话摘要方法，属于自然语言处理领域。本发明解决了现有生成式对话摘要方法未利用常识知识而导致生成的对话摘要不准确，抽象性低的问题。本发明方法包括：获取常识知识库ConceptNet与对话摘要数据集SAMSum；利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识，构建异构对话图；练步骤三中构造的对话异构神经网络模型，通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。本发明应用于对话摘要的生成。

Description

一种融入常识知识的生成式对话摘要方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种融入常识知识的生成式对话摘要方法。

背景技术

基于自然语言处理—自动文本摘要(AutomaticSummarization)^[1](题目：Constructing literature abstracts by computer:techniques and prospects，作者：Chris D Paice，年份：1990年，文献引自Information Processing&Management)领域下的生成式对话摘要(Abstractive DialogueSummarization)，即给定一段多人对话的文字记录，生成一段简短的、包含对话关键信息的文本描述，如图1，展示了一个多人对话及其对应的标准摘要。

对于对话摘要，现有工作大多集中于生成式(Abstractive)方法，即允许最终摘要包含原文没有的新颖的词汇和短语。例如Liu等人^[2][题目：Automatic dialogue summarygeneration for customer service，作者：Chunyi Liu，年份：2019年，文献引自Proceedings of the 25th ACM SIGKDD International Conference on KnowledgeDiscovery&Data Mining]针对客服对话摘要任务，采用多步生成方式生成对话摘要，Liu等人^[3][题目：Topic-aware pointer-generator networks for summarizing spokenconversations，作者：Zhengyuan Liu，年份：2019年，文献引自arXiv preprint]针对医患对话摘要任务，融入主题信息建模对话，生成最终摘要。Ganesh等人^[4][题目：Abstractivesummarization of spoken and written conversation，作者：Prakhar Ganesh，年份：2019年，文献引自arXiv preprint]利用对话篇章结构作为规则去除对话中的无用句子，然后生成对话摘要。近期，在对话回复生成^[5][题目：Commonsense knowledge awareconversation generation with graph attention.，作者：Hao Zhou，年份：2018年，文献引自IJCAI,]和对话上下文建模^[6][题目：Masking orchestration:Multi-taskpretraining for multi-role dialogue representation learning，作者：Tianyi Wang，年份：2020年，文献引自AAAI]等任务中显示，尽管目前基于神经网络的摘要模型已经有很强的学习能力，但是现有方法忽略了常识知识的利用，一方面会导致模型无法更好的理解对话文本，生成质量低的摘要；另一方面缺少常识知识，会导致生成摘要抽象性较低。通过融入显式的常识知识可以帮助模型更好的完成任务，融入常识知识的对话摘要可以帮助模型理解对话背后的高层含义；还可以作为不连贯句子之间的桥梁，帮助更好的理解对话。然而，现有的对话摘要***却忽视了常识知识的利用。

常识知识可以帮助对话摘要***生成更高质量的摘要。如图1，通过“接”和“车坏了”可以知道鲍勃希望汤姆让他“搭便车”，引入显式的常识知识“搭便车”，可以帮助更好的生成对话摘要。在融入常识知识之后，为了更好的建模说话人，句子和常识知识三类数据，可利用异构图神经网络建模三类数据，并生成最终摘要。

发明内容

本发明是为了解决现有生成式对话摘要方法未利用常识知识而导致生成的对话摘要不准确，抽象性低的问题。现提出一种融入常识知识的生成式对话摘要方法。

一种融入常识知识的生成式对话摘要方法，包括：

步骤一、获取常识知识库ConceptNet与对话摘要数据集SAMSum；包含的常识知识以元组的形式存在，即元组知识，表示为：

R＝(h,r,t,w)，

其中，R表示一个元组知识；表示头实体；r表示关系；t表示尾实体；w表示权重，表示关系的置信度；知识R表示了头实体和尾实体t拥有关系r，并且权重为w；

所述对话摘要数据集SAMSum分为训练、开发和测试三部分；

步骤二、利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识，构建异构对话图；具体过程为：

步骤三、构建对话异构神经网络模型；所述对话异构神经网络模型包括节点编码器、图编码器和解码器；

步骤三一、构造节点编码器，利用双向长短时神经网络获取节点初始化表示

和词语初始化表示

步骤三二、构造图编码器，利用异构图神经网络更新节点表示，并添加节点位置编码信息和更新词语表示

步骤三三、构造解码器；

步骤四、训练步骤三中构造的对话异构神经网络模型，通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。

有益效果

融入常识知识的对话摘要可以帮助模型理解对话背后的高层含义；

融入常识知识的对话摘要可以作为不连贯句子之间的桥梁，帮助更好的理解对话；

通过引入常识知识，可以帮助模型生成更加抽象和具有概括性的摘要；

本发明在对话摘要任务中引入常识知识，将对话中的说话人，句子和常识知识三类数据建模为异构对话图，利用异构图神经网络建模整个异构对话图。

整个模型采用图到序列框架，生成最终对话摘要。解决了现有生成式对话摘要忽略常识知识利用的问题。在本发明方法进行实验后生成的摘要中，生成了更加抽象和正确的摘要，更好的概括了对话内容，显示了本发明方法的有效性，在评价指标ROUGE上本发明方法比现有的方法取得了更好的结果。

ROUGE是一种基于召回率的相似性度量方法，是评估自动文摘以及机器翻译的一组指标，考察翻译的充分性和忠实性，值越高越好。ROUGE-1、ROUGE-2、ROUGE-L的计算分别涉及一元语法、二元语法和最长公共子序列。

附图说明

图1为一个多人对话及其对应的标准摘要示意图；

图2为SAMSum对话摘要数据集对话摘要对示例；

图3为SAMSum数据集中对话-摘要对示例；

图4为从ConceptNet中获取的相关知识三元组；

图5为本发明所构建的句子-知识图；

图6为本发明所构建的说话人-句子图；

图7为本发明所构建的异构对话图；

图8为本发明模型示意图，其中(a)异构对话图构建，(b)节点编码器，(c)图编码器，(d)解码器。

具体实施方式

具体实施方式一：本实施方式一种融入常识知识的生成式对话摘要方法，包括：

步骤一：获取大规模常识知识库ConceptNet与对话摘要数据集SAMSum。

步骤一一、获取大规模常识知识库ConceptNet：

从http://conceptnet.io/获取大规模常识知识库ConceptNet；其中包含的常识知识以元组的形式存在，即元组知识，可以表示为：

R＝(h,r,t,w)，

其中，R表示一个元组知识；h表示头实体；r表示关系；t表示尾实体；w表示权重，表示关系的置信度；知识R表示了头实体h和尾实体t拥有关系r，并且权重为w；例如R＝(打电话，相关，联系，10，表示了“打电话”与“联系”的关系是“相关”，并且权重是10；通过网址http://conceptnet.io/可以获得大规模以元组形式存在的常识知识。

步骤一二、获取对话摘要数据集SAMSum：

从https://arxiv.org/abs/1911.12237可以获得对话摘要数据集SAMSum，该数据集分为训练、开发和测试三个部分，训练、开发和测试三个部分的数量分别为14732，818，819，该划分为统一标准的固定划分；该数据集主要描述了参与者之间的闲聊等主题，且每一个对话都有对应的标准摘要；图2给出了该数据集的一个示例；

步骤二、利用获取到的大规模常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识，并构建异构对话图；

步骤三、构造对话异构神经网络模型；该模型主要包括三个部分：节点编码器，图编码器和解码器三个部分；

步骤三一、构造节点编码器，利用双向长短时神经网络(Bi-LSTM)获取节点初始化表示

和词语初始化表示

(其中

与

均在步骤三二进行更新)；

步骤三三、构造解码器，利用单向长短时记忆网络(LSTM)解码器来生成摘要；

步骤四：训练步骤三中构造的对话异构神经网络模型，通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二利用获取到的大规模常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识，并构建异构对话图；具体过程为：

步骤二一、获取对话相关知识；对于一段对话，本发明首先根据对话中的词语从ConceptNet中获取一系列相关元组知识，排除噪音知识，最终可以得到与给定对话相关的元组知识集合，如图4；

步骤二二、构建句子—知识图：

对于步骤二一获取到的相关元组知识中，假设存在句子A和句子B，词语a属于句子A，词语b属于句子B，如果a和b的相关知识的尾实体h一致，那么将句子A和句子B连接到尾实体h；得到句子—知识图；例如图5，句子A为“你有贝蒂的号码吗”，句子B为“劳拉上次呼叫了她”；词语a和b分别为“号码”和“呼叫”；存在相关知识元组(号码，位于，电话本)和(呼叫，相关，电话本)，那么将句子A和B连接到实体“电话本”；

通过上述方式获得到的常识知识会存在多余和重复的问题，因此本发明还需要简化元组知识，通过简化知识，可以引入更加干净和质量更高的常识知识；

(1)如果句子A和B连接多个实体，那么选择边关系平均权重最高的一个，例如图5所示，“电话本”的平均权重大于“日期”的平均权重，那么选择“电话本”；

(2)如果不同对句子分别连接到同一个实体，那么将该实体合并成为一个实体，例如图5所示，两个“联系”实体合并为一个“联系”实体；

步骤二三、构建说话人-句子图：

根据“说话人说的一句话”建立说话人与句子之间的边关系，得到说话人-句子图，如图6所示；

步骤二四、融合句子-知识图与说话人-句子图：

在句子-知识图与说话人-句子图中，句子部分相同，因此将句子部分合并，融合句子-知识图和说话人-句子图为最终的异构对话图；构造出的异构对话图均在说话人和句子之间存在两种边，从说话人到句子的“speak-by”边，从句子到说话人的“rev-speak-by”边；在句子和知识之间存在两种边，从知识到句子的“know-by”边，从构造出的异构对话图均存在三类节点：说话人，句子，常识知识。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤三一、构造节点编码器，利用双向长短时神经网络(Bi-LSTM)获取节点初始化表示

和词语初始化表示

具体过程为：

对于步骤二本发明提出的异构对话图，其中每一个节点v_i包含|v_i|个单词，单词序列为

其中w_i,n表示节点v_i的第n个单词，n∈[1,|v_i|]；使用双向长短时神经网络(Bi-LSTM)来对单词序列

生成前向隐层序列

和后向隐层序列

其中，前向隐层状态

后向隐层状态

x_n表示w_i,n的词向量表示；将前向隐层状态的最后一个隐层表示与后向隐层状态的第一个隐层表示拼接得到节点的初始化表示

其中，；表示向量拼接；同时可以得到节点中每一个词语的初始化表示

如图8所示。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三二构造图编码器，利用异构图神经网络更新节点表示，并添加节点位置编码信息和更新词语表示

具体过程为：

给定一个目标节点t，可以得到其邻居节点s∈N(t)，其中，N(t)表示t的邻居节点集合，s表示其中一个邻居节点；给定一个边e＝(s,t)，表示从邻居节点s指向目标节点t的一条边，定义：(1)节点类型映射函数为：

其中，τ表示节点类型映射函数；v表示给定节点；V表示节点集合；

表示节点类型集合；在步骤二构造的异构对话图中，一共包含说话人、句子、常识知识三种节点类型；

(2)边关系类型映射函数为：

其中，

表示边类型映射函数；e表示给定边；E表示边集合；

表示边类型集合；

在步骤二构造的异构对话图中，一共包含四种类型的边：speak-by，rev-speak-by，know-by，rev-know-by；对于给定边e＝(s,t)，s和t分别拥有来自上一层的表示

和

首先将

和

映射为

和

其中，

表示与层数有关的映射函数，

表示与类型有关的映射函数，l表示图网络的第l层，

表示邻居节点s在l层的键值表示，

表示节点t在l层的查询表示；

然后计算

和

之间的权重：

其中，

表示与层数和边类型有关的可学习参数；T表示转置；α(s,e,t)表示

和

之间的权重；

在得到每一个邻居节点s与目标节点t之间的权重后，对所有权重进行归一化：

其中，Softmax为归一化函数，ATT^(l)(s,e,t)为最终归一化之后的分数；

将每一个邻居节点s表示

映射为：

其中，

为与类型和层数有关的映射函数；

表示邻居节点s在l层的消息表示；

在得到

之后，计算得到最终消息向量：

其中，

为与类型和层数有关的可学习参数；

当目标节点t类型不是句子节点时，本发明利用归一化分数ATT^(l)(s,e,t)作为权重来加权求和消息向量Msg^(l)(s,e,t)得到

其中，

表示求和；

相乘；

为融合t的所有邻居节点的表示；

当目标节点t类型是句子节点时，本发明区分邻居节点s的类型进行信息融合得到

其中，τ(s)表示邻居邻居节点的类型，s_k表示类型为知识的邻居节点，s_s表示类型为说话人的邻居节点；

针对上述两种情况分别映射得到

之后，本发明将其映射为

作为更新之后的节点表示：

其中，Sigmoid表示激活函数，

表示与类型和层数有关的映射函数；

接着，在更新后的节点表示

上融入位置信息，对于每一个节点v_i，与其关联一个位置

对于说话人节点和知识节点，位置

对于句子节点，

为句子在对话中的位置，即第几句话；本发明设定一个位置向量矩阵W^pos，对于每一个位置

可以获得其对应的向量表示

将

融入

得到更新后的表示：

最后，将更新之后的节点表示

与对应的初始化词语表示

拼接，并经过映射得到更新后的词语表示：

其中，F_Linear()表示映射函数，；表示向量拼接。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤三三构造解码器：

在得到更新后的词语表示

之后，计算所有词语的表示平均s₀，

其中，G表示异构对话图中全部节点集合；s₀赋值给解码器的细胞状态和隐层状态来初始化解码器的初始状态；在解码的每一步，根据解码器状态s_t计算上下文向量c_t：

a^t＝Softmax(e^t) (12)

其中，W_a表示可学习的参数，

是更新后的词语表示；T表示转置，

为对于第i个节点的第n个词语的未归一化的权重；s_t为解码器t时刻状态；a^t为经过归一化以后的权重；e^t为归一化之前的权重；c_t为上下文向量表示；

为归一化以后的对于第i个节点第n个词语的权重；

根据上下文向量c_t和解码器t时刻状态s_t计算词表中生成每一个词语的概率P_vocab：

P_vocab(w)＝Softmax(V′(V[s_t；c_t]+b)+b′) (14)

其中，V′，V，b，b′为可学习的参数；[s_t；c_t]表示s_t和c_t的拼接；Softmax为归一化函数；P_vocab(w)表示生成词语w的概率；

除了从词表中生成词语，本发明模型还允许从原文中拷贝词语；首先计算生成词语的概率p_gen：

其中，w_c，w_s，w_x和b_ptr为可学习的参数；sigmoid为激活函数；p_gen表示生成词语的概率；1-p_gen表示了从原文中拷贝的概率；

为对w_c求转置；

为对w_s求转置；

为对w_x求转置；x_t为t时刻解码器输入词语的词向量；

因此对于一个词语w，综合考虑从词表中生成的概率和从原文中拷贝的概率，最终概率如式(16)：

其中，

为经过归一化以后的对于第i个节点第n个词语的权重；

根据式(16)，即可利用该解码器在解码每一步选择概率最大的词语作为输出。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述训练步骤三中构造的对话异构神经网络模型，通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要；具体过程为：

使用极大似然估计，利用SAMSum数据集的训练部分训练对话异构神经网络模型，在解码器解码的每一步，根据式(16)预测的词语概率和标准词语计算交叉熵损失；

对于一个对话D，给定标准摘要

训练目标是最小化式(17)：

其中，

为标准摘要中的第一个词语；

为标准摘要中的最后一个词语；

为t时刻需要预测的标准摘要的词语；L为交叉熵损失函数；

根据公式(17)训练对话异构神经网络模型，利用SAMSum数据集的开发部分选择最好的模型，最终利用训练好的对话异构神经网络模型根据式(16)针对SAMSum数据集的测试部分来生成最终对话摘要。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述排除噪音知识方法包括：

(1)如果元组知识中的权重w低于1，那么排除此知识；

(2)如果元组知识的关系r属于：反义词、语源上相关、语源上发源于、不同于，不期望，那么排除此知识。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述简化元组知识的过程包括：

(2)如果不同对句子分别连接到同一个实体，那么将该实体合并成为一个实体，例如图5所示，两个“联系”实体合并为一个“联系”实体。

其它步骤及参数与具体实施方式一至七之一相同。

实施例

实施例一：

本发明对提出的模型进行了实现，同时和目前的基线模型和标准摘要进行了对比。

(1)基线模型生成的摘要：

Gary and Lara will meet at 5pm for Tom's bday party.

(2)本发明模型生成的摘要：

Gary and Lara are going to Tom's birthday party at 5pm.Lara will pickup the cake.

(3)标准摘要：

It’s Tom's birthday.Lara and Gary will come to Tom's place about 5pmto prepare everything.Gary has already paid for the cake Lara will pick it.

根据以上实施例可以看出，本发明的模型可以生成与标准摘要更加相似的结果，通过引入常识知识，可以更好的理解对话信息。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种融入常识知识的生成式对话摘要方法，其特征在于，包括：

R＝(h，r，t，w)，

其中，R表示一个元组知识；h表示头实体；r表示关系；t表示尾实体；w表示权重，表示关系的置信度；知识R表示了头实体h和尾实体t拥有关系r，并且权重为w；

所述对话摘要数据集SAMSum分为训练、开发和测试三部分；

和词语初始化表示

步骤三三、构造解码器；

2.根据权利要求1所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述步骤二利用获取的常识知识库ConceptNet为对话摘要数据集SAMSum引入元组知识，构建异构对话图；具体过程为：

步骤二一、对于一段对话，根据对话中的词语从ConceptNet中获取的相关元组知识，排除噪音知识，得到与给定对话相关的元组知识集合；

步骤二二、对于步骤二一获取到的相关元组知识中，假设存在句子A和句子B，词语a属于A，词语b属于B，简化元组知识，如果a和b的尾实体h一致，那么将句子A和B连接到尾实体h；得到句子—知识图；

步骤二三、根据“说话人说的一句话”建立说话人与句子之间的边关系，得到说话人—句子图；

步骤二四、将句子—知识图和说话人—句子图融合为异构对话图；所述异构对话图在说话人和句子之间存在两种边，即从说话人到句子的“speak-by”边，从句子到说话人的“rev-speak-by”边；在句子和元组知识之间存在两种边，即从知识到句子的“know-by”边，从句子到元组知识的“rev-know-by”边；异构对话图存在三类节点，即说话人、句子和常识知识。

3.根据权利要求2所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述步骤三一构造节点编码器；利用双向长短时神经网络获取节点初始化表示

和词语初始化表示

具体过程为：

对于构造的异构对话图，其中每一个节点v_i包含|v_i|个单词，单词序列为

其中，w_i，n表示节点v_i的第n个单词，n∈[1，|v_i|]；使用双向长短时神经网络对单词序列

生成前向隐层序列

和后向隐层序列

其中，前向隐层状态

后向隐层状态

x_n为w_i，n的词向量表示；将前向隐层状态的最后一个隐层表示与后向隐层状态的第一个隐层表示拼接得到节点的初始化表示

其中，；表示向量拼接；同时得到节点中每一个词语的初始化表示

4.根据权利要求1或2所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述步骤三二构造图编码器，利用异构图神经网络更新节点表示，并添加节点位置编码信息和更新词语表示

具体过程为：

给定一个目标节点t，得到其邻居节点s∈N(t)，其中N(t)表示t的邻居节点集合，s表示其中一个邻居节点；给定一个边e＝(s，t)，表示从邻居节点s指向目标节点t的一条边，定义：

(1)节点类型映射函数为：

τ(v):

(2)边关系类型映射函数为：

其中，

表示边类型映射函数；e表示给定边；E表示边集合；

表示边类型集合；

在异构对话图中，一共包含四种类型的边：speak-by，rev-speak-by，know-by，rev-know-by；对于给定边e＝(s，t)，s和t分别拥有来自上一层的表示

和

将

和

映射为

和

其中，

表示与层数有关的映射函数，

表示与类型有关的映射函数；l表示图网络的第l层，

表示邻居节点s在l层的键值表示，

表示节点t在l层的查询表示；

计算

和

之间的权重：

其中，

表示与层数和边类型有关的可学习参数；T表示转置；α(s，e，t)表示

和

之间的权重；

其中，Softmax为归一化函数，ATT^(l)(s，e，t)为最终归一化之后的分数；

将每一个邻居节点s表示

映射为：

其中，

为与类型和层数有关的映射函数；

在得到

之后，计算得到最终消息向量：

其中，

为与类型和层数有关的可学习参数；

当目标节点t类型不是句子节点时，利用归一化分数ATT^(l)(s，e，t)作为权重来加权求和消息向量Msg^(l)(s，e，t)得到

其中，

表示求和，

相乘；

为融合t的所有邻居节点的表示；

当目标节点t类型是句子节点时，区分邻居节点s的类型进行信息融合得到

其中，τ(s)表示邻居节点的类型，s_k表示类型为知识的邻居节点，式(6)中τ(s)表示邻居节点的类型，s_s表示类型为说话人的邻居节点；

得到

之后，将其映射为

作为更新后的节点表示：

其中，Sigmoid表示激活函数，

表示与类型和层数有关的映射函数；

在更新后的节点表示

上融入位置信息，对于每一个节点v_i，与其关联一个位置

对于说话人节点和知识节点，位置

对于句子节点，

为句子在对话中的位置，即第几句话；

设定一个位置向量矩阵W^pos，对于每一个位置

能够获得其对应的向量表示

将

融入

得到更新后的表示：

将更新之后的节点表示

与对应的初始化词语表示

拼接，并经过映射得到更新后的词语表示：

其中，F_Linear()表示映射函数，；表示向量拼接。

5.根据权利要求4所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述步骤三三构造解码器；具体过程为：

得到更新后的词语表示

后，计算所有词语的表示平均s₀，表示为：

其中，G表示异构对话图中全部节点集合；

s₀赋值给解码器的细胞状态和隐层状态来初始化解码器的初始状态；在解码的每一步，利用注意力机制，根据解码器状态s_t计算上下文向量c_t：

a^t＝Softmax(e^t) (12)

其中，W_a表示可学习的参数；

是更新后的词语表示；T表示转置；

为对于第i个节点n个词语的未归一化的权重；s_t为解码器t时刻状态；a^t为经过归一化以后的权重；e^t为归一化之前的权重；c_t为上下文向量表示；

为归一化以后的，对于第i个节点第n个词语的权重；

向量c_t和解码器t时刻状态s_t计算词表中生成每一个词语的概率P_vocab：

P_vocab(w)＝Softmax(V′(V[s_t；c_t]+b)+b′) (14)

除了从词表中生成词语，还允许从原文中拷贝词语；首先计算生成词语的概率p_gen：

其中，w_c，w_s，w_x和b_ptr为可学习的参数；sigmoid为激活函数；p_gen表示生成词语的概率；1-p_gen则表示从原文中拷贝的概率；

为对w_c求转置；

为对w_s求转置；

为对w_x求转置；x_t为t时刻解码器输入词语的词向量；

最终概率如式(16)：

其中，

为经过归一化以后的对于第i个节点第n个词语的权重；

根据式(16)，利用解码器在解码的每一步选择概率最大的词语作为输出。

6.根据权利要求5所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述步骤四训练步骤三中构造的对话异构神经网络模型，通过训练的对话异构神经网络模型从一段对话中生成最终对话摘要；具体过程为：

使用极大似然估计，利用SAMSum数据集的训练部分训练对话异构神经网络模型，在解码器解码的每一步，根据式(16)预测的词语概率和标准词语计算交叉熵损失：

对于一个对话D，给定标准摘要

训练目标是最小化式(17)：

其中，

为标准摘要中的第一个词语；

为标准摘要中的最后一个词语；

为t时刻需要预测的标准摘要的词语；L为交叉熵损失函数；

根据公式(17)训练对话异构神经网络模型，利用SAMSum数据集的开发部分选择最好的模型，最后利用训练好的对话异构神经网络模型根据式(16)针对SAMSum数据集的测试部分来生成最终对话摘要。

7.根据权利要求2所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述排除噪音知识的方法包括：

(1)当元组知识中的权重w低于1，则排除此知识；

(2)当元组知识的关系r属于：反义词、语源上相关、语源上发源于、不同于或不期望，则排除此知识。

8.根据权利要求2所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述简化元组知识的过程包括：

(1)如果句子A和句子B连接多个实体，则选择边关系平均权重最高的一个；

(2)如果不同对句子分别连接到相同名称的实体，则将所有相同名称的实体合并为一个实体。

9.根据权利要求1所述一种融入常识知识的生成式对话摘要方法，其特征在于，所述SAMSum中训练、开发和测试三部分数量分别为：14732，818，819。