CN111723194A

CN111723194A - 摘要生成方法、装置和设备

Info

Publication number: CN111723194A
Application number: CN201910203859.5A
Authority: CN
Inventors: 桂敏; 王睿; 田俊峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2020-09-29

Abstract

本发明实施例提供一种摘要生成方法、装置和设备，该方法包括：获取组成本文的多个第一语句；通过词语编码器分别对多个第一语句进行词语编码处理，得到个第一语句表示向量；通过语句编码器对多个第一语句表示向量进行句子编码处理，得到第一文本表示向量；通过语句解码器对第一文本表示向量进行解码处理，得到多个第一语句指示向量；通过词语解码器分别对多个第一语句指示向量进行解码处理，得到多个第一摘要语句，由多个第一摘要语句组成文本的摘要。在该方案中，利用文本的句子结构为文本进行摘要生成处理，使得摘要的生成质量、速度得以保证。

Description

摘要生成方法、装置和设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种摘要生成方法、装置和设备。

背景技术

人们每天可以接触到大量的文本信息，如新闻、报告、论文、博客等。在一种实际场景中，作者已经将文本(比如一篇小说)撰写完毕，并将撰写好的文本提交至某网络平台进行发布，为了吸引更多的读者来阅读该文本，需要为该文本生成精简的摘要信息，以使读者先了解该文本的主要内容，进而再决定是否要打开该文本仔细阅读。

过去，文本摘要都是文本的作者自行撰写完成的，作者自己撰写摘要比较费时。而有些作者也可能仅是从文本中复制一段话或几句话作为摘要，效果不佳。

发明内容

本发明实施例提供一种摘要生成方法、装置和设备，用以实现摘要的自动生成。

第一方面，本发明实施例提供一种摘要生成方法，该方法包括：

获取组成本文的多个第一语句；

通过词语编码器分别对所述多个第一语句进行词语编码处理，得到对应于所述多个第一语句的多个第一语句表示向量；

通过语句编码器对所述多个第一语句表示向量进行句子编码处理，得到对应于所述文本的第一文本表示向量；

通过语句解码器对所述第一文本表示向量进行解码处理，得到指示需解码的文本内容的多个第一语句指示向量；

通过词语解码器分别对所述多个第一语句指示向量进行解码处理，得到多个第一摘要语句，由所述多个第一摘要语句组成所述文本的摘要。

第二方面，本发明实施例提供一种摘要生成装置，该装置包括：

获取模块，用于获取组成本文的多个第一语句；

词语编码器，用于分别对所述多个第一语句进行词语编码处理，得到对应于所述多个第一语句的多个第一语句表示向量；

语句编码器，用于对所述多个第一语句表示向量进行句子编码处理，得到对应于所述文本的第一文本表示向量；

语句解码器，用于对所述第一文本表示向量进行解码处理，得到指示需解码的文本内容的多个第一语句指示向量；

词语解码器，用于分别对所述多个第一语句指示向量进行解码处理，得到多个第一摘要语句，由所述多个第一摘要语句组成所述文本的摘要。

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少实现上述第一方面中的摘要生成方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现上述第一方面中的摘要生成方法。

在本发明实施例中，采用由编码器和解码器构成的序列到序列(Sequence-to-Sequence，简称Seq2Seq)架构来为文本进行自动摘要生成处理。具体地，需要利用文本的句子结构对文本进行预处理处理，以将文本分割为若干句子，而且，编码器包括词语编码器和语句编码器，解码器也相应的包含语句解码器和词语解码器。具体地，针对需要生成摘要的文本，首先根据文件语句结构对文本进行分句处理，之后先由词语编码器分别对各个语句中包含的词语进行词语编码处理，以得到每个语句对应的语句表示向量(也可以称为语义表示向量)，再将得到的各语句表示向量依次输入到语句编码器，由语句编码器对各语句表示向量进行编码，得到用于表示文本的文本表示向量，此时，该文本表示向量中包含了文本的上下文信息。文本表示向量可以传输至语句解码器，由语句解码器进行解码处理以得到表明需解码的文本内容的多个语句指示向量，其中，语句指示向量指示当前时刻的句子应该总结文本中的哪些主要内容亦即需解码的文本内容。之后，分别将各个语句指示向量输入到词语解码器中进行解码，以解码出每个语句指示向量对应的一个个词语，由这一个个词语构成一句摘要语句，从而，将依次获得的多个摘要语句组合在一起即得到了文本的摘要。

在上述方案中，利用文本的句子结构为文本进行摘要生成处理，从而在编码端通过词语编码器可以捕捉句子内部的上下文信息，通过语句编码器可以捕捉句子之间的上下文信息即文本的上下文信息；在解码端，由句子到词语这种由粗粒度到细粒度的解码方式可以先在句子层把握整个摘要的主体内容，之后再具体解码出一句句摘要语句，使得摘要的生成质量得以保证。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例提供的一种摘要生成方法的流程图；

图2为一示例性实施例提供的摘要生成过程的原理示意图；

图3为一示例性实施例提供的一种模型训练方法的流程图；

图4为一示例性实施例提供的一种模型优化方法的流程图；

图5为图4所示模型训练方法的执行过程的原理示意图；

图6为一示例性实施例提供的另一种模型优化方法的流程图；

图7为图6所示模型训练方法的一种执行过程的原理示意图；

图8为图6所示模型训练方法的另一种执行过程的原理示意图；

图9为一示例性实施例提供的一种摘要生成装置的结构示意图；

图10为与图9所示实施例提供的摘要生成装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式。除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

在详细介绍本发明各实施例提供的摘要生成方法之前，先对现有技术中自动生成摘要的方案进行介绍。所谓自动生成摘要旨在通过机器为文本自动地输出简洁、保留其中关键信息的摘要。

自动文本摘要(automatic text summarization)可以划分为两类：抽取式和生成式，其中，抽取式摘要是从文本中抽取可以表述文本主要内容的几句话组成摘要。生成式摘要是在理解文本的基础上重述文本的主要内容，产生的语句甚至是词可能并不全存在于文本中，这种方式很像人们自己撰写摘要的过程。

随着神经网络技术的发展，基于神经网络的生成式文本摘要得到快速发展。生成式神经网络模型可以采用Seq2Seq架构。Seq2Seq架构由编码器(encoder)和解码器(decoder)组成，编码器负责将输入的文本编码成一个包含上下文信息的向量表示(context vector)，该向量是文本的一个表征。解码器根据该向量表示进行摘要生成，以得到文本的摘要。目前，Seq2Seq架构在编码端和解码端一般都是逐词进行编码或者解码，此时的模型编码、解码的速度较慢，且未充分利用文本的篇章结构信息。

下面结合以下的各个实施例对本文提供的摘要生成方法的执行过程进行说明。该摘要生成方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器。

图1为一示例性实施例提供的一种摘要生成方法的流程图，如图1所示，该方法包括如下步骤：

101、获取组成本文的多个第一语句。

102、通过词语编码器分别对多个第一语句进行词语编码处理，得到对应于多个第一语句的多个第一语句表示向量。

103、通过语句编码器对多个第一语句表示向量进行句子编码处理，得到对应于文本的第一文本表示向量。

104、通过语句解码器对第一文本表示向量进行解码处理，得到指示需解码的文本内容的多个第一语句指示向量。

105、通过词语解码器分别对多个第一语句指示向量进行解码处理，得到多个第一摘要语句，由多个第一摘要语句组成文本的摘要。

本实施例提供的摘要生成方法的目的是为用户提交的文本生成对应的摘要，需要使用一个已经训练至收敛的模型来实现该目的，从实现功能角度来说，该模型可以形象地称为摘要生成模型。

该模型依旧采用Seq2Seq架构，只是在编码端包括两层编码器(也可以称为编码网络)，分别为词语编码器和语句编码器；在解码端也包括对应的两层解码器(也可以称为解码网络)，分别为语句解码器和词语解码器。

之所以设置成如此的模型结构，是因为本发明实施例中，需要利用文本的层次结构特征——句子结构来为文本进行摘要生成处理。具体地，是根据词语和句子这两个粒度进行摘要生成处理。

假设该模型已经训练完毕，本实施例介绍的是实际使用该模型的过程。

接收用户提交的文本(比如是小说、论文、博客等)，之后，可以对该文本进行预处理，以满足模型的使用要求。预处理可以包括：在句子首尾加上标志符，方便之后模型按句读取数据亦即可以使得模型基于该标志符识别出文本中包含的各个语句。进而，可以针对每条语句进行分词处理，结合模型训练好的词向量矩阵将分词得到的各个词语转换为对应的词向量。可以理解的是，一条语句读入到模型转化成词向量的时候是输入的语句中是不包括首尾标识符的。

具体来说，可以将训练上述摘要生成模型所使用的训练样本作为词向量矩阵训练的语料对象，当然，不以此为限。针对各个语料对象进行分词处理，可以得到若干词语，进而，可以根据每个词语的出现次数对该若干词语进行排序，比如按照出现次数由多到少进行排序，假设总共有N个词语，从而可以生成由顺序排序的N个词语构成的词语表。另外，针对每个词语，可以根据现有的词向量转换算法进行词向量转换，每个词语假设被表示为一个M维的行向量，从而最终会得到一个N*M维的词向量矩阵，其中，该词向量矩阵的第i行词向量对应于词语表中的第i个词语。基于此，可以基于该词向量矩阵与词语表的对应关系，将输入文本中任一词语转换为对应的词向量。

在得到本文中包含的各条语句，并对各条语句进行词向量转换后，可以分别针对各条语句进行词语编码处理。词语编码器可以实现为循环神经网络(Recurrent NeuralNetwork，简称RNN)、双向循环神经网络(Bi-directional Recurrent Neural Network，简称Bi-RNN)、长短期记忆(Long Short-Term Memory，简称LSTM)网络、双向长短期记忆(Bi-directional Long Short-Term Memory，简称Bi-LSTM)网络等神经网络中的任一种。为了能够获得一条语句中各词语的上下文信息以便更准确地理解语句的语义，可选地，词语编码器可以采用Bi-RNN或Bi-LSTM。

词语编码器输出的可以认为是各条语句对应的语义表示，假设称为语句表示向量。该语句表示向量携带了语句中词语的上下文信息。

词语编码器输出的各语句表示向量输入到语句编码器，从而语句编码器对各个输入的语句表示向量进行编码处理，得到文本表示向量即为前文所述的第一文本表示向量。也就是说，以语句编码器最终的输出作为输入的文本的表示，该文本表示向量中携带了文本的上下文信息，即包含了文本中语句之间的上下文信息以及各语句内部的词语之间的上下文信息。

其中，语句编码器可以实现为RNN、Bi-RNN、LSTM网络、Bi-LSTM网络等神经网络中的任一种。为了能够获得一条语句中各语句的上下文信息，可选地，语句编码器可以采用Bi-RNN或Bi-LSTM。

之后，可以利用模型的解码端对该文本表示向量进行解码。具体地，首先，通过语句解码器对该文本表示向量进行解码。该语句解码器是在句子层级捕捉文本主要内容，生成一个语义表示，表示语句解码器当前应输出的摘要语句中应该总结哪些内容。由于该语义表示指示了当前输出的摘要语句中应该解码的文本内容，因此将该语义表示称为上述第一语句指示向量。

之后，语句指示向量输入到词语解码器中进行解码。词语解码器是在单词层级按照上述语义表示进行逐词解码，得到各个词语，由这些词语构成当前时刻输出的摘要语句。

其中，语句解码器和词语解码器可以实现为RNN、LSTM网络、卷积神经网络(Convolutional Neural Networks,简称CNN)。

为便于理解上述摘要生成过程，下面结合图2中所示意的模型结构来示意性说明摘要生成过程。

在图2中，摘要生成模型的编码端的词语编码器和语句编码器均由Bi-LSTM网络组成。以词语编码器为例，图中相邻LSTM网络之间的箭头分别示意前向LSTM网络和后向LSTM网络的隐层传递方向。

假设输入的文本中的某条语句A中包含x1，x2，x3这三个词语，这三个词语经过词向量转换后输入到词语编码器。假设前向LSTM网络对这三个词语依次进行编码后隐层状态依次更新为Haf1、Haf2、Haf3，后向LSTM网络对这三个词语依次进行编码后隐层状态依次更新为Had1、Had2、Had3，之后，可以将前向LSTM网络的最后时刻的隐层状态Haf3与后向LSTM网络的最后时刻的隐层状态Had3拼接在一起{Haf3⊕Had3}，作为该语句A的语义表示，因为Haf3和Had3包含了前向和后向的所有信息，亦即语句A的语句表示向量为Ha＝{Haf3，Had3}，其中，⊕表示拼接符号。

同理，对于语句B＝{y1,y2,y3,y4}，经过词语编码器处理后，如图2中所示，假设语句B对应的语句表示向量为Hb＝{Hbf4⊕Hbd4}。

由于词语编码器的输出作为语句编码器的输入，因此，如图2中所示，可以将词语编码器输出的语句A的语句表示向量以及语句B的语句表示向量输入到语句编码器。

语句编码器对输入的各语句表示向量的处理过程与词语编码器对输入的各词语的处理过程类似，不再赘述。图2中假设语句编码器对输入的多个语句表示向量进行编码处理后得到文本表示向量Hdocument＝{Hfm，Hdm}，该文本表示向量包含了输入文本的所有信息。其中，m代表输入的语句表示向量的个数，Hfm和Hdm分别表示前向LSTM网络的最后时刻的隐层状态以及后向LSTM网络的最后时刻的隐层状态，其中，最后时刻对应于最后一个语句表示向量的输入时刻。

之后，文本表示向量Hdocument被输入到模型的解码端。图2中示意的解码端的语句解码器和词语解码器均有LSTM网络构成。图2中仅示意了两个不同时刻的语句解码器和词语解码器的隐层状态。

如图2中所示，文本表示向量Hdocument输入到语句解码器进行句子层级的解码，语句解码器在不同时刻输出的隐层状态表示对应时刻应该输出包含什么主要内容的摘要语句，也就是说，语句解码器在句子层级捕捉输入文本的主要内容，生成一个语义表示，以表示不同时刻应该输出的摘要语句中应该总结文本中的哪些内容。图2中示意了语句解码器的两个隐层状态：Hguidance1和Hguidance2，这两个隐层状态分别作为不同时刻对应的语句指示向量。

之后，在词语解码器中分别对Hguidance1和Hguidance2进行词语解码，以解码出对应的每个摘要语句中应该包含的词语。

图2中示意了词语解码器的多个不同时刻的隐层状态，针对每个语句指示向量来说，在其输入到词语解码器后，可以根据词语解码器在各时刻分别对应的隐层状态生成对应的一个词语，从而，由多个隐层状态生成的多个词语，这多个词语即组成该语句指示向量对应的一条摘要语句。如图2中所示意的：语句指示向量Hguidance1对应的摘要语句S1＝{s1a,s1b,s1c}，语句指示向量Hguidance2对应的摘要语句S2＝{s2a,s2b,s2c,s2d}，最终，输入文本对应的摘要由S1和S2组成，表示为{S1,S2}。

另外，值得说明的是，在摘要生成场景下，输入文本可能比较长，此时，为了进一步提高生成的摘要的质量，还可以引入注意力(Attention)机制到上述摘要生成模型中，Attention机制的实现可以参照现有相关技术完成，不赘述。

综上，在上述方案中，利用文本的句子结构为文本进行摘要生成处理，从而在编码端通过词语编码器可以捕捉句子内部的上下文信息，通过语句编码器可以捕捉句子之间的上下文信息即文本的上下文信息；在解码端，由句子到词语这种由粗粒度到细粒度的解码方式可以先在句子层把握整个摘要的主体内容，之后再具体解码出一句句摘要语句，使得摘要的生成质量得以保证。

前述实施例中介绍了已经训练好的模型的使用过程，下面，结合以下实施例介绍该模型的生成亦即训练过程。由于该模型中包括词语编码器、语句编码器、语句解码器、词语解码器，因此，模型训练过程可以认为就是训练这些编解码器的过程。

图3为一示例性实施例提供的一种模型训练方法的流程图，如图3所示，该方法可以包括如下步骤：

301、获取被标注的训练样本中包含的多个第二语句。

为进行模型训练，可以预先收集大量的训练样本，这些训练样本可以是从网络中收集的各种长文本。另外，模型训练采用有监督的方式进行，因此，针对获取到的每个训练样本需要预先进行标注等预处理。

其中，标注可以理解为是针对每个训练样本给出标准答案：多个参考摘要语句构成的摘要。

另外，可选地，还可以针对每个训练样本进行语句拆分处理，即得到组成一个训练样本的各个语句。

此外，为了便于训练，还可以设置两个参数：语句长度L以及语句个数C，其中，语句长度L约束了一个语句中最多能够包含的词语个数；语句个数C约束了一个训练样本中最多可以包含的语句个数。

基于这两个参数的设定，可选地，针对任一个训练样本来说，一方面，如果该训练样本中包含的语句个数超过C，则可以从中提取出前C个语句来用作训练，即将该训练样本视为仅由这C条语句组成，而如果其中包含的语句个数小于C，则可以补充占位语句，以保证该训练样本由C条语句组成；另一方面，对于其中的某条语句来说，如果该条语句中包含的词语个数大于L，类似的，也将从中截取出前L个词语来表示这条语句，相反地，如果这条语句中包含的词语个数小于L，则可以在这条语句包含的最后一个词语的后面填充上预设的占位词，以保证这条语句中包含的词语个数为L。可以理解的是，上述占位语句、占位词并未实际意义，仅起到占位作用，不会对模型参数的训练起到作用。

在对各个训练样本都进行了上述预处理处理后，可以依次从海量训练样本中随机选择出一个训练样本来对模型进行训练。

本实施例中仅以某一个训练样本的训练过程为例进行说明，实际上，需要经过大量训练样本对模型进行多轮次的训练，才会将模型训练至收敛。

可以理解的是，当约束了上述语句个数C时，步骤301中的多个第二语句是指训练样本中的前C个语句。

302、通过词语编码器分别对多个第二语句进行词语编码处理，得到对应于多个第二语句的多个第二语句表示向量。

实际上，可以对每个第二语句进行分词处理，进而可以根据预先训练得到的词向量矩阵或随机初始化的词向量矩阵将每个分词结果转换为对应的词向量以输入到词语编码器中，词向量矩阵的训练和使用参考前文所述，不赘述。

303、通过语句编码器对多个第二语句表示向量进行句子编码处理，得到对应于训练样本的第二文本表示向量。

304、通过语句解码器对第二文本表示向量进行解码处理，得到指示了需解码的文本内容的多个第二语句指示向量。

305、通过词语解码器分别对多个第二语句指示向量进行解码处理，得到多个第二摘要语句。

以上词语编码器、语句编码器、语句解码器、词语解码器的处理过程可以参考前述实施例中对输入文本的处理过程，不再赘述。

306、根据多个第二摘要语句与标注的多个参考摘要语句，确定第一损失函数。

307、根据第一损失函数确定模型的参数。

在得到第一损失函数后，可以通过反向传播的过程调整模型的参数。

可以理解的是，如果模型的第一损失函数处于较为稳定的状态，则认为该模型已经被训练至收敛。或者，当训练的迭代次数达到设定的次数后，也可以认为模型训练完成。

值得说明的是，在上述模型训练过程中，由于采用有监督的方式进行训练，与传统的Seq2Seq架构相似，在词语解码器的执行过程中，当前时刻输入到词语解码器亦即隐层LSTM的输入词语是已经标注好的参考词语(有参***)，而并非是前一时刻预测输出的词语，这样前一时刻即使预测结果出错，该错误也不会继续向下传递。但是，在模型的实际使用阶段，即在实际为某输入文本进行摘要生成的过程中，由于并没有参***，词语解码器前一个时刻的输入会作为下一个时刻的输入，如果上一个时刻的输出存在误差，该误差会向后传递，随着生成序列长度的增加，这种误差会被一直放大，这也就是所谓的曝光偏差(exposure bias)问题。

为克服该曝光偏差问题，本文还提供了模型优化方案，下面结合以下实施例介绍该模型优化方案。该模型优化方案是在基于第一损失函数训练模型至收敛之后执行的。也就是说，模型训练过程可以划分为两个阶段，在第一个阶段，通过图3所示的训练过程先将模型训练至收敛，之后，在第二个阶段对模型进行优化。

图4为一示例性实施例提供的一种模型优化方法的流程图，如图4所示，该方法可以包括如下步骤：

401、根据词语解码器t时刻的实际隐层状态反推词语解码器t-n时刻的重构隐层状态,n大于或等于1。

实际应用中，n比如可以取1、2、3。

402、根据词语解码器t-n时刻的实际隐层状态与t-n时刻的重构隐层状态,确定第二损失函数。

403、根据第二损失函数调整模型的参数。

为克服曝光偏差问题，引入重构网络，用以重构或者说反推词语解码器的各隐层状态。为了区别，将反推出的隐层状态称为重构隐层状态，将词语解码器实际输出的隐层状态称为实际隐层状态。

本实施例中，基于重构网络可以实现重构当前时刻之前的某个时刻的隐层状态的目的。此时，如图5中所示，重构网络包括一个隐层以及与该隐层连接的全连接层。图中，假设该隐层实现为LSTM网络，全连接层表示为FC。当然，该隐层也可以实现为比如RNN，CNN等网络结构。

在该重构网络的结构下，根据词语解码器t时刻的实际隐层状态反推词语解码器t-n时刻的重构隐层状态，可以实现为：

将词语解码器t时刻的实际隐层状态和重构网络t-1时刻的隐层状态输入到重构网络的隐层以更新隐层状态，得到重构网络t时刻的隐层状态，继而，将重构网络t时刻的隐层状态输入到全连接层，以得到全连接层输出的词语解码器t-n时刻的重构隐层状态。

结合图5来说明该实现过程，为便于理解，按照时序展开的重构网络结构如图中所示。假设词语解码器在t-3、t-2、t-1和t这四个时刻对应的实际隐层状态分别为h_t-3、h_t-2、h_t-1和h_t。词语解码器的隐层状态作为重构网络的输入，因此，这四个隐层状态依次输入到重构网络的隐层。如图5中所示，按照时序顺序，h_t-3先输入到重构网络的隐层，此时，隐层状态更新为h′_t-3。之后，h_t-2输入到重构网络的隐层，此时根据h_t-2和h′_t-3得到t-2时刻重构网络的隐层状态h′_t-2。依次类推，依次得到重构网络的隐层状态h′_t-1，h′_t。

图5中示意的是n＝2的情况，且仅以时刻t为例，其他时刻的情况与之类似，不赘述。h′_t输入到全连接层后，该全连接层输出的即为t-2时刻词语解码器的重构隐层状态

从而实现了对t-2时刻词语解码器的隐层状态的重构。此时，对t-2时刻词语解码器的实际隐层状态h_t-2与重构隐层状态

进行误差计算，即可得到第二损失函数。图5中，第二损失函数以L_AR表示，由于n＝2，因此对于时刻t来说，L_AR的计算依据分别是t-2时刻词语解码器的实际隐层状态h_t-2与重构隐层状态

同理，如果当前时刻为t-1时刻，则根据上述过程可以反推出t-3时刻词语解码器的重构隐层状态，依此类推。

在得到第二损失函数值后，依据第二损失函数值再在反向传播过程中对模型进行参数微调，从而实现优化模型的目的。

基于上述模型优化方案可以实现对词语解码器之前某一个时刻的隐层状态的重构，为进一步提高模型质量，还提供了可以同时重构出词语解码器之前多个时刻的隐层状态的方案，以下实施例所示。

图6为一示例性实施例提供的另一种模型优化方法的流程图，如图6所示，可以包括如下步骤：

601、根据词语解码器t时刻的实际隐层状态反推词语解码器t-1至t-m时刻各自对应的重构隐层状态,m大于1。

实际应用中，m比如可以取2、3等。

602、根据词语解码器t-1至t-m时刻各自对应的实际隐层状态与t-1至t-m时刻各自对应的重构隐层状态,确定多个第三损失函数。

603、根据多个第三损失函数调整模型的参数。

为实现对当前时刻之前多个时刻的隐层状态的重构，本文提供了两种重构网络结构，如图7和图8所示。

在图7提供了一种层叠式的重构网络结构。此时，重构网络包括：依次连接的m个隐层以及m个隐层各自连接的全连接层。也就是说，此时，重构网络由m个隐层和m个全连接层组成，隐层和全连接层一一对应。在该重构网络结构下，步骤601可以实现为：

将词语解码器t时刻的实际隐层状态输入到重构网络的第一个隐层以更新隐层状态。从而，词语解码器t-1时刻对应的重构隐层状态通过如下方式获得：将第一个隐层更新后的隐层状态输入到第一个隐层连接的第一个全连接层，得到由第一个全连接层输出的词语解码器t-1时刻的重构隐层状态。词语解码器t-i时刻对应的重构隐层状态通过如下方式获得，1<i≤m：将第i-1个隐层的隐层状态输入到第i个隐层以更新隐层状态，将第i个隐层更新后的隐层状态输入至所述第i个隐层连接的全连接层，得到由第i个全连接层输出的词语解码器t-i时刻对应的重构隐层状态。

具体来说，如图7所示，假设m＝3，则此时重构网络中包括LSTM1、LSTM2和LSTM3这三个隐层，以及分别与这三个隐层对应连接的三个全连接层：FC1、FC2和FC3。另外，在每个全连接层的输出端计算的损失函数分别表示为L_AR1、L_AR2，L_AR3。其中，LSTM1、LSTM2和LSTM3的参数各不相同

假设当前时刻为t，则根据图7所示的重构网络，可以重构词语解码器之前的t-3、t-2和t-1这三个时刻的隐层状态。假设词语解码器在t-3、t-2、t-1和t这四个时刻对应的实际隐层状态分别为h_t-3、h_t-2、h_t-1和h_t。

为重构词语解码器在t-3、t-2和t-1这三个时刻的隐层状态，将词语解码器在时刻t对应的实际隐层状态h_t作为重构网络的输入而输入到第一个隐层LSTM1，以更新LSTM1的隐层状态为h′_t，进而由FC1对该隐层状态为h′_t进行处理，以输出词语解码器t-1时刻的重构隐层状态

进而，根据词语解码器t-1时刻的实际隐层状态h_t-1和

计算L_AR1，，假设计算得到的损失函数值为：loss1。

另外，LSTM1的隐层状态h′_t除了输入至FC1外，还传递到第二个隐层LSTM2以更新LSTM2的隐层状态，假设LSTM2更新后的隐层状态为h′_t-1，h′_t-1输入到FC2，由FC2对该隐层状态为h′_t-1进行处理，以输出词语解码器t-2时刻的重构隐层状态

进而，根据词语解码器t-2时刻的实际隐层状态h_t-2和

计算L_AR2，，假设得到的损失函数值为：loss2。

同样地，LSTM2的隐层状态h′_t-1传递到第三个隐层LSTM3以更新LSTM3的隐层状态，假设LSTM3更新后的隐层状态为h′_t-2，h′_t-2输入到FC3，由FC3对该隐层状态为h′_t-2进行处理，以输出词语解码器t-3时刻的重构隐层状态

进而，根据词语解码器t-3时刻的实际隐层状态h_t-3和

计算L_AR3假设得到的损失函数值为：loss3。

由此，实现了对词语解码器在当前时刻t之前的多个时刻的隐层状态的重构。

在得到上述多个损失函数值后，可以将这多个损失函数叠加在一起，以对模型参数进行优化调整。

除了图7所示的层叠式的重构网络结构外，图8还提供了一种并排式的重构网络结构。此时，重构网络包括：独立的m个隐层以及m个隐层各自连接的全连接层。在该并排式的重构网络结构下，步骤601可以实现为：

将词语解码器t时刻的实际隐层状态分别输入到m个隐层以更新m个隐层的隐层状态。将m个隐层的隐层状态输入到各自对应的全连接层，得到由m个全连接层输出的词语解码器t-1至t-m时刻各自对应的重构隐层状态。

具体来说，如图8所示，假设m＝3，则此时重构网络中包括LSTM1、LSTM2和LSTM3这三个隐层，以及分别与这三个隐层对应连接的三个全连接层：FC1、FC2和FC3。另外，在每个全连接层的输出端可以计算损失函数，分别表示为L_AR1、L_AR2，L_AR3。其中，词语解码器在t-3、t-2、t-1时刻分别对应的实际隐层状态h_t-3、h_t-2、h_t-1与L_AR1、L_AR2，L_AR3的连接关系如图8中所示。

与图7所示实施例不同的是，本实施例中，这三个隐层之间彼此独立，相互之间并没有信息传递。

另外，假设当前时刻为t，如果要重构词语解码器之前的t-3、t-2和t-1这三个时刻的隐层状态，则与图7所示实施例不同的是，在本实施例中，词语解码器在时刻t对应的实际隐层状态h_t将被输入到重构网络的各个隐层：LSTM1、LSTM2和LSTM3。LSTM1、LSTM2和LSTM3的参数各不相同。

如图8所示，将词语解码器在时刻t对应的实际隐层状态h_t输入到LSTM1、LSTM2和LSTM3后可以更新LSTM1、LSTM2和LSTM3的隐层状态为h′_t、h′_t-1、h′_t-2。进而由FC1、FC2和FC3分别对输入至自身的隐层状态进行处理，以输出词语解码器t-1至t-3时刻分别对应的重构隐层状态

和和

进而，分别根据损失函数L_AR1、L_AR2、L_AR3输出对应的损失函数值：loss1、loss2和loss3，将这几个损失函数叠加在一起，以对模型参数进行优化调整。

以下将详细描述本发明的一个或多个实施例的摘要生成装置。本领域技术人员可以理解，这些摘要生成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图9为本发明实施例提供的一种摘要生成装置的结构示意图，如图9所示，该装置包括：获取模块11、词语编码器12、语句编码器13、语句解码器14、词语解码器15。

获取模块11，用于获取组成本文的多个第一语句。

词语编码器12，用于通过已训练好的模型的词语编码器分别对所述多个第一语句进行词语编码处理，得到对应于所述多个第一语句的多个第一语句表示向量。

语句编码器13，用于通过所述模型的语句编码器对所述多个第一语句表示向量进行句子编码处理，得到对应于所述文本的第一文本表示向量。

语句解码器14，用于通过所述模型的语句解码器对所述第一文本表示向量进行解码处理，得到指示需解码的文本内容的多个第一语句指示向量。

词语解码器15，用于通过所述模型的词语解码器分别对所述多个第一语句指示向量进行解码处理，得到多个第一摘要语句，由所述多个第一摘要语句组成所述文本的摘要。

其中，可选地，所述词语编码器和所述语句编码器包括如下神经网络中的任一种：双向循环神经网络、双向长短期记忆网络。

其中，可选地，所述词语解码器和所述语句解码器包括如下神经网络中的任一种：循环神经网络、长短期记忆网络。

进一步地，所述装置还可以包括模型训练模块，用于获取被标注的训练样本中包含的多个第二语句；通过所述词语编码器分别对所述多个第二语句进行词语编码处理，得到对应于所述多个第二语句的多个第二语句表示向量；通过所述语句编码器对所述多个第二语句表示向量进行句子编码处理，得到对应于所述训练样本的第二文本表示向量；通过所述语句解码器对所述第二文本表示向量进行解码处理，得到指示了需解码的文本内容的多个第二语句指示向量；通过所述词语解码器分别对所述多个第二语句指示向量进行解码处理，得到多个第二摘要语句；根据所述多个第二摘要语句与标注的多个参考摘要语句，确定第一损失函数；根据所述第一损失函数确定所述模型的参数。

其中，可选地，在获取所述多个第二摘要语句的过程中，所述模型训练模块具体可以用于：对于所述多个第二语句指示向量中的任一语句指示向量，通过所述词语解码器对所述任一语句指示向量进行解码处理，得到所述词语解码器各时刻的实际隐层状态；根据所述各时刻的实际隐层状态确定各时刻分别对应的词语，所述任一语句指示向量对应的第二摘要语句由所述各时刻分别对应的词语组成。

进一步可选地，所述装置还可以包括：第一模型优化模块，用于根据所述词语解码器t时刻的实际隐层状态反推所述词语解码器t-n时刻的重构隐层状态,n大于或等于1，t为所述各时刻中的一时刻；根据所述词语解码器t-n时刻的实际隐层状态与所述t-n时刻的重构隐层状态,确定第二损失函数；根据所述第二损失函数调整所述模型的参数。

其中，可选地，重构网络包括隐层以及与所述隐层连接的全连接层。从而，第一模型优化模块具体可以用于：将所述词语解码器t时刻的实际隐层状态和重构网络t-1时刻的隐层状态输入到所述重构网络的隐层以更新隐层状态，得到所述重构网络t时刻的隐层状态；将所述重构网络t时刻的隐层状态输入到所述全连接层，以得到所述全连接层输出的所述词语解码器t-n时刻的重构隐层状态。

进一步可选地，所述装置还可以包括：第二模型优化模块，用于根据所述词语解码器t时刻的实际隐层状态反推所述词语解码器t-1至t-m时刻各自对应的重构隐层状态,m大于1，t为所述各时刻中的一时刻；根据所述词语解码器t-1至t-m时刻各自对应的实际隐层状态与所述t-1至t-m时刻各自对应的重构隐层状态,确定多个第三损失函数；根据所述多个第三损失函数调整所述模型的参数。

其中，在一具体可选实施例中，重构网络包括：依次连接的m个隐层以及所述m个隐层各自连接的全连接层。此时，第二模型优化模块可以用于：将所述词语解码器t时刻的实际隐层状态输入到所述重构网络的第一个隐层以更新隐层状态；通过如下方式获得所述词语解码器t-1时刻对应的重构隐层状态：将所述第一个隐层更新后的隐层状态输入到所述第一个隐层连接的第一个全连接层，得到由所述第一个全连接层输出的所述词语解码器t-1时刻的重构隐层状态；通过如下方式获得所述词语解码器t-i时刻对应的重构隐层状态，1<i≤m：将第i-1个隐层的隐层状态输入到第i个隐层以更新隐层状态，将第i个隐层更新后的隐层状态输入至所述第i个隐层连接的全连接层，得到由所述第i个全连接层输出的所述词语解码器t-i时刻对应的重构隐层状态。

而在另一具体可选实施例中，重构网络包括：独立的m个隐层以及所述m个隐层各自连接的全连接层。此时，第二模型优化模块可以用于：将所述词语解码器t时刻的实际隐层状态分别输入到所述m个隐层以更新所述m个隐层的隐层状态；将所述m个隐层的隐层状态输入到各自对应的全连接层，得到由m个全连接层输出的所述词语解码器t-1至t-m时刻各自对应的重构隐层状态。

图9所示装置可以执行前述各实施例提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图9所示的摘要生成装置的结构可实现为一电子设备，该电子设备可以是终端设备也可以是服务器，如图10所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，使所述处理器21可以执行如前述各实施例中提供的摘要生成方法。

实际上，该电子设备中也可以包括通信接口23，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器可以执行如前述各实施例中提供的摘要生成方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种摘要生成方法，包括：

获取组成本文的多个第一语句；

2.根据权利要求1所述的方法，所述词语编码器和所述语句编码器包括如下神经网络中的任一种：双向循环神经网络、双向长短期记忆网络；

所述词语解码器和所述语句解码器包括如下神经网络中的任一种：循环神经网络、长短期记忆网络。

3.根据权利要求1或2所述的方法，还包括模型的训练步骤：

获取被标注的训练样本中包含的多个第二语句；

通过所述词语编码器分别对所述多个第二语句进行词语编码处理，得到对应于所述多个第二语句的多个第二语句表示向量；

通过所述语句编码器对所述多个第二语句表示向量进行句子编码处理，得到对应于所述训练样本的第二文本表示向量；

通过所述语句解码器对所述第二文本表示向量进行解码处理，得到指示了需解码的文本内容的多个第二语句指示向量；

通过所述词语解码器分别对所述多个第二语句指示向量进行解码处理，得到多个第二摘要语句；

根据所述多个第二摘要语句与标注的多个参考摘要语句，确定第一损失函数；

根据所述第一损失函数确定所述模型的参数，所述模型包括所述词语编码器、所述语句编码器、所述语句解码器和所述词语解码器。

4.根据权利要求3所述的方法，所述多个第二摘要语句的获取步骤，包括：

对于所述多个第二语句指示向量中的任一语句指示向量，通过所述词语解码器对所述任一语句指示向量进行解码处理，得到所述词语解码器各时刻的实际隐层状态；

根据所述各时刻的实际隐层状态确定各时刻分别对应的词语，所述任一语句指示向量对应的第二摘要语句由所述各时刻分别对应的词语组成。

5.根据权利要求4所述的方法，还包括：

根据所述词语解码器t时刻的实际隐层状态反推所述词语解码器t-n时刻的重构隐层状态,n大于或等于1，t为所述各时刻中的一时刻；

根据所述词语解码器t-n时刻的实际隐层状态与所述t-n时刻的重构隐层状态,确定第二损失函数；

根据所述第二损失函数调整所述模型的参数。

6.根据权利要求5所述的方法，重构网络包括隐层以及与所述隐层连接的全连接层；

所述根据所述词语解码器t时刻的实际隐层状态反推所述词语解码器t-n时刻的重构隐层状态，包括：

将所述词语解码器t时刻的实际隐层状态和重构网络t-1时刻的隐层状态输入到所述重构网络的隐层以更新隐层状态，得到所述重构网络t时刻的隐层状态；

将所述重构网络t时刻的隐层状态输入到所述全连接层，以得到所述全连接层输出的所述词语解码器t-n时刻的重构隐层状态。

7.根据权利要求4所述的方法，还包括：

根据所述词语解码器t时刻的实际隐层状态反推所述词语解码器t-1至t-m时刻各自对应的重构隐层状态,m大于1，t为所述各时刻中的一时刻；

根据所述词语解码器t-1至t-m时刻各自对应的实际隐层状态与所述t-1至t-m时刻各自对应的重构隐层状态,确定多个第三损失函数；

根据所述多个第三损失函数调整所述模型的参数。

8.根据权利要求7所述的方法，重构网络包括：依次连接的m个隐层以及所述m个隐层各自连接的全连接层；

所述根据所述词语解码器t时刻的实际隐层状态反推所述词语解码器t-1至t-m时刻各自对应的重构隐层状态，包括：

将所述词语解码器t时刻的实际隐层状态输入到所述重构网络的第一个隐层以更新隐层状态；

所述词语解码器t-1时刻对应的重构隐层状态通过如下方式获得：将所述第一个隐层更新后的隐层状态输入到所述第一个隐层连接的第一个全连接层，得到由所述第一个全连接层输出的所述词语解码器t-1时刻的重构隐层状态；

所述词语解码器t-i时刻对应的重构隐层状态通过如下方式获得，1<i≤m：将第i-1个隐层的隐层状态输入到第i个隐层以更新隐层状态，将第i个隐层更新后的隐层状态输入至所述第i个隐层连接的全连接层，得到由所述第i个全连接层输出的所述词语解码器t-i时刻对应的重构隐层状态。

9.根据权利要求7所述的方法，重构网络包括：独立的m个隐层以及所述m个隐层各自连接的全连接层；

将所述词语解码器t时刻的实际隐层状态分别输入到所述m个隐层以更新所述m个隐层的隐层状态；

将所述m个隐层的隐层状态输入到各自对应的全连接层，得到由m个全连接层输出的所述词语解码器t-1至t-m时刻各自对应的重构隐层状态。

10.一种摘要生成装置，包括：

获取模块，用于获取组成本文的多个第一语句；

11.一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至9中任一项所述的摘要生成方法。