CN108280112B

CN108280112B - 摘要生成方法、装置及计算机设备

Info

Publication number: CN108280112B
Application number: CN201710481703.4A
Authority: CN
Inventors: 孔行
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2021-05-28
Anticipated expiration: 2037-06-22
Also published as: US20190370338A1; WO2018233647A1; CN108280112A; US11409960B2

Abstract

本发明公开了一种摘要生成方法、装置及计算机设备，属于自然语言处理领域。所述方法包括：获取文档D，所述文档D包括至少一个句子；通过抽取式模型从所述文档D中抽取出m个候选句子；通过生成式模型根据所述m个候选句子输出目标词语，根据所述目标词语生成摘要。本发明先通过抽取式模型抽取适合作为摘要的m个候选句子，从而减少生成式模型所需要处理的文本序列长度，再通过生成式模型根据m个候选句子生成或提取出目标词语，根据目标词语合成文档的摘要，提高了最终生成的摘要的可读性和信息量。

Description

摘要生成方法、装置及计算机设备

技术领域

本申请实施例涉及自然语言处理领域，特别涉及一种摘要生成方法、装置及计算机设备。

背景技术

自动文本摘要(Automatic Text Summarization)用于将一篇文档进行提炼，生成简洁、流畅且包含文章主旨的摘要。自动文本摘要是自然语言处理领域的一大难题。

相关技术中提供了一种基于生成式(Abstractive)模型的自动文本摘要技术，该生成式模型用于从一篇文档中的每个句子中提取出词语，然后将提取出的词语重新组合为一个个句子，从而形成摘要。

但是在文档的文本序列长度较长时，生成式模型所提取出的词语难以控制，导致最终生成的摘要并不符合预期结果，也即最终生成的摘要的可读性和信息量均较差。

发明内容

为了解决在文档的文本序列长度较长时，生成式模型最终生成的摘要的可读性和信息量均较差的问题，本发明实施例提供了一种摘要生成方法、装置及计算机设备。所述技术方案如下：

第一方面，提供了一种摘要生成方法，所述方法包括：

获取文档D，所述文档D包括至少一个句子；

通过抽取式模型从所述文档D中抽取出m个候选句子；

通过生成式模型根据所述m个候选句子输出目标词语，根据所述目标词语生成摘要。

在一个可选的实施例中，所述通过抽取式模型从所述文档D中抽取出m个候选句子，包括：

计算所述文档D中每个句子的句子级编码向量；

根据所述每个句子的句子级编码向量计算所述文档D的文档级编码向量；

根据所述句子级编码向量和所述文档级编码向量计算所述文档中的每个句子的概率P，将所述文档D中所述概率P大于预设阈值的句子抽取为所述m个候选句子。

在一个可选的实施例中，所述抽取式模型包括：第一双向循环神经网络；

所述计算所述文档D中每个句子的句子级编码向量，包括：

将所述句子中的词语沿前向传播方向输入所述第一双向循环神经网络，得到第一前向编码向量；

将所述句子中的词语沿后向传播方向输入所述第一双向循环神经网络，得到第一后向编码向量；

根据所述第一前向编码向量和所述第一后向编码向量，得到所述句子的句子级编码向量。

在一个可选的实施例中，所述抽取式模型包括：第二双向循环神经网络；

所述根据所述每个句子的句子级编码向量计算所述文档的文档级编码向量，包括：

将所述n个句子的句子级编码向量沿前向传播方向输入所述第二双向循环神经网络，得到第二前向编码向量；

将所述n个句子的句子级编码向量沿后向传播方向输入所述第二双向循环神经网络，得到第二后向编码向量；

根据所述第二前向编码向量和所述第二后向编码向量，得到所述文档D的文档级编码向量。

在一个可选的实施例中，所述抽取式模型包括基于注意力机制的模型；

所述基于注意力机制的模型为：

p(S_i＝1|D)＝σ(a(S_i,h_i))；

其中，S_i为所述文档D中第i个句子的句子级编码向量，所述h_i为所述文档D的文档级编码向量，a为预设的前馈神经网络，σ为预设的第一非线性函数，p(S_i＝1|D)代表在第i个句子的概率大于所述预设阈值时将所述第i个句子标注为1，并抽取所述第i个句子，i为正整数。

在一个可选的实施例中，所述通过生成式模型根据所述m个候选句子输出目标词语，根据所述目标词语生成摘要，包括：

将所述m个候选句子的句子级编码向量作为输入序列输入所述生成式模型，计算第i个解码时刻的输出概率，i为正整数；

当所述输出概率大于所述预设阈值时，从所述文档D对应的词典中生成一个词语，作为所述摘要中的第i个词语；所述词典中包括所述文档D中出现频率高于预设条件的词语；

当所述输出概率小于所述预设阈值时，从所述m个候选句子中的目标句子中抽取出目标词语，作为所述摘要中的第i个词语。

在一个可选的实施例中，所述生成式模型包括编码器和解码器；

所述将所述m个候选句子的句子级编码向量作为输入序列输入所述生成式模型，计算第i个解码时刻的输出概率，包括：

通过所述编码器根据所述m个候选句子的句子级编码向量计算第i个解码时刻的上下文向量c_i；

将第i-1个解码时刻的隐含状态、所述上下文向量c_i和所述摘要中的第i-1个词语输入所述解码器，计算得到第i个解码时刻的隐含状态，所述第i个解码时刻的隐含状态用于表示所述解码器在所述第i个解码时刻下已经处理的部分输入序列；

根据所述摘要中的第i-1个词语、所述上下文向量c_i和所述第i个解码时刻的隐含状态，计算第i个解码时刻的输出概率。

在一个可选的实施例中，所述生成式模型还包括：第一最大似然估计函数和第二最大似然估计函数；

所述从所述m个候选句子中的目标句子中抽取出目标词语，作为所述摘要中的第i个词语，包括：

通过所述第一最大似然估计函数从所述m个候选句子中确定出所述第i个解码时刻下的目标句子；

通过所述第二最大似然估计函数从所述目标句子的词语中确定出目标词语。

第二方面，提供了一种摘要生成装置，所述装置包括：

获取模块，被用于获取文档D，所述文档D包括至少一个句子，每个句子包括至少一个词语；

抽取模块，用于通过抽取式模型从所述文档D中抽取出m个候选句子；

输出模块，用于通过生成式模型根据所述m个候选句子输出目标词语，根据所述目标词语生成摘要。

在一个可选的实施例中，所述抽取模块，包括：

计算单元，用于计算所述文档D中每个句子的句子级编码向量；

所述计算单元，还用于根据所述每个句子的句子级编码向量计算所述文档D的文档级编码向量；

所述计算单元，还用于根据所述句子级编码向量和所述文档级编码向量计算所述文档中的每个句子的概率P，将所述文档D中所述概率P大于预设阈值的句子抽取为所述m个候选句子，每个所述句子的概率P的取值为1或0。

在一个可选的实施例中，所述计算单元，包括：

第一输入子单元，用于将所述句子中的词语沿前向传播方向输入第一双向循环神经网络，得到第一前向编码向量；

所述第一输入子单元，还用于将所述句子中的词语沿后向传播方向输入所述第一双向循环神经网络，得到第一后向编码向量；

所述第一输入子单元，还用于根据所述第一前向编码向量和所述第一后向编码向量，得到所述句子的句子级编码向量。

在一个可选的实施例中，所述输入子单元，还用于将所述n个句子的句子级编码向量沿前向传播方向输入第二双向循环神经网络，得到第二前向编码向量；

所述第一输入子单元，还用于将所述n个句子的句子级编码向量沿后向传播方向输入所述第二双向循环神经网络，得到第二后向编码向量；

所述第一输入子单元，还用于根据所述第二前向编码向量和所述第二后向编码向量，得到所述文档D的文档级编码向量。

在一个可选的实施例中，所述输出模块，包括：

输入子模块，用于将所述m个候选句子的句子级编码向量作为输入序列输入所述生成式模型，计算第i个解码时刻的输出概率，i为正整数；

生成子模块，还用于当所述输出概率大于所述预设阈值时，从所述文档D对应的词典中生成一个词语，作为所述摘要中的第i个词语；所述词典中包括所述文档D中出现频率高于预设条件的词语；

抽取子模块，还用于当所述输出概率小于所述预设阈值时，从所述m个候选句子中的目标句子中抽取出目标词语，作为所述摘要中的第i个词语。

在一个可选的实施例中，所述输入子模块，包括：

计算子单元，用于通过所述编码器根据所述m个候选句子的句子级编码向量计算第i个解码时刻的上下文向量c_i；

第二输入子单元，还用于将第i-1个解码时刻的隐含状态、所述上下文向量c_i和所述摘要中的第i-1个词语输入所述解码器，计算得到第i个解码时刻的隐含状态，所述解码时刻的隐含状态用于表示所述解码器在当前解码时刻下已经处理的部分输入序列；

所述计算子单元，还用于根据所述摘要中的第i-1个词语、所述上下文向量c_i和所述第i个解码时刻的隐含状态，计算第i个解码时刻的输出概率，其中，i为正整数，且当i-1＝0时，所述第i-1个解码时刻的隐含状态取默认值，所述第i-1个词语取默认值。

在一个可选的实施例中，所述输出模块，还包括：

句子子模块，用于通过第一最大似然估计函数从所述m个候选句子中确定出所述第i个解码时刻下的目标句子；

词语子模块，用于通过第二最大似然估计函数从所述目标句子的词语中确定出目标词语。

第三方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面及第一方面的任一可选实现方式中所述的摘要生成方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面及第一方面的任一可选实现方式中所述的摘要生成方法。

本发明实施例提供的技术方案带来的有益效果至少包括:

先通过抽取式模型抽取适合作为摘要的m个候选句子，从而减少生成式模型所需要处理的文本序列长度，再通过生成式模型根据m个候选句子生成或提取出目标词语，根据目标词语合成文档的摘要，提高了最终生成的摘要的可读性和信息量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个示例性实施例提供的摘要生成方法的流程图；

图2a至图2c是本发明另一个示例性实施例提供的摘要生成方法的流程图；

图3a至图3c是本发明另一个示例性实施例提供的摘要生成方法的流程图；

图4是本发明另一个示例性实施例提供的摘要生成方法的流程图；

图5是本发明另一个示例性实施例提供的摘要生成方法的流程图；

图6是本发明一个示例性实施例提供的摘要生成装置的框图；

图7是本发明一个示例性实施例提供的计算机设备的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明一个示例性实施例提供的摘要生成方法的流程图。该摘要生成方法包括：

在步骤101中，获取文档D，该文档D中包括至少一个句子。

在步骤102中，通过抽取式模型从文档D中抽取出m个候选句子。

可选地，该抽取式模型包括基于注意力机制(Attention)的模型。

基于注意力机制的模型用于计算文档D中的每个句子的概率值，将概率值大于预设阈值的句子抽取为候选句子，将概率小于预设阈值的句子抛弃。其中，抽取式模型用于从文档D中抽取出适合作为摘要的m个候选句子。

在步骤103中，通过生成式模型根据m个候选句子输出目标词语，根据目标词语生成摘要。

可选地，该生成式模型包括基于指针生成网络(Pointer-Generator Networks)的模型，生成式模型中包括编码器与解码器，其中，编码器对应有编码时刻，解码器对应有解码时刻。

通过该生成式模型对每个解码时刻的输出概率进行计算，将该输出概率与预设阈值进行比较，若输出概率大于预设阈值，则将该输出概率标注为1，并从文档D对应的词典中生成一个词语进行输出；若输出概率小于预设阈值，则将该输出概率标注为0，并从m个候选句子中抽取目标词语进行输出。可选地，该词典由文档D中出现频率最高的n个词语组成。

在步骤104中，根据目标词语生成摘要。

综上所述，本发明实施例中先通过抽取式模型从文档D中抽取出适合作为摘要的m个候选句子，从而减少生成式模型所需要处理的文本序列长度，再通过生成式模型根据候选句子生成或提取出目标词语，根据目标词语合成文档D的摘要，提高了最终生成的摘要的可读性和信息量。

在一个可选的实施例中，抽取式模型是基于注意力机制的模型，抽取式模型通过双向循环神经网络对文档D中的每个句子进行编码，得到每个句子的句子级编码向量，再根据每个句子的句子级编码向量从文档D中抽取m个适合作为摘要的候选句子，基于图1所示的摘要生成方法的流程图，步骤102可替代实现为步骤102a至步骤102d，如图2a所示：

在步骤102a中，计算文档D中每个句子的句子级编码向量。

可选地，该句子级编码向量可由双向循环神经网络或单向循环神经网络计算得到，本发明实施例对此不加以限定。

以每个句子的句子级编码向量由双向循环神经网络计算为例，本步骤可以包括三个步骤，如图2b所示：

11，将文档D中的每个句子中的词语沿前向传播方向输入第一双向循环神经网络得到第一前向编码向量；

12，将文档D中的每个句子中的词语沿后向传播方向输入第一双向循环神经网络得到第一后向编码向量；

13，根据第一前向编码向量和第一后向编码向量得到句子的句子级编码向量。

可选地，针对步骤11，设单个句子＝{w₁、w₂、w₃…w_n}，w_i是表示句子中的第i个词语，第一双向循环神经网络为RNN；

将句子中每个词语按照由前到后的顺序沿前向传播方向输入RNN，采用如下计算公式计算：

Sh^f _i＝RNN(Sh^f _i-1，w_i)

其中，Sh^f _i为句子中第i个词语沿前向传播方向输入RNN后的编码结果，Sh^f _i-1为句子中第i-1个词语沿前向传播方向输入RNN后的编码结果，w_i为句子中第i个的词语，RNN为第一双向循环神经网络，其中，i为正整数，当i-1＝0时，第i-1个词语取空值或默认值；

也即，将句子中第i-1个词语的词语级编码结果与第i个词语输入第一双向循环神经网络得到第i个词语的词语级编码结果，其中第n个词语输入RNN后的编码结果为该句子的第一前向编码向量。

可选地，针对步骤12，将句子中每个词语按照由后到前的顺序沿后向传播方向输入RNN，采用如下计算公式计算：

Sh^b _i＝RNN(Sh^b _i+1，w_i)

其中，Sh^b _i为句子中第i个词语沿后向传播方向输入RNN的编码结果，Sh^b _i+1为句子中第i+1个词语沿后向传播方向输入RNN的编码结果，w_i为句子中第i个的词语，RNN为第一双向循环神经网络；

也即，将句子中第i+1个词语的词语级编码结果与第i个词语输入第一双向循环神经网络得到第i个词语的词语级编码结果，其中第1个词语输入RNN后的编码结果为该句子的第一后向编码向量。

可选地，需要对文档D中的每个句子执行步骤11和步骤12。

可选地，针对步骤13，采用如下计算公式进行计算：

S_i＝[Sh^f _in，Sh^b _i1]

其中，Sh^f _in为第i个句子中第n个词语(最后一个)沿前向传播方向输入RNN后得到的第一前向编码向量，Sh^b _i1为第i个句子中第一个词语沿后向传播方向输入RNN后得到的第一后向编码向量，S_i为第i个句子的句子级编码向量。

在步骤102b中，根据每个句子的句子级编码向量计算文档D的文档级编码向量。

可选地，该文档级编码向量可由双向循环神经网络或单向循环神经网络计算得到，本发明对此不加以限定。

以该文档级编码向量由双向循环神经网络计算为例，本步骤可以包括三个步骤，如图2c所示：

21，将n个句子的句子级编码向量沿前向传播方向输入第二双向循环神经网络，得到第二前向编码向量；

22，将n个句子的句子级编码向量沿后向传播方向输入第二双向循环神经网络，得到第二后向编码向量；

23，根据第二前向编码向量和第二后向编码向量得到文档D的文档级编码向量。

可选地，针对步骤21，第二双向循环神经网络为RNN，采用如下计算公式进行计算：

h^f _i＝RNN(h^f _i-1，S_i)

其中，h^f _i为文档D中第i个句子沿前向传播方向输入RNN后的编码结果，h^f _i-1为文档D中第i-1个句子沿前向传播方向输入RNN后的编码结果，S_i为第i个句子的句子级编码向量。

可选地，针对步骤22，第二双向循环神经网络为RNN，采用如下计算公式进行计算：

h^b _i＝RNN(h^b _i+1，S_i)

其中，h^b _i为文档D中第i个句子沿后向传播方向输入RNN后的编码结果，h^b _i+1为文档D中第i+1个句子沿前向传播方向输入RNN后的编码结果，S_i为第i个句子的句子级编码向量。

可选地，针对步骤23，采用如下计算公式进行计算：

h_i＝[h^f _i，h^b _i]

其中，h^f _i为第i个句子的第二前向编码向量，h^b _i为第i个句子的第二后向编码向量，h_i泛指文档D中的各个句子。

在步骤102c中，根据句子级的编码向量和文档级的编码向量计算文档中的每个句子的概率p。

可选地，该抽取式模型包括基于注意力机制的模型。

该基于注意力机制的模型用于根据每个句子的句子级编码向量以及文档级编码向量计算每个句子的概率值。

计算公式如下：

P(S_i＝1|D)＝σ(a(S_i，h_i))

其中，S_i为文档D中第i个句子的句子级编码向量，h_i为所述文档D的文档级编码向量，a为预设的前馈神经网络，σ为预设的第一非线性函数，p(S_i＝1|D)代表在第i个句子的概率大于预设阈值时被标注为1，并抽取该第i个句子；在第i个句子的概率小于预设阈值时被标注为0并抛弃该第i个句子。

在步骤102d中，将文档D中概率p大于预设阈值的句子抽取为m个候选句子。

综上所述，本发明实施例中通过基于注意力机制的模型从文档D中抽取出适合作为摘要的m个候选句子，从而将文档D中不被注意的无用句子进行丢弃，从而减少输入至生成式模型的文本序列中的噪声，提高生成式模型生成或提取出目标词语的信息量，进而提高最终生成的摘要的可读性。

在一个可选的实施例中，生成式模型是基于指针生成网络的模型，该生成模型包括编码器及解码器，解码器中包括指针生成网络，生成式模型通过m个候选句子的句子级编码向量计算第i个解码时刻的上下文向量，并得到该第i个解码时刻的隐含状态，根据第i个解码时刻的隐含状态来输出摘要中第i个词语。具体地，基于图1所示的摘要生成方法的流程图，步骤103可替代实现为如下步骤310至步骤312，如图3a所示：

在步骤310中，将m个候选句子的句子级编码向量作为输入序列输入生成式模型，计算第i个解码时刻的输出概率。

其中，计算第i个解码时刻的输出概率包括如下步骤，如图3b所示：

31，通过编码器根据m个候选句子的句子级编码向量计算第i个解码时刻的上下文向量c_i；

32，将第i-1个解码时刻的隐含状态、上下文向量c_i和摘要中的第i-1个词语输入指针生成网络，计算得到第i个解码时刻的隐含状态，其中，i为正整数，当i-1＝0时，第i-1个解码时刻的隐含状态取默认值。默认值可以是全部初始化为0。

33，根据摘要中的第i-1个词语、上下文向量和第i个解码时刻的隐含状态，计算第i个解码时刻的输出概率。

可选地，针对步骤31，采用如下计算公式进行计算：

e_ij＝a(h'_i-1,h_j)

其中，α_ij为解码器在第i个解码时刻的权重值，h_j表示编码器在第j个编码时刻的隐含状态，h’_i-1表示第i-1个解码时刻的隐含状态，T表示输入序列的输入长度，a表示预设的前馈神经网络。解码器在第i-1个解码时刻的隐含状态是解码器在第i-1个解码时刻已经处理的部分输入序列；编码器在第j个编码时刻的隐含状态是编码器在第j个解码时刻已经处理的部分输入序列。

将解码器在第i-1个解码时刻的隐含状态以及编码器在第j个编码时刻的隐含状态输入预设的前馈神经网络a得到一个输出值，通过该输出值计算得到解码器在第i个解码时刻的权重值，通过解码器在第i个解码时刻的权重值与编码器在第j个编码时刻的隐含状态计算得到第i个解码时刻的输出概率。

可选地，针对步骤32，采用如下计算公式进行计算：

h’_i＝RNN(h’_i-1,c_i,y_i-1)

其中，h’_i为解码器在第i个解码时刻的隐含状态，h’_i-1为解码器在第i-1个解码时刻的隐含状态、c_i为上下文向量，y_i-1为摘要中的第i-1个词语，RNN为预设的指针生成网络。

可选的，针对步骤33，采用如下计算公式进行计算：

p(G＝1|D)＝σ(h'_i,c_i,y_i-1)

其中，h’_i为解码器在第i个解码时刻的隐含状态、c_i为上下文向量，y_i-1为摘要中的第i-1个词语，σ表示预设的第二非线性函数。

在步骤311中，当输出概率大于预设阈值时，将该输出概率标注为1，并从文档D对应的词典中生成一个词语作为摘要的第i个词语。

可选地，该词典由文档D中出现频率最高的n个词语组成。

在步骤312中，当输出概率小于预设阈值时，将该输出概率标注为0，并从m个候选句子中的目标句子中抽取出目标词语作为摘要的第i个词语。

抽取目标句子和目标词语的方式包括通过基于注意力机制的模型进行抽取。可选地，本步骤包括如下步骤，如图3c所示：

41，通过第一最大似然估计函数从m个候选句子中确定第i个解码时刻下的目标句子。

计算公式如下：

p_ij＝argmax(e_ij)

其中，P_ij是m个候选句子在第i个解码时刻下针对第一最大似然估计函数的最优解，e_ij的计算公式如步骤31所示。

42，通过第二最大似然估计函数从目标句子中的词语中确定出目标词语。

计算公式如下：

p_ijk＝argmax(e_ijk)

其中，P_ij是目标句子中的各个词语在第i个解码时刻下针对第二最大似然估计函数的最优解，e_ijk的计算公式如下所示：

e_ijk＝a(h’_i-1，sh_jk)

其中，h’_i-1代表第i-1个解码时刻的隐含状态，a代表预设的前馈神经网络，sh_jk代表目标句子中第k个词语在第一双向循环神经网络中的编码结果。

可选地，第一最大似然估计函数和第二最大似然估计函数是基于注意力机制所确定的函数。

综上所述，本发明实施例中先通过抽取式模型从文档D中抽取出适合作为摘要的m个候选句子，再通过生成式模型根据候选句子生成或提取出目标词语，该生成式模型中采用了前馈神经网络给每个编码时刻的隐含状态进行加权，使得编码器输出的上下文向量更适合作为当前编码时刻时选择目标词语时的背景。

本发明实施例中还通过第一最大似然估计函数和第二最大似然估计函数，在解码过程中使用注意力机制选择出更为合理的目标词语，提高生成式模型生成或提取出目标词语的准确性，进而提高最终生成的摘要的可读性和信息量。

在一个具体的例子中，结合图4和图5对本发明实施例提供的摘要生成方法进行说明：

在步骤301中，获取文档D，该文档D中包括6个句子，第三个句子中包括至少4个词语w1、w2、w3、w4。

在步骤302至步骤303中，如图4指针所示，将文档D中的每个句子中的词语沿前向传播方向输入第一双向循环神经网络得到第一前向编码向量；将文档D中的每个句子中的词语沿后向传播方向输入第一双向循环神经网络得到第一后向编码向量。

在步骤304中，根据第一前向编码向量和第一后向编码向量得到句子级编码向量s1至s6。

在步骤305至步骤307中，将6个句子的句子级编码向量沿前向传播方向输入第二双向循环神经网络，得到第二前向编码向量；将6个句子的句子级编码向量沿后向传播方向输入第二双向循环神经网络，得到第二后向编码向量；根据第二前向编码向量和第二后向编码向量得到文档D的文档级编码向量h1至h6。

在步骤308中，将句子级编码向量和文档级编码向量输入基于注意力机制的模型计算文档中的每个句子的概率p。

其中，第二句、第四句以及第五句的概率p大于预设阈值，被标注为1；第一句、第三句以及第六句的概率p小于预设阈值，被标注为0。

在步骤309中，将文档D中概率p大于预设阈值的句子抽取为候选句子，即抽取第二句、第四句以及第五句为候选句子h’2、h’4以及h’5。

在步骤310中，将候选句子的句子级编码向量作为输入序列输入生成式模型，计算第i个解码时刻的输出概率。

如图4可知，h’2在第i个解码时刻的输出概率大于预设阈值，并被标注为1，h’4在第i+k个解码时刻的输出概率小于预设阈值，并被标注为0，h’5在第i+l个解码时刻的输出概率大于预设阈值，并被标注为1，其中，第i个解码时刻、第i+k个解码时刻以及第i+l个解码时刻为三个不同的解码时刻，且k、l均为整数。

在步骤311中，当输出概率大于预设阈值时，从文档D对应的词典中生成一个词语作为摘要的词语，即w1与w3为从词典中生成的词语，

在步骤312中，当输出概率小于预设阈值时，从候选句子中的目标句子中抽取出目标词语作为摘要的词语，即w2为从目标句子第二句中抽取出的词语。

图6是本发明一个示例性实施例提供的摘要生成装置的框图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。所述装置包括：获取模块52、抽取模块54以及输出模块56。

获取模块52，用于获取文档D，所述文档D包括至少一个句子，每个句子包括至少一个词语；

抽取模块54，用于通过抽取式模型从所述文档D中抽取出m个候选句子；

输出模块56，用于通过生成式模型根据所述m个候选句子输出目标词语，根据所述目标词语生成摘要。

在一个可选的实施例中，所述抽取模块，包括：

在一个可选的实施例中，所述计算单元，包括：

在一个可选的实施例中，所述输出模块，包括：

在一个可选的实施例中，所述输入子模块，包括：

在一个可选的实施例中，所述计算子单元，还用于按照如下公式计算所述上下文向量c_i：

e_ij＝a(h’_i-1,h_j)

其中，h_j代表第j个编码时刻的隐含状态，T代表所述输入序列的长度，h’_i-1代表第i-1个解码时刻的隐含状态，a代表预设的前馈神经网络，其中，所述编码时刻的隐含状态用于表示所述编码器在当前编码时刻下已经处理的部分输入序列。

在一个可选的实施例中，所述输出模块，还包括：

图7是本发明一个示例性实施例提供的计算机设备的框图。该计算机设备可以是手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等，该计算机设备包括：处理器62和存储器64，可选地，该计算机设备还包括显示屏66。

处理器62可以是单核处理器、多核处理器、嵌入式芯片以及具有计算能力的处理器中的至少一种。

存储器64存储有处理器的可执行指令。示意性的，存储器64中一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器62加载并执行以实现如图1至图5所示的任意一种摘要生成方法。

可选地，显示屏66是用于计算机设备显示文档D的内容以及根据文档D的内容生成的自动文本摘要的内容。

可选地，本发明实施例还提供了一种计算机可读存储介质，该存储介质中一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图1至图5所示的任意一种摘要生成方法，可选地，该计算机可读存储介质包括高速存取存储器、非易失性存储器。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种摘要生成方法，其特征在于，所述方法包括：

获取文档D，所述文档D包括至少一个句子，每个句子包括至少一个词语，所述文档D用于依次通过抽取式模型与生成式模型，获得所述文档D对应的摘要；

通过所述抽取式模型计算所述文档D中每个句子的句子级编码向量；

通过所述抽取式模型根据所述每个句子的句子级编码向量计算所述文档D的文档级编码向量；

通过所述抽取式模型根据所述句子级编码向量和所述文档级编码向量计算所述文档D中的每个句子的概率P，将所述文档D中所述概率P大于预设阈值的句子抽取为m个候选句子；

将所述m个候选句子的句子级编码向量作为输入序列输入生成式模型，计算第i个解码时刻的输出概率，i为正整数；

当所述输出概率大于所述预设阈值时，通过所述生成式模型从词典中生成一个词语，作为摘要中的第i个词语，所述词典由所述文档D中出现频率最高的n个词语组成；

当所述输出概率小于所述预设阈值时，通过所述生成式模型从所述m个候选句子中的目标句子中抽取出目标词语，作为所述摘要中的第i个词语。

2.根据权利要求1所述的方法，其特征在于，所述抽取式模型包括：第一双向循环神经网络；

所述计算所述文档D中每个句子的句子级编码向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述抽取式模型包括：第二双向循环神经网络；

所述通过所述抽取式模型根据所述每个句子的句子级编码向量计算所述文档D的文档级编码向量，包括：

将所述文档D中每个句子的句子级编码向量沿前向传播方向输入所述第二双向循环神经网络，得到第二前向编码向量；

将所述文档D中每个句子的句子级编码向量沿后向传播方向输入所述第二双向循环神经网络，得到第二后向编码向量；

4.根据权利要求1所述的方法，其特征在于，所述抽取式模型包括基于注意力机制的模型；

所述基于注意力机制的模型为：

p(S_i=1|D)=σ(a(S_i,h_i))；

其中，S_i为所述文档D中第i个句子的句子级编码向量，所述h_i为所述文档D的文档级编码向量，a为预设的前馈神经网络，σ为预设的第一非线性函数，p(S_i=1|D)代表在第i个句子的概率大于所述预设阈值时将所述第i个句子标注为1，并抽取所述第i个句子，i为正整数。

5.根据权利要求1所述的方法，其特征在于，所述生成式模型包括编码器和解码器；

6.根据权利要求1所述的方法，其特征在于，所述生成式模型还包括：第一最大似然估计函数和第二最大似然估计函数；

7.一种摘要生成装置，其特征在于，所述装置包括：

获取模块，被用于获取文档D，所述文档D包括至少一个句子，每个句子包括至少一个词语，所述文档D用于依次通过抽取式模型与生成式模型，获得所述文档D对应的摘要；通过抽取式模型计算所述文档D中的句子级编码向量；通过所述抽取式模型根据所述每个句子的句子级编码向量计算所述文档D的文档级编码向量；

抽取模块，用于通过所述抽取式模型根据所述句子级编码向量和所述文档级编码向量计算所述文档D中的每个句子的概率P，将所述文档D中概率P大于预设阈值的句子抽取为m个候选句子；

输出模块，用于将所述m个候选句子的句子级编码向量作为输入序列输入所述生成式模型，计算第i个解码时刻的输出概率，i为正整数；当所述输出概率大于所述预设阈值时，通过所述生成式模型从词典中生成一个词语，作为摘要中的第i个词语，所述词典由所述文档D中出现频率最高的n个词语组成；当所述输出概率小于所述预设阈值时，通过所述生成式模型从所述m个候选句子中的目标句子中抽取出目标词语，作为所述摘要中的第i个词语。

8.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如如权利要求1至6任一所述的摘要生成方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的摘要生成方法。