CN108228541A

CN108228541A - 生成文档摘要的方法和装置

Info

Publication number: CN108228541A
Application number: CN201611199875.4A
Authority: CN
Inventors: 张剑; 刘轶; 王宝岩; 黄石磊
Original assignee: Shenzhen Beike Risound Polytron Technologies Inc
Current assignee: Shenzhen Beike Risound Polytron Technologies Inc
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2018-06-29
Anticipated expiration: 2036-12-22
Also published as: CN108228541B

Abstract

本发明涉及一种生成文档摘要的方法，包括对文档集进行预处理并通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理，得到每个词汇对应的权重，将句子集合中每个句子对应的所有词汇权重相加，得到对应的内部信息量得分，根据预设相似度阈值，确定每个句子对应的相似句及相似句数量，计算得到对应的重要性得分，将每个句子的相似句数量与每个句子的所有相似句各自对应的相似句数量进行比较，计算得到每个句子的多样性得分，进而计算得到每个句子的综合性得分，最后根据每个句子的综合性得分和预设的摘要长度进行筛选并生成文档摘要。此外还提供一种生成文档摘要的装置。上述生成文档摘要的方法和装置，从整体上降低了摘要的冗余度。

Description

生成文档摘要的方法和装置

技术领域

本发明涉及语言文字处理领域，特别是涉及一种生成文档摘要的方法和装置。

背景技术

随着互联网技术的快速发展，计算机网络中的数据呈现出***性增长的态势，严重的信息过载问题不容忽视。当浏览属于同一个主题的网页时，一些网页具有很多相同的信息，却包含比较少的不同信息，此时则需要一个概括信息的工具来快速浏览信息。因此，有必要将这些页面中的内容形成文档摘要以提高信息获取的效率。

在网络数据中，文本数据占据了很重要的一部分。多文档摘要是将属于同一个主题的多个文档所描述的主要信息按照一定的压缩比最终提炼出一个文本的自然语言处理技术。

然而传统的多文档摘要处理过程中，一般往往将文档集划分为若干个意义相似句子的子集合，然后从不同的句子的子集合中抽取句子形成摘要，这种处理方法仅仅从文档全局角度考虑句子是否具有代表性，最终导致生成的文档摘要存在冗余度过高的问题。

发明内容

基于此，有必要针对上述问题，提供一种生成文档摘要的方法和装置，能够同时考虑句子的内部信息量和句子的全局代表性，降低文档摘要的冗余度。

一种生成文档摘要的方法，所述方法包括：

对文档集进行预处理，得到所述文档集对应的句子集合以及词表集合；

通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理，得到所述词表集中每个词汇对应的权重；

将所述句子集合中每个句子对应的所有词汇权重相加，得到所述句子集合中每个句子的内部信息量得分；

计算所述句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定所述句子集合中每个句子对应的相似句及相似句数量，并根据所述相似句数量计算得到每个句子对应的重要性得分；

依次获取所述句子集合中的每个句子作为当前处理句，将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到所述比较集合的最大值，并将所述比较集合的最大值对应的句子加入多样性参考集合；

根据所述句子集合和所述多样性参考集合，计算所述句子集合中每个句子的多样性得分；

根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分；

根据所述综合性得分和预设的摘要长度，将所述句子集合中的所有句子进行筛选形成文档摘要。

在一个实施例中，所述根据所述句子集合和所述多样性参考集合，计算所述句子集合中每个句子的多样性得分的步骤包括：

依次获取所述句子集合中的每个句子作为待处理句，如果所述待处理句在所述多样性参考集合中，则在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句，根据所述待处理句与所述第一参考句的相似度值计算所述待处理句的多样性得分；

如果所述待处理句不在所述多样性参考集合中，则在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句，根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。

在一个实施例中，所述根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的计算公式为：

S_S(i)＝M₁log_a S_I(i)+M₂log_a S_D(i)+M₃log_a S_C(i)

其中，S为所述句子集合，s(i)为S中第i个句子，S_S(i)为s(i)的综合性得分，S_I(i)为s(i)的内部信息量得分，S_D(i)为s(i)的重要性得分，S_C(i)为s(i)的多样性得分，M₁、M₂和M₃为预设系数值，a大于0且不等于1。

在一个实施例中，所述根据所述综合性得分和预设的摘要长度，将所述句子集合中的所有句子进行筛选形成文档摘要的步骤包括：

根据所述综合性得分和预设的摘要长度，采用动态规划算法，将所述句子集合中的所有句子进行筛选形成文档摘要。

在一个实施例中，所述方法还包括：

计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例，根据预设的第一阈值、第二阈值以及所述比例，计算所述句子集合中每个句子的长度代价得分，所述第一阈值小于所述第二阈值，所述长度代价得分计算公式为：

其中，a为底数且a>1，S为所述句子集合，Si为所述集合S中的第i个句子，L₁为所述第一阈值，L₂为所述第二阈值，且L₂＞L₁，L_i为所述第i个句子的有效长度值，L_max为所述有效长度L_i最大值，S_L(i)为所述第i个句子Si的长度代价得分；

获取所述长度代价得分，根据所述长度代价得分、所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。

一种生成文档摘要的装置，所述装置包括：

文档预处理模块，用于对文档集进行预处理，得到所述文档集对应的句子集合以及词表集合；

内部信息量得分计算模块，用于通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理，得到所述词表集中每个词汇对应的权重，并将所述句子集合中每个句子对应的所有词汇的权重相加，得到所述句子集合中每个句子的内部信息量得分；

重要性得分计算模块，用于计算所述句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定所述句子集合中每个句子对应的相似句及相似句数量，并根据所述相似句数量计算得到每个句子对应的重要性得分；

多样性参考集合计算模块，用于依次获取所述句子集合中的每个句子作为当前处理句，将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到所述比较集合的最大值，并将所述比较集合的最大值对应的句子加入多样性参考集合；

多样性得分计算模块，用于根据所述句子集合和所述多样性参考集合，计算所述句子集合中每个句子的多样性得分；

综合性得分计算模块，用于根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。

文档摘要生成模块，用于根据所述综合性得分和预设的摘要长度，将所述句子集合中的所有句子进行筛选形成文档摘要。

在其中一个实施例中，所述多样性得分计算模块包括：

判断单元，用于依次获取所述句子集合中的每个句子作为待处理句，判断所述待处理句是否在所述多样性参考集合，如果所述待处理句在所述多样性参考集合中，则进入第一处理单元，否则进入第二处理单元；

第一处理单元，用于在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句，根据所述待处理句与所述第一参考句之间的相似度值计算所述待处理句的多样性得分；

第二处理单元，用于在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句，根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。

在其中一个实施例中，所述综合性得分计算模块中根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的公式为：

S_S(i)＝M₁log_a S_I(i)+M₂log_a S_D(i)+M₃log_a S_C(i)

在其中一个实施例中，所述文档摘要生成模块还用于根据所述综合性得分和预设的摘要长度，采用动态规划算法，将所述句子集合中的所有句子进行筛选形成文档摘要。

在其中一个实施例中，所述装置还包括：

长度代价得分模块，用于计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例，根据预设的第一阈值、第二阈值以及所述比例，计算所述句子集合中每个句子的长度代价得分，所述第一阈值小于所述第二阈值，所述长度代价得分计算公式为：

所述综合性得分模块还用于获取所述长度代价得分，根据所述长度代价得分、所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。

上述生成文档摘要的方法和装置，通过对文档集进行预处理，得到所述文档集对应的句子集合以及词表集合，通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理，得到所述词表集中每个词汇对应的权重，将所述句子集合中每个句子对应的所有词汇权重相加，得到所述句子集合中每个句子的内部信息量得分，计算所述句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定所述句子集合中每个句子对应的相似句及相似句数量，并根据所述相似句数量计算得到所述句子集合中每个句子对应的重要性得分，依次获取所述句子集合中的每个句子作为当前处理句，将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到所述比较集合的最大值，并将所述比较集合的最大值对应句加入多样性参考集合，根据所述句子集合和所述多样性参考集合，计算所述句子集合中每个句子的多样性得分，根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分，根据所述综合性得分和预设的摘要长度，将所述句子集合中的所有句子进行筛选形成文档摘要，通过将句子的内部信息量得分、重要性得分、多样性得分结合在一起，既考虑了句子的本身的内部信息量，体现了句子内部信息量以及句子本身的重要性，又考虑了句子在文档集中的全局地位信息，使句子的多样性处理过程体现在文档句子处理的核心得分环节，进而进行句子的量化得分并筛选生成文档摘要，最终从整体上降低了文档摘要的冗余度。

附图说明

图1为一个实施例中生成文档摘要的方法流程图；

图2为一个实施例中根据句子集合和多样性参考集合，计算句子集合中每个句子的多样性得分的方法流程图；

图3为一个实施例中生成文档摘要的方法流程图；

图4为一个实施例中生成文档摘要的装置结构示意图；

图5为一个实施例中多样性得分计算模块的结构示意图；

图6为一个实施例中生成文档摘要的装置结构示意图。

具体实施方式

如图1所示，在一个实施例中，一种生成文档摘要的方法，包括如下步骤：

S110，对文档集进行预处理，得到文档集对应的句子集合以及词表集合。

具体地，遍历属于同一个主题的整个文档集，对其进行句子切分处理，得到句子集合，然后对于英文文档集或者中文文档集进行分词处理，对于英文文档集按照空格、符号以及段落等方法进行分词，对于中文文档集合按照基于字符串匹配的分词方法、基于理解的分词方法和基于词频统计的分词方法，但不限于此；针对每个句子中的每个词判读其是否在预设的停用词表出现，若是则删除，若否则跳过，直至处理完所有句子；对去除停用词之后的每个句子中的每个词进行提取词干处理，得到句子集合所对应的词表集合。

在一个实施例中，遍历属于同一主题的中文文档集D＝{d1，d2，……dN，N为正整数}，N为中文的文档数量，对D中所有文档根据标点等进行句子切分，得到句子集合S＝{S1，S2，……，Sh，k为正整数}，k为句子总数，Si为S中的第i个句子(1≤i≤k，且i为正整数)，然后采用分词方法，如对字符串匹配的分词方法对其进行分词处理；针对每个句子Si进行去除停用词处理，对于中文文档而言，停用词是指在句子集合中的每个句子中有很多虚词在文章中仅起到结构作用，并不表示实际意义的词，比如介词、副词等。

针对每个句子Si中的词，判读其是否在预设的停用词表t＝{t1，t2，……，tq，q为正整数}出现，若是则删除，若否则跳过，直至处理完所有句子；对去除停用词之后的每个句子中的每个词进行提取词干处理，得到句子集合所对应的词表集合T＝{T1，T2，……，TV，V为正整数}，词表数量大小为V。

S120，通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理，得到词表集中每个词汇对应的权重，并将句子集合中每个句子对应的所有词汇的权重相加，得到句子集合中每个句子的内部信息量得分。

在一个实施例中，通过潜在狄利克雷模型对词表集合进行处理，采用吉布斯(Gibbs)算法求解出潜在狄利克雷模型中的参数，进而得到词表集合T中每个词汇Wij对应的权重，具体如下：

首先对所有文档中的所有词遍历一遍，为其都随机分配一个主题，并且满足多项分布，即其中m表示第m篇文档，n表示文档中的第n个词，k表示主题，K表示主题的总数，之后对应的n_m,n_k分别表示在m文档中k主题出现的次数、m文档中主题数量的和、k主题对应的t词的次数和k主题对应的总词数。

其次，对所有文档中的所有词进行遍历，假如当前文档m的词t对应主题为k，则n_m-1,n_k-1即先拿出当前词，之后根据潜在狄利克雷分布中主题抽样的概率分布抽样出新的主题，在这个主题k上所对应的各种计数，n_m,n_k分别做加一操作。主题抽样的概率分布如下：

其中，p表示当前词i的主题zi＝k的采样概率，-i表示除去当前词i，α_k、β_t分别表示超参数，T₀表示词表集合T中所有词，n^(t) _k,-i表示在去除当前词i的情况下k主题下词项t的统计次数，即主题k中当前词i对应词项t出现的总数，n^(k) _m,-i去除当前词i的情况下，m文档k主题统计次数之和，表示去除当前词i的情况下k主题下所有词项的统计次数之和。

再者，对上述主题抽样过程进行迭代，直至结束，得到主题分布θ_k,t和词分布从而完成对潜在狄利克雷技术模型的参数估计，上述参数的估计的公式为：

其中，表示表示k主题下的词项t的概率分布，θ_k,t表示m文档下主题k的概率分布，n^(t) _k表示k主题对应的t词的次数，n^(k) _m表示m文档k主题的统计次数，K表示整个文档集D中的主题数量，V表示整个词表集合中的词汇的数量，α_k、β_t分别表示狄利克雷分布中的超参数。

最后通过吉布斯算法计算出这个参数包括整个多文档集合中每个句子Si在K个主题上的混合权重，所以整个文档集上的主题重要度可以通过将所有句子中主题混合权重加和，并进行归一化计算得到对应的概率值P(K_k|D)，另一方面可由吉布斯算法计算出了主题-单词的分布P(W_ij|K_k)，即为主题k生成单词Tj的概率分布，于是词汇Tj所赋予的全局权重W_ij由主题k生成该词汇的概率P(W_ij|K_k)和主题k在文档集中的重要度P(K_k|D)共同决定，显然有

其中，P(K_k|s_i)表示第k个主题在第i个句子上的权重分布，P(W_ij|K_k)表示第i个句子中词Tj在第k个主题上的权重分布。

当句子Si包含该词语时将计算的值赋值给对应的Wij，其余的值赋值为0，于是将句子集合中每个句子Si对应的所有词汇的权重Wij相加，得到句子集合中每个句子Si的内部信息量得分S_I(i)。

在一个实施例中，还可采用向量空间模型对词表集合进行处理，如果词表集合中的第j个词Tj在Si中(1≤j≤v，且j为正整数)，则给出权重Wij，这样每个句子均可以表示成长度为V的向量，即Si＝(Wi1,Wi2,……,WiV)。

在一个实例中，权重Wij计算公式可采用如下公式：

如果词表集合中的第j个词Tj在Si中(1≤j≤v，且j为正整数)，则给出权重Wij＝1。

在另一个实例中，权重Wij计算公式可采用TF-IDF算法(Term Frequency–InverseDocument Frequency,词频-逆向文档频率)，如下列公式所示：

其中k表示总的句子数，kj表示Tj出现的句子总数，如果词表集合中的第j个词Tj在Si中，则Wij采用上述公式计算。

S130，计算句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定句子集合中每个句子对应的相似句及相似句数量，并根据相似句数量计算得到每个句子对应的重要性得分。

具体地，任意两个句子的相似性采用余弦距离，句子集合中两两句子间的相似度计算公式为：

其中，w_i,t、w_j,t分别对应表示词表集合T＝{T1，T2，……，TV}中第t个位置的词Tt在第i与第j句的特征向量的权重，Si、Sj分别表示句子集合S＝{S1，S2，……，Sh}中对应的第i个和第j个句子。

任意两个句子的相似性也可采用标准欧式距离，即

其中，w_i,t、w_j,t分别对应表示词表集合T＝{T1，T2，……，TV}中第t个位置的词Tt在第i与第j句的特征向量的权重，V表示词表的个数，St表示对应的方差。

根据待处理文本数据的规模，设置相似度阈值d_c，针对集合S中的句子Si，按照设置的相似度阈值d_c为标准计算Si对应的相似句个数，作为句子Si对应的重要性得分S_D(i)：

即对于句子Si，设定句子的重要性得分S_D(i)初始值为0，然后将Si与S中其他所有句子的相似度sim_ij与相似度阈值d_c相减得到对应的差值，如果差值大于0，则认为句子Sj与句子Si相邻相似，即句子Sj即为Si的相邻句，那么就将句子重要性得分S_D(i)值加1；如果小于或等于0，则句子重要性得分S_D(i)值保持不变。按上述步骤计算句子集合S中除si之外的所有句子，得到句子si的重要性得分S_D(i)值；最后将所有句子对应的S_D(i)，将该值除以句子集合S中句子总数K，作为归一化处理，得到最终归一化的句子重要性得分S_D(i)。

S140，依次获取句子集合中的每个句子作为当前处理句，将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到比较集合的最大值，并将比较集合的最大值对应的句子加入多样性参考集合。

具体地，对于句子集合S＝{S1，S2，…，Sh}，首先统计出该集合中的所有句子的相似句数量即Si的相似句数量mi，得到集合M＝{m1，m2，……，mh}，然后根据集合M的统计信息，把mi值与对应的句子Si的相邻句子集合SiL＝{Si1，Si2，…Sij…，SiL，L∈N*且L≤h}中所有句子Sij对应的相似句数量mij放在同一个集合M1＝{mi，mi1，mi2，……，miL}，得到其中最大的值M1^max，并将M1^max所对应的句子Six放入多样性参考集合SX中，如果有多个最大值，则将对应的句子一并放入多样性参考集合SX中。

S150，根据句子集合和多样性参考集合，计算句子集合中每个句子的多样性得分。

具体地，句子集合为S＝{S1，S2，…，Sh}，多样性参考集合为SX，计算句子集合S中每个句子的多样性得分S_C(i)，并可对S_C(i)进一步进行归一化处理。

S160，根据内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。

S170，根据综合性得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要。

具体地，根据综合性得分以及预设的摘要长度值，选取满足条件的句子按照原文档集对应的句子顺序进行排序，形成文档摘要。

本实施例中生成文档摘要的方法，通过对文档集进行预处理，得到文档集对应的句子集合以及词表集合，将词表集合通过潜在狄利克雷模型或者向量空间模型进行处理，得到词表集中每个词汇对应的权重，将句子集合中每个句子对应的所有词汇的权重相加，得到句子集合中每个句子的内部信息量得分，计算句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定句子集合中每个句子对应的相似句及相似句数量，并根据相似句数量计算得到句子集合中每个句子对应的重要性得分，依次获取句子集合中的每个句子作为当前处理句，将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到比较集合的最大值，并将比较集合的最大值对应句加入多样性参考集合，根据句子集合和多样性参考集合，计算句子集合中每个句子的多样性得分，根据内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分，根据综合性得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要，通过将句子的内部信息量得分、重要性得分、多样性得分结合在一起，既考虑了句子的本身的内部信息量，体现了句子内部信息量以及句子本身的重要性，又考虑了句子在文档集中的全局地位信息，使句子的多样性处理过程体现在文档句子处理的核心得分环节，进而进行句子的量化得分并筛选生成文档摘要，最终从整体上降低了文档摘要的冗余度。

在一个实施例中，如图2所示，步骤S140包括：

S142，依次获取句子集合中的每个句子作为待处理句，判断待处理句是否在多样性参考集合中，如果待处理句在多样性参考集合中，则进入步骤S240，如果待处理句不在多样性参考集合中，则进入步骤S260。

其中，句子集合S＝{S1，S2，…Si，…，Sh}，获取句子集合S中每个句子作为待处理句Si；

S144，则在句子集合中找到与待处理句之间具有最小相似度的第一参考句，根据待处理句与第一参考句的相似度值计算待处理句的多样性得分。

其中Si的相邻句子集合SiL＝{Si1，Si2，…Sij…，SiL，L∈N*且L≤k}，多样性参考集合为SX，如果Si∈SX，则在集合S中找到与待处理句Si相似度最小的句子Sj，则待处理句Si的多样性得分为：

S_C(i)＝1-min(sim_ij)

S146，则在多样性参考集合中找到与待处理句之间具有最大相似度的第二参考句，根据待处理句与第二参考句之间的相似度值计算出待处理句的多样性得分。

其中，如果则在多样性参考集合SX中找到与待处理句Si相似度最大的句子Sj，则待处理句Si的多样性得分为：

S_C(i)＝1-max(sim_ij)

本实施例中通过判断待处理句子是否在多样性参考集合中，对句子的多样性得分进行差异化计算，反映了句子Si在句子集合S中的全局信息，使多样性处理体现在文档句子处理的核心环节，有助于计算句子的综合量化评分，使得最终生成的文档摘要的冗余度显著降低。

在一个实施例中，步骤S150中根据内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分的计算公式为：

S_s(i)＝M₁log_a S_I(i)+M₂log_a S_D(i)+M₃log_a S_C(i)

其中，S为句子集合，s(i)为S中第i个句子，S_S(i)为s(i)的综合性得分，S_I(i)为s(i)的内部信息量得分，S_D(i)为s(i)的重要性得分，S_C(i)为s(i)的多样性得分，M₁、M₂和M₃为预设系数值，a大于0且不等于1。

其中，M₁、M₂和M₃可以通过调试和经验值获得，本实施例中通过将句子的内部信息量得分、重要性得分和多样性得分分别进行取对数处理，并可进一步进行归一化，使得句子的综合性得分更趋向于直观，便于比较。

在一个实施例中，根据综合性得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要的步骤包括：

根据综合性得分和预设的摘要长度，采用动态规划算法，将句子集合中的所有句子进行筛选形成文档摘要。

具体地，将句子提取看成一个0-1背包问题，即在生成的摘要长度限制下抽取的句子的得分最高，采用动态规划算法提取句子，首先用一个二维数组S[i][L]表示长度为L，生成的摘要中包含句子Si时，摘要中句子分数和为最大值，所以S[i][0]为0，对于所有句子Si依次进行如下操作，令长度值Lm从1逐一增加到预设的摘要长度Lmax，并对每一个长度计算S[i-1][Lm]，S[i-1][Lm-Li]+SS[i]，比较两者大小，如果S[i-1][Lm]>S[i-1][Lm-Li]+SS[i]，则放弃将Si加入摘要中，如果S[i-1][Lm]<S[i-1][Lm-Li]+SS[i]，则将Si加入摘要中。

本实施例中，通过采用动态规划算法，能够在保证摘要的长度属性情况下，使得生成摘要的综合性得最高，进一步从整体上降低了摘要的冗余度。

在一个实施例中，如图3所示，提供了一种生成文档摘要的方法，方法包括：

S210，对文档集进行预处理，得到文档集对应的句子集合以及词表集合。

S220，计算句子集合中每个句子去除停用词之后的有效长度值与有效长度

值的最大值的比例，根据预设的第一阈值、第二阈值以及比例，计算句子

集合中每个句子的长度代价得分，第一阈值小于第二阈值，长度代价得分

计算公式为：

其中，a为底数且a>1，S为句子集合，Si为集合S中的第i个句子，L₁为第一阈值，L₂为第二阈值，且L₂＞L₁，L_i为第i个句子的有效长度值，L_max为有效长度L_i最大值，S_L(i)为第i个句子Si的长度代价得分。

S230，通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理，得到词表集中每个词汇对应的权重，并将句子集合中每个句子对应的所有词汇的权重相加，得到句子集合中每个句子的内部信息量得分。

S240，计算句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定句子集合中每个句子对应的相似句及相似句数量，并根据相似句数量计算得到每个句子对应的重要性得分。

S250，依次获取句子集合中的每个句子作为当前处理句，将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到比较集合的最大值，并将比较集合的最大值对应的句子加入多样性参考集合。

S260，根据句子集合和多样性参考集合，计算句子集合中每个句子的多样性得分。

S270，根据长度代价得分、内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。

具体地，上述计算句子集合中每个句子Si的综合性得分的计算公式为：

S_s(i)＝M₁log_a S_I(i)+M₂log_a S_D(i)+M₃log_a S_C(i)+log_a S_L(i)

其中，S为句子集合，s(i)为S中第i个句子，S_S(i)为s(i)的综合性得分，S_I(i)为s(i)的内部信息量得分，S_D(i)为s(i)的重要性得分，S_C(i)为s(i)的多样性得分，log_aS_L(i)为长度代价得分，M₁、M₂和M₃为预设系数值，a大于0且不等于1。

S280，根据综合性得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要。

本实施例中，在计算句子的内部信息量得分、重要性得分以及多样性得分的基础上，进一步计算句子的长度代价得分，从句子长度属性反映了句子对的全局信息，对生成的文本摘要进行了进一步的限定，使得摘要的长度属性保持在合理的范围内，最后得到句子的综合性量化得分，根据综合性量化得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要，使得最终生成的文档摘要的冗余度降低。

在一个实施例中，如图4所示，提供了一种生成文档摘要的装置，装置包括：

文档预处理模块310，用于对文档集进行预处理，得到文档集对应的句子集合以及词表集合。

内部信息量得分计算模块320，用于通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理，得到词表集中每个词汇对应的权重，并将句子集合中每个句子对应的所有词汇的权重相加，得到句子集合中每个句子的内部信息量得分。

重要性得分计算模块330，用于计算句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定句子集合中每个句子对应的相似句及相似句数量，并根据相似句数量计算得到每个句子对应的重要性得分。

多样性参考集合计算模块340，用于依次获取句子集合中的每个句子作为当前处理句，将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到比较集合的最大值，并将比较集合的最大值对应的句子加入多样性参考集合。

多样性得分计算模块350，用于根据句子集合和多样性参考集合，计算句子集合中每个句子的多样性得分。

综合性得分计算模块360，用于根据内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。

文档摘要生成模块370，用于根据综合性得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要。

在一个实施例中，如图5所示，多样性得分计算模块350包括：

判断单元352，用于依次获取句子集合中的每个句子作为待处理句，判断待处理句是否在多样性参考集合，如果待处理句在多样性参考集合中，则进入第一处理单元354，否则进入第二处理单元356；

第一处理单元354，用于在句子集合中找到与待处理句之间具有最小相似度的第一参考句，根据待处理句与第一参考句之间的相似度值计算待处理句的多样性得分；

第二处理单元356，用于在多样性参考集合中找到与待处理句之间具有最大相似度的第二参考句，根据待处理句与第二参考句之间的相似度值计算出待处理句的多样性得分。

在其中一个实施例中，综合性得分计算模块360中根据内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分的公式为：

S_S(i)＝M₁log_a S_I(i)+M₂log_a S_D(i)+M₃log_a S_C(i)

在其中一个实施例中，文档摘要生成模块370还用于根据综合性得分和预设的摘要长度，采用动态规划算法，将句子集合中的所有句子进行筛选形成文档摘要。

在其中一个实施例中，如图6所示，提供了一种生成文档摘要的装置，装置包括：

文档预处理模块410，用于对文档集进行预处理，得到文档集对应的句子集合以及词表集合。

长度代价得分模块420，用于计算句子集合中每个句子去除停用词之后的有效长度值与有效长度值的最大值的比例，根据预设的第一阈值、第二阈值以及比例，计算句子集合中每个句子的长度代价得分，第一阈值小于第二阈值，长度代价得分计算公式为：

内部信息量得分计算模块430，用于通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理，得到词表集中每个词汇对应的权重，并将句子集合中每个句子对应的所有词汇的权重相加，得到句子集合中每个句子的内部信息量得分。

重要性得分计算模块440，用于计算句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定句子集合中每个句子对应的相似句及相似句数量，并根据相似句数量计算得到每个句子对应的重要性得分。

多样性参考集合计算模块450，用于依次获取句子集合中的每个句子作为当前处理句，将当前处理句的相似句数量与当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到比较集合的最大值，并将比较集合的最大值对应的句子加入多样性参考集合。

多样性得分计算模块460，用于根据句子集合和多样性参考集合，计算句子集合中每个句子的多样性得分。

综合性得分计算模块470，用于根据长度代价得分、内部信息量得分、重要性得分和多样性得分计算句子集合中每个句子的综合性得分。

文档摘要生成模块480，用于根据综合性得分和预设的摘要长度，将句子集合中的所有句子进行筛选形成文档摘要。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机***的存储介质中，并被该计算机***中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种生成文档摘要的方法，所述方法包括：

计算所述句子集合中两两句子间的相似度值，并根据预设的相似度阈值，确定所述句子集合中每个句子对应的相似句及相似句数量，并根据所述相似句数量计算得到所述句子集合中每个句子对应的重要性得分；

依次获取所述句子集合中的每个句子作为当前处理句，将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到所述比较集合的最大值，并将所述比较集合的最大值对应句加入多样性参考集合；

根据所述综合性得分和预设的摘要长度，将所述句子集合中的所有句子进行筛选生成文档摘要。

2.根据权利要求1所述的方法，其特征在于，所述根据所述句子集合和所述多样性参考集合，计算所述句子集合中每个句子的多样性得分的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的计算公式为：

S_s(i)＝M₁log_aS_I(i)+M₂log_aS_D(i)+M₃log_aS_C(i)

4.根据权利要求1所述的方法，所述根据所述综合性得分和预设的摘要长度，将所述句子集合中的所有句子进行筛选形成文档摘要的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

其中，a为底数且a>1，S为所述句子集合，Si为所述集合S中的第i个句子，L₁为所述第一阈值，L₂为所述第二阈值，且L₂＞L₁，L_i为所述第i个句子的有效长度值，L_max为所述有效长度L_i最大值，S_L(i)为所述Si的长度代价得分；

所述根据所述内部信息量得分、所述重要性得分以及所述多样性得分计算所述句子集合中每个句子的综合性得分的步骤包括：

6.一种生成文档摘要的装置，所述装置包括：

内部信息量得分计算模块，用于通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理，得到所述词表集中每个词汇对应的权重，然后将所述句子集合中每个句子对应的所有词汇权重相加，得到所述句子集合中每个句子的内部信息量得分；

多样性参考集合计算模块，用于依次获取所述句子集合中的每个句子作为当前处理句，将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中，查找得到所述比较集合的最大值，并将所述比较集合的最大值对应句加入多样性参考集合；

综合性得分计算模块，用于根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分；

7.根据权利要求6所述的装置，其特征在于，所述多样性得分计算模块包括：

8.根据权利要求6所述的装置，其特征在于，所述综合性得分计算模块中根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的公式为：

S_S(i)＝M₁log_aS_I(i)+M₂log_aS_D(i)+M₃log_aS_C(i)

9.根据权利要求6所述的装置，其特征在于，所述文档摘要生成模块还用于根据所述综合性得分和预设的摘要长度，采用动态规划算法，将所述句子集合中的所有句子进行筛选形成文档摘要。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

长度代价得分计算模块，用于计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例，根据预设的第一阈值、第二阈值以及所述比例，计算所述句子集合中每个句子的长度代价得分，所述第一阈值小于所述第二阈值，所述长度代价得分计算公式为：

所述综合性得分计算模块还用于获取所述长度代价得分，根据所述长度代价得分、所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。