CN112948543A

CN112948543A - 基于加权TextRank的多语言多文档摘要抽取方法

Info

Publication number: CN112948543A
Application number: CN202110195264.7A
Authority: CN
Inventors: 唐彦; 刘晓莹
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-11

Abstract

本发明公开了基于加权TextRank的多语言多文档摘要抽取方法，属于摘要抽取技术领域，包括步骤：选择A类不同主题的文档集，每个文档集包含B篇中文文档和C篇英文文档，根据中英文进行不同预处理；使用GloVe模型训练词向量，使用维基中文语料训练得到词向量；采用词库映射方法，构建一个具有m个词的高频常用词词库，将文本的语义信息映射到常用的高频词库中，利用词库映射句子语义得到句向量；在句子之间构建TextRank模型，迭代计算句子权重，通过句子位置、和标题的相似度两个指标对句子加权；按照权重由大到小排序，选择权重前K的句子对应原文顺序作为输出，完成摘要抽取过程。该方法简单易行，应用前景广阔。

Description

基于加权TextRank的多语言多文档摘要抽取方法

技术领域

本发明属于摘要抽取技术领域，具体涉及基于加权TextRank的多语言多文档摘要抽取方法。

背景技术

文本摘要(TextSummarization)是自然语言处理(NaturalLanguageProcessing)领域之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要，按照输入类型可分为单文档摘要和多文档摘要，其中单文档摘要从给定的一个文档中生成摘要，多文档摘要从给定的一组主题相关的文档中生成摘要；按照输出类型可分为抽取式摘要和生成式摘要，抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文，生成式摘要根据原文，允许生成新的词语、短语来组成摘要。本发明主要研究内容是基于改进加权的TextRank多语言多文档抽取方法。

多语言多文档自动摘要(Multi-lingualMulti-documentSummarization,MMS)指的是给定多篇属于同一个主题的文档，从这多篇文档中抽取出一个摘要，要求生成的摘要在尽可能全面的总结多篇文档的核心思想的同时，需要保证摘要的简洁、精炼。多语言指的是摘要***要同时面向两种以上语言，目前大多数的自动摘要面向的为中文和英文两种语言。

词向量(WordEmbedding)，它将来自词汇表的单词或短语被映射成为稠密向量，并且对于相似的词，其对应的词向量也相近。2013年，由TomasMikolov领导的Google团队创建了word2vec，可以比以前的方法更快地训练向量空间模型。为了克服全局矩阵分解和局部上下文窗口的缺陷，在2014年，JeffreyPennington等人提出了一种新的GloVe方法，该方法基于全局词汇共现的统计信息来学习词向量，从而将统计信息与局部上下文窗口方法的优点都结合起来，加快模型的训练速度，又可以控制词的相对权重，更加灵活。实验证明当词向量用作底层输入表示时，单词和短语嵌入已经被证明可以提高NLP任务的性能，例如语法分析和情感分析。

预处理(Preprocessing)的主要任务是对原始的多语言多文档集进行此法、句法层面的初步处理，一方面减小后续步骤使用原始文档是的开销，另一方面使得语言差异对于后续步骤来说可控。常用的预处理步骤有文档合并、分句、分词、词性标注等。这些步骤通常依赖一定的语言学常识，例如，不同语言间所使用的标点符号有所不同，英语在词之间有空格分隔，而汉语没有，需要做特殊的分词处理等。

传统TextRank是基于图的方法，由Mihalcea等人提出，该方法是谷歌搜索引擎PageRank方法的有效应用。TextRank将句子作为节点构建无向有权图，利用边权值迭代更新节点分数，然后选择得分靠前的句子组合为摘要。但是传统的TextRank算法在做文本摘要提取时需要计算句子间的相似性，它使用的是计数句子间相同单词的方法，忽略了词语语义、语法等要素，简单地当成是词语的集合，并且每个词语都是独立出现的，互相不依赖彼此之间出现与否。针对此类问题，本文提出了改进的基于TextRank和GloVe词向量的自动文本摘要算法。使用GloVe训练中文词向量，获取每个词的语义向量，采用基于词向量的高维词库映射计算句子之间的相似度，而取代基于相同词语共同出现的频率作为句子之间的影响权重。利用句子位置和标题的相似度共同作为句子之间权重的影响因子，以提取文本的摘要结果。

发明内容

发明目的：为了改善传统算法忽略了词语语义、语法等要素的缺陷，本发明的基于加权TextRank的多语言多文档摘要抽取方法，提升摘要生成的准确性。

技术方案：为了实现上述目的，本发明是通过如下的技术方案来实现：

基于加权TextRank的多语言多文档摘要抽取方法，包括下列步骤：

步骤S1：选择A类不同主题的文档集，其中每个文档集包含B篇中文文档和C篇英文文档，根据中英文语法不同进行不同预处理；

步骤S2：使用GloVe模型训练词向量，基于维基中文语料训练得到词向量；

步骤S3：采用词库映射方法，构建一个具有m个词的高频常用词词库，将文本的语义信息映射到常用的高频词库中，利用词库映射句子语义得到句向量；

步骤S4：在句子之间构建TextRank模型，迭代计算句子权重，通过句子位置和标题的相似度两个指标对句子加权；

步骤S5：按照权重由大到小排序，选择权重前K的句子对应原文顺序作为输出，完成摘要抽取过程。

进一步地，所述步骤S1进一步包括：

步骤S1-1：针对中文文档，根据标点符号分句，针对英文文档，根据点号分句，设定句子总数为len。得到句集合sentence＝[S₁,S₂,...,S_i,...,S_len](1≤i≤len)，其中S_i表示句集合的第i句话；

步骤S1-2：中文文档使用开源工具StanfordNLP进行分词，英文文档使用开源工具NLTK进行分词；

步骤S1-3：过滤掉文本中无意义的停用词，中文如“的、地、得、了”等，英文如”a”、”the”、”he”等，得到每个句子的词集合W＝[w₁,w₂,w₃,...,w_i,...,w_m](1≤i≤m)，其中w_i表示句子S_i的第i个词语。

进一步地，所述步骤S3进一步包括：

步骤S3-1：利用高维词库R表示文本向量，假设高维词库中共有m个词语，表示词向量的形式为R＝[r₁,r₂,r₃,...,r_i,...,r_m](1≤i≤m)，其中r_i表示高维词库中第i个词语的词向量。

步骤S3-2：设文本经过分词去掉特殊符号和停用词后，有n个词语，则使用词向量将文本表示为T＝[t₁,t₂,t₃,...,t_i,...,t_n](1≤i≤n)，其中t_i表示分词后文本中第i个词语的词向量。

进一步地，在所述的步骤S3-2之后进入步骤S3-3：将文本映射到高维词库中，表示为

S＝[max_1≤j≤n(similarity(r₁,t_j)),max_1≤j≤n(similarity(r₂,t_j)),...,max_1≤j≤n(similarity(r_m,t_j))]，其中t_j表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度，即similarity(r_i,t_j)＝cos(r_i,t_j)。

进一步地，所述步骤S4进一步包括：

步骤S4-1：通过计算句子的余弦相似度得到句子间相似度，也就是两个节点边的权重：w_ij＝similarity(S_i,S_j)＝cos(S_i,S_j)，其中w_ij表示句子S_i和S_j的句间相似度；

步骤S4-2：将Wij放入构建好的图模型中迭代计算，权重公式为

其中v_i表示图中第i个节点，in(v_i)表示指向v_i的节点集合，v_j表示图中第j个节点，out(v_j)表示从v_j指出的节点集合，v_k表示图中第k个节点，w_ij是步骤S4-1计算得到两节点之间的边权重，d表示阻尼系数，一般取值为0.85。开始迭代计算，设置收敛阈值为0.0001，模型收敛后得到每个句子权重；

步骤S4-3：计算句子位置，当句子处在文本首位或者最后一位时，需要提高句子Si的权重：

其中位于首句的句子将提升2单位的权重，位于末尾句子提升1单位权重，其他位置句子权重不变；

步骤S4-4：计算句子与标题的相似度，句子与文本标题的相似度越高，则句子的重要程度越高：W_t(S_i)＝similarity(S_i,S_t)，其中St表示文本标题的向量；S_i为映射到高维词库的句子词向量；similarity(S_i,S_t)表示采用余弦方式表示的句子S_i与标题S_t的相似度；W_t(S_i)表示句子S_i节点与标题相似度权重；

步骤S4-5：W_p、W_t两种权重影响因子归一化之后得到W′_p、W′_t；

步骤S4-6：更新原有句子权重w′_ij＝w_ij+W′_k(S_i,S_j)+W′_t(S_i,S_j)，将句子位置权重和标题相似度权重加进去提高原有句子权重；

步骤S4-7：得到权重最高的前K个句子，按照原文顺序作为摘要输出。

有益效果：与现有技术相比，本发明的基于加权TextRank的多语言多文档摘要抽取方法，针对中英文语言类型的文本进行处理，基于图模型的TextRank算法，面向中文和英文文档集结合GloVe模型的词向量，改善了传统TextRank算法中缺少语义信息的特点，所提供的方法简单易行。

附图说明

图1是根据本发明技术方案的基于加权TextRank的多语言多文档摘要抽取方法的步骤流程图；

图2是根据本发明技术方案的基于加权TextRank的多语言多文档摘要抽取方法处理过程示意图。

具体实施例

下面结合附图和具体实施方式来详细说明本发明：为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1，基于加权TextRank的多语言多文档摘要抽取方法，包括下列步骤：

步骤S4：在句子之间构建TextRank模型，迭代计算句子权重，通过句子位置、和标题的相似度两个指标对句子加权；

步骤S1进一步包括：

步骤S1-3：过滤掉文本中无意义的停用词，中文如“的、地、得、了”等，英文如“a、the、he”等，得到每个句子的词集合W＝[w₁,w₂,w₃,...,w_i,...,w_m](1≤i≤m)，其中w_i表示句子S_i的第i个词语。

步骤S3进一步包括：

步骤S3-2：设文本经过分词去掉特殊符号和停用词后，有n个词语，则使用词向量将文本表示为T＝[t₁,t₂,t₃,...,t_i,...,t_n](1≤i≤n)，其中t_i表示分词后文本中第i个词语的词向量；

步骤S3-3：将文本映射到高维词库中，表示为

步骤S4进一步包括：

步骤S4-2：将Wij放入构建好的图模型中迭代计算，权重公式为

步骤S4-4：计算句子与标题的相似度，句子与文本标题的相似度越高，则句子的重要程度越高：W_t(S_i)＝similarity(S_i,S_t)，其中St表示文本标题的向量；S_i为映射到高维词库的句子词向量；similarity(S_i,S_t)表示采用余弦方式表示的句子S_i与标题S_t的相似度；W_t(S_i表示句子S_i节点与标题相似度权重；

步骤S4-5：W_k、W_t两种权重影响因子分别归一化之后得到W′_k、W′_t；

步骤S4-6：更新原有句子权重w′_ij＝w_ij+W′_k(S_i,S_j)+W′_t(S_i,S_ij)，将句子位置权重和标题相似度权重加进去提高原有句子权重；

下列伪代码描述提供了本发明技术方案中一种程序代码实现方式：

在该伪代码描述中，粗体的语句具有计算机科学技术领域及相关领域中公知的常规含义。例如for...do...end for表示计数控制循环(count-controlled loop)，while...do...end while表示条件控制循环(condition-controlled loop)，if...then...endif表示条件判断语句。伪代码描述中的变量或符号及其含义见表1。

表1伪代码中的变量或符号及其含义

进一步地，下面结合图2来形象地解释本发明技术方案中核心技术特征——句向量获取和加权(即步骤S3、S4)的处理过程。如图2中箭头、说明文字及图例所示，步骤S3和S4的具体处理过程如下：

所述内容进一步包括：

步骤S3-3：将文本映射到高维词库中，表示为

步骤S4：在句子之间构建TextRank模型，迭代计算句子权重，通过句子位置、和标题的相似度两个指标对句子加权，所述内容进一步包括：

步骤S4-2：将Wij放入构建好的图模型中迭代计算，权重公式为

步骤S4-3：计算句子位置，当句子处在文本首位或者最后一位时，需要提高句子S_i的权重：

结果展示

上述实验以K取值5为例。从上可见，本文算法生成的摘要内容不一定全面，但它与原始算法的摘要相比，在内容上更契合，也能正确的表达文章核心思想。且本文算法生成的摘要，也具有较好的语意连贯性，便于读者的理解。

综上所述，由本发明上述技术方案及其具体实施方式(包括优选实施例)可以理解的是，本发明的有益技术效果主要包括四个方面：(1)针对中英文语言类型的文本进行处理；(2)改善了传统TextRank算法中缺少语义信息的特点；(3)所提供的方法简单易行；(4)所提供的方法在摘要生成等领域具有广阔的应用前景。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，包括下列步骤：

步骤S1：选择A类不同主题的文档集，其中每个文档集包含B篇中文文档和C篇英文文档，进行预处理；

步骤S3：采用词库映射方法，构建一个具有m个词的词库，将文本的语义信息映射到该词库中，利用词库映射句子语义得到句向量；

2.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，所述步骤S1进一步包括：

步骤S1-1：针对中文文档，根据标点符号分句，针对英文文档，根据点号分句，设定句子总数为len；得到句集合sentence＝[S₁，S₂，...，S_i，...，S_len]，1≤i≤len，其中S_i表示句集合的第i句话；

步骤S1-3：过滤掉文本中无意义的停用词得到每个句子的词集合W＝[w₁，w₂，w₃，...，w_i，...，w_m]，1≤i≤m，其中w_i表示句子S_i的第i个词语。

3.根据权利要求1所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，所述步骤S3进一步包括：

步骤S3-1：利用高维词库R表示文本向量，假设高维词库中共有m个词语，表示词向量的形式为R＝[r₁，r₂，r₃，...，r_i，...，r_m]，1≤i≤m，其中r_i表示高维词库中第i个词语的词向量；

步骤S3-2：设文本经过分词去掉特殊符号和停用词后，有n个词语，则使用词向量将文本表示为T＝[t₁，t₂，t₃，...，t_i，...，t_n]，1≤i≤n，其中t_i表示分词后文本中第i个词语的词向量。

4.根据权利要求3所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，在所述的步骤S3-2之后进入步骤S3-3：将文本映射到高维词库中，

表示为

S＝

[max_1≤j≤n(similarity(r₁，t_j))，max_1≤j≤n(similarity(r₂，t_j))，...，max_1≤j≤n(similarity(r_m，t_j))]，其中t_j表示分词后文本中第j个词语的词向量。采用余弦距离表示向量之间的相似度，即similarity(r_i，t_j)＝cos(r_i，t_j)。

5.根据权利要求4所述的基于加权TextRank的多语言多文档摘要抽取方法，其特征在于，所述步骤S4进一步包括：

步骤S4-1：通过计算句子的余弦相似度得到句子间相似度，也就是两个节点边的权重：w_ij＝similarity(S_i，S_j)＝cos(S_i，S_j)，其中w_ij表示句子S_i和S_j的句间相似度；

步骤S4-2：将Wij放入构建好的图模型中迭代计算，权重公式为

其中v_i表示第i个节点，in(v_i)表示指向v_i的节点集合，v_j表示图中第j个节点，out(v_j)表示从v_j指出的节点集合，v_k表示图中第k个节点，w_ij是步骤S4-1计算得到两节点之间的边权重，d表示阻尼系数，通常取0.85；开始迭代计算，设置收敛阈值为0.0001，模型收敛后得到每个句子权重；

步骤S4-4：计算句子与标题的相似度，句子与文本标题的相似度越高，则句子的重要程度越高：W_t(S_i)＝similarity(S_i，S_t)，其中St表示文本标题的向量；S_i为映射到高维词库的句子词向量；similarity(S_i，S_t)表示采用余弦方式表示的句子S_i与标题S_t的相似度；W_t(S_i)表示句子S_i节点与标题相似度权重；

步骤S4-6：更新原有句子权重w′_ij＝w_ij+W′_k(S_i，S_j)+W′_t(S_i，S_j)，将句子位置权重和标题相似度权重加进去提高原有句子权重；

步骤S4-7：得到权重最高的K个句子，按照原文顺序作为摘要输出。