CN107273474A

CN107273474A - 基于潜在语义分析的自动摘要抽取方法及***

Info

Publication number: CN107273474A
Application number: CN201710429824.4A
Authority: CN
Inventors: 罗强; 刘世林; 丁国栋
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2017-10-20

Abstract

本发明涉及自然语言处理领域，特别涉及基于潜在语义分析的自动摘要抽取方法及***，所述方法在抽取句子生成摘要的时候，采用了潜在语义分析模型，使用一个较大的语料库来构造潜在语义分析模型，根据模型计算待抽取文本和待抽取语义单元的语义相似度，充分考虑了词语在文档中的共现信息和语义信息，而不是简单基于词频或句子间的相互“推荐”而进行句子选择，使得生成的摘要能更好的反应文档所表述的主题。同时，相对于基于字面匹配进行相似度计算或词频统计分析的摘要生成算法所生成的摘要句子具有多样性，可以有效降低摘要中的冗余信息。本发明***基于本方法提供一种简单高效的自动摘要抽取工具。

Description

基于潜在语义分析的自动摘要抽取方法及***

技术领域

本发明涉及自然语言处理领域，特别涉及基于潜在语义分析的自动摘要抽取方法及***。

背景技术

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道，互联网上的文档数据内容也呈现出指数级增长的趋势。互联网上的文档数据中包含了丰富的信息，如何有效的阅读和筛选对我们有用的信息已经成为我们关注的重点。自动文档摘要技术对文档信息进行压缩表示，帮助用户更好的浏览和吸收互联网上的海量信息。

自动摘要技术是自然语言处理领域的一个研究热点。根据摘要内容的生产方式，可以分为抽取式摘要和生成式摘要；根据生成的摘要是否依赖查询关键字，可以分为查询相关自动摘要和查询无关自动摘要；根据摘要生成依赖的文档数量，可以分为单文档摘要和多文档摘要。

目前成熟的摘要***都是基于抽取式摘要生成技术，通常的做法是将文档切分为句子集合，对句子进行打分，选取得分高的句子作为摘要。可以使用TF-IDF技术计算每个句子的得分，或使用基于图的算法对句子进行打分，如TextRank和LexPageRank算法等。目前的自动摘要技术中，基于TF-IDF技术计算句子得分时，并没有考虑语义信息，具有相同意义的词往往TF-IDF值是不同的，会导致具有相同意义的句子最终的得分差距较大，进而影响生产的摘要质量；基于图模型的摘要生成算法，将句子作为图中的节点，将句子之间的关系作为图中的边，通常使用相似性来度量句子间的关系，然而目前的相似度度量大多还是基于字面而不是语义相似的；生成式摘要技术通过使用句子融合、句子压缩及语言生成等自然语言处理技术生成文档的摘要，但目前句子融合、句子压缩和语言生成的相关技术还不够成熟，导致生成的摘要存在语法错误、逻辑不连贯或上下文衔接生硬等问题。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供基于潜在语义分析的自动摘要抽取方法及***，在抽取句子生成摘要的时候，采用了潜在语义分析模型，充分考虑了词语在文档中的共现信息和语义信息，而不是简单基于词频或句子间的相互“推荐”而进行句子选择，使得生成的摘要能更好的反应文档所表述的主题。

为了实现上述发明目的，本发明提供了以下技术方案：基于潜在语义分析的自动摘要抽取方法，使用潜在语义分析计算出待抽取文档的潜在语义分析表示向量Q1；构建出待抽取文档中语义单元的潜在语义表示向量Q2；计算Q1和Q2的余弦相似度；抽取相似度数值最大的前n个语义单元作为待抽取文档的摘要。

所述方法包含以下实现步骤：

(1)对语料库进行分词，构建出对应的词语索引库；

(2)构建出语料库中文档和词语的共现矩阵A；其中矩阵的一列代表一篇文档，矩阵的一行代表一个词；

(3)对矩阵A进行奇异值分解，公式如下：A＝USV^T；

(4)在矩阵S中选取值较大的前K个奇异值，对矩阵A进行降维处理，得到进而得到潜在语义分析模型：U_K，S_K，

(5)计算待抽取文档的潜在语义表示向量其中q为待抽取文档的文档表示向量；

(6)对待抽取文档，进行语义单元的切分；切分后的语义单元形成语义单元集合；计算语义单元的潜在语义表示向量其中j为语义单元的文档表示向量；

(7)计算待抽取文档潜在语义表示向量Q1与其切分后每个语义单元的潜在语义表示向量Q2的余弦相似度；保留余弦相似度值最高的前n个语义单元作为待抽取文档的摘要。

进一步的，所述步骤(1)中对分词后语料库中的文档还包含去高频词、去停用词的预处理步骤。

进一步的，所述步骤(6)中，根据来句号、感叹号、问号、省略号为基准来进行语义单元的切分。

进一步的，还包含对所述步骤(7)中已抽取为待选语义单元进行进一步筛选的，所述过程是指：通过上述方法抽取出的摘要后，计算摘要各个语义单元中，各个语义单元之间的余弦相似度，当两个语义单元之间的余弦相似度值高于设置的阈值，时仅保留与文档的潜在语义表示向量余弦相似度值较大的语义单元作为摘要句，而将另外一个语义单元舍弃。

基于潜在语义分析模型的摘要自动生成***；所述***加载有本基于潜在语义分析的自动摘要抽取方法功能程序的计算机或者服务器。

与现有技术相比，本发明的有益效果：本发明提供基于潜在语义分析的自动摘要抽取方法及***，所述方法在抽取句子生成摘要的时候，采用了潜在语义分析模型，使用一个较大的语料库来构造潜在语义分析模型，根据模型计算待抽取文本和待抽取语义单元的语义相似度；充分考虑了词语在文档中的共现信息和语义信息，而不是简单基于词频或句子间的相互“推荐”而进行句子选择，使得生成的摘要能更好的反应文档所表述的主题。本发明方法不进行语义压缩、句子融合和语言生成，以句子来作为摘要抽取语义单元，有效减低所生成摘要的语法错误，使得摘要信息的表达语义连贯，衔接顺畅。不仅如此本发明方法在初步抽取出摘要句子的基础上，进行进一步的计算，计算待选句之间的语义相似度，去除语义重复的待选句，有效降低摘要中的冗余信息，使得生成的摘要句更具多样性。此外本发明***基于本发明方法为文档摘要的自动抽取提供工具。

附图说明：

图1为本基于潜在语义分析模型的摘要抽取方法的实现过程示意图；

图2为本基于潜在语义分析模型的摘要抽取方法的LSA模型构建过程；

图3为本基于潜在语义分析模型的摘要抽取方法中带抽取文档的LSA向量的获取过程。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明的目的在于克服现有技术中所存在的上述不足，提供基于潜在语义分析的自动摘要抽取方法，在抽取句子生成摘要的时候，采用了潜在语义分析模型，充分考虑了词语在文档中的共现信息和语义信息，而不是简单基于词频或句子间的相互“推荐”而进行句子选择，使得生成的摘要能更好的反应文档所表述的主题。

为了实现上述发明目的，本发明提供了以下技术方案：基于潜在语义分析的自动摘要抽取方法，使用潜在语义分析计算出待抽取文档的潜在语义分析表示向量Q1，构建出待抽取文档中语义单元的潜在语义表示向量Q2，计算Q1和Q2的余弦相似度；抽取相似度数值最大的前n个语义单元作为待抽取文档的摘要。

所述方法实现过程如图1所示：包含以下实现步骤：

(1)对语料库进行分词，构建出对应的词语索引库。语料的选择根据所要抽取摘要的文档类型而定，比如说，待抽取摘要的文档，主要涉及财经新闻类，那么语料库中所包含的文档主要为财经新闻；或者待抽取摘要的文档为某一领学术论文，则语料库中以该领域的对应文档为主。此外本步骤中的语料库所包含的文档数量大于等于待抽取摘要的文档总数，比如说待抽取文档数量为500篇，语料库中包含的文档数量是2000篇。或者此外当待抽取文档的数量足够多时，比如大于2000篇，此时语料库可以由所有待抽取摘要文档构成。

本步骤中构建词语索引库时，包含对语料库中文档进行预处理的步骤，所述预处理包括：分词，对分词后的结果进行去高频词，去停用词等，预处理的目的在于，去除不反应文档主题的常用词汇，降低后续计算的复杂度，提高分析的准确率。

(2)构建出语料库中文档和词语的共现矩阵A；其中矩阵的一列代表一篇文档，矩阵的一行代表一个词。文档和词语的共现矩阵A，是指经过预处理后的语料库中的每篇文档，统计其中每个词的在每篇文档中的出现次数，并将每篇文档映射成矩阵A的对应一列向量，将每个词根据其在各个文档中的出次数，映射成矩阵A的一行向量。矩阵A的每个元素值对应表示该行所代表的词在该列所代表的文档中的出现次数。比如说：语料库中包含5篇文档，经过预处理后包含的词语数是500个，对应A为一个500*5的矩阵，其中元素a_ij表示的第i行向量代表的词在第j列向量所代表的文档中的出现次数。

(3)对矩阵A进行奇异值分解，公式如下：A＝USV^T；

(4)在矩阵S中选取值较大的前K个奇异值，对矩阵A进行降维处理，得到进而得到潜在语义分析模型：U_K，S_K，潜在语义分析模型的计算的实现过程如图2所示。

(5)计算待抽取文档的潜在语义表示向量其中q为待抽取文档的文本表示向量；文档的潜在语义表示向量的计算过程如图3所示：文本表示向量q是将待抽取文档，经过分词、去高频词、去停用词后剩下的词，根据文档和词的共现矩阵A中词的排列顺序，依次计算该行向量所表示的词在该待抽取文档中出现的次数；并将该次数值作为对应行元素，形成的向量；该向量表示待抽取文档中各词的出现次数，具有词频的统计意义。根据文档表示向量，结合前步骤中所得的潜在语义分析模型，得到文档的潜在语义表示向量，结合了词频统计意义和语义分析。

(6)将待抽取文档，根据包含句号、感叹号、问号、省略号为基准进行语义单元的切分；切分后的语义单元形成语义单元集合；计算语义单元的潜在语义表示向量其中j为语义单元的文本表示向量。以句子来作为摘要抽取的语义单元，所抽取的摘要可以不进行语义压缩、句子融合和语言生成，以句子来作为摘要抽取语义单元，有效减低所生成摘要的语法错误，使得摘要信息的表达语义连贯，衔接顺畅。

(7)计算待抽取文档潜在语义表示向量Q1与其对应每个语义单元的潜在语义表示向量Q2的余弦相似度；

对计算出的相似度进行从大到小的排列，保留余弦相似度值最高的前n个语义单元作为待抽取文档的摘要。

经过潜在语义分析模型得到了文档的潜在语义表示向量Q1，经过同样的方法获得了语义单元的潜在语义表示向量Q2；充分考虑了词语在文档中的共现信息和语义信息，而不是简单基于词频或句子间的相互“推荐”而进行句子选择，使得生成的摘要能更好的反应文档所表述的主题。

进一步的，通过上述方法抽取出的摘要后，计算摘要句子中，各个句子之间的余弦相似度，当两个句子之间的余弦相似度值高于设置的阈值，时仅保留与文档的潜在语义表示向量余弦相似度值较大的句子作为摘要句，而将另外一个句子舍弃，通过这样的计算方法比较已抽取摘要句子之间的相似程度，将相似程度很高的句子进行筛选，删减；去除语义重复的语义单元；有效降低摘要中的冗余信息。

进一步的，本发提供基于潜在语义分析的自动摘要抽取***；所述***加载有本基于潜在语义分析的自动摘要抽取方法功能程序的计算机或者服务器。为文档的摘要自动抽取提供有力的工具。

Claims

1.基于潜在语义分析的自动摘要抽取方法，其特征在于，使用潜在语义分析计算出待抽取文档的潜在语义分析表示向量Q1，构建出待文档中抽取语义单元的潜在语义表示向量Q2，计算Q1和Q2的余弦相似度；抽取余弦相似度较大的前n个语义单元作为待抽取文档的摘要。

2.如权利要求1所述的方法，其特征在于，包含以下实现步骤：

(1)对语料库进行分词，构建出对应的词语索引库；

(2)构建出语料库中文档和词语的共现矩阵A；

(3)对矩阵A进行奇异值分解，公式如下：A＝USV^T；

(5)计算待抽取文档的潜在语义表示向量其中q为待抽取文档的文本表示向量；

(6)将待抽取文档，进行语义单元的切分；切分后的语义单元形成语义单元集合；计算语义单元的潜在语义表示向量其中j为语义单元的文本表示向量；

(7)计算待抽取文档潜在语义表示向量Q1与其切分后每个语义单元的潜在语义表示向量Q2的余弦相似度；抽取余弦相似度较大的前n个语义单元作为待抽取文档的摘要。

3.如权利要求2所述的方法，其特征在于：所述步骤(1)中对分词后语料库中的文档还包含去高频词、去停用词的预处理步骤。

4.如权利要求3所述的方法，其特征在于：所述步骤(6)中，根据来句号、感叹号、问号、省略号为基准来进行语义单元的切分。

5.如权利要求4所述的方法，其特征在于：还包含对所述步骤(7)中已抽取为摘要的句子进行筛选的步骤，步骤如下：计算各个已抽取语义单元潜在语义表示向量的余弦相似度值，余弦相似度值大于设置的阈值的，仅保留与待抽取文本余弦相似度值较大的语义单元作为待抽取文档的摘要于语义单元。

6.基于潜在语义分析的自动摘要抽取***，其特征在于，所述***加载有如权利要求1至5之一所述方法功能程序的计算机或者服务器。