CN112784036A

CN112784036A - 基于无监督集成学习的抽取式文本摘要方法

Info

Publication number: CN112784036A
Application number: CN202011624456.7A
Authority: CN
Inventors: 潘晓光; 易传润; 王宇琦; 陈亮; 马彩霞
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11

Abstract

本发明公开了一种基于无监督集成学习的抽取式文本摘要方法，包括以下步骤：首先将输入文档D进行预处理；然后通过TF‑IDF转换输入到编码器中，得到整篇文档的高阶特征表示下的句向量集合，对无监督模型下对使用算法和抽取式摘要的启发式规则生成候选摘要集；最后对三种模型下的结果根据投票选择方式进行集成，将句子根据得分进行排序，选取出最终摘要，输出目标摘要。通过自动确定文本摘要中心摘要数量K来提高聚类算法准确度，进一步提高抽取式文本摘要的准确度。

Description

基于无监督集成学习的抽取式文本摘要方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于无监督集成学习的抽取式文本摘要方法。

背景技术

传统的自动文本摘要方法多数基于监督学习方法，需要大量的人工标注数据，同时高维数据和稀疏数据的表示会使得语义信息难以捕获。

最初的文本摘要任务都是通过人工手动去筛选，但在互联网信息不断增长的情况下，手动的文本摘要任务己经无法完成，也与智能化的时代相违背，因此文本自动摘要的研究成为热门。文本自动摘要主要分为抽取式文本摘要以及生成式文本摘要两种，其中抽取式文本摘要主要是进行句子排序的过程，把包括原文本中最重要信息对句子进行排序和提取，通常采用棊于统计方法，或碁于规则的方法，采用无监督或半监督的方式，优点在于不需要或者只需要较少的标注好的训练集，比较方便，快捷，缺点则是准确度方面有所欠缺。在生成式文本摘要方法中，摘要是通过重写包含原始文本最重要概念的新句子构建的。生成式文本摘要需要大量的语言资源和人工生成的本体。由于缺乏自然语言资源，抽象方法非常困难，并且前期的准备工作非常多。

通过以上分析，生成式的文本摘要在研究的过程中存在非常多的困难，并且准确度的提升和保证非常困难。

发明内容

本发明的目的在于提供一种基于无监督集成学习的抽取式文本摘要方法。

为实现上述目的，本发明提供如下技术方案：基于无监督集成学习的抽取式文本摘要方法，包括以下步骤：首先将输入文档D进行预处理；然后通过TF-IDF转换输入到编码器中，得到整篇文档的高阶特征表示下的句向量集合，对无监督模型下对使用算法和抽取式摘要的启发式规则生成候选摘要集；最后对三种模型下的结果根据投票选择方式进行集成，将句子根据得分进行排序，选取出最终摘要，输出目标摘要。

进一步的，对输入文档D进行预处理的步骤如下：

S1、计算出文中所有非停用词的TF-IDF值；

S2、给出基于TF-IDF加权和Word2Vec的句向量计算公式；

S3、给出基于TF-IDF加权和Word2Vec的Sentence2Vec算法；

S4、根据常用整句标点符号对全文文档进行分词，借助第三方的中文分词软件，对文档进行分词处理，去除停用词部分，在计算句子向量时，将停用词的权重设置为0；

S5、根据上一步预处理之后的文本计算出文本中各个词汇分别对应的TF-IDF值；引入Word2Vec的连续词袋模型来实现词向量的表示；

S6、基于Word2Vec的词向量表示方法将高维度的稀疏词向量转换为低维度的稠密向量；

S7、通过步骤S2得到的词向量的权重值和步骤S3得到的词汇Word2Vec向量表示形式，分别算出文档中各个语句的句向量表示。输出最终文档D的Sentence2Vec向量。

进一步的，编码器包括自动编码器、变分编码器和极限学习机编码器。

进一步的，在步骤S1中，根据公式1计算出文中所有非停用词的TF-IDF值，记为其中i代表文档D的第i个句子，j代表第i句中的第j个词汇；

TF-IDF＝TF_i,j×IDF_i

其中TF_i,j代表在文档D_j中词汇或关键字W_i出m的次数TF，IDF_i表示词条或关键字W_i在所有文档中的逆文档频率IDF。

进一步的，在步骤S2中，基于TF-IDF加权和Word2Vec的句向量计算公式，如下公式2，

其中Sentence2Vec_i，表示文档D中第i句的句向量表示，m_i代表文档D第i句的词汇表中词的个数。vec_ij表示文档D中第i句的句向量的第j个词的词向量表示，weight(ij)代表文档D中第i句的句向量的第j个词的权重值。

进一步的，在步骤S6中，在词向量模型的训练过程中，使用的是Python第三方工具包gensim中的Word2Vec模块。

本发明的技术效果如下：在自动文本摘要任务中设计并实现了一种基于无监督深度神经网络与Word Embedding方法集成来提高自动文本摘要质量的方法。采用的是Word2Vec词嵌入模型，相比与传统的词袋模型(BOW)表示，本方案能将高维数据转化为低维空间的矢量表示。与此同时本方案是一种更具表现力的表示形式，产生的向量具有上下文的语义相关性。结合Word2Ve和TF-IDF系数改进Sentence2Vec句向量表示方法。提出了自适应K值的文本摘要抽取算法，通过自动确定文本摘要中心摘要数量K来提高聚类算法准确度，进一步提高抽取式文本摘要的准确度。

附图说明

图1为实施例中CBOW模型结构图；

图2为实施例中变分自编码器的网络结构图；

图3为实施例中基于TF-IDF加权和Word2Vec的Sentence2Vec的技术流程图；

图4为实施例中K-means聚类算法；

图5为实施例中自适应K值的K-means算法。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明主要解决抽取式文本摘要技术的问题。对于抽取式文本摘要的研究工作，主要的研究步骤是：首先是对文本的转换，第二制定抽取式文本摘要的训练规则。第三是选取合适的算法并基于上一步的结果生成合适的摘要内容。

1、词袋模型

CBOW模型结构如图1所示。CBOW的训练过程各层次表示如下所示：.

1)输入层：为输入目标词向量上下文单词的One-Hot编码表示；

2)隐藏层：输入向量的累加和向量；

3)输出层是一棵二叉树结构，其中叶子节点就是文本语料中的词，词频作为权值，从而构建Huffman树。最终稠密的向量就是隐藏层的权值；

连续词袋模型(CBOW)的模型生成稠密词向量的过程中使用了霍夫曼树。相比于二叉树，霍夫曼树的计算量要小很多，使模型的训练用时大幅减少。第二，由于CBOW模型中霍夫曼树的构建过程使得出现频次高的词汇更靠近树根，这样高频词的搜索时间也会非常短。

2、模板引擎

为了避免词向量直接通过累加的方式生成句子向量的过程会损失部分信息，本发明借鉴了基于TF-IDF的方法，基于TF-IDF加权和Word2Vec相结合的方式完成Word2Vec到Sentence2Vec的过程。

TF-IDF＝TF_i,j×IDF_i

其中TF_i,j代表在文档D_j中词汇(或关键字)W_i出m的次数(TF)，IDF_i表示词条(或关键字)W_i在所有文档中的逆文档频率(IDF)

首先根据公式1计算出文中所有非停用词的TF-IDF值，记为其中i代表文档D的第i个句子，j代表第i句中的第j个词汇。下面给出基于TF-IDF加权和Word2Vec的句向量计算公式，如公式2

编码器

自动编码器(AE)是一种前馈神经网络，它试图通过重构其输入来学习无监督的数据。一个简单的自动编码器包含3层：输入层x，隐藏层z和输出层y。输出层和输入层的数据是相似的。训练AE将输入向量压缩为维度较小的隐藏层表示。然后，将压缩的特征(隐藏层表示)通过解码器，重建(解码过程)其输入。反向传播算法用于训练这样的网络。训练的目的是使得输入x和输出y之间的误差尽可能的小

变分编码器由两个网络表示：将输入向量x映射到高阶特征表示z的编码器和将高阶特征z重构为与输入x相同的解码器。变分自编码器的网络结构图如图2所示。

变分自编码器(VAE)属于生成模型，通过学习数据的分布来实现特征的提取。首先定义两个概率分布p(x)和q(x)，如果要衡量两个数据分布p(x)和q(x)之间的差异性，则通过KL散度(交叉熵)来衡量，p(x)和q(x)的交叉熵可以由公式表示

KL散度具有非负性，当且仅当p(x)＝q(x)时，KL散度等于0。

极限学习机编码器(ELM-AE)是一个具有单隐藏层的前馈神经网络结构，模型输入x和输出x相同。隐藏层节点的初始权重和偏倚是随机生成的。展示出了ELM-AE的网络架构。模型的输入层权值和隐藏层的偏倚值可以随机确定，且训练过程中不需要再次调整。

本发明借鉴了基于TF-IDF的方法，基于TF-IDF加权和Word2Vec相结合的方式完成Word2Vec到Sentence2Vec的过程。

1、模板生成

根据公式1计算出文中所有非停用词的TF-IDF值，记为其中i代表文档D的第i个句子，j代表第i句中的第j个词汇。

TF-IDF＝TF_i,j×IDF_i

基于TF-IDF加权和Word2Vec的句向量计算公式，如下公式2

给出基于TF-IDF加权和Word2Vec的Sentence2Vec算法，如图3所示。

首先根据公式1计算出文中所有非停用词的TF-IDF值，记为其中i代表文档D的第i个句子，j代表第f句中的第j个词汇。下面给出基于TF-IDF加权和Word2Vec的句向量计算公式：

根据常用整句标点符号(如，句号，叹号等)对全文文档进行分词。借助第三方的中文分词软件，对文档进行分词处理。停用词部分由于对文档和句子没有语义和内容上实质性的贡献，为避免对后续产生影响，需要去除。在计算句子向量，需要会将停用词的权重设置为0。

根据上一步预处理之后的文本计算出文本中各个词汇分别对应的TF-IDF值。分析了传统的词袋模型的缺点，引入了Word2Vec的CBOW(连续词袋模型)来实现词向量的表示。

基于Word2Vec的词向量表示方法能够将高维度的稀疏词向量转换为低维度的稠密向量。在词向量模型的训练过程中，使用的是Python第三方工具包gensim中的Word2Vec模块。在本实验中对Word2Vec的重要参数设置做出如下解释。Sentence是需要输入的语料，对应本文中的输入待处理文档Size参数代表的是词向量的维度，算法默认的维度为100维，本实验涉及多个模型的二次训练，在不特殊声明的情况下，使用默认维度。参数window：代表的是窗口的大小，对应到模型中就是词向量上下文环境之间的范围。这个参数值越大，也就代表窗口越大，产生的词向量所带有的语义关系的上下文越大，采用的窗口值为5。Sg的默认值是0，也正好对应本文采用的CBOW(连续词袋模型)。Min_count代表限定词向量的最小词频，由于的语料规模还比较大，所有将这个参数值设置为6。

通过第二步得到的词向量的权重值和第三步得到的词汇Word2Vec向量表示形式，则可根据公式2分别算出文档中各个语句的句向量表示。输出最终文档D的Sentence2Vec向量。

2、文档生成

K-means算法是普及最广的一种聚类算法，也正是因为其简单易用且聚类效果好的优势使得K-means在很多年后的今天仍然被广泛使用，并且不断有其优化版本的出现。通常K-means聚类算法的步骤如图4所示。

1)首先要确定算法质心的个数K，作为聚类的中心点；

2)分别计算每一个数据点到K个聚类中心点的距离(通常使用欧式距离)，然后把各个点分配到与其相邻最近的聚类中心点，形成K个数据集合，习惯称之为K个簇；

3)然后重新计算每一个簇的中心点(质心)，：一般通过均值或方差等指标进行计算。

4)重复算法的2到4步，直至达到算法终止条件，然后结束算法，算法的终止条件一般为提前设定迭代的次数或者质心的位置不在发生变化。

3、自适应K值的K-means聚类算法

引入自适应K值的K-means算法完成文本摘要的研究。下列算法如图5，其中1～5行给出自适应K-means的自动摘要生成算法。其中由自适应K-means算法迭代计算输入数据(Sentence2Vec生成的句向量的高阶特征表示)找到使得聚类效果最佳的K值，6～12行是根据既定策略生成摘要。

4、文档生成

首先要将输入文档D进行预处理，然后通过TF-IDF转换输入到编码器中。得到整篇文档的高阶特征表示下的句向量集合。对无监督模型下对使用算法和提出的抽取式摘要的启发式规则生成候选摘要集。最后对三种模型下的结果根据投票选择方式进行集成，将句子根据得分进行排序，选取出最终摘要，输出目标摘要。

在自适应K值K-means算法中，通过使用余弦相似度作为聚类的指标，如公式3

其中S_i，S_j表示待比较的两个句向量，对使用Sentence2Vec算法后的向量则可以进一步表示为公式4

x_i和y_i分别表示句向量S_i，S_j在第i个维度的取值。余弦相似度把向量空间中两个句向量夹角的余弦值作为判断两个向量在语义或内容是否相似的衡量标准。余弦值越接近1，也说明两个句向量所表示的内容是更相近的。

文档预处理后，根据Word2Vec生成文档Z词向量表示，根据算法的Sentence2Vec算法得到句向量表示

通过三种编码器得到S_i的高阶表示S_i-AE，S_i-VAE，S_i-ELM-AE，将S_i-AE，S_i-VAE，S_i-ELM-AE分别并入文档D的高阶表示D_i-AE，D_i-VAE，D_i-ELM-AE，执行算法4－1得到三种模型下的候选摘要D_r-AE，D_r-VAE，D_r-ELM-AE，对三种模型下的结果进行投票选择和排列得到集成结果摘要D_r

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.基于无监督集成学习的抽取式文本摘要方法，其特征在于，包括以下步骤：首先将输入文档D进行预处理；然后通过TF-IDF转换输入到编码器中，得到整篇文档的高阶特征表示下的句向量集合，对无监督模型下对使用算法和抽取式摘要的启发式规则生成候选摘要集；最后对三种模型下的结果根据投票选择方式进行集成，将句子根据得分进行排序，选取出最终摘要，输出目标摘要。

2.根据权利要求1所述的基于无监督集成学习的抽取式文本摘要方法，其特征在于，对输入文档D进行预处理的步骤如下：

S1、计算出文中所有非停用词的TF-IDF值；

S2、给出基于TF-IDF加权和Word2Vec的句向量计算公式；

S3、给出基于TF-IDF加权和Word2Vec的Sentence2Vec算法；

3.根据权利要求1所述的基于无监督集成学习的抽取式文本摘要方法，其特征在于，编码器包括自动编码器、变分编码器和极限学习机编码器。

4.根据权利要求2所述的基于无监督集成学习的抽取式文本摘要方法，其特征在于，在步骤S1中，根据公式1计算出文中所有非停用词的TF-IDF值，记为其中i代表文档D的第i个句子，j代表第i句中的第j个词汇；

TF-IDF＝TF_i,j×IDF_i

5.根据权利要求2所述的基于无监督集成学习的抽取式文本摘要方法，其特征在于，在步骤S2中，基于TF-IDF加权和Word2Vec的句向量计算公式，如下公式2，

6.根据权利要求2所述的基于无监督集成学习的抽取式文本摘要方法，其特征在于，在步骤S6中，在词向量模型的训练过程中，使用的是Python第三方工具包gensim中的Word2Vec模块。