CN104834735B

CN104834735B - 一种基于词向量的文档摘要自动提取方法

Info

Publication number: CN104834735B
Application number: CN201510254719.2A
Authority: CN
Inventors: 林鸿飞; 郝辉辉
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-05-18
Filing date: 2015-05-18
Publication date: 2018-01-23
Anticipated expiration: 2035-05-18
Also published as: CN104834735A

Abstract

一种基于词向量的文档摘要自动提取方法，包括以下步骤：S1、利用深度神经网络模型训练语料获取特征词的词向量表示；S2、构建句子图模型；S3、计算句子权重；S4、利用最大边缘相关算法生成摘要。本发明通过采集语料集并对该语料集进行预处理，得到训练特征语料集；并利用深度神经网络模型对所构建的训练特征语料集进行训练，用于得到特征词的词向量；语料集中根据预设查询词得到候选文档集合及候选句子集合，再根据特征词的词向量得到句子间的语义相似性，从而得到两个句子之间的语义联系，避免了传统基于词共现计算方法在同义不同词情况下出现的计算误差问题，从而提高相似性计算的准确性和摘要性能。

Description

一种基于词向量的文档摘要自动提取方法

技术领域

本发明涉及计算机信息检索及文本挖掘领域，尤其是一种基于词向量的文档摘要自动提取方法。

背景技术

文本摘要技术是文本挖掘研究领域重要的一部分，该技术能够找出文档或文档集中最重要的信息并用简洁连贯的短文进行表示。随着科技进步和网络技术的发展，网络上存在海量的可利用信息，面对大量的数据，该研究可以辅助用户快速理解所需信息，节约用户阅读时间，提高工作效率。

目前文本摘要技术主要为抽取型摘要，即从原文中抽取最重要的句子组成摘要，其生成过程包含三步：句子表示，句子计分，以及摘要生成。具体来讲，该方法首先采用多种形式表示句子，如包含特征词的词频、TF*IDF、主题词等组成句子向量。一旦句子的表示形式确定，则利用常用的排序方法如BM25，或者PageRank等计算句子得分，以表示该句子的重要性，最后利用去冗余方法将得分较高的句子加入到摘要中。到目前为止，文本摘要技术已经有50多年的研究历史。随着信息检索技术的快速发展，文本摘要技术也日益成熟。从最初基于词频、TF*IDF的方法，到引入机器学习，和基于图型表示的方法，文本摘要的性能均有很大的提升。

基于词频、TF*IDF统计的方法认为句子中包含高频词或TF*IDF值高的词越多，则该句子就越重要，因此有较高的概率加入到最终生成的摘要中。具体地，该方法首先对候选的语料集进行预处理，包括去停用词、词干化等，随后统计语料中特征词的词频或TF*IDF；对候选文档集中的每条句子，计算句子的重要性，最简单实用的一种做法是取句子中特征词概率的平均值，即将句子中特征词的概率取和并除以句子长度；最后对句子排序，选取得分最高的句子加入到生成的摘要中。该类方法因其计算方便，易于实现等优点常被作为对比方法广泛应用，但该方法偏向于高频词，生成的摘要往往只涵盖候选集中的部分主题，缺少语义理解等，因此摘要性能并不显著。

近些年，随着机器学习方法的不断推广和改进，越来越多的研究者开始将机器学习方法加入到实验中，文本摘要领域也不例外。一种做法是采用监督学习方法，将文本摘要问题看作为二元分类问题，即每一个候选摘要句可以加入或不能加入到最终的摘要中。在训练集中，利用逻辑斯蒂回归，朴素贝叶斯或SVM等分类模型对训练集进行训练，得到最优的权重向量，并对测试集进行分类预测；一种做法是采用多种特征如句子位置、词频、线索词等表示句子，利用排序学习算法在训练集进行训练，得到最优的特征权重向量，用于在测试集对候选句子进行计算得分；一种做法是将文本摘要问题看作为聚类问题，即对候选文档集中的句子进行聚类，采用前文所述的统计方法，或者排序方法等对每个聚类中的句子进行排序，选取每个聚类中的前n个句子组成摘要。利用机器学习进行自动生成文本摘要的方法还有很多，并不限于以上所述。虽然当前文本摘要领域仍有越来越多机器学习方法的改进，但是在通用的多文档新闻摘要领域中，机器学习方法的摘要性能并不优于非监督方法，该方法更适用于特殊领域或特定类型的摘要中。同时机器学习往往为监督学习模型，需要标注数据，而该步通常由人工标注实现，非常耗时，且具有主观性，因此机器学习方法仍然需要进一步的完善。

基于图形表示的文本摘要技术由于非监督特性，全局考虑，不需要领域知识和语法语义分析，以及良好的摘要性能等多个优点，因此受到很多研究者的关注。该方法将句子作为图中结点，句子间相似性作为连接结点的边的权重，利用PageRank，HITS等方法迭代计算结点权重，最终将权重较大的句子加入摘要。句子相似矩阵中的值表示从某条句子到其他句子的跳转概率，因此对结点权重的计算非常重要，但是传统的图方法在计算句子间相似性时，多是利用句子中包含特征词的共现性得到，忽略了句子间的语义相似性，降低了结点权重计算的准确性，影响摘要的性能。

发明内容

本发明的目的是提供一种能有效避免传统的基于词共现方法计算句子相似性带来的误差，为用户提取准确且可读性较高的文档摘要的基于词向量的文档摘要自动提取方法。

本发明解决现有技术问题所采用的技术方案：一种基于词向量的文档摘要自动提取方法，包括以下步骤：

S1、利用深度神经网络模型训练语料获取特征词的词向量表示：从数据库文档中采集语料集并对该语料集进行预处理，所述预处理包括对语料集中的语料进行分句处理，并逐句对照停用词表去除停用词、特殊字符及标点符号，得到训练特征语料集；设置训练参数，以训练特征语料集为训练数据，利用深度神经网络模型进行训练，以将训练特征语料集中的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出，得到特征词的词向量表示形式；

S2、构建句子图模型：

包括以下步骤:

a1、预处理：根据预设查询词在步骤S1采集到的语料集中进行检索，将检索到的文档作为候选文档集，对所述候选文档集进行分句处理并去除候选文档集中重复的句子，得到摘要的候选句子集合；

a2、构建模型：将候选句子集合中的每条句子作为图模型的结点并赋予平均初始权重：

其中，S_i为候选句子集S中的任意句子，N为句子总数；利用步骤S1得到的特征词的词向量，通过计算句子间语义相似性作为图中边的权重，构成句子图模型；

对候选句子集合中任意两条句子S_i和S_j，分别包含特征词t_i和t_j的词向量和则句子S_i和S_j间的语义相似性Similarity(S_i,S_j)公式为：

其中，对于句子S_i中的特征词t_i的词向量表示在句子S_j中和特征词t_i属于相同词性的所有特征词的词向量与的最大相似度值；|S_i|和|S_j|分别表示S_i和S_j的长度；

特征词的词向量之间的相似性由如下公式获得：

其中和是两个特征词t₁和t₂经过步骤S1的深度神经网络模型训练得到对应的特征词向量。

S3、计算句子权重：对步骤S2得到的图模型，根据步骤S2中的平均初始权重及句子间语义相似性利用如下公式迭代更新每个结点的权重，直至收敛：

其中d为阻尼系数，取值范围为0-1，Connection(S_i)为与句子S_i相似度大于0的句子集合，||Connection(S_i)||则为该集合中句子总数；

S4、利用最大边缘相关算法生成摘要：利用最大边缘相关算法选择权重最大且无冗余的句子组成摘要，具体步骤为：

b1)、建立空的摘要句子集合；将图模型中各结点所对应的句子作为初始的候选摘要句子集合；

b2)、对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列，将排序后的各结点所对应的句子作为候选摘要句子序列；

b3)、按照候选摘要句子序列，将排列在第一位的句子转移至摘要句子集合中，对候选摘要句子集合中的剩余句子利用如下公式更新它们的权重：

Weight(S_j)＝Weight(S_j)-ω×Similarity(S_i,S_j)

其中，i≠j，ω为惩罚因子，Similarity(S_i,S_j)为步骤S2中得到的句子语义相似性；

b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度。

当所要更新权重的句子与摘要句子集合中的句子有相似性时，惩罚因子ω为1.0。

所述深度神经网络模型为Skip-gram模型，利用层次softmax方法训练Skip-gram模型。

步骤S3中的阻尼系数d为0.85。

预设的摘要长度为150个单词。

本发明的有益效果在于：本发明通过采集语料集并对该语料集进行预处理，得到训练特征语料集；并利用深度神经网络模型对所构建的训练特征语料集进行训练，用于得到特征词的词向量；语料集中根据预设查询词得到候选文档集合及候选句子集合，再根据特征词的词向量得到句子间的语义相似性，从而得到两个句子之间的语义联系，避免了传统基于词共现计算方法在同义不同词情况下出现的计算误差问题，从而提高相似性计算的准确性和摘要性能。在单机环境中(CPU为单核3.0GHz，内存为4G，下文同)，对于特征词的词向量的训练语料集为1.2G，得到的训练模型占用内存为148，420KB。

附图说明

图1为本发明的逻辑原理图。

图2为本发明实施例步骤S1-S3完成后所得的结果。

图3为本发明实施例的最终结果。

具体实施方式

以下结合附图及具体实施例对本发明进行说明：

图1为本发明一种基于词向量的文档摘要自动提取方法的逻辑原理图。一种基于词向量的文档摘要自动提取方法，包括以下步骤：

S1、利用深度神经网络模型训练语料获取特征词的词向量表示：从数据库文档中采集语料集并对该语料集进行预处理，所述预处理包括对语料集中的语料进行分句处理，并逐句对照停用词表去除停用词、特殊字符及标点符号等，得到训练特征语料集；设置训练参数，以训练特征语料集为训练数据，利用层次softmax方法对深度神经网络模型Skip-gram进行训练，以将训练特征语料集中的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出，得到特征词的词向量表示形式；

具体的，为从大量非结构化文本数据中训练特征词的词向量表示，本发明主要采用Skip-gram模型。相比其他基于神经网络结构实现的方法，该模型并没有大量的矩阵乘法，因此非常高效。Skip-gram模型利用当前词的词向量预测指定窗口上下文的词向量。给定特征语料w₁,w₂,w₃,…,w_T作为训练数据，Skip-gram的目标函数是

其中，c是决定上下文窗口大小的参数，c越大则需要越多的训练数据，一般需要越多训练时间，但会得到更高的准确率。

基本的Skip-gram模型定义p(w_O|w_I)为：

其中和是w的“输入”和“输出”向量形式表示，W是词汇表中单词总数。由于计算与W成比例，数量级通常非常大(10⁵-10⁷)，因此常采用其他计算公式近似计算。

本发明采用层次softmax算法对深度神经网络模型Skip-gram进行训练，该算法利用二叉Huffman树表示，将输出层的W个单词作为叶子结点，对高频词分配较短路径，加快训练速度。每个特征语料w都可以从树的根结点沿着唯一的一条路径被访问到。假如n(w,j)为从根结点到w路径上的第j个结点，L(w)为这条路径的长度，因此n(w,1)＝root,n(w,L(w))＝w。对于任一内部结点n，ch(n)为结点n的任一子结点。则层次softmax定义p(w_O|w_I)如下：

其中

上式中计算和logp(w_o|w_I)成比例于L(w_O)，一般不高于logW。

定义上式后使用随机梯度下降方法求解目标函数，最后生成单词的词向量表示形式。

S2、构建句子图模型：包括以下步骤：

其中S_i为候选句子集S中的任意句子，N为句子总数；利用步骤S1得到的特征词的词向量，通过计算句子间语义相似性作为图中边的权重，构成句子图模型；

其中，对于句子S_i中的特征词t_i的词向量Sim_m(t_i,S_j)表示在句子S_j中和特征词ti属于相同词性的所有特征词的词向量与的最大相似度值；|S_i|和|S_j|分别表示S_i和S_j的长度；

特征词的词向量之间的相似度值由如下公式获得：

S3、计算句子权重：对步骤S2得到的图模型，根据步骤S2中的平均初始权重及句子间语义相似性利用如下改进的PageRank公式迭代更新每个结点的权重，直至收敛，从而得到能够反映句子重要性的分值：

由于句子间相似度的不同造成结点间边权重的差异，以及相似度的对称性，此处利用改进的PageRank公式。其中d为阻尼系数，取值范围为0-1，通常情况下优选0.85。Connection(S_i)表示和S_i相连的句子集合，即与句子S_i相似度大于0的句子集合，||Connection(S_i)||则为该集合中句子总数；

原有的PageRank公式基于随机冲浪的思想，使用网页间的链接来衡量网页的重要程度，具体来讲是利用链接来源的质量和链接数目来决定链接目标的权重，其公式为：

其中d通常取0.85。In(S_i)表示指向S_i的网页集合，||Out(S_j)||表示网页S_j的链出总数。

在本发明中将PageRank思想应用到句子的图模型中，得到句子的最终权重。然而为了更好地解决句子间相似度的不同造成结点间边权重的差异，以及相似度的对称性等问题，本发明将现有的PageRank公式改进为如下形式：

此处d仍设为0.85。Connection(S_i)表示和S_i相连的句子集合，即与句子S_i相似度大于0的句子集合，||Connection(S_i)||则为该集合中句子总数。

利用步骤S2中结点的平均初始权重与句子间的语义相似性所构成的相似性矩阵和改进后的PageRank公式迭代计算图模型中各个结点的权重，即句子权重，直至收敛。最终每个结点将得到一个反映其重要性的得分，为下一步生成摘要做准备。

由于句子间存在相似性，因此如果直接将权重最大的前K条句子加入到摘要中会存在较大冗余。为降低摘要中的冗余率，本发明使用最大边缘相关算法，其基本思想为：如果一个句子与摘要中已有的句子具有较高的相似性，则对该句子进行罚分。因此有如下S4步骤：

b1)、建立空的摘要句子集合，作为初始的摘要句子集合；将图模型中各结点所对应的句子作为初始的候选摘要句子集合；

b2)、根据步骤S3对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列，将排序后的各结点所对应的句子作为候选摘要句子序列；

Weight(S_j)＝Weight(S_j)-ω×Similarity(S_i,S_j)

其中，i≠j，ω为惩罚因子，当所要更新权重的句子与摘要句子集合中的句子有相似性时，惩罚因子ω为1.0。Similarity(S_i,S_j)为步骤S2中得到的句子语义相似性；

实施例：

为使本发明的目的，技术方案和有益效果更加清晰和更加易于实施，结合以下具体实施例，并参照附图，对本发明做进一步详细说明。本实施例设置生成的摘要长度预设为150个单词。

S1、利用深度神经网络模型训练语料获取特征词的词向量表示：

为得到特征词的向量表示形式，实施例采用美国国立医学图书馆维护的生物医学文献数据库MEDLINE采集实验用的语料集，具体来讲，即查询MEDLINE上2011-2012年所有文献引文作为语料集，对引文中的句子做预处理，即对照停用词表去除停用词、特殊字符及标点符号等，最终得到1.2G的训练语料集。

在本实施例的训练过程中设置特征词的词向量维度为200维，利用层次softmax训练Skip-gram模型，仅考虑词频大于3的特征词，窗口大小设为5。

S2、构建句子图模型：

包括以下步骤：本实施例设置“HIV Infection”为查询关键词，检索MEDLINE上与之相关的所有引文，得到与该查询对应的候选文档集，对该候选文档集进行分句处理并去除候选文档集中重复的句子，得到摘要的候选句子集合，最终生成包含4581条句子的候选句子集合。

a2、构建模型：

将该集合中的每条句子作为图模型中的一个结点，根据平均初始权重公式对图模型中的每个结点赋予平均初始权重，即1/4581；

利用步骤S1训练得到的特征词的词向量和句子间的语义相似性计算公式即公式和公式计算句子间的相似性，图中边的权重，生成句子图模型。

S3、计算句子权重：

对上述图模型，利用改进的PageRank公式迭代计算每个结点的权重直至收敛。

图2所示为本发明采用以上3步对候选句子权重按降序排序，选取的前K条句子组成指定长度的疾病“HIV Infection”摘要，具体如下：

S4、利用最大边缘相关算法生成摘要：

对上步中得到权重的句子按降序排序，为消除摘要中的冗余，利用最大边缘相关算法对和摘要句中有相似性的句子进行罚分，选择权重较大的前K条句子组成摘要。具体步骤为：

b3)、按照候选摘要句子序列，将排列在第一位的句子转移至摘要句子集合中，

对候选摘要句子集合中的剩余句子利用如下公式更新它们的权重：

Weight(S_j)＝Weight(S_j)-ω×Similarity(S_i,S_j)

b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度

图3所示为本发明采用以上4步对候选句子集合进行排序去冗余，最终生成指定长度的疾病“HIV Infection”摘要。

从图2和图3得到的摘要结果看，去冗余前的摘要多为短句，摘要中有较多重复词语，且在语义上也有较多相似。而去冗余后的摘要除保留重要信息外，同时包含更多的语义方面，信息量更多，因此整体效果更好。

上述实施例描述并解释了本发明的方法。该方法利用深度神经网络算法训练特征词的词向量，进而准确计算句子间相似度，利用PageRank思想迭代计算更新句子权重，基于最大边缘相关算法消除摘要中的信息冗余，提高***生成摘要的性能，进一步满足用户的信息需求。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于词向量的文档摘要自动提取方法，其特征在于，包括以下步骤：

S2、构建句子图模型：

包括以下步骤:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> </mrow> </msub> <msub> <mi>Sim</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> </mrow> </msub> <msub> <mi>Sim</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>+</mo> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>

特征词的词向量之间的相似度值由如下公式获得：

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mover> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mo>*</mo> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> </mrow>

其中，和是两个特征词t₁和t₂经过步骤S1的深度神经网络模型训练得到对应的特征词向量；

<mrow> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mo>&times;</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>c</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>c</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>&times;</mo> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，d为阻尼系数，取值范围为0-1，Connection(S_i)为与句子S_i相似度大于0的句子集合，||Connection(S_i)||则为该集合中句子总数；

Weight(S_j)＝Weight(S_j)-ω×Similarity(S_i,S_j)

2.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法，其特征在于，当所要更新权重的句子与摘要句子集合中的句子有相似性时，惩罚因子ω为1.0。

3.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法，其特征在于，所述深度神经网络模型为Skip-gram模型，利用层次softmax方法训练Skip-gram模型。

4.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法，其特征在于，步骤S3中的阻尼系数d为0.85。

5.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法，其特征在于，预设的摘要长度为150个单词。