CN104834735B - 一种基于词向量的文档摘要自动提取方法 - Google Patents

一种基于词向量的文档摘要自动提取方法 Download PDF

Info

Publication number
CN104834735B
CN104834735B CN201510254719.2A CN201510254719A CN104834735B CN 104834735 B CN104834735 B CN 104834735B CN 201510254719 A CN201510254719 A CN 201510254719A CN 104834735 B CN104834735 B CN 104834735B
Authority
CN
China
Prior art keywords
msub
mrow
sentence
sentences
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510254719.2A
Other languages
English (en)
Other versions
CN104834735A (zh
Inventor
林鸿飞
郝辉辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201510254719.2A priority Critical patent/CN104834735B/zh
Publication of CN104834735A publication Critical patent/CN104834735A/zh
Application granted granted Critical
Publication of CN104834735B publication Critical patent/CN104834735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于词向量的文档摘要自动提取方法,包括以下步骤:S1、利用深度神经网络模型训练语料获取特征词的词向量表示;S2、构建句子图模型;S3、计算句子权重;S4、利用最大边缘相关算法生成摘要。本发明通过采集语料集并对该语料集进行预处理,得到训练特征语料集;并利用深度神经网络模型对所构建的训练特征语料集进行训练,用于得到特征词的词向量;语料集中根据预设查询词得到候选文档集合及候选句子集合,再根据特征词的词向量得到句子间的语义相似性,从而得到两个句子之间的语义联系,避免了传统基于词共现计算方法在同义不同词情况下出现的计算误差问题,从而提高相似性计算的准确性和摘要性能。

Description

一种基于词向量的文档摘要自动提取方法
技术领域
本发明涉及计算机信息检索及文本挖掘领域,尤其是一种基于词向量的文档摘要自动提取方法。
背景技术
文本摘要技术是文本挖掘研究领域重要的一部分,该技术能够找出文档或文档集中最重要的信息并用简洁连贯的短文进行表示。随着科技进步和网络技术的发展,网络上存在海量的可利用信息,面对大量的数据,该研究可以辅助用户快速理解所需信息,节约用户阅读时间,提高工作效率。
目前文本摘要技术主要为抽取型摘要,即从原文中抽取最重要的句子组成摘要,其生成过程包含三步:句子表示,句子计分,以及摘要生成。具体来讲,该方法首先采用多种形式表示句子,如包含特征词的词频、TF*IDF、主题词等组成句子向量。一旦句子的表示形式确定,则利用常用的排序方法如BM25,或者PageRank等计算句子得分,以表示该句子的重要性,最后利用去冗余方法将得分较高的句子加入到摘要中。到目前为止,文本摘要技术已经有50多年的研究历史。随着信息检索技术的快速发展,文本摘要技术也日益成熟。从最初基于词频、TF*IDF的方法,到引入机器学习,和基于图型表示的方法,文本摘要的性能均有很大的提升。
基于词频、TF*IDF统计的方法认为句子中包含高频词或TF*IDF值高的词越多,则该句子就越重要,因此有较高的概率加入到最终生成的摘要中。具体地,该方法首先对候选的语料集进行预处理,包括去停用词、词干化等,随后统计语料中特征词的词频或TF*IDF;对候选文档集中的每条句子,计算句子的重要性,最简单实用的一种做法是取句子中特征词概率的平均值,即将句子中特征词的概率取和并除以句子长度;最后对句子排序,选取得分最高的句子加入到生成的摘要中。该类方法因其计算方便,易于实现等优点常被作为对比方法广泛应用,但该方法偏向于高频词,生成的摘要往往只涵盖候选集中的部分主题,缺少语义理解等,因此摘要性能并不显著。
近些年,随着机器学习方法的不断推广和改进,越来越多的研究者开始将机器学习方法加入到实验中,文本摘要领域也不例外。一种做法是采用监督学习方法,将文本摘要问题看作为二元分类问题,即每一个候选摘要句可以加入或不能加入到最终的摘要中。在训练集中,利用逻辑斯蒂回归,朴素贝叶斯或SVM等分类模型对训练集进行训练,得到最优的权重向量,并对测试集进行分类预测;一种做法是采用多种特征如句子位置、词频、线索词等表示句子,利用排序学习算法在训练集进行训练,得到最优的特征权重向量,用于在测试集对候选句子进行计算得分;一种做法是将文本摘要问题看作为聚类问题,即对候选文档集中的句子进行聚类,采用前文所述的统计方法,或者排序方法等对每个聚类中的句子进行排序,选取每个聚类中的前n个句子组成摘要。利用机器学习进行自动生成文本摘要的方法还有很多,并不限于以上所述。虽然当前文本摘要领域仍有越来越多机器学习方法的改进,但是在通用的多文档新闻摘要领域中,机器学习方法的摘要性能并不优于非监督方法,该方法更适用于特殊领域或特定类型的摘要中。同时机器学习往往为监督学习模型,需要标注数据,而该步通常由人工标注实现,非常耗时,且具有主观性,因此机器学习方法仍然需要进一步的完善。
基于图形表示的文本摘要技术由于非监督特性,全局考虑,不需要领域知识和语法语义分析,以及良好的摘要性能等多个优点,因此受到很多研究者的关注。该方法将句子作为图中结点,句子间相似性作为连接结点的边的权重,利用PageRank,HITS等方法迭代计算结点权重,最终将权重较大的句子加入摘要。句子相似矩阵中的值表示从某条句子到其他句子的跳转概率,因此对结点权重的计算非常重要,但是传统的图方法在计算句子间相似性时,多是利用句子中包含特征词的共现性得到,忽略了句子间的语义相似性,降低了结点权重计算的准确性,影响摘要的性能。
发明内容
本发明的目的是提供一种能有效避免传统的基于词共现方法计算句子相似性带来的误差,为用户提取准确且可读性较高的文档摘要的基于词向量的文档摘要自动提取方法。
本发明解决现有技术问题所采用的技术方案:一种基于词向量的文档摘要自动提取方法,包括以下步骤:
S1、利用深度神经网络模型训练语料获取特征词的词向量表示:从数据库文档中采集语料集并对该语料集进行预处理,所述预处理包括对语料集中的语料进行分句处理,并逐句对照停用词表去除停用词、特殊字符及标点符号,得到训练特征语料集;设置训练参数,以训练特征语料集为训练数据,利用深度神经网络模型进行训练,以将训练特征语料集中的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出,得到特征词的词向量表示形式;
S2、构建句子图模型:
包括以下步骤:
a1、预处理:根据预设查询词在步骤S1采集到的语料集中进行检索,将检索到的文档作为候选文档集,对所述候选文档集进行分句处理并去除候选文档集中重复的句子,得到摘要的候选句子集合;
a2、构建模型:将候选句子集合中的每条句子作为图模型的结点并赋予平均初始权重:
其中,Si为候选句子集S中的任意句子,N为句子总数;利用步骤S1得到的特征词的词向量,通过计算句子间语义相似性作为图中边的权重,构成句子图模型;
对候选句子集合中任意两条句子Si和Sj,分别包含特征词ti和tj的词向量则句子Si和Sj间的语义相似性Similarity(Si,Sj)公式为:
其中,对于句子Si中的特征词ti的词向量 表示在句子Sj中和特征词ti属于相同词性的所有特征词的词向量与的最大相似度值;|Si|和|Sj|分别表示Si和Sj的长度;
特征词的词向量之间的相似性由如下公式获得:
其中是两个特征词t1和t2经过步骤S1的深度神经网络模型训练得到对应的特征词向量。
S3、计算句子权重:对步骤S2得到的图模型,根据步骤S2中的平均初始权重及句子间语义相似性利用如下公式迭代更新每个结点的权重,直至收敛:
其中d为阻尼系数,取值范围为0-1,Connection(Si)为与句子Si相似度大于0的句子集合,||Connection(Si)||则为该集合中句子总数;
S4、利用最大边缘相关算法生成摘要:利用最大边缘相关算法选择权重最大且无冗余的句子组成摘要,具体步骤为:
b1)、建立空的摘要句子集合;将图模型中各结点所对应的句子作为初始的候选摘要句子集合;
b2)、对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列,将排序后的各结点所对应的句子作为候选摘要句子序列;
b3)、按照候选摘要句子序列,将排列在第一位的句子转移至摘要句子集合中,对候选摘要句子集合中的剩余句子利用如下公式更新它们的权重:
Weight(Sj)=Weight(Sj)-ω×Similarity(Si,Sj)
其中,i≠j,ω为惩罚因子,Similarity(Si,Sj)为步骤S2中得到的句子语义相似性;
b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度。
当所要更新权重的句子与摘要句子集合中的句子有相似性时,惩罚因子ω为1.0。
所述深度神经网络模型为Skip-gram模型,利用层次softmax方法训练Skip-gram模型。
步骤S3中的阻尼系数d为0.85。
预设的摘要长度为150个单词。
本发明的有益效果在于:本发明通过采集语料集并对该语料集进行预处理,得到训练特征语料集;并利用深度神经网络模型对所构建的训练特征语料集进行训练,用于得到特征词的词向量;语料集中根据预设查询词得到候选文档集合及候选句子集合,再根据特征词的词向量得到句子间的语义相似性,从而得到两个句子之间的语义联系,避免了传统基于词共现计算方法在同义不同词情况下出现的计算误差问题,从而提高相似性计算的准确性和摘要性能。在单机环境中(CPU为单核3.0GHz,内存为4G,下文同),对于特征词的词向量的训练语料集为1.2G,得到的训练模型占用内存为148,420KB。
附图说明
图1为本发明的逻辑原理图。
图2为本发明实施例步骤S1-S3完成后所得的结果。
图3为本发明实施例的最终结果。
具体实施方式
以下结合附图及具体实施例对本发明进行说明:
图1为本发明一种基于词向量的文档摘要自动提取方法的逻辑原理图。一种基于词向量的文档摘要自动提取方法,包括以下步骤:
S1、利用深度神经网络模型训练语料获取特征词的词向量表示:从数据库文档中采集语料集并对该语料集进行预处理,所述预处理包括对语料集中的语料进行分句处理,并逐句对照停用词表去除停用词、特殊字符及标点符号等,得到训练特征语料集;设置训练参数,以训练特征语料集为训练数据,利用层次softmax方法对深度神经网络模型Skip-gram进行训练,以将训练特征语料集中的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出,得到特征词的词向量表示形式;
具体的,为从大量非结构化文本数据中训练特征词的词向量表示,本发明主要采用Skip-gram模型。相比其他基于神经网络结构实现的方法,该模型并没有大量的矩阵乘法,因此非常高效。Skip-gram模型利用当前词的词向量预测指定窗口上下文的词向量。给定特征语料w1,w2,w3,…,wT作为训练数据,Skip-gram的目标函数是
其中,c是决定上下文窗口大小的参数,c越大则需要越多的训练数据,一般需要越多训练时间,但会得到更高的准确率。
基本的Skip-gram模型定义p(wO|wI)为:
其中是w的“输入”和“输出”向量形式表示,W是词汇表中单词总数。由于计算与W成比例,数量级通常非常大(105-107),因此常采用其他计算公式近似计算。
本发明采用层次softmax算法对深度神经网络模型Skip-gram进行训练,该算法利用二叉Huffman树表示,将输出层的W个单词作为叶子结点,对高频词分配较短路径,加快训练速度。每个特征语料w都可以从树的根结点沿着唯一的一条路径被访问到。假如n(w,j)为从根结点到w路径上的第j个结点,L(w)为这条路径的长度,因此n(w,1)=root,n(w,L(w))=w。对于任一内部结点n,ch(n)为结点n的任一子结点。则层次softmax定义p(wO|wI)如下:
其中
上式中计算和logp(wo|wI)成比例于L(wO),一般不高于logW。
定义上式后使用随机梯度下降方法求解目标函数,最后生成单词的词向量表示形式。
S2、构建句子图模型:包括以下步骤:
a1、预处理:根据预设查询词在步骤S1采集到的语料集中进行检索,将检索到的文档作为候选文档集,对所述候选文档集进行分句处理并去除候选文档集中重复的句子,得到摘要的候选句子集合;
a2、构建模型:将候选句子集合中的每条句子作为图模型的结点并赋予平均初始权重:
其中Si为候选句子集S中的任意句子,N为句子总数;利用步骤S1得到的特征词的词向量,通过计算句子间语义相似性作为图中边的权重,构成句子图模型;
对候选句子集合中任意两条句子Si和Sj,分别包含特征词ti和tj的词向量则句子Si和Sj间的语义相似性similarity(Si,Sj)公式为:
其中,对于句子Si中的特征词ti的词向量Simm(ti,Sj)表示在句子Sj中和特征词ti属于相同词性的所有特征词的词向量与的最大相似度值;|Si|和|Sj|分别表示Si和Sj的长度;
特征词的词向量之间的相似度值由如下公式获得:
其中是两个特征词t1和t2经过步骤S1的深度神经网络模型训练得到对应的特征词向量。
S3、计算句子权重:对步骤S2得到的图模型,根据步骤S2中的平均初始权重及句子间语义相似性利用如下改进的PageRank公式迭代更新每个结点的权重,直至收敛,从而得到能够反映句子重要性的分值:
由于句子间相似度的不同造成结点间边权重的差异,以及相似度的对称性,此处利用改进的PageRank公式。其中d为阻尼系数,取值范围为0-1,通常情况下优选0.85。Connection(Si)表示和Si相连的句子集合,即与句子Si相似度大于0的句子集合,||Connection(Si)||则为该集合中句子总数;
原有的PageRank公式基于随机冲浪的思想,使用网页间的链接来衡量网页的重要程度,具体来讲是利用链接来源的质量和链接数目来决定链接目标的权重,其公式为:
其中d通常取0.85。In(Si)表示指向Si的网页集合,||Out(Sj)||表示网页Sj的链出总数。
在本发明中将PageRank思想应用到句子的图模型中,得到句子的最终权重。然而为了更好地解决句子间相似度的不同造成结点间边权重的差异,以及相似度的对称性等问题,本发明将现有的PageRank公式改进为如下形式:
此处d仍设为0.85。Connection(Si)表示和Si相连的句子集合,即与句子Si相似度大于0的句子集合,||Connection(Si)||则为该集合中句子总数。
利用步骤S2中结点的平均初始权重与句子间的语义相似性所构成的相似性矩阵和改进后的PageRank公式迭代计算图模型中各个结点的权重,即句子权重,直至收敛。最终每个结点将得到一个反映其重要性的得分,为下一步生成摘要做准备。
由于句子间存在相似性,因此如果直接将权重最大的前K条句子加入到摘要中会存在较大冗余。为降低摘要中的冗余率,本发明使用最大边缘相关算法,其基本思想为:如果一个句子与摘要中已有的句子具有较高的相似性,则对该句子进行罚分。因此有如下S4步骤:
S4、利用最大边缘相关算法生成摘要:利用最大边缘相关算法选择权重最大且无冗余的句子组成摘要,具体步骤为:
b1)、建立空的摘要句子集合,作为初始的摘要句子集合;将图模型中各结点所对应的句子作为初始的候选摘要句子集合;
b2)、根据步骤S3对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列,将排序后的各结点所对应的句子作为候选摘要句子序列;
b3)、按照候选摘要句子序列,将排列在第一位的句子转移至摘要句子集合中,对候选摘要句子集合中的剩余句子利用如下公式更新它们的权重:
Weight(Sj)=Weight(Sj)-ω×Similarity(Si,Sj)
其中,i≠j,ω为惩罚因子,当所要更新权重的句子与摘要句子集合中的句子有相似性时,惩罚因子ω为1.0。Similarity(Si,Sj)为步骤S2中得到的句子语义相似性;
b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度。
实施例:
为使本发明的目的,技术方案和有益效果更加清晰和更加易于实施,结合以下具体实施例,并参照附图,对本发明做进一步详细说明。本实施例设置生成的摘要长度预设为150个单词。
S1、利用深度神经网络模型训练语料获取特征词的词向量表示:
为得到特征词的向量表示形式,实施例采用美国国立医学图书馆维护的生物医学文献数据库MEDLINE采集实验用的语料集,具体来讲,即查询MEDLINE上2011-2012年所有文献引文作为语料集,对引文中的句子做预处理,即对照停用词表去除停用词、特殊字符及标点符号等,最终得到1.2G的训练语料集。
在本实施例的训练过程中设置特征词的词向量维度为200维,利用层次softmax训练Skip-gram模型,仅考虑词频大于3的特征词,窗口大小设为5。
S2、构建句子图模型:
包括以下步骤:本实施例设置“HIV Infection”为查询关键词,检索MEDLINE上与之相关的所有引文,得到与该查询对应的候选文档集,对该候选文档集进行分句处理并去除候选文档集中重复的句子,得到摘要的候选句子集合,最终生成包含4581条句子的候选句子集合。
a2、构建模型:
将该集合中的每条句子作为图模型中的一个结点,根据平均初始权重公式对图模型中的每个结点赋予平均初始权重,即1/4581;
利用步骤S1训练得到的特征词的词向量和句子间的语义相似性计算公式即公式和公式计算句子间的相似性,图中边的权重,生成句子图模型。
S3、计算句子权重:
对上述图模型,利用改进的PageRank公式迭代计算每个结点的权重直至收敛。
图2所示为本发明采用以上3步对候选句子权重按降序排序,选取的前K条句子组成指定长度的疾病“HIV Infection”摘要,具体如下:
S4、利用最大边缘相关算法生成摘要:
对上步中得到权重的句子按降序排序,为消除摘要中的冗余,利用最大边缘相关算法对和摘要句中有相似性的句子进行罚分,选择权重较大的前K条句子组成摘要。具体步骤为:
b1)、建立空的摘要句子集合,作为初始的摘要句子集合;将图模型中各结点所对应的句子作为初始的候选摘要句子集合;
b2)、对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列,将排序后的各结点所对应的句子作为候选摘要句子序列;
b3)、按照候选摘要句子序列,将排列在第一位的句子转移至摘要句子集合中,
对候选摘要句子集合中的剩余句子利用如下公式更新它们的权重:
Weight(Sj)=Weight(Sj)-ω×Similarity(Si,Sj)
其中,i≠j,ω为惩罚因子,当所要更新权重的句子与摘要句子集合中的句子有相似性时,惩罚因子ω为1.0。Similarity(Si,Sj)为步骤S2中得到的句子语义相似性;
b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度
图3所示为本发明采用以上4步对候选句子集合进行排序去冗余,最终生成指定长度的疾病“HIV Infection”摘要。
从图2和图3得到的摘要结果看,去冗余前的摘要多为短句,摘要中有较多重复词语,且在语义上也有较多相似。而去冗余后的摘要除保留重要信息外,同时包含更多的语义方面,信息量更多,因此整体效果更好。
上述实施例描述并解释了本发明的方法。该方法利用深度神经网络算法训练特征词的词向量,进而准确计算句子间相似度,利用PageRank思想迭代计算更新句子权重,基于最大边缘相关算法消除摘要中的信息冗余,提高***生成摘要的性能,进一步满足用户的信息需求。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种基于词向量的文档摘要自动提取方法,其特征在于,包括以下步骤:
S1、利用深度神经网络模型训练语料获取特征词的词向量表示:从数据库文档中采集语料集并对该语料集进行预处理,所述预处理包括对语料集中的语料进行分句处理,并逐句对照停用词表去除停用词、特殊字符及标点符号,得到训练特征语料集;设置训练参数,以训练特征语料集为训练数据,利用深度神经网络模型进行训练,以将训练特征语料集中的每个词语作为特征词经过Skip-gram模型的训练以词向量的形式输出,得到特征词的词向量表示形式;
S2、构建句子图模型:
包括以下步骤:
a1、预处理:根据预设查询词在步骤S1采集到的语料集中进行检索,将检索到的文档作为候选文档集,对所述候选文档集进行分句处理并去除候选文档集中重复的句子,得到摘要的候选句子集合;
a2、构建模型:将候选句子集合中的每条句子作为图模型的结点并赋予平均初始权重:
<mrow> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> </mrow>
其中Si为候选句子集S中的任意句子,N为句子总数;利用步骤S1得到的特征词的词向量,通过计算句子间语义相似性作为图中边的权重,构成句子图模型;
对候选句子集合中任意两条句子Si和Sj,分别包含特征词ti和tj的词向量则句子Si和Sj间的语义相似性Similarity(Si,Sj)公式为:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> </mrow> </msub> <msub> <mi>Sim</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&amp;Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> </mrow> </msub> <msub> <mi>Sim</mi> <mi>m</mi> </msub> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>+</mo> <mo>|</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,对于句子Si中的特征词ti的词向量 表示在句子Sj中和特征词ti属于相同词性的所有特征词的词向量与的最大相似度值;|Si|和|Sj|分别表示Si和Sj的长度;
特征词的词向量之间的相似度值由如下公式获得:
<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mover> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>,</mo> <mover> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>&amp;CenterDot;</mo> <mover> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mo>*</mo> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>t</mi> <mn>2</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,是两个特征词t1和t2经过步骤S1的深度神经网络模型训练得到对应的特征词向量;
S3、计算句子权重:对步骤S2得到的图模型,根据步骤S2中的平均初始权重及句子间语义相似性利用如下公式迭代更新每个结点的权重,直至收敛:
<mrow> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mo>&amp;times;</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>&amp;Element;</mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>c</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>l</mi> <mi>a</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>n</mi> <mi>e</mi> <mi>c</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>&amp;times;</mo> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,d为阻尼系数,取值范围为0-1,Connection(Si)为与句子Si相似度大于0的句子集合,||Connection(Si)||则为该集合中句子总数;
S4、利用最大边缘相关算法生成摘要:利用最大边缘相关算法选择权重最大且无冗余的句子组成摘要,具体步骤为:
b1)、建立空的摘要句子集合;将图模型中各结点所对应的句子作为初始的候选摘要句子集合;
b2)、对候选摘要句子集合中的各图模型结点所对应的句子权重降序排列,将排序后的各结点所对应的句子作为候选摘要句子序列;
b3)、按照候选摘要句子序列,将排列在第一位的句子转移至摘要句子集合中,对候选摘要句子集合中的剩余句子利用如下公式更新它们的权重:
Weight(Sj)=Weight(Sj)-ω×Similarity(Si,Sj)
其中,i≠j,ω为惩罚因子,Similarity(Si,Sj)为步骤S2中得到的句子语义相似性;
b4)、重复执行步骤b2)和b3),直至摘要句子集合中的句子达到预设的摘要长度。
2.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,当所要更新权重的句子与摘要句子集合中的句子有相似性时,惩罚因子ω为1.0。
3.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,所述深度神经网络模型为Skip-gram模型,利用层次softmax方法训练Skip-gram模型。
4.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,步骤S3中的阻尼系数d为0.85。
5.根据权利要求1所述的一种基于词向量的文档摘要自动提取方法,其特征在于,预设的摘要长度为150个单词。
CN201510254719.2A 2015-05-18 2015-05-18 一种基于词向量的文档摘要自动提取方法 Active CN104834735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510254719.2A CN104834735B (zh) 2015-05-18 2015-05-18 一种基于词向量的文档摘要自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510254719.2A CN104834735B (zh) 2015-05-18 2015-05-18 一种基于词向量的文档摘要自动提取方法

Publications (2)

Publication Number Publication Date
CN104834735A CN104834735A (zh) 2015-08-12
CN104834735B true CN104834735B (zh) 2018-01-23

Family

ID=53812621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510254719.2A Active CN104834735B (zh) 2015-05-18 2015-05-18 一种基于词向量的文档摘要自动提取方法

Country Status (1)

Country Link
CN (1) CN104834735B (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630767B (zh) * 2015-12-22 2018-06-15 北京奇虎科技有限公司 一种文本相似性的比较方法以及装置
CN105631018B (zh) * 2015-12-29 2018-12-18 上海交通大学 基于主题模型的文章特征抽取方法
CN105653704B (zh) * 2015-12-31 2018-10-12 南京财经大学 自动摘要生成方法及装置
CN106021272B (zh) * 2016-04-04 2019-11-19 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN105930314B (zh) * 2016-04-14 2019-02-05 清华大学 基于编码-解码深度神经网络的文本摘要生成***及方法
US11210324B2 (en) 2016-06-03 2021-12-28 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
CN106202042B (zh) * 2016-07-06 2019-07-02 中央民族大学 一种基于图的关键词抽取方法
CN106227722B (zh) * 2016-09-12 2019-07-05 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN106502985B (zh) * 2016-10-20 2020-01-31 清华大学 一种用于生成标题的神经网络建模方法及装置
CN108509408B (zh) 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN108287858B (zh) 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108733682B (zh) * 2017-04-14 2021-06-22 华为技术有限公司 一种生成多文档摘要的方法及装置
CN107169049B (zh) * 2017-04-25 2023-04-28 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN108959312B (zh) 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN107291836B (zh) * 2017-05-31 2020-06-02 北京大学 一种基于语义相关度模型的中文文本摘要获取方法
CN107274077B (zh) * 2017-05-31 2020-07-31 清华大学 课程先后序计算方法和设备
CN107291895B (zh) * 2017-06-21 2020-05-26 浙江大学 一种快速的层次化文档查询方法
CN107562718B (zh) * 2017-07-24 2020-12-22 科大讯飞股份有限公司 文本规整方法及装置、存储介质、电子设备
CN107463658B (zh) * 2017-07-31 2020-03-31 广州市香港科大***研究院 文本分类方法及装置
CN107766419B (zh) * 2017-09-08 2021-08-31 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
CN108304445B (zh) * 2017-12-07 2021-08-03 新华网股份有限公司 一种文本摘要生成方法和装置
CN108182621A (zh) * 2017-12-07 2018-06-19 合肥美的智能科技有限公司 商品推荐方法及商品推荐装置、设备和存储介质
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN108090049B (zh) * 2018-01-17 2021-02-05 山东工商学院 基于句子向量的多文档摘要自动提取方法及***
CN110609997B (zh) * 2018-06-15 2023-05-23 北京百度网讯科技有限公司 生成文本的摘要的方法和装置
CN110891074A (zh) * 2018-08-06 2020-03-17 珠海格力电器股份有限公司 推送信息的方法及装置
CN109408802A (zh) * 2018-08-28 2019-03-01 厦门快商通信息技术有限公司 一种提升句向量语义的方法、***及存储介质
CN109522403B (zh) * 2018-11-05 2023-04-21 中山大学 一种基于融合编码的摘要文本生成方法
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信***集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109902284A (zh) * 2018-12-30 2019-06-18 中国科学院软件研究所 基于论辩挖掘的一种无监督论点提取方法
CN110083828A (zh) * 2019-03-29 2019-08-02 珠海远光移动互联科技有限公司 一种文本聚类方法及装置
CN110096705B (zh) * 2019-04-29 2023-09-08 扬州大学 一种无监督的英文句子自动简化算法
CN110032741B (zh) * 2019-05-06 2020-02-04 重庆理工大学 一种基于语义扩展和最大边缘相关的伪文本生成方法
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及***
CN110287309B (zh) * 2019-06-21 2022-04-22 深圳大学 快速提取文本摘要的方法
CN110362674B (zh) * 2019-07-18 2020-08-04 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN110737768B (zh) * 2019-10-16 2022-04-08 信雅达科技股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及***
US11263388B2 (en) 2020-02-17 2022-03-01 Wipro Limited Method and system for dynamically generating summarised content for visual and contextual text data
CN111339754B (zh) * 2020-03-04 2022-06-21 昆明理工大学 基于案件要素句子关联图卷积的案件舆情摘要生成方法
CN111460117B (zh) * 2020-03-20 2024-03-08 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111625621B (zh) * 2020-04-27 2023-05-09 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文档检索方法、装置、电子设备及存储介质
CN111651562B (zh) * 2020-06-05 2023-03-21 东北电力大学 一种基于内容地图的科技文献内容深度揭示方法
CN111897925B (zh) * 2020-08-04 2022-08-26 广西财经学院 关联模式挖掘与词向量学习融合的伪相关反馈扩展方法
CN112347241A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种摘要提取方法、装置、设备及存储介质
CN112560496B (zh) * 2020-12-09 2024-02-02 北京百度网讯科技有限公司 语义分析模型的训练方法、装置、电子设备及存储介质
CN113157914B (zh) * 2021-02-04 2022-06-14 福州大学 一种基于多层循环神经网络的文档摘要提取方法及***
CN112711662A (zh) * 2021-03-29 2021-04-27 贝壳找房(北京)科技有限公司 文本获取方法和装置、可读存储介质、电子设备
CN114239587B (zh) * 2021-11-24 2024-07-23 北京三快在线科技有限公司 一种摘要生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622411A (zh) * 2012-02-17 2012-08-01 清华大学 一种结构化摘要的生成方法
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480893B2 (en) * 2002-10-04 2009-01-20 Siemens Corporate Research, Inc. Rule-based system and method for checking compliance of architectural analysis and design models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622411A (zh) * 2012-02-17 2012-08-01 清华大学 一种结构化摘要的生成方法
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用语义关系抽取生成生物医学文摘的算法;商玥等;《计算机科学与探索》;20111231;第5卷(第11期);第1027-1036页 *

Also Published As

Publication number Publication date
CN104834735A (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104834735B (zh) 一种基于词向量的文档摘要自动提取方法
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN103646099A (zh) 一种基于多层图的论文推荐方法
Odeh et al. Arabic text categorization algorithm using vector evaluation method
CN112860898B (zh) 一种短文本框聚类方法、***、设备及存储介质
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
Das et al. Deep learning based Bengali question answering system using semantic textual similarity
Zaware et al. Text summarization using tf-idf and textrank algorithm
Lango et al. Semi-automatic construction of word-formation networks
Sharma et al. Resume Classification using Elite Bag-of-Words Approach
El-Hajj et al. An optimal approach for text feature selection
CN112445887A (zh) 基于检索的机器阅读理解***的实现方法及装置
El Mahdaouy et al. Semantically enhanced term frequency based on word embeddings for Arabic information retrieval
Asa et al. A comprehensive survey on extractive text summarization techniques
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
Heidary et al. Automatic text summarization using genetic algorithm and repetitive patterns
CN110609997A (zh) 生成文本的摘要的方法和装置
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Phan et al. Automated data extraction from the web with conditional models
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Abd Allah et al. Contribution to the methods of indexing Arabic textual documents to improve the performance of IRS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant