CN110263343B - 基于短语向量的关键词抽取方法及*** - Google Patents

基于短语向量的关键词抽取方法及*** Download PDF

Info

Publication number
CN110263343B
CN110263343B CN201910548261.XA CN201910548261A CN110263343B CN 110263343 B CN110263343 B CN 110263343B CN 201910548261 A CN201910548261 A CN 201910548261A CN 110263343 B CN110263343 B CN 110263343B
Authority
CN
China
Prior art keywords
candidate
weight
term
encoder
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910548261.XA
Other languages
English (en)
Other versions
CN110263343A (zh
Inventor
孙新
赵永妍
申长虹
杨凯歌
张颖捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910548261.XA priority Critical patent/CN110263343B/zh
Publication of CN110263343A publication Critical patent/CN110263343A/zh
Application granted granted Critical
Publication of CN110263343B publication Critical patent/CN110263343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于短语向量的关键词抽取方法及***。本发明的主要技术方案包括:对原始文本分词并标注词性,根据词性保留n元组,得到候选词项集;对候选关键词集合中包含的大量短语构建向量表示;计算各候选词项的主题权重;以候选词项作为图中的顶点,以候选词项的共现信息为边构造图,以候选词项之间的语义相似度和共现信息计算边的权重,迭代计算每个候选词项的得分并排序。本发明提供的关键词抽取方法及***,既引入了文档中的主题信息,又通过短语间的语义相似度引入了上下文信息,更能够捕捉全文中的重点词,语义精度高,应用范围广。

Description

基于短语向量的关键词抽取方法及***
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于短语向量的关键词抽取方法及***。
背景技术
近年来,海量数据在给人们带来极大便利的同时,也同样给数据的分析和查找带来了巨大挑战。在大数据背景下,如何从海量数据中快速地获取所需要的重点信息成为人们迫切需要解决的问题。关键词抽取是指通过算法自动地从文档中抽取重要的、具有主题性的词或短语。在科技文献中,关键词或短语可以帮助用户快速了解论文内容。同时,关键词或短语还可以用作信息检索、自然语言处理和文本挖掘中的搜索条目。在关键词抽取任务上,包含单词语义的词向量已经得到了应用并取得了良好的效果。然而,很多专业论文,包括企业论文中含有大量的专有名词,而且这些名词往往都不是单个词而是短语,因此仅用词向量不足以满足关键词抽取任务的需要,文本需要对短语构建向量表示。
当前已有学者提出以词向量为基础利用自编码器进行组合来构建短语向量。自编码器(Auto Encoder)在结构上只有编码器和解码器两个部分,以自编码器对单词向量进行组合来构建短语向量时,可以在编码器部分输入短语中各单词的表示,然后把它们压缩为一个中间隐藏层向量,在解码器部分通过隐藏层向量重新解析出输入的短语,那么这个中间向量就可以认为是包含了语义信息的短语向量表示。然而,在传统自编码器中,直接使用基础的全连接网络进行编码和解码,其中层与层之间是全连接的,每层之间的节点是无连接的,这种普通的自编码网络无法处理类似短语这样的结构中的序列信息。
此外,已有的算法只通过词向量来计算单词的语义相似度,而忽略了文本的主题信息。TextRank是一种基于图的关键词抽取算法,它的基本思想是用文档中的候选词项构成图,用候选词项在文档中的共现关系构造边,然后通过候选词项之间的相互投票来迭代计算权值,最后根据得分对候选词项进行排序来确定最终抽取的关键词。在传统的TextRank中,图中每个顶点的初始权重均为1(或1/n,n为顶点个数),每条边的权重也设为1,也就是说每个顶点的票数会均匀地投给与它相连的每个顶点。这样的方法虽然简单方便,但是既忽略了文档的主题性,又没有考虑顶点之间的语义关系。
在循环神经网络(Recurrent Neural Network,RNN)中,隐藏层之间的节点不再是无连接而是有连接的,并且隐藏层的输入不仅包含输入层的输出还包含上一时刻隐藏层的输出。因此RNN适合用来对序列数据进行编码。然而在RNN的传播过程中,历史信息的遗忘和误差的累积是一个重要问题,现在人们通常使用长短时记忆神经网络(Long Short-TermMemery,LSTM)来改进。
LSTM是一种RNN特殊类型,它使用细胞状态来记录信息,细胞状态在序列传输过程中只有少量的线***互,可以较好的保留历史信息。然后LSTM使用门控机制来保护和控制细胞状态。门控机制是一个抽象的概念,在具体实现时它实际上是由一个sigmoid函数和点乘运算构成的,门控机制通过输出一个0到1之间的值来控制信息的传递,输出值越接近0表示允许通过的信息越少,越接近1表示允许通过的信息越多。
在一个LSTM单元中,首先要处理的是上一步传递过来的信息,LSTM通过遗忘门(forget gate)来控制历史信息的遗忘和保留。遗忘门ft根据当前信息,决定是否需要遗忘之前的信息,具体公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
其中σ表示sigmoid函数,Wf和bf分别表示遗忘门中的权重矩阵和偏置。
之后LSTM需要处理的是当前输入的信息,先通过输入门控制当前输入信息要保留的部分,之后,用tanh函数创建一个细胞状态
Figure GDA0002959546450000021
将该时刻节点的信息添加到该细胞状态中。
it=σ(Wi·[ht-1,xt]+bi)
Figure GDA0002959546450000022
通过遗忘门和输入门,LSTM可以决定过去的哪些信息需要被留下,和当前的哪些信息需要被存储,从而计算当前的细胞状态Ct
Figure GDA0002959546450000023
最后LSTM会利用sigmoid函数,根据历史信息和当前的输入信息,通过输出门(output gate)决定当前时刻需要输出的信息,与输入状态类似,输出状态也会用一个tanh函数过滤。
ot=σ(Wo·[ht-1,xt]+bo)
ot=ot*tanh(Ct)
通过巧妙的门机制,长短时记忆神经网络可以记忆之前的信息,同时又避免了“梯度消失”的问题。
发明内容
为了解决词向量不足以满足关键词抽取任务的需要,以及已有的算法忽略了文本的主题信息这两方面问题,本发明提供一种基于短语向量的关键词抽取方法及***。
为实现上述目的,第一方面,本发明提供一种基于短语向量的关键词抽取方法,所述方法包括:
S1、对文本进行分词并标注词性,保留n元组得到候选词项集;
S2、通过自编码器为候选词项构建短语向量;
S3、确定所述文本的主题,计算候选词项与主题向量的相似度,将所述相似度作为所述候选词项的主题权重;
S4、通过TextRank算法,从所述候选词项集中获取关键词。
进一步的,所述步骤S2中的自编码器包括编码器和解码器,编码器由双向LSTM层和全连接层组成,解码部分由单向LSTM层和softmax层组成。
进一步的,所述步骤S2中的自编码器包括编码器和解码器,训练方法包括以下步骤:
S21、选取训练样本,获取候选词项;
S22、对候选词项cj=(x1,x2,...,xT),在编码器中,使用双向LSTM从前后两个方向分别进行计算:
Figure GDA0002959546450000031
Figure GDA0002959546450000032
其中,
Figure GDA0002959546450000033
Figure GDA0002959546450000034
分别为t(t=1,2,...,T)时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,
Figure GDA0002959546450000035
Figure GDA0002959546450000036
分别为t-1时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,xt为t时刻输入的候选词项中的单词;T表示候选词项中单词的数量;
S23、在编码器中,通过公式计算得到EST
Figure GDA0002959546450000041
Figure GDA0002959546450000042
h′T=f(WhhT+bh)
C′T=f(WcCT+bc)
其中,
Figure GDA0002959546450000043
为连接符,Wh、bh、Wc、bc代表全连接网络中的参数矩阵和偏置,f表示全连接网络中的激活函数ReLU,EST是h′T和C′T组成的一个元组;
S24、在解码器部分,以EST为初始状态使用单向LSTM进行解码:
Figure GDA0002959546450000044
其中,zt是解码器在t时刻的隐藏层状态,zt-1为t-1时刻的隐藏层状态,EST为编码器状态,
Figure GDA0002959546450000045
为t-1时刻输出的候选词项中的单词;
S25、根据zt估算当前单词的概率:
Figure GDA0002959546450000046
其中,Wszt+bs对每个可能的输出单词进行打分,softmax为归一化函数。
S26、当训练过程中损失函数L不断变小最终趋于稳定时,获得编码器的参数Wh、bh、Wc、bc,以及解码器中的Ws、bs,从而确定自编码器;其中,损失函数L的计算公式为:
Figure GDA0002959546450000047
进一步的,所述步骤S2中,所述候选词项输入自编码器,编码器输出的EST中的值为所述候选词项的短语向量。
进一步的,所述步骤S3中主题向量
Figure GDA0002959546450000048
的计算公式为:
Figure GDA0002959546450000049
其中,
Figure GDA00029595464500000410
是主题词项ti对应的向量表示,
Figure GDA00029595464500000411
是文本di的主题向量表示。
进一步的,在所述步骤S4的TextRank算法中,如果候选词项cj和ck在共现窗口中出现,则cj和ck之间存在一条边,边的权重的计算公式为:
Figure GDA0002959546450000051
wjk=similarity(cj,ck)×occurcount(cj,ck)
其中,
Figure GDA0002959546450000052
分别是候选词项cj和ck的向量表示,occurcount(cj,ck)表示cj和ck在共现窗口中共同出现的次数,similarity(cj,ck)为cj和ck之间的相似度,wjk代表了cj和ck之间边的权重。
进一步的,在所述步骤S4的TextRank算法中还包括迭代计算顶点权重,包括以下步骤:
迭代计算候选词项的权重,直到达到最大迭代次数,权重得分
Figure GDA0002959546450000053
计算公式为:
Figure GDA0002959546450000054
其中,
Figure GDA0002959546450000055
表示候选词项cj的得分,d为阻尼系数,优选的,d为0.85;
Figure GDA0002959546450000056
是候选词项cj的主题权重,wjk是候选词项cj和候选词项ck之间边的权重,wkp是候选词项ck和候选词项cp之间边的权重,
Figure GDA0002959546450000057
表示与候选词项cj相连的候选词项的集合,
Figure GDA0002959546450000058
是其中的元素,同理,
Figure GDA0002959546450000059
表示与候选词项ck相连的候选词项的集合,
Figure GDA00029595464500000510
是其中的元素。
第二方面,本发明提供了一种基于短语向量的关键词抽取***,所述***包括文本预处理模块,用于对原始文本进行分词并标注词性,根据词性保留n元组,得到候选词项集;
短语向量构建模块,用于对候选词项ci=(x1,x2,...,xT),通过自编码器获得具有语义表示的短语向量;
主题权重计算模块,用于计算候选词项的主题权重;
候选词排序模块,用于为候选词项计算权重得分,取TopK个候选词项作为关键词。
进一步的,所述***还包括自编码器训练模块,用于通过样本训练得到自编码的参数,从而确定自编码器。
本发明提供的一种基于短语向量的关键词抽取方法及***,与现有关键词抽取方法及***相比,具有如下有益效果:
1、本发明提供的关键词抽取方法及***,既引入了文档中的主题信息,又通过词语之间的语义相似度引入了上下文信息,更能捕捉全文中的重点词,使抽取出的关键词更加精确。
2、本发明提供的关键词抽取方法及***,利用短语向量获取关键词,使得计算过程变得简洁高效。
3、本发明提供的短语向量计算方法,创新性地引入基于LSTM的自编码器对词向量进行压缩,可以更好地表示短语的语义信息,语义精度更高,应用范围更广。
4、本发明改进了TextRank算法,创新性地利用短语向量对每个候选词项计算主题权重,并以候选词项之间的语义相似度和共现信息共同计算边的权重,既能考虑整个文档的主题,又引入了顶点之间的语义信息,使排序算法的准确性更高。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一个实施例的自编码器的结构示意图;
图2为本发明一个实施例的基于短语向量的关键词抽取方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施方式对本发明作进一步说明。
为了使本申请实例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实例可以相互结合。
本发明提供一种基于短语向量的关键词抽取方法,如图2所示,该方法包括如下步骤:
S1、对原始文本di进行分词并标注词性,根据词性保留n元组,得到候选词项集
Figure GDA0002959546450000071
S2、对每个候选词项cj=(x1,x2,…,xT),通过自编码器获得候选词项的短语向量表示。其中,xi是候选词项cj中第i个单词的词向量表示,T表示候选词项中的单词数量。
S3、计算每个候选词项cj与主题向量
Figure GDA0002959546450000072
的相似度作为其主题权重
Figure GDA0002959546450000073
其中,di表示第i篇文档。自编码器包括编码器和解码器,编码器部分由双向LSTM层和全连接层组成,解码部分由单向LSTM层和softmax层组成。
S4、通过改进的TextRank算法,从所述候选词项集中获取关键词。
在步骤S2中,在编码器中,对每个待输入的候选词项cj,使用双向LSTM从前后两个方向分别进行计算,取最后一个时刻隐藏层状态hT和细胞状态CT作为最终状态,并进行拼接,最后通过一个全连接层得到编码层的输出EST
在解码器中,以EST为初始输入,使用单向的LSTM结构进行解码,通过softmax层得到每一步解码的概率分布,最后通过损失函数L最大化解码每一步对应的正确单词的概率。
训练的目的是优化自编码器的参数,使解码器能够以编码器的输出为输入,最大程度的还原编码器输入的候选词项的语义信息。
具体的训练方法为:
(1)选取训练样本,然后与S1一样,对样本进行分词等操作,获得候选词项集。
候选词项用cj=(x1,x2,…,xT)表示,其中,xi是候选词项cj中第i个单词的词向量表示,T表示候选词项中的单词数量。以候选词项cj为“北京理工大学”为例,x1是“北京”对应的词向量,x2是“理工”对应的词向量,x3是“大学”对应的词向量。
(2)使用大量候选词项对模型进行训练。以候选词项“北京理工大学”为例,输入为“北京”“理工”“大学”对应的词向量表示,经编码获得“北京理工大学”的短语向量表示,并通过该短语向量解码得到解码序列依次为“北京”“理工”“大学”对应概率值,通过训练使其最大化。
对每个候选词项cj=(x1,x2,…,xT),在编码器部分,编码器使用双向LSTM从前后两个方向分别进行计算:
Figure GDA0002959546450000081
Figure GDA0002959546450000082
其中,
Figure GDA0002959546450000083
Figure GDA0002959546450000084
分别为t(t=1,2,…,T)时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,
Figure GDA0002959546450000085
Figure GDA0002959546450000086
分别为t-1时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,xt为t时刻输入的候选词项中的单词。在每一个时刻,当前隐藏层状态ht和细胞状态Ct的计算都要依赖上一个时刻的隐藏层状态ht-1、细胞状态Ct-1和当前输入xt
取最后一个时刻隐藏层状态hT和细胞状态CT作为最终状态,直接将两个方向上的状态进行连接。另外为了给解码层提供一个固定大小的输入,还需要通过一个全连接层对连接后的状态进行处理。计算如下公式获得解码器的一个固定大小的输入EST
Figure GDA0002959546450000087
Figure GDA0002959546450000088
h′T=f(WhhT+bh)
C′T=f(WcCT+bc)
其中,
Figure GDA0002959546450000089
为连接符,Wh、bh、Wc、bc代表全连接网络中的参数矩阵和偏置,f表示全连接网络中的激活函数ReLU,EST是h′T和C′T组成最终提供给解码器的一个元组。
在解码器部分,以EST为初始状态使用单向LSTM进行解码:
Figure GDA00029595464500000810
其中,zt是解码器在t时刻的隐藏层状态,zt-1为t-1时刻的隐藏层状态,EST为编码器状态,
Figure GDA00029595464500000811
为t-1时刻输出的候选词项中的单词。
根据zt估算当前单词的概率:
Figure GDA00029595464500000812
其中,Ws是参数矩阵,Ws和bs分别表示softmax函数的权重值和偏置值,zt是解码器在t时刻的隐藏层状态,Wszt+bs对每个可能的输出单词进行打分,用softmax归一化得到每个词
Figure GDA0002959546450000091
的概率
Figure GDA0002959546450000092
自编码器的训练目标是使输出正确短语的概率最大:自编码器输出的是对应每个单词的概率,训练目标是使输出正确单词的概率最大,也即,根据损失函数L进行训练,通过训练调整自编码器的参数(包括LSTM里的参数,编码器中的Wh、bh、Wc、bc,以及解码器中的Ws、bs),当训练过程中损失函数不断变小最终趋于稳定时,就能说明中间的向量可以很好地表示短语语义,我们就能把中间的向量表示作为短语向量。所述损失函数L计算如下:
Figure GDA0002959546450000093
在自编码器训练结束后,其损失函数值趋于稳定。此时自编码器训练完成,将候选词项输入自编码器的编码器中,EST中的值即为短语向量。通过以上构建的自编码器,利用候选词项序列上的信息对词向量压缩,得到候选词项的短语向量表示。
在自编码器训练完成后,当需要获取候选词项的短语向量表示时,只需利用编码部分计算,即可获得候选词项的短语向量表示EST,所得EST就能以一个候选词项的整体来考虑该候选词项的语义信息。
在步骤S3中,主题权重计算过程如下:
(1)确定主题词项集:以文本具有高度概括性的主题句子或段落为代表,例如论文的题目或摘要,从中确定文本的主题词项,加入文本的主题词项集:
Figure GDA0002959546450000094
其中di表示第i篇文档,n为主题词项集中的元素数目。例如,对“新形势下采矿设计行业发展思路实例分析”来说,主题词项集可以为“采矿设计”、“发展思路”、“实例分析”。
(2)计算主题向量:计算主题词项集
Figure GDA0002959546450000095
中所有词项对应的单词或短语向量的平均值,作为文档的主题向量
Figure GDA0002959546450000096
用于表示整篇文档的主题:
Figure GDA0002959546450000097
其中,
Figure GDA0002959546450000098
是主题词项ti对应的向量表示,
Figure GDA0002959546450000099
是文档di的主题向量表示。
(3)计算主题权重:对每个候选词项cj,计算它和文档di的主题向量
Figure GDA00029595464500000910
之间的余弦距离,作为其主题权重。
Figure GDA0002959546450000101
其中,
Figure GDA0002959546450000102
是文档di的候选词项cj的主题权重,
Figure GDA0002959546450000103
是候选词项cj的向量表示,cos表示余弦距离。
通过以上(1)~(3)步骤,即可为每个候选词项分配一个0到1之间的主题权重。需要说明的是,主题权重为1表示该候选词项最接近文本的主题,为0则表示该候选词项距离文本的主题较远。
在步骤S4中,以文档di的候选词项集
Figure GDA0002959546450000104
为顶点构造无向图,计算每个候选词项cj的权重得分
Figure GDA0002959546450000105
取TopK(前K)个候选词项作为关键词。这是通过改进TextRank算法来实现的,具体的过程如下:
(1)构造无向图:以文档di的候选词项集
Figure GDA0002959546450000106
中的所有元素为顶点构造一个无向图。其中,如果候选词项cj和ck在一个长度为n的共现窗口中出现,则cj和ck之间存在一条边。
(2)计算边的权重:边的权重是本发明的改进之处。计算同样依赖自编码器构造的短语向量。根据两个候选词项cj和ck的向量表示之间的余弦距离similarity(cj,ck)和共现次数occurcount(cj,ck)为图中的每条边分配权重wjk
Figure GDA0002959546450000107
wjk=similarity(cj,ck)×occurcount(cj,ck)
其中
Figure GDA0002959546450000108
分别是是候选词项cj和ck的向量表示,cos表示向量的余弦距离,occurcount(cj,ck)表示cj和ck在共现窗口中共同出现的次数,将两者相乘用两个词同时出现的次数来加强它们的语义联系,wjk代表了cj和ck之间边的权重。
(3)迭代计算顶点权重:顶点权重也是本发明的改进之处。迭代计算图中各个顶点的权重,直到达到最大迭代次数,权重得分
Figure GDA0002959546450000109
计算如下:
Figure GDA00029595464500001010
其中,
Figure GDA00029595464500001011
表示文档di的候选词项cj的权重,d为阻尼系数,作用是使每个顶点都有一定的概率给其他顶点投票,这样每个顶点都会有一个不为零的得分,确保算法在多次迭代后可以收敛,通常取值为0.85。
Figure GDA00029595464500001012
是文档di的候选词项cj的主题权重,wjk是候选词项cj和候选词项ck之间边的权重,wkp是候选词项ck和候选词项cp之间边的权重,
Figure GDA0002959546450000111
表示与候选词项cj相连的候选词项集合,
Figure GDA0002959546450000112
是该集合中的元素,同理,
Figure GDA0002959546450000113
表示与候选词项ck相连的候选词项集合,
Figure GDA0002959546450000114
是该集合中的元素,
Figure GDA0002959546450000115
表示文档di的候选词项ck的权重,等式右边的后半部分表示的是与cj相连的顶点给cj的投票。
(4)候选词项排序:在多次迭代后,图中的每个顶点都能得到一个稳定的得分,将候选词项集
Figure GDA0002959546450000116
按权重得分
Figure GDA0002959546450000117
由大到小排序,保留前TopK个候选词项作为文档的关键词。
经过上述S1~S4四个步骤,就可以抽取出文档的关键词。
本发明还提供一种基于短语向量的关键词抽取***,包括:
文本预处理模块,用于对原始文本进行分词并标注词性,根据词性保留n元组,得到候选词项集;
短语向量构建模块,用于对候选词项cj=(x1,x2,…,xT),通过自编码器获得具有语义表示的短语向量;
主题权重计算模块,用于计算候选词项的主题权重;具体的计算方法如上文所述。
候选词排序模块,用于为候选词项计算权重得分,取TopK个候选词项作为关键词。具体的选取方法如上文所述。
进一步的,所述***还包括自编码器训练模块,用于处理短语结构中的序列信息,获取候选词项的短语向量表示,训练方法如上所述。
下面以企业论文数据库中的企业论文数据为例,说明具体的基于短语向量的关键词抽取方法。
企业论文数据库中有环保及其他多种领域的企业论文数据,数据中包括“题目”、“年份”、“摘要”、“关键词”、“英文关键词”、“分类号”等字段。在关键词抽取过程中,以数据库中的“题目”和“摘要”作为文本内容,“关键词”作为标注数据来验证抽取结果。
在训练自编码器时,取数据库中的“关键词”字段作为训练数据,训练过程中的部分参数如表1所示。
表1训练参数设置
Figure GDA0002959546450000121
在进行关键词抽取之前,对标注数据进行分析来确定算法中的部分参数。数据集中共有59913条论文数据,平均每篇论文有4.2个标注关键词。首先,统计标注关键词的长度,即每个关键词包含的单词数目,结果如表2所示。从表2中可以发现全部关键词的平均长度为1.98,而且绝大部分关键词的长度都在1到3之间,长度在1到3之间的关键词在全部254376个关键词中占据了93.9%。因此在选择候选词项时保留文本中的1元组、2元组和3元组。
然后,统计关键词中全部单词的词性,统计结果如表3所示。词性标注利用Jieba分词工具完成,部分词性说明如表4所示。根据表3,关键词中单词的词性分布没有长度分布集中,但是也主要聚集在名词、动词和具有名词功能的动词,这三种词性占据了全部单词词性的73.1%。因此,在进行候选词项选择时取文本中的名词、动词和名动词及其组合作为候选词项。
表2关键词长度分布
Figure GDA0002959546450000122
表3单词词性分布
Figure GDA0002959546450000123
表4Jieba词性说明
Figure GDA0002959546450000124
Figure GDA0002959546450000131
由于文本内容中只包括论文的题目和摘要,在计算主题权重时以题目作为全文主题的代表,从题目中抽取候选词项计算文本的主题向量。另外候选词排序中的共现窗口大小初始设置为3,最终保留的候选词个数取10,如表5所示。
表5关键词抽取结果(部分)
Figure GDA0002959546450000132
优选地,本发明取企业论文数据库中的一条论文数据为例,给出具体的关键词抽取过程。
数据内容为“新形势下采矿设计行业发展思路实例分析回顾了煤炭行业十年的高速发展期及其对采矿设计市场产生的深远影响。在当前煤炭行业经济急速下行,煤炭设计市场竞争激烈的背景下,以天地科技设计院采矿专业发展为例,分析了采矿专业的人力资源和业务变化特点,提出了采矿专业的发展思路及实施措施,为其他设计企业采矿专业的发展提供了参考”。
其中,“新形势下采矿设计行业发展思路实例分析”为论文的题目,其余内容为论文的摘要。
通过n元组词项和词性标注来选取候选词项,从论文的摘要中选出的候选词项作为文本的主题词项集,选出的候选词项如表6所示。
表6候选词项结果
Figure GDA0002959546450000141
利用自编码器获取主题词项集中所有词项对应的短语向量表示,计算主题词项集中所有词项对应的短语向量的平均值,作为文本的主题向量,计算得到文档的主题向量大小为400,部分值如表7所示。
表7主题权重结果(部分)
Figure GDA0002959546450000142
对每个候选词项,计算它和文本的主题向量之间的余弦距离,得到其主题权重,部分值如表8所示。
表8主题权重结果(部分)
Figure GDA0002959546450000143
Figure GDA0002959546450000151
将候选词项作为顶点,候选词项的共现信息作为边构造无向图,根据两个候选词项的向量表示之间的余弦距离和两者的共现次数为图中的每条边分配权重,根据主题权重与边的权重多次迭代计算得到顶点权重。在多次迭代后,图中的每个顶点都能得到一个稳定的得分,部分得分如表9所示。
表9权重得分结果(部分)
Figure GDA0002959546450000152
将得到的得分情况进行排序,以得分最高的Top10个候选词项作为最终的关键词,如表10所示。
表10关键词抽取结果(部分)
Figure GDA0002959546450000153
需要说明的是,本文中“第一”和“第二”仅仅用来区分名称相同的实体或操作,并不暗示这些实体或操作之间顺序或关系。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (7)

1.一种基于短语向量的关键词抽取方法,其特征在于,所述方法包括:
S1、对文本进行分词并标注词性,保留n元组得到候选词项集;
S2、通过自编码器为候选词项构建短语向量;
S3、确定所述文本的主题,计算候选词项与主题向量的相似度,将所述相似度作为所述候选词项的主题权重;其中,将主题词项集
Figure FDA0002959546440000011
中所有词项对应的短语向量的平均值,作为文档的主题向量
Figure FDA0002959546440000012
用于表示整篇文档的主题:
Figure FDA0002959546440000013
其中,
Figure FDA0002959546440000014
是主题词项ti对应的短语向量表示;
S4、通过TextRank算法,从所述候选词项集中获取关键词;
其中,在所述步骤S4的TextRank算法中还包括迭代计算候选词项的权重,直到达到最大迭代次数,权重
Figure FDA0002959546440000015
计算公式为:
Figure FDA0002959546440000016
其中,
Figure FDA0002959546440000017
表示候选词项cj的权重,d为阻尼系数;
Figure FDA0002959546440000018
是候选词项cj的主题权重,wjk是候选词项cj和候选词项ck之间边的权重,wkp是候选词项ck和候选词项cp之间边的权重,
Figure FDA0002959546440000019
表示与候选词项cj相连的候选词项的集合,
Figure FDA00029595464400000110
Figure FDA00029595464400000111
中的元素,
Figure FDA00029595464400000112
表示与候选词项ck相连的候选词项的集合,
Figure FDA00029595464400000113
Figure FDA00029595464400000114
中的元素,
Figure FDA00029595464400000115
表示候选词项ck的权重;
其中,主题权重的计算方法为:对每个候选词项cj,计算该候选词项和文档di的主题向量
Figure FDA00029595464400000116
之间的余弦距离,作为主题权重。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中的自编码器包括编码器和解码器,编码器由双向LSTM层和全连接层组成,解码部分由单向LSTM层和softmax层组成。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中的自编码器的训练方法包括以下步骤:
S21、选取训练样本,获取候选词项;
S22、对候选词项cj=(x1,x2,…,xT),在编码器中,使用双向LSTM从前后两个方向分别进行计算:
Figure FDA0002959546440000021
Figure FDA0002959546440000022
其中,
Figure FDA0002959546440000023
Figure FDA0002959546440000024
分别为t(t=1,2,…,T)时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,
Figure FDA0002959546440000025
Figure FDA0002959546440000026
分别为t-1时刻从左向右和从右向左两个方向上的隐藏层状态和细胞状态,xt为t时刻输入的候选词项中的单词,T表示候选词项中单词的数量;
S23、在编码器中,通过公式计算得到EST
Figure FDA0002959546440000027
Figure FDA0002959546440000028
h′T=f(WhhT+bh)
C′T=f(WcCT+bc)
其中,
Figure FDA0002959546440000029
为连接符,Wh、bh、Wc、bc代表全连接网络中的参数矩阵和偏置,f表示全连接网络中的激活函数ReLU,EST是h′T和C′T组成的一个元组;
S24、在解码器部分,以EST为初始状态使用单向LSTM进行解码:
Figure FDA00029595464400000210
其中,zt是解码器在t时刻的隐藏层状态,zt-1为t-1时刻的隐藏层状态,EST为编码器状态,
Figure FDA00029595464400000211
为t-1时刻输出的候选词项中的单词;
S25、根据zt估算当前单词的概率
Figure FDA00029595464400000212
Figure FDA00029595464400000213
其中,softmax为归一化函数,Wszt+bs对每个可能的输出单词进行打分,Ws和bs分别表示softmax函数的权重值和偏置值;
S26、当训练过程中损失函数L不断变小最终趋于稳定时,获得编码器的参数Wh、bh、Wc、bc,以及解码器的参数Ws、bs,从而确定自编码器;其中,损失函数L的计算公式为:
Figure FDA00029595464400000214
4.根据权利要求3所述的方法,其特征在于,所述步骤S2中,所述候选词项输入自编码器,编码器输出的EST中的值为所述候选词项的短语向量。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S4的TextRank算法中,候选词项cj和ck在共现窗口中出现,则cj和ck之间存在一条边,边的权重的计算公式为:
Figure FDA0002959546440000031
wjk=similarity(cj,ck)×occurcount(cj,ck)
其中,
Figure FDA0002959546440000032
分别是候选词项cj和ck的向量表示,occurcount(cj,ck)表示cj和ck在共现窗口中共同出现的次数,similarity(cj,ck)为cj和ck之间的相似度,wjk代表了cj和ck之间边的权重。
6.一种基于短语向量的关键词抽取***,其特征在于,所述***包括:
文本预处理模块,用于对原始文本进行分词并标注词性,根据词性保留n元组,得到候选词项集;
短语向量构建模块,用于对候选词项cj=(x1,x2,…,xT),通过自编码器获得具有语义表示的短语向量;
主题权重计算模块,用于通过主题向量计算候选词项的主题权重;其中,将主题词项集
Figure FDA0002959546440000033
中所有词项对应的短语向量的平均值,作为文档的主题向量
Figure FDA0002959546440000034
用于表示整篇文档的主题:
Figure FDA0002959546440000035
其中,
Figure FDA0002959546440000036
是主题词项ti对应的短语向量表示;
候选词排序模块,用于为候选词项计算权重得分,取TopK个候选词项作为关键词;所述计算权重得分为迭代计算候选词项的权重,直到达到最大迭代次数,权重
Figure FDA0002959546440000037
计算公式为:
Figure FDA0002959546440000038
其中,
Figure FDA0002959546440000039
表示候选词项cj的权重,d为阻尼系数;
Figure FDA00029595464400000310
是候选词项cj的主题权重,wjk是候选词项cj和候选词项ck之间边的权重,wkp是候选词项ck和候选词项cp之间边的权重,
Figure FDA0002959546440000041
表示与候选词项cj相连的候选词项的集合,
Figure FDA0002959546440000042
Figure FDA0002959546440000043
中的元素,
Figure FDA0002959546440000044
表示与候选词项ck相连的候选词项的集合,
Figure FDA0002959546440000045
Figure FDA0002959546440000046
中的元素,
Figure FDA0002959546440000047
表示候选词项ck的权重;其中,主题权重的计算方法为:对每个候选词项cj,计算该候选词项和文档di的主题向量
Figure FDA0002959546440000048
之间的余弦距离,作为主题权重。
7.根据权利要求6所述的***,其特征在于,所述***还包括自编码器训练模块,用于通过样本训练得到自编码的参数,从而确定自编码器。
CN201910548261.XA 2019-06-24 2019-06-24 基于短语向量的关键词抽取方法及*** Active CN110263343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548261.XA CN110263343B (zh) 2019-06-24 2019-06-24 基于短语向量的关键词抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548261.XA CN110263343B (zh) 2019-06-24 2019-06-24 基于短语向量的关键词抽取方法及***

Publications (2)

Publication Number Publication Date
CN110263343A CN110263343A (zh) 2019-09-20
CN110263343B true CN110263343B (zh) 2021-06-15

Family

ID=67920847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548261.XA Active CN110263343B (zh) 2019-06-24 2019-06-24 基于短语向量的关键词抽取方法及***

Country Status (1)

Country Link
CN (1) CN110263343B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274428B (zh) * 2019-12-19 2023-06-30 北京创鑫旅程网络技术有限公司 一种关键词的提取方法及装置、电子设备、存储介质
CN111222333A (zh) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 一种基于网络高阶结构和主题模型融合的关键词抽取方法
CN111785254B (zh) * 2020-07-24 2023-04-07 四川大学华西医院 基于模拟人的自助化bls培训与考核***
CN112818686B (zh) * 2021-03-23 2023-10-31 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备
CN113312532B (zh) * 2021-06-01 2022-10-21 哈尔滨工业大学 一种基于深度学习面向公检法领域的舆情等级预测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019708B2 (en) * 2007-12-05 2011-09-13 Yahoo! Inc. Methods and apparatus for computing graph similarity via signature similarity
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与***
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN108460019A (zh) * 2018-02-28 2018-08-28 福州大学 一种基于注意力机制的新兴热点话题检测***
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101249183B1 (ko) * 2006-08-22 2013-04-03 에스케이커뮤니케이션즈 주식회사 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
CN106997382B (zh) * 2017-03-22 2020-12-01 山东大学 基于大数据的创新创意标签自动标注方法及***
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107193803B (zh) * 2017-05-26 2020-07-10 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN107832457A (zh) * 2017-11-24 2018-03-23 国网山东省电力公司电力科学研究院 基于TextRank算法的输变电设备缺陷词库建立方法及***
CN108710611B (zh) * 2018-05-17 2021-08-03 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN109726394A (zh) * 2018-12-18 2019-05-07 电子科技大学 基于融合btm模型的短文本主题聚类方法
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法
CN109918660B (zh) * 2019-03-04 2021-03-02 北京邮电大学 一种基于TextRank的关键词提取方法和装置
CN109918510B (zh) * 2019-03-26 2022-10-28 中国科学技术大学 跨领域关键词提取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019708B2 (en) * 2007-12-05 2011-09-13 Yahoo! Inc. Methods and apparatus for computing graph similarity via signature similarity
CN103744835A (zh) * 2014-01-02 2014-04-23 上海大学 一种基于主题模型的文本关键词提取方法
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与***
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN108460019A (zh) * 2018-02-28 2018-08-28 福州大学 一种基于注意力机制的新兴热点话题检测***
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Bidirectional lstm recurrent neural network for keyphrase extraction;Basaldella Marco 等;《Italian Research Conference on Digital Libraries》;20180131;180-187 *
基于LSTM的自动文本摘要技术研究;洪冬梅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第12期);I138-1872 *
基于改进TextRank的关键词抽取算法;张莉婧 等;《北京印刷学院学报》;20160831;第24卷(第4期);51-55 *
基于深度学习的中文抽取式摘要方法应用;齐翌辰 等;《科教导刊》;20190515(第14期);69-70 *
融合多特征的TextRank关键词抽取方法;李航 等;《情报杂志》;20170831;第36卷(第8期);183-187 *

Also Published As

Publication number Publication date
CN110263343A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110263343B (zh) 基于短语向量的关键词抽取方法及***
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111310471A (zh) 一种基于bblc模型的旅游命名实体识别方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
CN111368088A (zh) 一种基于深度学习的文本情感分类方法
CN113239148B (zh) 基于机器阅读理解的科技资源检索方法
CN113326374B (zh) 基于特征增强的短文本情感分类方法及***
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN112784602B (zh) 基于远程监督的新闻情感实体抽取方法
CN117094291B (zh) 基于智能写作的自动新闻生成***
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及***
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN111259147B (zh) 基于自适应注意力机制的句子级情感预测方法及***
Khalid et al. Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114579741B (zh) 融合句法信息的gcn-rn方面级情感分析方法和***
CN116756347A (zh) 一种基于大数据的语义信息检索方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Bhargava et al. Deep paraphrase detection in indian languages
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN116108840A (zh) 一种文本细粒度情感分析方法、***、介质和计算设备
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN113688633A (zh) 一种提纲确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant