CN109933804A - 融合主题信息与双向lstm的关键词抽取方法 - Google Patents

融合主题信息与双向lstm的关键词抽取方法 Download PDF

Info

Publication number
CN109933804A
CN109933804A CN201910236194.8A CN201910236194A CN109933804A CN 109933804 A CN109933804 A CN 109933804A CN 201910236194 A CN201910236194 A CN 201910236194A CN 109933804 A CN109933804 A CN 109933804A
Authority
CN
China
Prior art keywords
theme
lstm
model
vector
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910236194.8A
Other languages
English (en)
Inventor
吕学强
董志安
游新冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910236194.8A priority Critical patent/CN109933804A/zh
Publication of CN109933804A publication Critical patent/CN109933804A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种融合主题信息与双向LSTM的关键词抽取方法,首先结合LDA与Skip‑gram模型学习到词语的主题词向量表示,然后将词语的主题词向量作为双向LSTM模型的输入,充分利用双向LSTM模型的时间记忆特性同时对词语上文与下文主题语义信息建模,最终由softmax函数输出词语的标签预测概率,该方法能够充分利用不同距离的上下文语义信息对关键词进行预测,得到的正确率、召回率与F值均较好,取得了明显超越现有技术的关键词识别效果,可以很好地满足实际应用的需要。

Description

融合主题信息与双向LSTM的关键词抽取方法
技术领域
本发明属于文本处理技术领域,具体涉及一种融合主题信息与双向LSTM的关键词抽取方法。
背景技术
随着大数据时代的到来,网络信息呈现***式增长,如何从海量文献资源中快速获取有价值的关键信息对信息检索与知识发现具有重要意义。在NLP领域中,关键词自动抽取是自然语言理解、自动摘要、文本分类聚类、机器翻译等自然语言处理任务的基础。传统的关键词抽取方法往往依赖于人工设定的复杂特征,识别效果欠佳。近年来,随着深度学习理论的流行与发展,深度神经网络广泛应用于图像、音频、视频等各个领域并取得了巨大的成功,同时在NLP领域的文本分类、命名实体识别、序列标注等任务中取得了不错的效果。相对于传统的机器学习方法,深度学习方法以其自动获取特征的优势备受研究者的青睐。现有技术采用词向量或字符级向量作为深度神经网络的输入,虽然能表示词语的上下文语义联系和词法特征,但无法灵活表示相同词语在不同隐含主题下的语义差异性。例如:“BlackBerry”一词在食物主题下表示黑莓水果,而在信息科技主题下则表示加拿大著名的通信公司。传统LSTM序列模型在关键词识别任务中不能全面捕获具有主题区分特性的上下文语义信息。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的融合主题信息与双向LSTM的关键词抽取方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种融合主题信息与双向LSTM的关键词抽取方法,包括:将词语的主题词向量作为双向LSTM模型的输入,对词语上文与下文主题语义信息建模,输出词语的标签预测概率。
进一步地,在所述方法中,根据LDA模型得到主题-词项分布后,依次计算出同一隐含主题k下任意单词出现的概率大小,归一化后满足p(wi|z=tk)为语料库词汇中第i个词项wi属于主题k的概率值。
进一步地,计算出词项-主题概率分布,得到词项wi依次在K个隐含主题维度上的特征映射,即wi分别属于隐含主题集T={t1,t2...tk...tK}中每一个隐含主题的概率p(z=tk|wi),由贝叶斯定律得到以下公式:
其中,分子左边p(z=tk)为主题tk出现在语料库D的概率,计算公式为p(dm)为语料库D中第m篇文档dm出现的概率,p(tk|dm)为文档dm属于隐含主题tk的概率,p(wi|z=tk)为词项wi属于隐含主题tk的概率,分母p(wi)为词项wi在语料库D中出现的概率。
进一步地,采用Skip-gram模型进行训练;首先由LDA主题模型获得第m篇文档dm的隐含主题集Tm={t1,t2...tk...tK},针对dm中的任意词项wi,分别将词项wi连同其在Tm中的隐含主题元素进行组合,得到词项-主题集合WT={wi:t1...wi:tk...wi:tK};分别将词项-主题集合中的每个元素作为Skip-gram模型的输入。
进一步地,采用最大似然函数作为Skip-gram模型的目标函数,计算公式为:
其中win为当前词项wi上下文窗口值,p(z=tj|wi)由主题特征概率求解,模型收敛后,分别得到词项wi对应的词向量表示Vw以及相应主题tk对应的主题向量表示Vt;将两者直接相连,获得当前词项wi在不同主题下对应的主题词向量表示,记主题词向量为Twt
符号表示向量之间的连接操作。
进一步地,所述方法采用的关键词抽取模型结构中包含两个方向上独立的双向LSTM层,同一时刻两个方向上LSTM的输出连接到同一个隐藏层,从左到右方向上的LSTM结构记为正向LSTM,从右往左方向上的LSTM结构记为逆向LSTM。
进一步地,首先将输入序列中的每个词xt通过主题词向量查找表映射到对应的主题词向量表示Tt,公式为Tt=lookup(xt),如果初始主题词向量矩阵不包含词语xt,则采用初始值为随机值的“UNK”向量对xt进行表示;
进一步地,假设初始设定窗口大小为window,则对长度为n的输入序列分解为长度为n-window+1的连接序列;则正向LSTM的输入为正向输入序列的连接序列,逆向LSTM的输入为逆向输入序列的连接序列;设正向LSTM与逆向LSTM隐藏层对应的输出向量分别为则两者计算公式分别为:
f对应隐藏层非线性激活函数,则双向LSTM两个方向上的隐藏层输出向量ht为两个方向的向量组合,即则在t时刻输出层的输入为双向LSTM模型隐含层的输出向量ht
进一步地,由输出层的softmax函数归一化处理后得到最终的|L|维输出向量yt,|L|为标签集元素长度,各维度相加和为1,则yt计算公式为
yt=softmax(Wht+b),
则yt每一维∈(0,1)之间,对应t时刻xt被预测为标签中每一个标签的概率大小,取概率值最高的标签作为xt的预测标签;通过计算交叉熵作为目标函数L(θ)计算公式为
y′t与yt分别为t时刻模型的真实输出与期望输出,θ为模型相关参数集,T为主题词向量。
进一步地,采用随机梯度下降法优化模型,在双向LSTM与隐藏层之间加入DropOut机制,第n轮epoch中第i个参数θi更新方式的公式为
θn,i=θn-1,i-λgn,i
λ为所有维度参数共享的全局学习率,gn,i为第n次迭代的参数梯度。
本发明提供的融合主题信息与双向LSTM的关键词抽取方法,首先结合LDA与Skip-gram模型学习到词语的主题词向量表示,然后将词语的主题词向量作为双向LSTM模型的输入,充分利用双向LSTM模型的时间记忆特性同时对词语上文与下文主题语义信息建模,最终由softmax函数输出词语的标签预测概率,该方法能够充分利用不同距离的上下文语义信息对关键词进行预测,得到的正确率、召回率与F值均较好,取得了明显超越现有技术的关键词识别效果,可以很好地满足实际应用的需要。
附图说明
图1为LDA主题模型结构示意图;
图2为RNN循环神经网络结构示意图;
图3为RNN梯度消失现象示意图;
图4为LSTM单元内部结构示意图;
图5为Skip-gram模型的结构示意图;
图6为基于双向LSTM与主题词向量结合的关键词抽取模型结构图;
图7为不同dropout大小下模型的关键词识别效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种融合主题信息与双向LSTM的关键词抽取方法,首先结合LDA与Skip-gram模型学习到词语的主题词向量表示,然后将词语的主题词向量作为双向LSTM模型的输入,充分利用双向LSTM模型的时间记忆特性同时对词语上文与下文主题语义信息建模,最终由softmax函数输出词语的标签预测概率。
具体地:
LDA(Latent Dirichlet Allocation)即潜在狄利克雷分布,LDA是一个基于文档-主题-词项三层贝叶斯概率图的文档主题生成模型,由潜在语义索引(ProbabilisticLatent Semantic Indexing,PLST)扩展而来,属于一种经典的无监督学习模型。LDA模型假设文档包含多个隐含的混合主题,不考虑词语之间的顺序,则不同文档对应的主题概率分布各不相同,不同主题所对应的词项概率分布也不相同。LDA模型结构如图1所示。
可以看出,文档层和词项层通过中间隐藏的主题层相互关联。其中,M为语料库D中包含的文档总数,即D={d1,d2,…dm},K为D中所有文档共享的主题总数,Nm为D中任意一篇文档dm包含的词语总数(即文本长度),α、β均为经验所得先验参数。Wm,n为第m篇文档中第n个可观察的词,其余圆圈内的字母均为隐含变量,Zm,n为第m篇文档中第n个词的主题,θm为第m个文档对应的主题分布,服从超参数为α的先验Dirchlet分布,φk为第k个主题对应的词项分布,服从超参数为β的先验Dirchlet分布。则LDA模型生成文档中每个词项W′m,n的过程如下:
(a)对文档集中第k个主题,k∈[1,K],根据先验参数β从φk~Dirchlet(β)中采样一个主题-词项分布φ′k
(b)对语料库中第m篇文档dm,m∈[1,M],根据先验参数α从θm~Dirchlet(α)中采样一个文档-主题分布θ′m
依据泊松分布P采样得到dm的文本长度Nm;遍历dm中第n(1≤n≤Nm)个词语Wm,n,由多项式分布Zm,n~Mult(θm)采样得到主题号Z′m,n,最后根据多项式分布Wm,n~Mult(φ’Z’m,n)生成词项W′m,n
通过循环采样,最终可产生构成语料库D的所有词语,在给定超参数α、β的基础上,概率模型公式为:
其中θm(k)与φk(w)为未知的隐含变量,需要依据观察到的变量学习估计,一般采用Gibbs Sampling或最大期望算法迭代求解。最后得到文档-主题分布参数估计θm(k)与主题-词项分布φk(w)参数估计分别如公式(2)、公式(3)所示。
为文档dm中采样为主题k的词项个数,αk为文档-主题Dirichlet分布,为第k个主题对应的词项总数,βt为主题-词项Dirichlet分布,V为语料库中包含的不重复的词语个数。由上面两个公式可以分别得到语料库中第m个文档属于第k个主题的概率和第k个主题下词项w出现的概率。
RNN循环神经网络
传统意义上的前馈神经网络(Feed Forword Neural Networks,FNN)本质上属于一种人工神经网络,主要包括输入层、隐藏层以及输出层,各个层之间采用全连接方式。由于该模型隐藏层之间的节点无连接,因此仅能利用当前时刻的状态信息预测下一时刻的输出,对历史信息不具备记忆功能,割裂了输入序列上下文之间的语义关联性。此外,FNN也不能处理连续不定长的时间序列输入数据,因此难以胜任各种复杂的自然语言处理任务。
循环神经网络(Recurrent Neural Network,RNN)对比FNN最明显的区别是RNN采用了定向循环反馈网络结构,同时隐藏层之间的节点由无连接变成了有连接的关系。这种新的模型特点决定了RNN的隐藏层能够协同处理当前时刻的序列输入与上一时刻隐藏层的输出,意味着RNN可以将输入序列上下文的语义关联起来,因此在一定程序上保留了输入序列的历史信息。RNN循环神经网络模型结构及展开形式如图2所示。
可以将RNN循环神经网络的展开形式看作是由多层共享参数的FNN前馈神经网络连接构成,输入历史序列长度直接对应展开的网络层数,序列数据越长则层数越大。从数学意义上RNN具备了处理任意长度时间序列数据的能力,但实际上,过长的序列数据必然会产生过多的网络层数,当采用基于时间的反向传播算法BPTT进行参数训练时,在对误差求导过程中会因为过大的层数导致梯度***或梯度消失的极端情形,同时也会极大地降低模型训练速度。RNN梯度消失现象如图3所示。
图3中特定节点颜色的深浅表示起始时刻输入系列数据对当前时刻节点的影响力度,可以看出,随着层数的递增,起始时刻节点的输入对时间间隔越长的节点影响力逐渐减弱。同时在训练过程中误差的传播也随着时间序列的推进逐渐减小,当距离足够长时会趋近于0,而在反向传播过程由于梯度值过小,已经不足以更新距离当前时刻较久的时间步对应的参数值。因此,RNN从某种程度上只能利用短距离范围内的历史信息,对于长距离依赖的历史信息则容易丢失“记忆”。
长短期记忆(Long Short-Term Memory,简写LSTM)网络序列模型提供了长距离依赖学习机制,可以较好地保存有效的历史数据,解决了RNN模型中梯度***和梯度消失的问题。
LSTM模型仍然是一种特殊的循环神经网络,它与RNN最大的区别在于隐藏层的改进。LSTM采用相对复杂的记忆单元(memory cell)取代了RNN模型中原有的隐藏层,隐藏层的核心设计思想是利用记忆单元的状态(state)将历史信息从输入序列的初始位置传递到序列末端,并通过相互交互的“门”单元来控制每一时间步t对记忆信息值的修改。LSTM单元种类繁多,最经典的结构形式如图4所示。
除了记忆单元以外,LSTM单元还包括输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。其中,输入门主要控制由输入数据更新历史数据状态的环节,决定着当前时刻有多少信息能被添加到记忆信息流中,设t时刻输入xt,t-1时刻LSTM单元输出为ht-1,bi为输入门对应的偏置项,则输入门激活信息it的更新方法为:
it=sigmoid(Wixt+Uiht-1+bi) (4)
其中Wi与Ui分别为当前输入与上一时刻LSTM单元输出对应的参数矩阵,sigmoid函数用于将xt与ht-1线性组合后的函数值映射到(0,1)区间范围内,当it趋近于0时代表允许通过的信息越少,反之则表示允许通过的信息越多。同时,候选状态C′t用来控制一定比例条件下当前输入与历史记忆信息汇合后的信息总量,其更新方法如公式(5)所示。
C′t=tanh(Wcxt+Ucht-1+bc) (5)
遗忘门主要控制从上一时刻单元状态到当前时刻过程中舍弃记忆信息的程度,其激活条件同样采用输入门的sigmoid函数,
遗忘门激活信息ft更新方法为:
ft=sigmoid(Wfxt+Ufht-1+bf) (6)
同理,当ft趋近于1时代表记忆单元保留的历史信息越多,反之则表示舍弃的信息越多。确定记忆单元需要更新的信息后,
由两个部分共同更新记忆:第一部分是通过遗忘门过滤掉历史部分记忆,大小为ft×Ct-1,第二部分是由输入门控制当前新增数据信息的比例,大小为it×C′t,将两部分组合起来得到记忆单元更新后的值Ct,其计算方法如公式(7)所示。
Ct=ftt×Ct-1+it×C′t (7)
内部更新完成后,由输出门控制从记忆单元状态Ct输出的信息比例,即有多少历史信息被用于下一阶段的更新,则输出门计算表达式为:
Ot=sigmoid(Woxt+Uoht-1+bo) (8)
Ot∈[0,1],则从输出门传递到下一层网络更新的记忆信息如公式(9)所示。
ht=Ot*tanh(Ct) (9)
上式中tanh函数将记忆单元状态映射到(-1,1)之间,正区间控制信息合理输出,负区间对信息输出进行抑制。LSTM这种由专门的记忆单元与多个门组合的特殊结构保证了不同时刻输入信息有选择性地通过,并将后输入信息对记忆单元状态的影响降到最低,同时遗忘门的存在控制着历史信息的保留时间,从而达到合理利用有效历史信息的目的。
本发明通过在传统分布式词嵌入向量的基础上加入词语在文档中潜在的主题特征信息得到词语的主题词向量表示,以便在双向LSTM的输入端融入更多的主题语义特征,从而进一步提升模型识别关键词的效果。
根据前述LDA模型得到主题-词项φk(w)分布后,可以依次计算出同一隐含主题k下任意单词出现的概率大小,归一化后满足p(wi|z=tk)为语料库词汇中第i个词项wi属于主题k的概率值。同时,为了得到词项wi依次在K个隐含主题维度上的特征映射,则需要计算出词项-主题概率分布,即wi分别属于隐含主题集T={t1,t2...tk...tK}中每一个隐含主题的概率p(z=tk|wi),则由贝叶斯定律可以得到公式(10)。
其中,分子左边p(z=tk)为主题tk出现在语料库D的概率,计算方法如公式(11)所示。
p(dm)为语料库D中第m篇文档dm出现的概率,p(tk|dm)为文档dm属于隐含主题tk的概率,恰好可以根据获得的文档-主题分布θm(k)计算出来。公式(10)分子右边p(wi|z=tk)为词项wi属于隐含主题tk的概率,依据得到的主题-词项分布φk(w)可以直接算出。分母p(wi)为词项wi在语料库D中出现的概率。
由以上分析,分别计算出词项wi在所有主题T={t1,t2...tk...tK}下概率大小,从而得到词项wi的K维主题特征概率表示。由于LDA是一种依赖词频反映主题分布的概率模型,因此对于语料库中某一特定主题,高频词较低频词能获得更高的概率。文本中通常存在大量不具有主题区分性的高频词或频率过低的生僻词,容易在主题特征概率表示中引入误差,因此在预处理过程中通过计算TF-IDF并过滤TF-IDF值过低的词语,然后对LDA模型进行训练。
主题向量学习
由于同一词项在不同主题和上下文环境中出现的含义不同,传统词嵌入向量模型Word2vec在训练结束后,同一词项得到的词向量表示是唯一的,不能体现出不同主题条件下的语义差异性,因此有必要通过学习获得具有主题区分性的语义词向量表示。
为了解决上述问题,本发明选用Word2vec中适用于大规模语料的Skip-gram模型进行训练,如图5所示,该模型由输入层、隐藏层和输出层构成,其主要思想是利用当前词wi预测一定窗口大小内上下文的词,例如:上下文窗口windowSize=2时,则由wi预测窗口范围内的上下文词语序列(wi-2,wi-1,wi+1,wi+2)。为了计算词项wi在不同主题下的向量表示,首先由LDA主题模型获得第m篇文档dm的隐含主题集Tm={t1,t2...tk...tK},针对dm中的任意词项wi,分别将词项wi连同其在Tm中的隐含主题元素进行组合,得到词项-主题集合WT={wi:t1...wi:tk...wi:tK}。分别将词项-主题集合中的每个元素作为Skip-gram模型的输入,即联合词项wi与其隐含主题tk共同预测上下文词语序列。
为了使词项wi与隐含主题tk联合预测上下文的概率最大化,采用最大似然函数作为Skip-gram模型的目标函数,计算方法如公式(12)所示:
其中win为当前词项wi上下文窗口值,p(z=tj|wi)可以由主题特征概率求解,模型收敛后,可以分别得到词项wi对应的词向量表示Vw以及相应主题tk对应的主题向量表示Vt。为了便于计算,本发明将两者直接相连,获得当前词项wi在不同主题下对应的主题词向量表示,记主题词向量为Twt,则有:
符号表示向量之间的连接操作,不难发现,Twt的维度由Vw和Vt的维度之和共同决定,同一词向量Vw与不同的主题向量Vt相互组合得到的主题词向量不一样,恰好可以表示同一词语在不同主题下的语义差异性。
基于双向LSTM的关键词抽取
本发明将自动关键词抽取问题转化为序列标注任务,为了从整个文本输入序列中识别出可能性最大的关键词,需要同时考虑当前词语的上文信息与下文信息。而单一的LSTM序列模型虽然能够很好地利用长距离依赖历史信息,但却仅局限于某一个方向,双向LSTM分别从当前词语的上文与下文两个方向对输入序列进行训练,能够全面地捕获到相对于当前词语的历史信息与未来信息,从而能够更好地判断当前词成为关键词的可能性。关键词作为凝聚文本核心主旨的语义单元,一般能够总结文档内容并能较好地概括文档主题。因此,本发明将每个词语映射为带有主题特征和语义特征的主题词向量表示,然后结合双向LSTM序列模型对当前词语的上下文主题语义信息建模,根据序列起始词到当前词的历史主题语义信息与序列末尾词到当前词的未来主题语义信息预测当前词成为关键词的概率大小。
对于输入序列的每一个单词,输出端采用类似于BMEO的标记集,分别计算其被预测为标签集合L={BK,MK,EK,O}中每一个标签的概率,其中BK表示单个关键词或关键词词组的开头,MK表示关键词词组中间部分,EK表示关键词词组末尾,O表示非关键词。例如:对于输入序列“This field may be included if the network supports packet flowcontext procedures and if a Channel Request Description IE is included in themessage.”,其中包含的关键词为“packet flow context”与“Channel RequestDescription IE”,则模型预测的输出为:“This/O field/O may/O be/O included/O if/Othe/O network/O supports/O packet/BK flow/MK context/EK procedures/O and/Oif/O a/O Channel/BK Request/MK Description/MK IE/EK is/O included/O in/O the/O message/O./O”,本发明设计的基于双向LSTM模型与主题词向量进行关键词抽取的模型结构如图6所示。
模型结构中包含两个方向上独立的双向LSTM层,同一时刻两个方向上LSTM的输出连接到同一个隐藏层,从左到右方向上的LSTM结构记为正向LSTM,从右往左方向上的LSTM结构记为逆向LSTM,x={x0,x1...xt...xn}对应初始输入序列,T0,T1...Tt...Tn分别对应输入序列中每个词的主题词向量,y={y0,y1...yt...yn}对应模型的输出序列。则首先将输入序列中的每个词xt通过主题词向量查找表映射到对应的主题词向量表示Tt,则有公式(16)
Tt=lookup(xt) (16)
如果初始主题词向量矩阵不包含词语xt,则采用初始值为随机值的“UNK”向量对xt进行表示。假设初始设定窗口大小为window,则对于长度为n的输入序列可以分解为长度为n-window+1的连接序列。则正向LSTM的输入为正向输入序列的连接序列,逆向LSTM的输入为逆向输入序列的连接序列。设正向LSTM与逆向LSTM隐藏层对应的输出向量分别为则两者计算方法分别为:
f对应隐藏层非线性激活函数,则双向LSTM两个方向上的隐藏层输出向量ht为两个方向的向量组合,即则在t时刻输出层的输入为双向LSTM模型隐含层的输出向量ht,由输出层的softmax函数归一化处理后得到最终的|L|维输出向量yt,|L|为标签集元素长度,各维度相加和为1,则yt计算方法如公式(19)所示。
yt=softmax(Wht+b) (19)
则yt每一维∈(0,1)之间,恰好对应t时刻xt被预测为标签中每一个标签的概率大小,取概率值最高的标签作为xt的预测标签,为了评价模型的好坏,通过计算交叉熵作为目标函数L(θ)计算方法如公式(20)所示。
y′t与yt分别为t时刻模型的真实输出与期望输出,θ为模型相关参数集,T为主题词向量,为了最小化目标函数,本发明采用随机梯度下降法(Stochastic gradient descent)优化模型。同时为了防止模型发生过拟合,在双向LSTM与隐藏层之间加入DropOut机制。第n轮epoch中第i个参数θi更新方式如公式(21)所示。
θn,i=θn-1,i-λgn,i (21)
λ为所有维度参数共享的全局学习率,gn,i为第n次迭代的参数梯度。
实验设置与结果分析
实验数据
实验选用3GPP ftp服务器上2015~2017年01series~55series的技术规范,总共覆盖服务、技术实现、信令协议、无线电、编解码器、安全算法以及LTE等二十个不同的技术领域,去噪后总共获得65286篇技术规范和技术报告。以纯手工的方式对这些生语料进行标注效率低下,有限的标注语料不能满足双向LSTM模型的训练需求,为了快速获得语料库上的标注数据,首先由第M章中无监督的万有引力关键词抽取方法初步识别出关键词,然后采用人工校对的方式对关键词识别结果进行纠正标注,总共获得103825个不重复的关键词(包括单词和词组)。从中随机选取80%技术文档作为训练集,10%技术文档作为交叉验证集,剩余10%作为测试集。
评价指标
实验仍然采用自然语言处理领域中常用的正确率、召回率与F值对关键词识别结果进行评价,计算方法如公式(22)~(24)所示。
实验结果与分析
对所有的文档过滤通用词后,采用GibbsLDA++对文档集进行训练,初始设置超参数α=50/K,其中K为隐含主题总数,设K=25,则α=2,超参数β=0.3,Gibbs迭代采样次数为2000,获得每个词的主题分布后,基于Skip-Gram模型对词语和相应的主题进行预训练,设置上下文窗口window=5,词向量维度与主题向量维度均设为D,初始分别赋值D=150,200,250,300,350,400,分别获得300,400,500,600,700,800维(2*D)的主题词向量。实验选用当前主流的Tensorflow深度学习框架构建双向LSTM模型,采用NVIDIA Tesla K40显卡进行训练,将主题词向量作为双向LSTM模型的输入,设置双向LSTM模型的隐藏层神经元个数为300,初始学习率为0.02,dropout=0.5,通过随机梯度下降算法最小化交叉熵优化模型,batch大小为36,最大训练轮数epoch设为5000,当2个连续的epoch之间的训练损失不再下降时训练停止。控制其他参数不变,则不同维度主题词向量对关键词识别效果统计结果如表1所示。
表1不同维度主题词向量对关键词识别效果影响
从表中可以看出来,不同维度主题词向量对关键词识别效果影响不同,当主题词向量从300维上升到600维时,关键词识别F-值呈现逐渐上升的趋势,上升幅度逐渐减缓,当主题词向量维度从600维持续上升时,关键词识别F-值逐渐减小。这个过程中变化的原因在于在一定范围内主题词向量维度的上升有助于更好地表示词语主题特征和词语语义信息,当主题词向量过高时,会引入一些冗余的噪音信息,反而对提高关键词识别效果作用不明显,同时过高的主题词向量维度明显增加了训练时间开销。综合考虑,本发明将主题词向量确定为600维。
确定主题词向量维度后,分别采用预训练的主题词向量、随机词向量以及Glove模型训练词向量对输入序列进行初始化,分别统计不同初始化情形下最佳关键词识别效果,实验结果如表2所示。
表2不同序列初始化方式对关键词识别效果影响
序列初始化方式 正确率P(%) 召回率R(%) F-值(%)
预训练主题词向量(600维) 61.57 78.35 68.95
随机词向量(300维) 58.45 76.50 66.27
Glove预训练词向量(300维) 59.72 76.84 67.21
可以发现,选择预训练主题词向量相对于随机词向量与Glove预训练词向量对输入序列初始化取得了更高的正确率、召回率以及F-值,则本发明采用预训练的主题词向量对输入序列进行初始化。
实验中为了防止过拟合,在双向LSTM层与隐藏层之间增加了dropout机制,dropout的大小决定了每次训练时随机临时丢弃的隐藏神经元比例,控制其他参数,则不同dropout大小下模型的关键词识别效果如图7所示。
从图7统计结果可知,当Dropout取0.25时双向LSTM模型性能最佳,F值达到80.98%,经分析不难发现,当Dropout在(0,0.25]范围内增加时,可以有效降低过拟合对模型的负面影响,当Dropout超过0.25并逐渐增大时,关键词识别正确率、召回率逐渐降低,此时由于训练过程中临时失效的隐藏层节点数量过多反而出现了欠拟合现象,不利于发挥模型最佳性能。因此实验将Dropout设定为0.25。
为了观察词向量与模型结构因素对关键词提取性能的影响,分别选用主题词向量、Word2vec词向量与双向LSTM、LSTM进行组合,得到以下四组对比实验,则不同因素组合下关键词识别效果如表3所示。
表3不同因素组合对双向LSTM模型性能影响
序号 因素组合 正确率P(%) 召回率R(%) F-值(%)
第1组 Word2vec词向量+单向LSTM 58.05 75.35 65.58
第2组 Word2vec词向量+双向LSTM 60.28 78.76 68.29
第3组 主题词向量+单向LSTM 59.62 77.25 67.30
第4组 主题词向量+双向LSTM 63.86 80.98 71.41
由表3可知,本发明采用主题词向量+双向LSTM模型的组合方式取得了明显优于其他因素组合的识别效果,从第1组与第2组、第3组与第4组可以发现,在词向量相同的条件下,双向LSTM较单向LSTM表现出更高的模型性能,说明下文信息在词语重要性判断中发挥着不可替代的作用,双向LSTM较单向LSTM能更加充分地利用历史记忆信息与未来信息对词语的重要性进行预测,改善了单向LSTM仅根据历史信息预测词语重要程度的片面性,因此取得了相对较好的关键词识别效果。对比第1组与第3组、第2组与第4组可知,当LSTM模型结构一样时,主题词向量相对一般的词向量更能提升模型性能,原因在于主题词向量在语义信息的基础上引入了有助于关键词识别的主题特征信息。
此外,为了进一步论证实验的有效性,将本发明方法与传统的CRF方法、基于决策树思想的MAUI***、万有引力方法以及现有技术中的方法进行对比,其中MAUI***是对经典KEA***的改进,该***通过设计不同的词法、语义等特征并采用决策树分类器进行训练;CRF方法是一种直接将关键词识别转化为序列标注任务的有监督学***均识别效果进行比较,得到如下对比实验,如表4所示。
表4本发明方法与其他方法结果对比
分析表4结果,不难发现本发明方法的关键词识别效果明显优于经典的有监督机器学习方法和无监督学习方法。说明采用主题词向量对词语进行表示后,双向LSTM模型能够自动学习到更多超越有限手工特征的深层次特征,从而更好地从主题和深层次语义层面预测词语重要性。同时,本发明方法较现有技术中基于深度RNN神经网络的关键词抽取方法在P、R、F值上分别提高了3.32%、5.52%、4.23%,这是因为现有技术中设计的RNN循环神经网络更适用于Twitter类型的短文本,当应用于包含较多复杂长句的3GPP技术规范语料时,RNN结构由于梯度消失问题无法较好地利用距离当前输入更远的历史信息,而本发明设计的双向LSTM恰好弥补了这一缺陷,能够充分利用不同距离的上下文语义信息对关键词进行预测。综合比较,可以发现实验中融合主题信息与双向LSTM深度学习方法进行关键词抽取是更为有效的。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种融合主题信息与双向LSTM的关键词抽取方法,其特征在于,包括:将词语的主题词向量作为双向LSTM模型的输入,对词语上文与下文主题语义信息建模,输出词语的标签预测概率。
2.根据权利要求1所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,在所述方法中,根据LDA模型得到主题-词项分布后,依次计算出同一隐含主题k下任意单词出现的概率大小,归一化后满足p(wi|z=tk)为语料库词汇中第i个词项wi属于主题k的概率值。
3.根据权利要求2所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,计算出词项-主题概率分布,得到词项wi依次在K个隐含主题维度上的特征映射,即wi分别属于隐含主题集T={t1,t2...tk...tK}中每一个隐含主题的概率p(z=tk|wi),由贝叶斯定律得到以下公式:
其中,分子左边p(z=tk)为主题tk出现在语料库D的概率,计算公式为p(dm)为语料库D中第m篇文档dm出现的概率,p(tk|dm)为文档dm属于隐含主题tk的概率,p(wi|z=tk)为词项wi属于隐含主题tk的概率,分母p(wi)为词项wi在语料库D中出现的概率。
4.根据权利要求3所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,采用Skip-gram模型进行训练;首先由LDA主题模型获得第m篇文档dm的隐含主题集Tm={t1,t2...tk...tK},针对dm中的任意词项wi,分别将词项wi连同其在Tm中的隐含主题元素进行组合,得到词项-主题集合WT={wi:t1...wi:tk...wi:tK};分别将词项-主题集合中的每个元素作为Skip-gram 模型的输入。
5.根据权利要求4所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,采用最大似然函数作为Skip-gram模型的目标函数,计算公式为:
其中win为当前词项wi上下文窗口值,p(z=tj|wi)由主题特征概率求解,模型收敛后,分别得到词项wi对应的词向量表示Vw以及相应主题tk对应的主题向量表示Vt;将两者直接相连,获得当前词项wi在不同主题下对应的主题词向量表示,记主题词向量为Twt
符号表示向量之间的连接操作。
6.根据权利要求1所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,所述方法采用的关键词抽取模型结构中包含两个方向上独立的双向LSTM层,同一时刻两个方向上LSTM的输出连接到同一个隐藏层,从左到右方向上的LSTM结构记为正向LSTM,从右往左方向上的LSTM结构记为逆向LSTM。
7.根据权利要求6所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,首先将输入序列中的每个词xt通过主题词向量查找表映射到对应的主题词向量表示Tt,公式为Tt=lookup(xt),如果初始主题词向量矩阵不包含词语xt,则采用初始值为随机值的“UNK”向量对xt进行表示。
8.根据权利要求7所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,假设初始设定窗口大小为window,则对长度为n的输入序列分解为长度为n-window+1的连接序列;则正向LSTM的输入为正向输入序列的连接序列,逆向LSTM的输入为逆向输入序列的连接序列;设正向LSTM与逆向LSTM隐藏层对应的输出向量分别为则两者计算公式分别为:
f对应隐藏层非线性激活函数,则双向LSTM两个方向上的隐藏层输出向量ht为两个方向的向量组合,即则在t时刻输出层的输入为双向LSTM模型隐含层的输出向量ht
9.根据权利要求1-8所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,由输出层的softmax函数归一化处理后得到最终的|L|维输出向量yt,|L|为标签集元素长度,各维度相加和为1,则yt计算公式为
yt=softmax(Wht+b),
则yt每一维∈(0,1)之间,对应t时刻xt被预测为标签中每一个标签的概率大小,取概率值最高的标签作为xt的预测标签;通过计算交叉熵作为目标函数L(θ)计算公式为
y′t与yt分别为t时刻模型的真实输出与期望输出,θ为模型相关参数集,T为主题词向量。
10.根据权利要求1-9所述的融合主题与双向LSTM的关键词抽取方法,其特征在于,采用随机梯度下降法优化模型,在双向LSTM与隐藏层之间加入DropOut机制,第n轮epoch中第i个参数θi更新方式的公式为
θn,i=θn-1,i-λgn,i
λ为所有维度参数共享的全局学习率,gn,i为第n次迭代的参数梯度。
CN201910236194.8A 2019-03-27 2019-03-27 融合主题信息与双向lstm的关键词抽取方法 Pending CN109933804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910236194.8A CN109933804A (zh) 2019-03-27 2019-03-27 融合主题信息与双向lstm的关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910236194.8A CN109933804A (zh) 2019-03-27 2019-03-27 融合主题信息与双向lstm的关键词抽取方法

Publications (1)

Publication Number Publication Date
CN109933804A true CN109933804A (zh) 2019-06-25

Family

ID=66988476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910236194.8A Pending CN109933804A (zh) 2019-03-27 2019-03-27 融合主题信息与双向lstm的关键词抽取方法

Country Status (1)

Country Link
CN (1) CN109933804A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502748A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN110737769A (zh) * 2019-10-21 2020-01-31 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110781285A (zh) * 2019-10-30 2020-02-11 中国农业科学院农业信息研究所 一种科技文献检索意图构建方法
CN111160025A (zh) * 2019-12-12 2020-05-15 日照睿安信息科技有限公司 一种基于公安文本的主动发现案件关键词的方法
CN111428492A (zh) * 2020-01-10 2020-07-17 深圳信息职业技术学院 一种情境感知的深度学习算法
CN111444712A (zh) * 2020-03-25 2020-07-24 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111695358A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN112307676A (zh) * 2020-11-04 2021-02-02 国家***北海预报中心((国家***青岛海洋预报台)(国家***青岛海洋环境监测中心站)) 波高数值预报模型结果修正方法
CN112417896A (zh) * 2020-11-03 2021-02-26 科大讯飞股份有限公司 一种领域数据获取方法、机器翻译方法及相关设备
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112528655A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 关键词生成方法、装置、设备及存储介质
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN113011177A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN116629250A (zh) * 2023-04-28 2023-08-22 华南师范大学 一种暴力词汇的分析方法、***、装置及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
118ZHUANQIAN: "《领域关键词的提取:结合LDA和Word2vec》", 《HTTPS://MAX.BOOK118.COM/HTML/2017/0707/121013985.SHTM》 *
包志强 等: "《基于LSTM的生鲜评论关键词提取研究》", 《福建电脑》 *
斯日古楞等: "融合主题与语言模型的蒙古文信息检索方法研究", 《计算机应用研究》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502748A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN110502748B (zh) * 2019-07-19 2024-02-02 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN110737769A (zh) * 2019-10-21 2020-01-31 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110737769B (zh) * 2019-10-21 2023-07-25 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110781285A (zh) * 2019-10-30 2020-02-11 中国农业科学院农业信息研究所 一种科技文献检索意图构建方法
CN111160025A (zh) * 2019-12-12 2020-05-15 日照睿安信息科技有限公司 一种基于公安文本的主动发现案件关键词的方法
CN111428492A (zh) * 2020-01-10 2020-07-17 深圳信息职业技术学院 一种情境感知的深度学习算法
CN111428492B (zh) * 2020-01-10 2023-07-07 深圳信息职业技术学院 一种情境感知的深度学习算法
CN111444712B (zh) * 2020-03-25 2022-08-30 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111444712A (zh) * 2020-03-25 2020-07-24 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111695358A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111695358B (zh) * 2020-06-12 2023-08-08 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111782797A (zh) * 2020-07-13 2020-10-16 贵州省科技信息中心 一种科技项目评审专家自动匹配方法及存储介质
CN112417896A (zh) * 2020-11-03 2021-02-26 科大讯飞股份有限公司 一种领域数据获取方法、机器翻译方法及相关设备
CN112417896B (zh) * 2020-11-03 2024-02-02 中国科学技术大学 一种领域数据获取方法、机器翻译方法及相关设备
CN112307676B (zh) * 2020-11-04 2022-10-14 国家***北海预报中心((国家***青岛海洋预报台)(国家***青岛海洋环境监测中心站)) 波高数值预报模型结果修正方法
CN112307676A (zh) * 2020-11-04 2021-02-02 国家***北海预报中心((国家***青岛海洋预报台)(国家***青岛海洋环境监测中心站)) 波高数值预报模型结果修正方法
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN112528655B (zh) * 2020-12-18 2023-12-29 北京百度网讯科技有限公司 关键词生成方法、装置、设备及存储介质
CN112528655A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 关键词生成方法、装置、设备及存储介质
US11899699B2 (en) 2020-12-18 2024-02-13 Beijing Baidu Netcom Science Technology Co., Ltd. Keyword generating method, apparatus, device and storage medium
CN112612892B (zh) * 2020-12-29 2022-11-01 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN113011177B (zh) * 2021-03-15 2023-09-29 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN113011177A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN116629250A (zh) * 2023-04-28 2023-08-22 华南师范大学 一种暴力词汇的分析方法、***、装置及介质
CN116629250B (zh) * 2023-04-28 2024-01-12 华南师范大学 一种暴力词汇的分析方法、***、装置及介质

Similar Documents

Publication Publication Date Title
CN109933804A (zh) 融合主题信息与双向lstm的关键词抽取方法
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN106897268B (zh) 文本语义理解方法、装置和***
Wu et al. Open relation extraction: Relational knowledge transfer from supervised data to unsupervised data
CN111581385B (zh) 一种不平衡数据采样的中文文本类别识别***及方法
CN111159454A (zh) 基于Actor-Critic生成式对抗网络的图片描述生成方法及***
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN113905391A (zh) 集成学习网络流量预测方法、***、设备、终端、介质
CN112069310A (zh) 基于主动学习策略的文本分类方法及***
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
Qiao et al. Word-character attention model for Chinese text classification
CN112883722B (zh) 一种基于云数据中心分布式文本摘要方法
Korshunova et al. Discriminative topic modeling with logistic LDA
Başarslan et al. Sentiment analysis on social media reviews datasets with deep learning approach
Chen et al. Distributed text feature selection based on bat algorithm optimization
Tao et al. News text classification based on an improved convolutional neural network
Chen et al. Learning to progressively recognize new named entities with sequence to sequence models
CN113779283B (zh) 一种深度监督与特征融合的细粒度跨媒体检索方法
CN113111180B (zh) 基于深度预训练神经网络的中文医疗同义词聚类方法
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及***
CN114064885B (zh) 一种无监督中文多文档抽取式摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190625

WD01 Invention patent application deemed withdrawn after publication