CN105069143A - 提取文档中关键词的方法及装置 - Google Patents

提取文档中关键词的方法及装置 Download PDF

Info

Publication number
CN105069143A
CN105069143A CN201510512363.8A CN201510512363A CN105069143A CN 105069143 A CN105069143 A CN 105069143A CN 201510512363 A CN201510512363 A CN 201510512363A CN 105069143 A CN105069143 A CN 105069143A
Authority
CN
China
Prior art keywords
vector
theme
likelihood function
document
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510512363.8A
Other languages
English (en)
Other versions
CN105069143B (zh
Inventor
姜迪
石磊
林鸿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510512363.8A priority Critical patent/CN105069143B/zh
Publication of CN105069143A publication Critical patent/CN105069143A/zh
Application granted granted Critical
Publication of CN105069143B publication Critical patent/CN105069143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提取文档中关键词的方法及装置,其中所述方法包括:根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;计算所述词向量和主题向量之间的距离;根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本发明实施例能够提取出的精确表达文档信息的关键词信息。

Description

提取文档中关键词的方法及装置
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种提取文档中关键词的方法及装置。
背景技术
在当前信息***的时代,用户不可能浏览所有可能包含有相关信息的文档,而抽取文档中的关键词给用户提供参考,对用户精准的获取信息、降低用户获取信息的成本有着重大的意义。
一般来讲,文档的关键词必然是某些与文档主题高度相关的词语,因此文档的主题信息对于文档的关键词抽取有着重要的意义。目前,主要是利用关键词在隐含狄利克雷分配模型(LatentDirichletAllocation,LDA)当中的概率分布来解决这个问题的。主要有以下两种方法:
第一种方法是基于似然估计的方法,即利用LDA模型得到文档的主题分布P(z|d)以及主题的词分布P(w|z),计算得到文档中词的分布P(w|d)=∑zP(z|d)P(w|z),其中z表示主题,d表示文档,w表示某个词。将上述文档中词的分布概率P(w│d)视为某个词w在文档d中的重要性得分,选择得分最高的K个词作为该文档的关键词。
第二种方法是基于隐变量分布距离的方法,即利用LDA模型得到文档的主题分布概率P(z|d)以及词的主题分布概率 P ( z | w ) = P ( w | z ) P ( z ) P ( w ) ∝ P ( w | z ) P ( z ) , 然后计算上述两个分布概率的余弦距离,选择余弦距离较大的K个词作为该文档的关键词。
但是,上述提取文档中关键词的方法均存在一些缺点,对于第一种方法,对于高频词有着严重的偏向,即提取出的词大部分都是某个主题下的高频词,然而这些高频词在不同文档当中出现得都很广泛,并不能很真实的反应文档所表达的信息。
对于第二种方法,由于计算P(z│w)∝P(w│z)P(z)需要得到隐变量的分布P(z),但是该分布概率并不是LDA模型中的分布参数,一般使用P(z)=∑dP(z|d)P(d),其中P(d)为文档的后验分布,并假设P(d)为均匀分布从而得到P(z)∝∑dP(z|d)。但是由于对于不同的文档d,其后验的分布P(d)并不是均匀分布,因此该模型的理论基础不够坚实,实际应用中的效果也不佳。
发明内容
本发明实施例提供一种提取文档中关键词的方法及装置,能够提取出的精确表达文档信息的关键词信息。
第一方面,本发明实施例提供了一种提取文档中关键词的方法,包括:
根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
计算所述词向量和主题向量之间的距离;
根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
第二方面,本发明实施例还提供一种提取文档中关键词的装置,包括:
向量训练模块,用于根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
距离计算模块,用于计算所述词向量和主题向量之间的距离;
关键词提取模块,用于根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
本发明实施例通过根据主题模型和词向量融合后的隐含主题向量模型对文档进行训练,得到与文档信息相关的至少一个主题向量和至少一个词向量,进一步根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本发明实施例根据隐含主题向量模型对文档进行训练,在训练过程中能够捕捉更多的文档信息,从而提取出的精确表达文档信息的关键词信息。
附图说明
图1为本发明实施例一提供的提取文档中关键词的方法的流程示意图;
图2为本发明实施例二提供的提取文档中关键词的方法的流程示意图;
图3为本发明实施例三提供的搜索结果页显示装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明实施例提供的提取文档中关键词的方法的执行主体,可为本发明实施例提供的提取文档中关键词的装置,或者集成了提取文档中关键词的装置的终端设备(例如,智能手机、平板电脑等),该提取文档中关键词的装置可以采用硬件或软件实现。
实施例一
图1为本发明实施例一提供的提取文档中关键词的方法的流程示意图,如图1所示,具体包括:
S11、根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
其中,主题模型(TopicModel)和词向量(WordEmbedding)都是现有技术中常用的语义表示方法。主题模型假设每一个词语都是由一个隐含空间当中的语义生成的。根据这一假设,可以将文档和词语都映射到隐含语义空间内进行降维。而词向量则是另外一种词语的分布式表示方法,它使用固定长度的向量来表示一个词语的含义。
主题模型一般是在文档层级或句子层级进行建模,更加关注于全局的语义,而词向量则一般假设一个词的语义是由它周边的词语来表示的,更加关注于局部的类句法信息。上述两种方法侧重点各有不同,并各自被证明了具有巨大的应用价值。因此,本实施例将这二者结合起来,从而使得隐含主题向量模型能够捕捉到更多的信息。
其中,主题向量和词向量的维度可自定义设置,向量中的每个元素对应的数值,通过隐含主题向量模型训练得到。其中,为了使训练结果更加精确,隐含主题向量模型中还包含有训练资料库,所述训练资料库中有大量的文档数据。
S12、计算所述词向量和主题向量之间的距离;
上述训练得到所述词向量和主题向量词语目的是为了计算词语在文档当中的重要程度,并对重要程度进行排序,从而从中挑选出最重要的词语作为文档的关键词。
本实施例中,通过计算词向量和主题向量之间的距离来衡量词语在文档当中的重要程度,具体的,包括计算所述词向量和主题向量之间的欧式距离、余弦距离、或正弦距离等,同时,计算的距离不同,衡量重要程度的标准也不同。如果,计算所述词向量和主题向量之间的欧式距离或者正弦距离,则距离越大则说明该词语在文档当中越重要即越能反映文档所表达的主题思想,如果计算所述词向量和主题向量之间的余弦距离,则距离越小则说明该词语在文档当中越重要。
S13、根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
其中,预设个数可根据具体实际情况进行设置,这里不做具体限定。
根据上述步骤12的计算结果,即可确定文档中较为重要的预设个数词向量,则将预设个数词向量对应的词作为所述文档的关键词。
本实施例通过根据主题模型和词向量融合后的隐含主题向量模型对文档进行训练,得到与文档信息相关的至少一个主题向量和至少一个词向量,进一步根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本实施例根据隐含主题向量模型对文档进行训练,在训练过程中能够捕捉更多的文档信息,从而提取出的精确表达文档信息的关键词信息。
示例性的,为提高提取关键词的精确度,本发明实施例提供了如下两种计算所述词向量和主题向量之间的距离的方法,其中第一种方法即基于最优主题的计算方法,主要包括以下步骤:
根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题;
计算所述词向量和所述最优主题对应的主题向量之间的距离。
具体的,对于某个文档,在隐含主题向量模型当中,可以训练得到它的文档的主题分布即P(z|d),包含所述文档中每一个主题对应的主题分布概率,而该主题分布当中概率最大的主题z即最优主题则表示该文档的核心内容。因此可以认为,文档当中最重要的词语就是在向量空间上离主题z的向量表示距离最近的那些词语。因此,根据所述主题分布概率的大小从中选择一个主题分布概率最大的主题作为最优主题,基于该最优的主题对应的主题向量,计算与各个词向量之间的距离,从而根据所述词向量和所述最优主题对应的主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
其中,第二种方法即基于主题分布的计算方法,主要包括以下步骤:
根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和;
将加权和作为所述词向量和主题向量之间的距离。
具体的,考虑到在某个文档中,起到重要作用的主题可能会不止一个,而上述基于最优主题的方法可能会丢失部分信息,因此考虑对不同主题之间的距离根据P(z|d)进行加权,可以得到一种新的度量方式即如下述公式所示
S c o r e _ D i s t r ( w ) = Σ z ∈ Z P ( z | d ) L
其中,Score_Distr(w)为加权和,L为所述词向量和主题向量之间的距离。
上述度量方式即按文档的主题分布加权后得到的词语重要性得分。根据上述方法得到的Score_Distr(w)对词语进行排序,并选出选取预设个数词向量对应的词作为所述文档的关键词。
示例性的,本发明实施例还提供了根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量的具体实现方法,主要包括以下步骤:
将所述文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数;
对所述联合似然函数进行参数估计得到所述主题向量和词向量。
其中,所述训练资料库可从互联网(例如,新浪语料数据库)上进行获取,训练资料库中包含了各种类型的文档。其中,初始主题向量和初始词向量可自定义设置。
示例性的,根据所述初始主题向量和初始词向量建立联合似然函数,包括:
根据公式一得到所述初始词向量的生成概率:
公式一: P ( v ^ w | x w ) = e x w · v ^ w Σ w ′ e x w · v ^ w ′
其中,是当前词w的词向量v的辅助向量,xw表示当前词w的上下文向量,其中, 是当前词w的周围词的词向量,vz当前主题z的主题向量,表示加和操作,w′为词w′;
根据所述公式一得到所述训练资料库中所有文档的联合似然函数如公式二:
公式二:
其中,αz为主题z对应的狄利克雷先验参数,βv为词v对应的狄利克雷先验参数,mdz为文档d中被采样成为主题z的句子的个数,nzv表示所述训练资料库中词v和主题z一起出现的次数总和,M表示所有词向量和主题向量的集合,D表示文档d的总数,T表示文档d中主题的总数,表示词v的附属词。
示例性的,为进一步优化上述联合似然函数,在根据所述公式一得到联合似然函数如公式二之后,进一步包括如下步骤:
采用吉布斯算法对所述公式二进行处理,可得文档d中每个句子s对应的主题的条件分布如公式三:
公式三:
P ( z d s = k | w , z - d s , α , β , M ) ≈ ( m d k + α k ) Γ ( Σ w = 1 W ( n k w + β w ) ) Γ ( Σ w = 1 W ( n k w + β w + N i w ) ) Π w ∈ s Γ ( n k w + β w + N i w ) Γ ( n k w + β w ) Π w ~ ∈ s e x w · v ^ w
其中,k为待定主题,W为所述训练资料库中词的总数,Niw为词w在文档d中第i个句子中出现的次数;
根据所述条件分布中每个主题的条件分布概率为文档d的每个句子s确定特定主题;
根据所述特定主题的条件分布概率对所述公式一进行处理,得到如公式四所述的对数似然函数:
公式四:
T log ( Γ ( Σ v = 1 V β v ) Π v = 1 V Γ ( β v ) ) + Σ z Σ v log ( Γ ( n z v + β v ) ) - Σ z log ( Γ ( Σ v ( n z v + β v ) ) ) + Σ d Σ s ∈ d Σ w ~ ∈ s log P ( v ^ w | x w ) .
对所述联合似然函数进行参数估计得到所述主题向量和词向量,包括:
对所述对数似然函数进行参数估计得到所述主题向量和词向量。
示例性的,可进一步对上述得到的对数似然函数进行优化,具体包括如下步骤:
采用牛顿迭代法对所述对数似然函数中的参数α和参数β进行优化处理;
和/或,
采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
相应的,对所述对数似然函数进行参数估计得到所述主题向量和词向量,包括:
对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。
示例性的,采用负采样算法对词向量、主题向量和辅助向量进行优化,包括:
采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理,得到如公式五所述的似然函数:
公式五:
其中,l为当前词对应的取值,如果当前词是正常词,则l=1,如果当前词是负采样词,则l=0,|NEG|为词对应的负采样词的个数,|V|为所述训练资料库中词的总数;
采用随机梯度下降法对所述公式五进行处理,可得如下词向量的优化公式如公式六、主题向量的优化公式如公式七和辅助向量的优化公式如公式八:
公式六:
v u : = v u + η Σ u ∈ c w ∪ N E G ( c w ) [ l u c w - σ ( x w · v ^ u - l o g ( | N E G | | V | ) ) ] · v ^ u ,
公式七:
v z : = v z + η Σ u ∈ c w ∪ N E G ( c w ) [ l u c w - σ ( x w · v ^ u - log ( | N E G | | V | ) ) ] · v ^ u .
公式八:
v ^ u : = v ^ u + η [ l u c w - σ ( x w · v ^ u - l o g ( | N E G | | V | ) ) ] · x w .
针对所述训练数据库中的训练语料,使用本发明实施例提供的隐含主题向量模型可以得到每个主题的向量化表示,采用现有技术中提供的基于主题模型可以学习得到每个主题下词的多项分布,本发明实施例对比了每个主题下词的多项分布中概率最大的10个词以及离每个主题的向量最接近的10个词向量,结果如下表一所示:
表一
从表一可以看出,基于主题模型的多项分布对于高频词有着很明显的倾斜,但中低频词通过传统的主题分布与主题建立起来的联系较弱,这就使得在使用多项分布进行关键词抽取的时候,主题模型会很自然地偏向于高频词,从而导致较差的关键词抽取结果。而隐含主题模型的向量化表示则消除了这个问题,从上表可以看到,离主题向量最近的词往往都是该主题下表示实际含义的词,这就使得利用主题向量的模型在关键词抽取的任务当中能够获得更好的结果。
因此,上述各实施例同样通过根据主题模型和词向量融合后的隐含主题向量模型对文档进行训练,得到与文档信息相关的至少一个主题向量和至少一个词向量,进一步根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。本实施例根据隐含主题向量模型对文档进行训练,在训练过程中能够捕捉更多的文档信息,从而提取出的精确表达文档信息的关键词信息。
实施例二
图2为本发明实施例二提供的提取文档中关键词的方法的流程示意图,如图2所示,具体包括:
S21、将待处理文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
S22、根据公式一得到所述初始词向量的生成概率:
公式一: P ( v ^ w | x w ) = e x w · v ^ w Σ w ′ e x w · v ^ w ′
其中,是当前词w的词向量v的辅助向量,xw表示当前词w的上下文向量,其中, 是当前词w的周围词的词向量,vz当前主题z的主题向量,表示加和操作,w′为词w′;
S23、根据所述公式一得到所述训练资料库中所有文档的联合似然函数如公式二:
公式二:
其中,αz为主题z对应的狄利克雷先验参数,βv为词v对应的狄利克雷先验参数,mdz为文档d中被采样成为主题z的句子的个数,nzv表示所述训练资料库中词v和主题z一起出现的次数总和,M表示所有词向量和主题向量的集合,D表示文档d的总数,T表示文档d中主题的总数,表示词v的附属词。
S24、采用吉布斯算法对所述公式二进行处理,可得文档d中每个句子s对应的主题的条件分布如公式三:
公式三:
P ( z d s = k | w , z - d s , α , β , M ) ≈ ( m d k + α k ) Γ ( Σ w = 1 W ( n k w + β w ) ) Γ ( Σ w = 1 W ( n k w + β w + N i w ) ) Π w ∈ s Γ ( n k w + β w + N i w ) Γ ( n k w + β w ) Π w ~ ∈ s e x w · v ^ w
其中,k为待定主题,W为所述训练资料库中词的总数,Niw为词w在文档d中第i个句子中出现的次数;
S25、根据所述条件分布中每个主题的条件分布概率为文档d的每个句子s确定特定主题;
S26、根据所述特定主题的条件分布概率对所述公式一进行处理,得到如公式四所述的对数似然函数:
公式四:
T log ( Γ ( Σ v = 1 V β v ) Π v = 1 V Γ ( β v ) ) + Σ z Σ v log ( Γ ( n z v + β v ) ) - Σ z log ( Γ ( Σ v ( n z v + β v ) ) ) + Σ d Σ s ∈ d Σ w ~ ∈ s log P ( v ^ w | x w ) .
S27、采用牛顿迭代法对所述对数似然函数中的参数α和参数β进行优化处理,并采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
S28、对优化后的对数似然函数进行参数估计得到所述待处理文档的主题向量和词向量。
S29、计算所述词向量和主题向量之间的余弦距离;
S210、根据词向量与所述主题向量之间的余弦距离,选取预设个数词向量对应的词作为所述待处理文档的关键词。
为了验证本发明实施例的有效性,发明人分别在不同规模的实验数据集上进行了多组对比实验,实验效果均超过了传统基于主题模型的方法的最佳结果。
第一组实验,小规模数据实验
实验目的:从一个文档中的所有词当中挑选出最能体现文档含义的关键词
训练数据库:来自于新浪Sina语料的开发集、训练集和测试集,总共包含有32000个文档。
测试数据:来自于Sina语料的测试集,对应于测试集中的每个文档,包含有其对应的参考关键词。共1000个文档。
评估方法:对于每一个文档,每一个模型生成3个关键词。使用准确率和召回率来评估实验结果。准确率指的是模型预测正确的关键词个数占模型预测关键词个数的百分比。召回率指的是模型预测正确的关键词占参***中的关键词个数的百分比。使用微平均作为评价指标,即对每个文档分别计算其准确率与召回率,然后取平均值。
实验设置:分别考虑了是否在训练语料当中去除停用词的情况,并且将本发明实施例中使用的隐含主题向量模型同多种LDA和SentenceLDA的基于似然的方法进行了对比。在LDA和以句子为单位的隐含狄利克雷分配(SentenceLDA,sLDA)方法当中,对于文档当中的每一个词,计算了∑zP(z|d)P(w|z)作为每个词在当前文档当中的得分,然后找出了值最大的前3个词作为关键词。在上述所有的方法当中,本发明实施例均去除了所有语料当中只有一个字的词。实验结果如下述表二所示:
表二
实验结果分析:在上述实验结果当中,可以看到,无论是否去除停用词,本发明实施例的方法都取得了最好的实验结果。在去除停用词的实验当中,对比与LDA模型的实验结果,本发明实施例提供的隐含主题向量模型的提升幅度达到了20.9%。同时,是否去除停用词对于本发明实施例提供的隐含主题向量模型的最终结果没有影响,这说明了本发明实施例提供的隐含主题向量模型具有一定程度上抗噪声的能力。另外,基于主题分布的计算方法的实验结果要优于基于最优主题的计算方法,这说明了在生成最终关键词的时候考虑更多的主题信息对最终的实验结果是有帮助的。
第二组实验,大规模数据实验
实验目的:从一个文档中的所有词当中挑选出最能体现文档含义的关键词
训练数据:来自于Sina语料的开发集、训练集和测试集,以及来自于新闻领域的语料数据,总共包含有261173个文档。
测试数据:来自于Sina语料的测试集,对应于测试集中的每个文档,包含有其对应的参考关键词。共1000个文档。
评估方法:对于每一个文档,每一个模型生成3个关键词。使用准确率和召回率来评估实验结果。准确率指的是模型预测正确的关键词个数占模型预测关键词个数的百分比。召回率指的是模型预测正确的关键词占参***中的关键词个数的百分比。使用微平均作为评价指标,即对每个文档分别计算其准确率与召回率,然后取平均值。
实验设置:分别考虑了是否在训练语料当中去除停用词的情况,并且将本发明实施例使用的隐含主题向量模型同多种LDA和SentenceLDA的基于似然函数的方法进行了对比。在LDA和SentenceLDA的PL方法当中,对于文档当中的每一个词,计算了∑zP(z|d)P(w|z)作为每个词在当前文档当中的得分,然后找出了值最大的前3个词作为关键词。同时,还将本发明实施例的方法与LDA当中的基于隐变量分布距离的方法进行了对比,根据文档的主题分布P(z|d)以及词的主题分布 P ( z | w ) = P ( z | w ) P ( z ) P ( w ) ∝ P ( z | w ) P ( z ) , 然后计算两个分布的余弦距离并按距离排序,选择主题分布距离最接近于文档主题分布的3个词作为该文档的关键词。在上述所有的方法当中,均去除了所有语料当中只有一个字的词。实验结果如下述表三所示:
表三
实验结果分析:在上述实验结果当中,可以看到,本发明实施例的方法仍然取得了最好的实验结果,在小规模语料上得到的实验结论在大规模语料上仍然适用。同时,可以看到,基于LDA和SentenceLDA的方法在加入了大规模训练语料之后,对于实验结果并没有显著的提升。然而本发明实施例的方法在增加了训练语料之后实验结果得到了显著性的提升,基于最优主题的计算方法提升了12.1%,基于主题分布的计算方法提升了6.5%。并且随着模型的训练语料的增加,本发明实施例的实验结果仍然有进一步增长的潜力。
实施例三
图3为本发明实施例三提供的提取文档中关键词的装置的结构示意图,如图3所示,具体包括:向量训练模块31、距离计算模块32和关键词提取模块33;
所述向量训练模块31用于根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
所述距离计算模块32用于计算所述词向量和主题向量之间的距离;
所述关键词提取模块33用于根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
本实施例所述的提取文档中关键词的装置用于执行上述各实施例所述的提取文档中关键词的方法,其技术原理和产生的技术效果类似,这里不再累述。
示例性的,在上述实施例的基础上,所述距离计算模块32具体用于:
根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题;计算所述词向量和所述最优主题对应的主题向量之间的距离。
示例性的,在上述实施例的基础上,所述距离计算模块32具体用于:
根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和;将加权和作为所述词向量和主题向量之间的距离。
示例性的,在上述实施例的基础上,所述距离为余弦距离。
示例性的,在上述实施例的基础上,所述向量训练模块31包括:向量构建单元311、联合似然函数建立单元312和参数估计单元313;
所述向量构建单元311用于将所述文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
所述联合似然函数建立单元312用于根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数;
所述参数估计单元313用于对所述联合似然函数进行参数估计得到所述主题向量和词向量。
示例性的,所述联合似然函数建立单元312具体用于:
根据公式一得到所述初始词向量的生成概率:
公式一: P ( v ^ w | x w ) = e x w · v ^ w Σ w ′ e x w · v ^ w ′
其中,是当前词w的词向量v的辅助向量,xw表示当前词w的上下文向量,其中, 是当前词w的周围词的词向量,vz当前主题z的主题向量,表示加和操作,w′为词w′;
根据所述公式一得到所述训练资料库中所有文档的联合似然函数如公式二:
公式二:
其中,αz为主题z对应的狄利克雷先验参数,βv为词v对应的狄利克雷先验参数,mdz为文档d中被采样成为主题z的句子的个数,nzv表示所述训练资料库中词v和主题z一起出现的次数总和,M表示所有词向量和主题向量的集合,D表示文档d的总数,T表示文档d中主题的总数,表示词v的附属词。
示例性的,所述向量训练模块31还包括:联合似然函数处理单元314;
所述联合似然函数处理单元314用于在所述联合似然函数建立单元312根据所述公式一得到联合似然函数如公式二之后,采用吉布斯算法对所述公式二进行处理,可得文档d中每个句子s对应的主题的条件分布如公式三:
公式三:
P ( z d s = k | w , z - d s , α , β , M ) ≈ ( m d k + α k ) Γ ( Σ w = 1 W ( n k w + β w ) ) Γ ( Σ w = 1 W ( n k w + β w + N i w ) ) Π w ∈ s Γ ( n k w + β w + N i w ) Γ ( n k w + β w ) Π w ~ ∈ s e x w · v ^ w
其中,k为待定主题,W为所述训练资料库中词的总数,Niw为词w在文档d中第i个句子中出现的次数;
根据所述条件分布中每个主题的条件分布概率为文档d的每个句子s确定特定主题;
根据所述特定主题的条件分布概率对所述公式一进行处理,得到如公式四所述的对数似然函数:
公式四:
T log ( Γ ( Σ v = 1 V β v ) Π v = 1 V Γ ( β v ) ) + Σ z Σ v log ( Γ ( n z v + β v ) ) - Σ z log ( Γ ( Σ v ( n z v + β v ) ) ) + Σ d Σ s ∈ d Σ w ~ ∈ s log P ( v ^ w | x w ) .
所述参数估计单元313具体用于:
对所述对数似然函数进行参数估计得到所述主题向量和词向量。
示例性的,所述向量训练模块31还包括:对数似然函数优化处理单元315;
所述对数似然函数优化处理单元315用于在所述联合似然函数处理单元314得到如公式四所述的对数似然函数之后,采用牛顿迭代法对所述对数似然函数中的参数α和参数β进行优化处理;
和/或,
采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
所述参数估计单元313具体用于:
对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。
示例的,所述对数似然函数优化处理单元315具体用于:
采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理,得到如公式五所述的似然函数:
公式五:
其中,l为当前词对应的取值,|NEG|为词对应的负采样词的个数,|V|为所述训练资料库中词的总数;
采用随机梯度下降法对所述公式五进行处理,可得如下词向量的优化公式如公式六、主题向量的优化公式如公式七和辅助向量的优化公式如公式八:
公式六:
v u : = v u + η Σ u ∈ c w ∪ N E G ( c w ) [ l u c w - σ ( x w · v ^ u - log ( | N E G | | V | ) ) ] · v ^ u ,
公式七:
v z : = v z + η Σ u ∈ c w ∪ N E G ( c w ) [ l u c w - σ ( x w · v ^ u - log ( | N E G | | V | ) ) ] · v ^ u .
公式八:
v ^ u : = v ^ u + η [ l u c w - σ ( x w · v ^ u - l o g ( | N E G | | V | ) ) ] · x w .
示例性的,所述参数估计单元313还用于:
对所述联合似然函数进行参数估计的过程中采用公式九得到每个文档的主题分布:
公式九:
P ( z | d ) = m d z + α z Σ z ′ = 1 K ( m dz ′ + α z ′ )
其中,K为主题z在文档d的总数。
上述各实施例所述的提取文档中关键词的装置同样用于执行上述各实施例所述的提取文档中关键词的方法,其技术原理和产生的技术效果类似,这里不再累述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (20)

1.一种提取文档中关键词的方法,其特征在于,包括:
根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
计算所述词向量和主题向量之间的距离;
根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
2.根据权利要求1所述的方法,其特征在于,计算所述词向量和主题向量之间的距离,包括:
根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题;
计算所述词向量和所述最优主题对应的主题向量之间的距离。
3.根据权利要求1所述的方法,其特征在于,计算所述词向量和主题向量之间的距离,包括:
根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和;
将加权和作为所述词向量和主题向量之间的距离。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述距离为余弦距离。
5.根据权利要求1-3任一项所述的方法,其特征在于,根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,包括:
将所述文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数;
对所述联合似然函数进行参数估计得到所述主题向量和词向量。
6.根据权利要求5所述的方法,其特征在于,根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数,包括:
通过计算公式得到所述初始词向量的生成概率;
根据所述计算公式得到所述训练资料库中所有文档的联合似然函数。
7.根据权利要求6所述的方法,其特征在于,根据所述计算公式得到联合似然函数之后,还包括:
采用吉布斯算法对所述联合似然函数进行处理,可得每个文档中每个句子对应的主题的条件分布;
根据所述条件分布中每个主题的条件分布概率为每个文档的每个句子确定特定主题;
根据所述特定主题的条件分布概率对所述联合似然函数进行处理,得到对数似然函数;
对所述联合似然函数进行参数估计得到所述主题向量和词向量,包括:
对所述对数似然函数进行参数估计得到所述主题向量和词向量。
8.根据权利要求7所述的方法,其特征在于,得到如公式四所述的对数似然函数之后,还包括:
采用牛顿迭代法对所述对数似然函数中的参数进行优化处理;
和/或,
采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
对所述对数似然函数进行参数估计得到所述主题向量和词向量,包括:
对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。
9.根据权利要求8所述的方法,其特征在于,采用负采样算法对词向量、主题向量和辅助向量进行优化,包括:
采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理,得到负采样似然函数;
采用随机梯度下降法对所述负采样似然函数进行处理,得到所述词向量的优化公式、主题向量的优化公式和辅助向量的优化公式。
10.根据权利要求6~9任一项所述的方法,其特征在于,还包括:
对所述联合似然函数进行参数估计的过程中得到每个文档的主题分布。
11.一种提取文档中关键词的装置,其特征在于,包括:
向量训练模块,用于根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
距离计算模块,用于计算所述词向量和主题向量之间的距离;
关键词提取模块,用于根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
12.根据权利要求11所述的装置,其特征在于,所述距离计算模块具体用于:
根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题;计算所述词向量和所述最优主题对应的主题向量之间的距离。
13.根据权利要求11所述的装置,其特征在于,所述距离计算模块具体用于:
根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和;将加权和作为所述词向量和主题向量之间的距离。
14.根据权利要求11-13任一项所述的装置,其特征在于,所述距离为余弦距离。
15.根据权利要求11-13任一项所述的装置,其特征在于,所述向量训练模块包括:
向量构建单元,用于将所述文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
联合似然函数建立单元,用于根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数;
参数估计单元,用于对所述联合似然函数进行参数估计得到所述主题向量和词向量。
16.根据权利要求15所述的装置,其特征在于,所述联合似然函数建立单元具体用于:
通过计算公式得到所述初始词向量的生成概率;
根据所述计算公式得到所述训练资料库中所有文档的联合似然函数。
17.根据权利要求16所述的装置,其特征在于,所述向量训练模块还包括:
联合似然函数处理单元,用于在所述联合似然函数建立单元根据所述计算公式一得到联合似然函数之后,采用吉布斯算法对所述联合似然函数进行处理,可得每个文档中每个句子对应的主题的条件分布;
根据所述条件分布中每个主题的条件分布概率为每个文档的每个句子确定特定主题;
根据所述特定主题的条件分布概率对所述联合似然函数进行处理,得到对数似然函数;
所述参数估计单元具体用于:
对所述对数似然函数进行参数估计得到所述主题向量和词向量。
18.根据权利要求17所述的装置,其特征在于,所述向量训练模块还包括:
对数似然函数优化处理单元,用于在所述联合似然函数处理单元得到对数似然函数之后,采用牛顿迭代法对所述对数似然函数中的参数进行优化处理;
和/或,
采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
所述参数估计单元具体用于:
对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。
19.根据权利要求18所述的装置,其特征在于,所述对数似然函数优化处理单元具体用于:
采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理,得到负采样似然函数;
采用随机梯度下降法对所述负采样似然函数进行处理,得到所述词向量的优化公式、主题向量的优化公式和辅助向量的优化公式。
20.根据权利要求16~19任一项所述的装置,其特征在于,所述参数估计单元还用于:
对所述联合似然函数进行参数估计的过程中得到每个文档的主题分布。
CN201510512363.8A 2015-08-19 2015-08-19 提取文档中关键词的方法及装置 Active CN105069143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510512363.8A CN105069143B (zh) 2015-08-19 2015-08-19 提取文档中关键词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510512363.8A CN105069143B (zh) 2015-08-19 2015-08-19 提取文档中关键词的方法及装置

Publications (2)

Publication Number Publication Date
CN105069143A true CN105069143A (zh) 2015-11-18
CN105069143B CN105069143B (zh) 2019-07-23

Family

ID=54498512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510512363.8A Active CN105069143B (zh) 2015-08-19 2015-08-19 提取文档中关键词的方法及装置

Country Status (1)

Country Link
CN (1) CN105069143B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740354A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106407316A (zh) * 2016-08-30 2017-02-15 北京航空航天大学 基于主题模型的软件问答推荐方法和装置
CN107220232A (zh) * 2017-04-06 2017-09-29 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN108399180A (zh) * 2017-02-08 2018-08-14 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109299465A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别***
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及***
CN109446516A (zh) * 2018-09-28 2019-03-08 北京赛博贝斯数据科技有限责任公司 一种基于主题推荐模型的数据处理方法及***
CN109815474A (zh) * 2017-11-20 2019-05-28 深圳市腾讯计算机***有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN110134957A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及***
CN110263122A (zh) * 2019-05-08 2019-09-20 北京奇艺世纪科技有限公司 一种关键词获取方法、装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009104296A (ja) * 2007-10-22 2009-05-14 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN102081660A (zh) * 2011-01-13 2011-06-01 西北工业大学 基于语义相关的xml文档关键字检索排序方法
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法
US20150199438A1 (en) * 2014-01-15 2015-07-16 Roman Talyansky Methods, apparatus, systems and computer readable media for use in keyword extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009104296A (ja) * 2007-10-22 2009-05-14 Nippon Telegr & Teleph Corp <Ntt> 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
CN102081660A (zh) * 2011-01-13 2011-06-01 西北工业大学 基于语义相关的xml文档关键字检索排序方法
US20150199438A1 (en) * 2014-01-15 2015-07-16 Roman Talyansky Methods, apparatus, systems and computer readable media for use in keyword extraction
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘知远: "基于文档主题结构的关键词抽取方法研究", 《WWW.THUNLP.ORG》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740354B (zh) * 2016-01-26 2018-11-30 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置
CN105740354A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106021272B (zh) * 2016-04-04 2019-11-19 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106407316A (zh) * 2016-08-30 2017-02-15 北京航空航天大学 基于主题模型的软件问答推荐方法和装置
CN106407316B (zh) * 2016-08-30 2020-05-15 北京航空航天大学 基于主题模型的软件问答推荐方法和装置
CN108399180B (zh) * 2017-02-08 2021-11-26 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN108399180A (zh) * 2017-02-08 2018-08-14 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN107220232A (zh) * 2017-04-06 2017-09-29 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN107220232B (zh) * 2017-04-06 2021-06-11 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN109815474A (zh) * 2017-11-20 2019-05-28 深圳市腾讯计算机***有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN109815474B (zh) * 2017-11-20 2022-09-23 深圳市腾讯计算机***有限公司 一种词序列向量确定方法、装置、服务器及存储介质
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN108984526B (zh) * 2018-07-10 2021-05-07 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109446516A (zh) * 2018-09-28 2019-03-08 北京赛博贝斯数据科技有限责任公司 一种基于主题推荐模型的数据处理方法及***
CN109446516B (zh) * 2018-09-28 2022-11-11 北京赛博贝斯数据科技有限责任公司 一种基于主题推荐模型的数据处理方法及***
CN109299465A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 基于多种算法提升文件关键词准确度的识别***
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及***
CN110263122A (zh) * 2019-05-08 2019-09-20 北京奇艺世纪科技有限公司 一种关键词获取方法、装置及计算机可读存储介质
CN110263122B (zh) * 2019-05-08 2022-05-17 北京奇艺世纪科技有限公司 一种关键词获取方法、装置及计算机可读存储介质
CN110134957A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及***
CN110134957B (zh) * 2019-05-14 2023-06-13 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及***

Also Published As

Publication number Publication date
CN105069143B (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN105069143A (zh) 提取文档中关键词的方法及装置
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106599029A (zh) 一种中文短文本聚类方法
CN105224695A (zh) 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN103870474A (zh) 一种新闻话题组织方法及装置
KR101668725B1 (ko) 잠재 키워드 생성 방법 및 장치
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及***
CN104239512A (zh) 一种文本推荐方法
CN105550170A (zh) 一种中文分词方法及装置
CN107885717A (zh) 一种关键词提取方法及装置
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、***及设备
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
WO2017136674A1 (en) Generating feature embeddings from a co-occurrence matrix
CN102629272A (zh) 一种基于聚类的考试***试题库优化方法
CN109740158A (zh) 一种文本语义解析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant