CN103744835A - 一种基于主题模型的文本关键词提取方法 - Google Patents

一种基于主题模型的文本关键词提取方法 Download PDF

Info

Publication number
CN103744835A
CN103744835A CN201410000751.3A CN201410000751A CN103744835A CN 103744835 A CN103744835 A CN 103744835A CN 201410000751 A CN201410000751 A CN 201410000751A CN 103744835 A CN103744835 A CN 103744835A
Authority
CN
China
Prior art keywords
candidate keywords
vector
theme
text
lexical item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410000751.3A
Other languages
English (en)
Other versions
CN103744835B (zh
Inventor
陈雪
汤文清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201410000751.3A priority Critical patent/CN103744835B/zh
Publication of CN103744835A publication Critical patent/CN103744835A/zh
Application granted granted Critical
Publication of CN103744835B publication Critical patent/CN103744835B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。

Description

一种基于主题模型的文本关键词提取方法
技术领域
本发明涉及一种从文本中提取关键词的方法,更具体地说,涉及一种基于从主题模型中得到词项与主题之间的概率矩阵,然后利用该矩阵从文本中提取更能表达文本主题内容关键词的方法。
背景技术
利用计算机在对文本处理之前,需要对文本进行形式化表示。在传统的方法中,通常是从文本中提取的关键词来表示文本的内容。从文本中提取关键词,其中关键词的词频是作为一个非常重要的依据。但是,由于不同类型的文本的长度是不同,关键词的词频将会出现较大的误差。特别是对短文本,短文本中的很多词项仅仅只是出现一次。在上述情况下,若将词项的词频作为从文本中提取关键词的依据,势必难以获得较好的效果。而且传统的文本关键词提取方法并没有根据应用对所提取的方法进行偏向性地处理,使得传统提取文本关键词的泛型方法在特定的应用背景下,效果将进一步下降。2003年Bei.在Journal of Machine Learning Research发表的一篇名为“Latent Dirichlet Allocation”的论文,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量表示。而本发明正是基于Blei.的这篇论文所提出的主题模型,进而进行提取文本的关键词。
发明内容
本发明主要针对传统文本关键词提取技术的不足,提出一种基于主题模型的文本关键词提取方法,该方法降低不同类型文本由于不同长度所提取关键词的误差,得到更能表达文本内容的关键词。
为达到上述目的,本发明采用下述技术方案:
一种基于主题模型的文本关键词提取方法,其具体步骤如下:
(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵                                                
Figure 2014100007513100002DEST_PATH_IMAGE001
; 
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合中的关键词,取出上述训练文本集的词项与主题的概率矩阵
Figure 948875DEST_PATH_IMAGE001
中候选关键词对应的一行,生成候选关键词集合
Figure 666295DEST_PATH_IMAGE002
对应的词项与主题之间的关系的词项与主题的概率矩阵
(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵
Figure 61505DEST_PATH_IMAGE003
中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量
Figure 813560DEST_PATH_IMAGE004
; 
(4)、按照步骤(3)所述的候选关键词向量
Figure 2014100007513100002DEST_PATH_IMAGE005
中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量
Figure 573706DEST_PATH_IMAGE005
对应的词频权重向量
Figure 840739DEST_PATH_IMAGE006
,其表达式为:    
Figure DEST_PATH_IMAGE007
, (a)
其中,
Figure 977322DEST_PATH_IMAGE008
为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
(5)、设置一个与词项与主题的概率矩阵
Figure 646201DEST_PATH_IMAGE003
中的列号对应的文本的主题向量
Figure DEST_PATH_IMAGE009
,该主题向量
Figure 577248DEST_PATH_IMAGE009
中元素的初始值为步骤(2)词项与主题的概率矩阵
Figure 331577DEST_PATH_IMAGE003
中对应列号上元素值之和,其表达式为: 
Figure 3342DEST_PATH_IMAGE010
其中, 
Figure 526728DEST_PATH_IMAGE012
为词项与主题的概率矩阵
Figure 894255DEST_PATH_IMAGE003
中的第i行第j列的元素, 
Figure DEST_PATH_IMAGE013
为词项与主题的概率矩阵
Figure 135881DEST_PATH_IMAGE003
的行数,
Figure 348687DEST_PATH_IMAGE014
为词项概率矩阵
Figure 992158DEST_PATH_IMAGE003
的列数;
(6)、利用词项与主题的概率矩阵
Figure 265008DEST_PATH_IMAGE003
、候选关键词向量
Figure 993929DEST_PATH_IMAGE005
和文本的主题向量
Figure 72744DEST_PATH_IMAGE009
进行计算,得到候选关键词对应的主题权重向量; 
(7)、将候选关键词对应的主题权重向量
Figure 508404DEST_PATH_IMAGE015
中的元素值乘上候选关键词词频权重向量
Figure 280051DEST_PATH_IMAGE006
中对应的元素值,得到修正后的候选关键词主题权重向量
Figure 168373DEST_PATH_IMAGE016
,其计算表达式为:
Figure DEST_PATH_IMAGE017
其中,为修正后的候选关键词主题权重向量
Figure 341045DEST_PATH_IMAGE016
中的第i个元素,
Figure DEST_PATH_IMAGE019
为向量
Figure 283593DEST_PATH_IMAGE020
中的第i个元素,
Figure DEST_PATH_IMAGE021
为向量
Figure 659211DEST_PATH_IMAGE022
中的第i个元素,
根据修正后的候选关键词主题权重向量
Figure DEST_PATH_IMAGE023
中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合
Figure 20441DEST_PATH_IMAGE024
上述步骤(6)中利用词项与主题的概率矩阵
Figure 493010DEST_PATH_IMAGE003
、候选关键词向量
Figure 544143DEST_PATH_IMAGE005
和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量
Figure 693682DEST_PATH_IMAGE015
,其具体步骤如下:
(6-1)、文本的主题向量进行归一化计算,得到归一化后的主题向量
Figure DEST_PATH_IMAGE025
(6-2)、将词项与主题的概率矩阵
Figure 977213DEST_PATH_IMAGE003
和归一化后的主题向量
Figure 327422DEST_PATH_IMAGE025
相乘,其相乘之积的值赋给候选关键词的暂存向量
Figure 355421DEST_PATH_IMAGE026
,其计算公式如下:
  
(6-3)、对候选关键词的暂存向量进行归一化计算,得到归一化后的候选关键词向量
Figure 664360DEST_PATH_IMAGE005
(6-4)、将词项与主题的概率矩阵
Figure 564183DEST_PATH_IMAGE003
转置之后,再与候选关键词向量
Figure 67976DEST_PATH_IMAGE005
相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下: 
Figure 369645DEST_PATH_IMAGE028
(6-5)、设置循环阈值(比如千分之一),重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量
Figure 55021DEST_PATH_IMAGE015
本发明提出的一种基于主题模型的文本关键词提取方法与传统的关键词提取方法相比,具有如下特点:
本发明利用由主题模型训练得到的词项与主题的概率矩阵
Figure 424823DEST_PATH_IMAGE001
得到候选关键词集合A中词项与主题的概率向量集合所组成的候选关键词与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过本发明的方法,获取候选关键词的主题权重向量
Figure 315418DEST_PATH_IMAGE023
,然后,根据需要提取候选关键词主题权重向量
Figure 50156DEST_PATH_IMAGE023
中的最大的k个值所对应的候选关键词组成文本的关键词集合
Figure 658992DEST_PATH_IMAGE024
。该方法降低各种文本由于不同长度所提取关键词的误差,提取更能适合表达文本内容的关键词。
附图说明
附图1是一种基于主题模型的文本关键词提取方法的流程示意图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细描述。
如图1所示,一种基于主题模型的文本关键词提取方法,该方法的具体步骤如下:
S1、利用主题模型中的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵
Figure 767238DEST_PATH_IMAGE001
S2、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合
Figure 777919DEST_PATH_IMAGE002
中的关键词,取出上述训练文本集的词项与主题的概率矩阵
Figure 745875DEST_PATH_IMAGE001
中候选关键词对应的一行,生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵
Figure 491294DEST_PATH_IMAGE003
假设从一篇文本中,得到的候选关键词集
Figure DEST_PATH_IMAGE029
=
Figure 294165DEST_PATH_IMAGE030
,查询训练文本集的词项与主题的概率矩阵WT,得到候选关键词集合A中词项对应的主题向量集合所组成的词项与主题的概率矩阵B,假设该概率矩阵为:
Figure 433022DEST_PATH_IMAGE032
S3、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量
Figure 203849DEST_PATH_IMAGE004
; 
S4、按照步骤S3所述的候选关键词向量
Figure 189123DEST_PATH_IMAGE005
中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量对应的词频权重向量,其表达式为:    
Figure 560695DEST_PATH_IMAGE007
,  (a)
其中,
Figure 338159DEST_PATH_IMAGE008
为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
假设候选关键词向量
Figure 818818DEST_PATH_IMAGE005
对应的词频权重向量D为: 
C = 
Figure 2014100007513100002DEST_PATH_IMAGE033
Figure 48943DEST_PATH_IMAGE034
S5、设置一个与词项与主题的概率矩阵
Figure 906040DEST_PATH_IMAGE003
中的列号对应的文本的主题向量
Figure 600327DEST_PATH_IMAGE009
,该主题向量
Figure 189571DEST_PATH_IMAGE009
中元素的初始值为步骤S2词项与主题的概率矩阵
Figure 234887DEST_PATH_IMAGE003
中对应列号上元素值之和,其表达式为: 
Figure 582428DEST_PATH_IMAGE010
Figure 131221DEST_PATH_IMAGE011
其中, 
Figure 219263DEST_PATH_IMAGE012
为词项与主题的概率矩阵
Figure 423979DEST_PATH_IMAGE003
中的第i行第j列的元素, 
Figure 622880DEST_PATH_IMAGE013
为词项与主题的概率矩阵
Figure 26179DEST_PATH_IMAGE003
的行数,
Figure 222805DEST_PATH_IMAGE014
为词项概率矩阵的列数,因而可得上述主题向量
Figure 714146DEST_PATH_IMAGE009
中元素的初始值为:
S6、利用词项与主题的概率矩阵、候选关键词向量
Figure 542742DEST_PATH_IMAGE005
和文本的主题向量进行计算,得到候选关键词对应的主题权重向量
Figure 59491DEST_PATH_IMAGE015
,其具体步骤如下:
S6-1、文本的主题向量
Figure 640645DEST_PATH_IMAGE009
进行归一化计算,得到归一化后的主题向量
Figure 975812DEST_PATH_IMAGE025
,假设归一化之后的主题权重向量为:
Figure 704733DEST_PATH_IMAGE036
S6-2、将词项与主题的概率矩阵
Figure 721231DEST_PATH_IMAGE003
和归一化后的主题向量
Figure 219208DEST_PATH_IMAGE025
相乘,其相乘之积为值赋给候选关键词的暂存向量
Figure 725276DEST_PATH_IMAGE026
,其计算公式如下:
Figure 879177DEST_PATH_IMAGE027
  
假设计算得到值赋后的候选关键词向量: 
Figure 2014100007513100002DEST_PATH_IMAGE037
S6-3、对候选关键词的暂存向量
Figure 696435DEST_PATH_IMAGE026
进行归一化计算,得到归一化后的候选关键词向量
Figure 48919DEST_PATH_IMAGE005
;假设得到归一化之后的候选关键词向量:
S6-4、将词项与主题的概率矩阵
Figure 367085DEST_PATH_IMAGE003
转置之后,再与候选关键词向量
Figure 787702DEST_PATH_IMAGE005
相乘,其相乘之积的值赋给的文本的主题权重向量
Figure 260272DEST_PATH_IMAGE009
,其计算公式如下:
Figure 45825DEST_PATH_IMAGE028
假设计算得到该文本的主题权重向量为:
Figure 2014100007513100002DEST_PATH_IMAGE039
S6-5、设置循环阈值(比如千分之一),重复步骤S6-1到步骤S6-4,一直到前后两次循环之间向量
Figure 971056DEST_PATH_IMAGE005
的每个元素对应的差值均小于设定的循环阈值,即停止,最终所得候选关键词权重向量并经过归一化处理之后的候选关键词对应的主题权重向量为:
Figure 2014100007513100002DEST_PATH_IMAGE041
, 所得到文本主题类别向量并经归一化处理后的值赋后的文本的主题权重向量
Figure 460123DEST_PATH_IMAGE042
为:
Figure 2014100007513100002DEST_PATH_IMAGE043
S7、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量
Figure 32367DEST_PATH_IMAGE006
中对应的元素值,得到修正后的候选关键词主题权重向量
Figure 794787DEST_PATH_IMAGE016
,其计算表达式为:
其中,
Figure 369305DEST_PATH_IMAGE018
为修正后的候选关键词主题权重向量中的第i个元素,
Figure 835238DEST_PATH_IMAGE019
为向量
Figure 809010DEST_PATH_IMAGE020
中的第i个元素,
Figure 435164DEST_PATH_IMAGE021
为向量
Figure 822283DEST_PATH_IMAGE022
中的第i个元素,
根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合
Figure 23292DEST_PATH_IMAGE024
,所得到的候选关键词按其对应的权重值从大到小排序为:词项3、词项2、词项5、词项1、词项4, 若设置k值为3,所得到的文本关键词集合为: 
Figure 2014100007513100002DEST_PATH_IMAGE045
。 

Claims (2)

1.一种基于主题模型的文本关键词提取方法,其特征在于,具体步骤如下:
(1)、利用主题模型的方法,从大量文本训练集中获取词项与主题之间的概率矩阵,该矩阵记为训练文本集的词项与主题的概率矩阵                                               
Figure 2014100007513100001DEST_PATH_IMAGE002
; 
(2)、对一个文本进行分词和去除停用词的预处理操作,得到相应的候选关键词集合A,然后根据候选关键词集合
Figure 2014100007513100001DEST_PATH_IMAGE004
中的关键词,取出上述训练文本集的词项与主题的概率矩阵
Figure 665326DEST_PATH_IMAGE002
中候选关键词对应的一行,生成候选关键词集合
Figure 436972DEST_PATH_IMAGE004
对应的词项与主题之间的关系的词项与主题的概率矩阵
Figure 2014100007513100001DEST_PATH_IMAGE006
(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵
Figure 449928DEST_PATH_IMAGE006
中行的元素顺序,设置一个与候选关键词集合A中的元素对应的候选关键词向量
Figure 2014100007513100001DEST_PATH_IMAGE008
; 
(4)、按照步骤(3)所述的候选关键词向量
Figure 2014100007513100001DEST_PATH_IMAGE010
中候选关键词顺序,统计候选关键词在文本中的词频,得到的词频再经下列式(a)计算,得到与候选关键词向量
Figure 394750DEST_PATH_IMAGE010
对应的候选关键词词频权重向量
Figure 2014100007513100001DEST_PATH_IMAGE012
,其表达式为:    
Figure 2014100007513100001DEST_PATH_IMAGE014
,  (a)
其中,
Figure 2014100007513100001DEST_PATH_IMAGE016
为第i个候选关键词在文本中的词频,i为候选关键词顺序编号;
(5)、设置一个与词项与主题的概率矩阵
Figure 809551DEST_PATH_IMAGE006
中的列号对应的文本的主题向量
Figure 2014100007513100001DEST_PATH_IMAGE018
,该主题向量
Figure 752099DEST_PATH_IMAGE018
中元素的初始值为步骤(2)词项与主题的概率矩阵中对应列号上元素值之和,其表达式为: 
Figure 2014100007513100001DEST_PATH_IMAGE022
其中, 
Figure 2014100007513100001DEST_PATH_IMAGE024
为词项与主题的概率矩阵中的第i行第j列的元素, 
Figure 2014100007513100001DEST_PATH_IMAGE026
为词项与主题的概率矩阵的行数,
Figure 2014100007513100001DEST_PATH_IMAGE028
为词项概率矩阵
Figure 398269DEST_PATH_IMAGE006
的列数;
(6)、利用词项与主题的概率矩阵
Figure 323500DEST_PATH_IMAGE006
、候选关键词向量和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量
(7)、将候选关键词对应的主题权重向量
Figure 955972DEST_PATH_IMAGE030
中的元素值乘上候选关键词词频权重向量
Figure 368499DEST_PATH_IMAGE012
中对应的元素值,得到修正后的候选关键词主题权重向量
Figure 2014100007513100001DEST_PATH_IMAGE032
,其计算表达式为:
Figure 2014100007513100001DEST_PATH_IMAGE034
其中,
Figure 2014100007513100001DEST_PATH_IMAGE036
为修正后的候选关键词主题权重向量中的第i个元素,
Figure 2014100007513100001DEST_PATH_IMAGE038
为向量
Figure 2014100007513100001DEST_PATH_IMAGE040
中的第i个元素,
Figure 2014100007513100001DEST_PATH_IMAGE042
为向量
Figure 2014100007513100001DEST_PATH_IMAGE044
中的第i个元素,
根据修正后的候选关键词主题权重向量
Figure 2014100007513100001DEST_PATH_IMAGE046
中元素值的大小和设定的所需提取的关键词的个数k,对候选关键词集合A中的关键词进行排序,提取出其中最大的前k个元素值对应的k个候选关键词,由k个候选关键词组成文本的关键词集合
Figure 2014100007513100001DEST_PATH_IMAGE048
2.根据权利要求1所述的一种基于主题模型的文本关键词提取方法,其特征在于,上述步骤(6)所述的利用词项与主题的概率矩阵
Figure 765031DEST_PATH_IMAGE006
、候选关键词向量
Figure 954704DEST_PATH_IMAGE010
和文本的主题向量进行循环计算,得到候选关键词对应的主题权重向量
Figure 482955DEST_PATH_IMAGE030
,其具体步骤如下:
(6-1)、文本的主题向量
Figure 784623DEST_PATH_IMAGE018
进行归一化计算,得到归一化后的主题向量
Figure 2014100007513100001DEST_PATH_IMAGE050
(6-2)、将词项与主题的概率矩阵和归一化后的主题向量
Figure 594633DEST_PATH_IMAGE050
相乘,其相乘之积的值赋给候选关键词的暂存向量
Figure 2014100007513100001DEST_PATH_IMAGE052
,其计算公式如下:
Figure 2014100007513100001DEST_PATH_IMAGE054
  
(6-3)、对候选关键词的暂存向量
Figure 26751DEST_PATH_IMAGE052
进行归一化计算,得到归一化后的候选关键词向量
Figure 917347DEST_PATH_IMAGE010
(6-4)、将词项与主题的概率矩阵
Figure 714402DEST_PATH_IMAGE006
转置之后,再与候选关键词向量相乘,其相乘之积的值赋给的文本的主题权重向量,其计算公式如下:
Figure 2014100007513100001DEST_PATH_IMAGE056
(6-5)、设置循环阈值(比如千分之一),重复步骤(6-1)到步骤(6-4),一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值,即停止,得到候选关键词对应的主题权重向量
Figure 634975DEST_PATH_IMAGE030
CN201410000751.3A 2014-01-02 2014-01-02 一种基于主题模型的文本关键词提取方法 Expired - Fee Related CN103744835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410000751.3A CN103744835B (zh) 2014-01-02 2014-01-02 一种基于主题模型的文本关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410000751.3A CN103744835B (zh) 2014-01-02 2014-01-02 一种基于主题模型的文本关键词提取方法

Publications (2)

Publication Number Publication Date
CN103744835A true CN103744835A (zh) 2014-04-23
CN103744835B CN103744835B (zh) 2016-12-07

Family

ID=50501853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410000751.3A Expired - Fee Related CN103744835B (zh) 2014-01-02 2014-01-02 一种基于主题模型的文本关键词提取方法

Country Status (1)

Country Link
CN (1) CN103744835B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置
CN106611059A (zh) * 2016-12-28 2017-05-03 北京小米移动软件有限公司 推荐多媒体文件的方法及装置
CN107220232A (zh) * 2017-04-06 2017-09-29 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN108229684A (zh) * 2018-01-26 2018-06-29 中国科学技术信息研究所 构建专家知识向量模型的方法、装置及终端设备
CN108280173A (zh) * 2018-01-22 2018-07-13 深圳市和讯华谷信息技术有限公司 一种非结构化文本的关键信息挖掘方法、介质及设备
CN108334533A (zh) * 2017-10-20 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN108536762A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种大批量文本数据自动分析方案
CN109325121A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN109902152A (zh) * 2019-03-21 2019-06-18 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN110019639A (zh) * 2017-07-18 2019-07-16 腾讯科技(北京)有限公司 数据处理方法、装置及存储介质
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及***
CN110751867A (zh) * 2019-11-27 2020-02-04 上海乂学教育科技有限公司 英文教学***
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111753048A (zh) * 2020-05-21 2020-10-09 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质
CN112037774A (zh) * 2017-10-24 2020-12-04 北京嘀嘀无限科技发展有限公司 用于关键短语识别的***和方法
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及***
CN116756347A (zh) * 2023-08-21 2023-09-15 中国标准化研究院 一种基于大数据的语义信息检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629266A (zh) * 2012-03-08 2012-08-08 上海大学 一种基于调和级数的文本图结构表示模型
US8380714B2 (en) * 2009-12-09 2013-02-19 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
CN103164521A (zh) * 2013-03-11 2013-06-19 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380714B2 (en) * 2009-12-09 2013-02-19 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
CN102629266A (zh) * 2012-03-08 2012-08-08 上海大学 一种基于调和级数的文本图结构表示模型
CN103164521A (zh) * 2013-03-11 2013-06-19 亿赞普(北京)科技有限公司 一种基于用户浏览和搜索行为的关键词计算方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID M.BLEI ET AL.: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》, 31 December 2003 (2003-12-31) *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN104391942B (zh) * 2014-11-25 2017-12-01 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN106528894B (zh) * 2016-12-28 2019-11-15 北京小米移动软件有限公司 设置标签信息的方法及装置
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置
CN106611059A (zh) * 2016-12-28 2017-05-03 北京小米移动软件有限公司 推荐多媒体文件的方法及装置
CN107220232B (zh) * 2017-04-06 2021-06-11 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN107220232A (zh) * 2017-04-06 2017-09-29 北京百度网讯科技有限公司 基于人工智能的关键词提取方法及装置、设备与可读介质
CN110019639A (zh) * 2017-07-18 2019-07-16 腾讯科技(北京)有限公司 数据处理方法、装置及存储介质
CN110019639B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 数据处理方法、装置及存储介质
US11194965B2 (en) 2017-10-20 2021-12-07 Tencent Technology (Shenzhen) Company Limited Keyword extraction method and apparatus, storage medium, and electronic apparatus
CN108334533A (zh) * 2017-10-20 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN112037774A (zh) * 2017-10-24 2020-12-04 北京嘀嘀无限科技发展有限公司 用于关键短语识别的***和方法
CN112037774B (zh) * 2017-10-24 2024-04-26 北京嘀嘀无限科技发展有限公司 用于关键短语识别的***和方法
CN108280173A (zh) * 2018-01-22 2018-07-13 深圳市和讯华谷信息技术有限公司 一种非结构化文本的关键信息挖掘方法、介质及设备
CN108280173B (zh) * 2018-01-22 2021-05-11 深圳市和讯华谷信息技术有限公司 一种非结构化文本的关键信息挖掘方法、介质及设备
CN108229684B (zh) * 2018-01-26 2022-04-15 中国科学技术信息研究所 构建专家知识向量模型的方法、装置及终端设备
CN108229684A (zh) * 2018-01-26 2018-06-29 中国科学技术信息研究所 构建专家知识向量模型的方法、装置及终端设备
CN108536762A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种大批量文本数据自动分析方案
CN109325121A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于确定文本的关键词的方法和装置
CN109684458A (zh) * 2018-12-26 2019-04-26 北京壹捌零数字技术有限公司 一种语句向量的计算方法及装置
CN109902152A (zh) * 2019-03-21 2019-06-18 北京百度网讯科技有限公司 用于检索信息的方法和装置
CN110263343B (zh) * 2019-06-24 2021-06-15 北京理工大学 基于短语向量的关键词抽取方法及***
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及***
CN110751867A (zh) * 2019-11-27 2020-02-04 上海乂学教育科技有限公司 英文教学***
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111428489B (zh) * 2020-03-19 2023-08-29 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111753048A (zh) * 2020-05-21 2020-10-09 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及***
CN116756347A (zh) * 2023-08-21 2023-09-15 中国标准化研究院 一种基于大数据的语义信息检索方法
CN116756347B (zh) * 2023-08-21 2023-10-27 中国标准化研究院 一种基于大数据的语义信息检索方法

Also Published As

Publication number Publication date
CN103744835B (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN103744835A (zh) 一种基于主题模型的文本关键词提取方法
CN105243438B (zh) 一种考虑径流不确定性的多年调节水库优化调度方法
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN103761239A (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN109933792B (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其***
CN104574192A (zh) 在多个社交网络中识别同一用户的方法及装置
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
TW201220233A (en) by which category information of long tail keywords is provided for users within a specified time period
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
CN105069143A (zh) 提取文档中关键词的方法及装置
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和***
CN102194012A (zh) 微博话题检测方法及***
Tian Extracting keywords with modified TextRank model
CN106202065A (zh) 一种跨语言话题检测方法及***
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN106919699A (zh) 一种面向大规模用户的个性化信息推荐方法
Meng et al. Improving short text classification using public search engines
CN103744918A (zh) 基于垂直领域的微博搜索排序方法及***
CN104636486A (zh) 一种基于非负交替方向变换的用户特征抽取方法及抽取装置
CN101887415A (zh) 一种文本文档主题词义的自动提取方法
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN104077274B (zh) 一种从文档集中抽取热词短语的方法和装置
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
Shu et al. An improved adaboost algorithm based on uncertain functions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161207

Termination date: 20190102