CN103744835A

CN103744835A - 一种基于主题模型的文本关键词提取方法

Info

Publication number: CN103744835A
Application number: CN201410000751.3A
Authority: CN
Inventors: 陈雪; 汤文清
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2014-04-23
Anticipated expiration: 2034-01-02
Also published as: CN103744835B

Abstract

本发明公开了一种基于主题模型的文本关键词提取方法，该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT，进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D，通过候选关键词词项的权重向量和文本的主题向量，利用候选关键词语主题的概率矩阵B进行循环计算操作，得到最终修正后的文本主题向量和词项权重比例向量，进而提取出文本的关键词。该方法降低文本由于不同长度所提取关键词的误差，提取更能适合表达文本内容的关键词。

Description

一种基于主题模型的文本关键词提取方法

技术领域

本发明涉及一种从文本中提取关键词的方法，更具体地说，涉及一种基于从主题模型中得到词项与主题之间的概率矩阵，然后利用该矩阵从文本中提取更能表达文本主题内容关键词的方法。

背景技术

利用计算机在对文本处理之前，需要对文本进行形式化表示。在传统的方法中，通常是从文本中提取的关键词来表示文本的内容。从文本中提取关键词，其中关键词的词频是作为一个非常重要的依据。但是，由于不同类型的文本的长度是不同，关键词的词频将会出现较大的误差。特别是对短文本，短文本中的很多词项仅仅只是出现一次。在上述情况下，若将词项的词频作为从文本中提取关键词的依据，势必难以获得较好的效果。而且传统的文本关键词提取方法并没有根据应用对所提取的方法进行偏向性地处理，使得传统提取文本关键词的泛型方法在特定的应用背景下，效果将进一步下降。2003年Bei.在Journal of Machine Learning Research发表的一篇名为“Latent Dirichlet Allocation”的论文，旨在构建一个更为完全概率生成模型的主题模型方法，使得不同长度的文本可以以相同的维度向量表示。而本发明正是基于Blei.的这篇论文所提出的主题模型，进而进行提取文本的关键词。

发明内容

本发明主要针对传统文本关键词提取技术的不足，提出一种基于主题模型的文本关键词提取方法，该方法降低不同类型文本由于不同长度所提取关键词的误差，得到更能表达文本内容的关键词。

为达到上述目的，本发明采用下述技术方案：

一种基于主题模型的文本关键词提取方法，其具体步骤如下：

(1)、利用主题模型的方法，从大量文本训练集中获取词项与主题之间的概率矩阵，该矩阵记为训练文本集的词项与主题的概率矩阵

Figure 2014100007513100002DEST_PATH_IMAGE001

；

(2)、对一个文本进行分词和去除停用词的预处理操作，得到相应的候选关键词集合A，然后根据候选关键词集合中的关键词，取出上述训练文本集的词项与主题的概率矩阵

中候选关键词对应的一行，生成候选关键词集合

对应的词项与主题之间的关系的词项与主题的概率矩阵；

(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵

中行的元素顺序，设置一个与候选关键词集合A中的元素对应的候选关键词向量

；

(4)、按照步骤(3)所述的候选关键词向量

Figure 2014100007513100002DEST_PATH_IMAGE005

中候选关键词顺序，统计候选关键词在文本中的词频，得到的词频再经下列式(a)计算，得到与候选关键词向量

对应的词频权重向量

，其表达式为：

， (a)

其中，

为第i个候选关键词在文本中的词频，i为候选关键词顺序编号；

(5)、设置一个与词项与主题的概率矩阵

中的列号对应的文本的主题向量

，该主题向量

中元素的初始值为步骤(2)词项与主题的概率矩阵

中对应列号上元素值之和，其表达式为：

，

其中，

为词项与主题的概率矩阵

中的第i行第j列的元素，

为词项与主题的概率矩阵

的行数，

为词项概率矩阵

的列数；

(6)、利用词项与主题的概率矩阵

、候选关键词向量

和文本的主题向量

进行计算，得到候选关键词对应的主题权重向量；

(7)、将候选关键词对应的主题权重向量

中的元素值乘上候选关键词词频权重向量

中对应的元素值，得到修正后的候选关键词主题权重向量

，其计算表达式为：

其中，为修正后的候选关键词主题权重向量

中的第i个元素，

为向量

中的第i个元素，

为向量

中的第i个元素，

根据修正后的候选关键词主题权重向量

中元素值的大小和设定的所需提取的关键词的个数k，对候选关键词集合A中的关键词进行排序，提取出其中最大的前k个元素值对应的k个候选关键词，由k个候选关键词组成文本的关键词集合

。

上述步骤(6)中利用词项与主题的概率矩阵

、候选关键词向量

和文本的主题向量进行循环计算，得到候选关键词对应的主题权重向量

，其具体步骤如下：

(6-1)、文本的主题向量进行归一化计算，得到归一化后的主题向量

；

(6-2)、将词项与主题的概率矩阵

和归一化后的主题向量

相乘，其相乘之积的值赋给候选关键词的暂存向量

，其计算公式如下：

(6-3)、对候选关键词的暂存向量进行归一化计算，得到归一化后的候选关键词向量

；

(6-4)、将词项与主题的概率矩阵

转置之后，再与候选关键词向量

相乘，其相乘之积的值赋给的文本的主题权重向量，其计算公式如下：

；

(6-5)、设置循环阈值（比如千分之一），重复步骤(6-1)到步骤(6-4)，一直到前后两次循环之间向量的每个元素对应的差值均小于设定的循环阈值，即停止，得到候选关键词对应的主题权重向量

。

本发明提出的一种基于主题模型的文本关键词提取方法与传统的关键词提取方法相比，具有如下特点：

本发明利用由主题模型训练得到的词项与主题的概率矩阵

得到候选关键词集合A中词项与主题的概率向量集合所组成的候选关键词与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D，通过本发明的方法，获取候选关键词的主题权重向量

，然后，根据需要提取候选关键词主题权重向量

中的最大的k个值所对应的候选关键词组成文本的关键词集合

。该方法降低各种文本由于不同长度所提取关键词的误差，提取更能适合表达文本内容的关键词。

附图说明

附图1是一种基于主题模型的文本关键词提取方法的流程示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步的详细描述。

如图1所示，一种基于主题模型的文本关键词提取方法，该方法的具体步骤如下：

S1、利用主题模型中的方法，从大量文本训练集中获取词项与主题之间的概率矩阵，该矩阵记为训练文本集的词项与主题的概率矩阵

；

S2、对一个文本进行分词和去除停用词的预处理操作，得到相应的候选关键词集合A，然后根据候选关键词集合

中的关键词，取出上述训练文本集的词项与主题的概率矩阵

中候选关键词对应的一行，生成候选关键词集合对应的词项与主题之间的关系的词项与主题的概率矩阵

；

假设从一篇文本中，得到的候选关键词集

=

，查询训练文本集的词项与主题的概率矩阵WT，得到候选关键词集合A中词项对应的主题向量集合所组成的词项与主题的概率矩阵B，假设该概率矩阵为：

S3、对候选关键词集合A中的元素按照词项与主题的概率矩阵中行的元素顺序，设置一个与候选关键词集合A中的元素对应的候选关键词向量

；

S4、按照步骤S3所述的候选关键词向量

中候选关键词顺序，统计候选关键词在文本中的词频，得到的词频再经下列式(a)计算，得到与候选关键词向量对应的词频权重向量，其表达式为：

， (a)

其中，

假设候选关键词向量

对应的词频权重向量D为：

C =

Figure 2014100007513100002DEST_PATH_IMAGE033

，

；

S5、设置一个与词项与主题的概率矩阵

中的列号对应的文本的主题向量

，该主题向量

中元素的初始值为步骤S2词项与主题的概率矩阵

中对应列号上元素值之和，其表达式为：

，

，

其中，

为词项与主题的概率矩阵

中的第i行第j列的元素，

为词项与主题的概率矩阵

的行数，

为词项概率矩阵的列数，因而可得上述主题向量

中元素的初始值为：；

S6、利用词项与主题的概率矩阵、候选关键词向量

和文本的主题向量进行计算，得到候选关键词对应的主题权重向量

，其具体步骤如下：

S6-1、文本的主题向量

进行归一化计算，得到归一化后的主题向量

，假设归一化之后的主题权重向量为：

；

S6-2、将词项与主题的概率矩阵

和归一化后的主题向量

相乘，其相乘之积为值赋给候选关键词的暂存向量

，其计算公式如下：

假设计算得到值赋后的候选关键词向量：

Figure 2014100007513100002DEST_PATH_IMAGE037

；

S6-3、对候选关键词的暂存向量

进行归一化计算，得到归一化后的候选关键词向量

；假设得到归一化之后的候选关键词向量：

；

S6-4、将词项与主题的概率矩阵

转置之后，再与候选关键词向量

相乘，其相乘之积的值赋给的文本的主题权重向量

，其计算公式如下：

，

假设计算得到该文本的主题权重向量为：

Figure 2014100007513100002DEST_PATH_IMAGE039

；

S6-5、设置循环阈值（比如千分之一），重复步骤S6-1到步骤S6-4，一直到前后两次循环之间向量

的每个元素对应的差值均小于设定的循环阈值，即停止，最终所得候选关键词权重向量并经过归一化处理之后的候选关键词对应的主题权重向量为：

Figure 2014100007513100002DEST_PATH_IMAGE041

，所得到文本主题类别向量并经归一化处理后的值赋后的文本的主题权重向量

为：

Figure 2014100007513100002DEST_PATH_IMAGE043

；

S7、将候选关键词对应的主题权重向量中的元素值乘上候选关键词词频权重向量

中对应的元素值，得到修正后的候选关键词主题权重向量

，其计算表达式为：

其中，

为修正后的候选关键词主题权重向量中的第i个元素，

为向量

中的第i个元素，

为向量

中的第i个元素，

根据修正后的候选关键词主题权重向量中元素值的大小和设定的所需提取的关键词的个数k，对候选关键词集合A中的关键词进行排序，提取出其中最大的前k个元素值对应的k个候选关键词，由k个候选关键词组成文本的关键词集合

。

，所得到的候选关键词按其对应的权重值从大到小排序为：词项3、词项2、词项5、词项1、词项4，若设置k值为3，所得到的文本关键词集合为：

Figure 2014100007513100002DEST_PATH_IMAGE045

。

Claims

1.一种基于主题模型的文本关键词提取方法，其特征在于，具体步骤如下：

Figure 2014100007513100001DEST_PATH_IMAGE002

；

(2)、对一个文本进行分词和去除停用词的预处理操作，得到相应的候选关键词集合A，然后根据候选关键词集合

Figure 2014100007513100001DEST_PATH_IMAGE004

中的关键词，取出上述训练文本集的词项与主题的概率矩阵

中候选关键词对应的一行，生成候选关键词集合

对应的词项与主题之间的关系的词项与主题的概率矩阵

Figure 2014100007513100001DEST_PATH_IMAGE006

；

(3)、对候选关键词集合A中的元素按照词项与主题的概率矩阵

Figure 2014100007513100001DEST_PATH_IMAGE008

；

(4)、按照步骤(3)所述的候选关键词向量

Figure 2014100007513100001DEST_PATH_IMAGE010

对应的候选关键词词频权重向量

Figure 2014100007513100001DEST_PATH_IMAGE012

，其表达式为：

Figure 2014100007513100001DEST_PATH_IMAGE014

， (a)

其中，

Figure 2014100007513100001DEST_PATH_IMAGE016

(5)、设置一个与词项与主题的概率矩阵

中的列号对应的文本的主题向量

Figure 2014100007513100001DEST_PATH_IMAGE018

，该主题向量

中元素的初始值为步骤(2)词项与主题的概率矩阵中对应列号上元素值之和，其表达式为：

，

Figure 2014100007513100001DEST_PATH_IMAGE022

，

其中，

Figure 2014100007513100001DEST_PATH_IMAGE024

为词项与主题的概率矩阵中的第i行第j列的元素，

Figure 2014100007513100001DEST_PATH_IMAGE026

为词项与主题的概率矩阵的行数，

为词项概率矩阵

的列数；

(6)、利用词项与主题的概率矩阵

、候选关键词向量和文本的主题向量进行循环计算，得到候选关键词对应的主题权重向量；

(7)、将候选关键词对应的主题权重向量

中的元素值乘上候选关键词词频权重向量

中对应的元素值，得到修正后的候选关键词主题权重向量

，其计算表达式为：

Figure 2014100007513100001DEST_PATH_IMAGE034

其中，

Figure 2014100007513100001DEST_PATH_IMAGE036

为修正后的候选关键词主题权重向量中的第i个元素，

Figure 2014100007513100001DEST_PATH_IMAGE038

为向量

中的第i个元素，

Figure 2014100007513100001DEST_PATH_IMAGE042

为向量

中的第i个元素，

根据修正后的候选关键词主题权重向量

Figure 2014100007513100001DEST_PATH_IMAGE046

。

2.根据权利要求1所述的一种基于主题模型的文本关键词提取方法，其特征在于，上述步骤(6)所述的利用词项与主题的概率矩阵

、候选关键词向量

，其具体步骤如下：

(6-1)、文本的主题向量

进行归一化计算，得到归一化后的主题向量

Figure 2014100007513100001DEST_PATH_IMAGE050

；

(6-2)、将词项与主题的概率矩阵和归一化后的主题向量

相乘，其相乘之积的值赋给候选关键词的暂存向量

Figure 2014100007513100001DEST_PATH_IMAGE052

，其计算公式如下：

Figure 2014100007513100001DEST_PATH_IMAGE054

(6-3)、对候选关键词的暂存向量

进行归一化计算，得到归一化后的候选关键词向量

；

(6-4)、将词项与主题的概率矩阵

转置之后，再与候选关键词向量相乘，其相乘之积的值赋给的文本的主题权重向量，其计算公式如下：

Figure 2014100007513100001DEST_PATH_IMAGE056

；

。