CN103744951A

CN103744951A - 一种对文本中关键词重要性的排序方法

Info

Publication number: CN103744951A
Application number: CN201410000706.8A
Authority: CN
Inventors: 陈雪; 汤文清
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-01-02
Filing date: 2014-01-02
Publication date: 2014-04-23
Anticipated expiration: 2034-01-02

Abstract

本发明公开了一种对文本中关键词重要性的排序方法，该方法首先对一篇文本进行分词操作，然后去除停用词，得到该文本的关键词集合；然后统计关键词的词频，得到关键词对应词频向量；将具有断句功能的标点符号设为共现窗口的分界端点，统计词项之间的共现信息，得到关键词的共现矩阵，并从关键词的共现矩阵，得到关键词的共现的分布情况的向量；对关键词的共现矩阵进行处理，得到由关键词共现关系判断出的关键词重要性向量；然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合，得到关键词在文本中综合的重要性；最后根据计算所得的关键词的重要性大小，对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性，提高判断在文本中关键词重要性的准确度和可信度。

Description

一种对文本中关键词重要性的排序方法

技术领域

本发明涉及一种对文本中的关键词的重要性的排序方法，该方法是综合利用关键词的词频、词项之间的共现关系和词共现的分布情况，计算文本中关键词的重要性，实现文本中关键词的重要性顺序。

背景技术

在文本处理领域中，提取文本中重要的关键词，然后用来代表该文本，再继续完成相应的任务。要想提取文本中重要的关键词，实质上是需要对关键词的重要性进行排序。在不引入外界知识的情况，依赖于关键词的词频、词项的共现关系判断关键词重要性方法，有二种：一种是，仅利用关键词的词频信息，判断关键词的重要性。具体是，主要是统计文本中关键词的词频，生成对应的词频向量，然后根据词频向量中值的大小对关键词进行排序，从而得到关键词的重要性顺序。另一种利用关键词的词项之间的共现关系，也是判断关键词重要性的一个重要依据。但是，前面所述的方法仅利用关键词的词频和词项之间的共现关系中的一种信息，依据一种信息对文本中的关键词重要性进行判断。显然，该方法会使关键词重要性的判断依据不全面，判断结果的可信度较差。

发明内容

本发明的目的在于针对目前在文本处理领域中对关键词重要性的判断存在的不足，提供一种对文本中关键词重要性的排序方法，该方法综合利用词频、词项之间的共现关系和词项的共现分布，计算文本中关键词的重要性，并根据关键词的重要性，对其进行排序，从而提高判断在文本中关键词重要性的准确度和可信度。

为了实现上述目的，本发明的构思是：首先对一篇文本进行分词操作，然后去除停用词，得到该文本的关键词集合；然后统计关键词的词频，得到关键词对应词频向量；将具有断句功能的标点符号设为共现窗口的分界端点，统计词项之间的共现信息，得到关键词的共现矩阵，并从关键词的共现矩阵，得到关键词的共现的分布情况的向量；对关键词的共现矩阵进行处理，得到由关键词共现关系判断出的关键词重要性向量；然后将由关键词共现关系判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行整合，得到关键词在文本中综合的重要性；最后根据计算所得的关键词的重要性大小，对关键词进行排序。

根据上面的发明构思，本发明采用下述的技术方案：

一种对文本中关键词重要性的排序方法，其具体步骤如下：

(1)、对文本进行分词操作，并且去除文本中的停用词，保留文本中具有断句功能的标点符号，将文本中的关键词组合成关键词集合，记为A；

(2)、统计关键词集合A中关键词的词频，将统计的关键词的词频生成关键词的词频向量，记为B；

(3)、按关键词的词频向量B中的词项的顺序，统计文本中关键词之间的共现关系，得到关键词集合A中每个关键词与其他关键词共现的向量，将上述关键词的共现向量组成一个关键词的共现矩阵，记为C；

(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量，记为D，关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同，关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数，记为：

，其中，n为关键词的个数；

(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理，得到由关键词的共现矩阵因素获得的关键词权重向量，记为F；

(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘，得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量，记为G；

(7)、利用TF-IDF计算公式中的IDF，对由关键词的共现矩阵因素和关键词的词频因素生成关键词权重向量G上的各个元素分别乘以

，则得到最终的关键词权重向量，记为H，向量H中元素的表达式为：

其中，h_i为最终的关键词权重向量H的第i个元素；g_i为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重向量G的第i个元素；

为关键词的个数，为关键词的共现矩阵C中第i行不为零的元素个数；

(8)、根据关键词的最终权重向量H中各元素的值，从大到小排序，每个元素的值的顺序是其值对应的关键词，在该文本中的重要性的顺序。

上述步骤（5）中对关键词的共现矩阵C与关键词权重的初始向量D进行处理，得到由关键词的共现矩阵因素获得的关键词权重向量，记为F，其具体的步骤如下：

（5-1）将关键词的共现矩阵C与关键词权重的初始向量D相乘，得到关键词的词项中间过渡向量，记为E；

（5-2）对关键词的词项中间过渡向量E进行归一化处理，并将归一化后的得到的结果向量，记为向量E’；

（5-3）、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T，若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T，则将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6)；否则，将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素，然后跳转到步骤(5-1)。

本发明的一种对文本中关键词重要性的排序方法与传统技术相比较，具有如下的优点：

本发明利用TF-IDF公式中词项在文本集合单篇文本中引入关键词共现关系的分布信息，并将其与关键词的词频和关键词之间的共现关系，三者进行融合起来，来判断文本中的关键词重要性，再对文本中关键词的重要性进行排序，能够提高判断在文本中关键词重要性的准确度和可信度。

附图说明

图1是本发明的一种对文本中关键词重要性的排序方法的流程图。

具体实施方式

以下结合附图对本发明的实施实例做出详述的说明。本发明的一种对文本中关键词重要性的排序方法，如图1所示，其具体步骤如下：

(1)、对文本进行分词操作，并且去除文本中的停用词，保留文本中具有断句功能的标点符号，将文本中的关键词组合成关键词集合，记为A，例如，关键词集合A={数据挖掘，分类，算法，决策树}；

(2)、统计关键词集合A中关键词的词频将统计的关键词的词频生成关键词的的词频向量，记为B，例如，关键词的的词频向量B = [9,6,11,11]；

(3)、按关键词的词频向量B中的词项的顺序，统计文本中关键词之间的共现关系，得到关键词集合A中每个关键词语其他关键词共现向量，将上述关键词的共现向量组成一个关键词的共现矩阵，记为C；例如，

按照关键词的词频向量B中的词项顺序，以标点符号中的断号，比如，句号等为分界号，统计关键词之间的共现关系，得到关键词的共现矩阵，其表达式为：

C=，

若两个分界号之间只有一个关键词，则认为一个关键词本身与本身共现关系；

(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量，记为D，关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同，关键词权重的共现初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数，记为：

，其中，n为关键词的个数，例如，关键词的个数n=4，则关键词权重的初始向量

；

(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理，得到由关键词的共现矩阵因素获得的关键词权重向量，记为F，其具体的步骤如下：

（5-1）将关键词的共现矩阵C与关键词权重的初始向量D相乘，得到的结果向量，记为关键词的词项中间过渡向量，记为E，例如，

；

（5-2）对关键词的词项中间过渡向量E进行归一化处理，并将归一化后的得到的结果向量，记为E’，例如

；

（5-3）、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T，若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T，即可将结果向量E’中每个元素的值赋给关键词权重向量F，然后跳转到步骤(6)；否则，将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素，然后跳转到步骤(5-1)，例如，将阈值T设置为千分之一，经比较可知，结果向量

与关键词权重的初始向量

之间的有元素的差值大于阈值，则需要再重复步骤（5-1）至步骤（5-3），直到满足差值小于阈值为于千分之一条件，则结果向量

；然后将结果向量E’的值赋给关键词权重向量F，则关键词权重向量

；

(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘，由关键词权重向量F和关键词的词频向量B生成关键词权重向量，记为G，例如，

；

，则得到最终的关键词权重向量，记为H，其向量表达式为：

其中， h_i为最终的关键词权重向量H的第i个元素；g_i为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重向量G的第i个元素；，

为关键词的个数，

为关键词的共现矩阵C中第i行不为零的元素个数，例如，最终的关键词权重向量H，其表达式为：

(8)、根据关键词的最终权重向量H中各元素的值，从大到小排序，每个元素的值的顺序就是其值对应的关键词，即关键词重要性向量H中各个元素的值的大小顺序是在该文本中的重要性顺序，例如，关键词重要性向量H中各个元素的值的大小顺序是：2.9825>2.2875>1.5907>0.6355，所以，对应的关键词顺序为：决策树、算法、数据挖掘、分类。

Claims

1.一种对文本中关键词重要性的排序方法，其特征在于，其具体步骤如下：

Figure 2014100007068100001DEST_PATH_IMAGE002

，其中，n为关键词的个数；

Figure 2014100007068100001DEST_PATH_IMAGE004

Figure 2014100007068100001DEST_PATH_IMAGE006

2.根据权利要求1所述的一种对文本中关键词重要性的排序方法，其特征在于，上述步骤（5）所述的对关键词的共现矩阵C与关键词权重的初始向量D进行处理，得到由关键词的共现矩阵因素获得的关键词权重向量，记为F，其具体的步骤如下：