CN103258000B

CN103258000B - 对网页中高频关键词进行聚类的方法及装置

Info

Publication number: CN103258000B
Application number: CN201310108943.1A
Authority: CN
Inventors: 李学科
Original assignee: Northern Horizon (beijing) Software Co Ltd
Current assignee: Northern horizon (Beijing) Software Co., Ltd.
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2017-02-08
Anticipated expiration: 2033-03-29
Also published as: CN103258000A

Abstract

本发明提供一种对多个网页中高频关键词进行聚类的方法和装置，涉及互联网领域。该方法包括：抓取多个网页对应的多个网页文档；对抓取到的多个网页文档中的各个网页文档进行分词以获取多个词语；确定各个网页文档对应的关键词组合，其中，关键词组合包括表征对应网页文档内容的关键词；从多个关键词组合中获取高频关键词，其中，高频关键词为多个关键词组合中在预设时间周期内满足预设条件的关键词；以及按相似度对高频关键词进行聚类，以获得同类高频关键词。通过聚类，将具有关联性的网页文档划分在同一类别中，从而使用户更加方便地阅读同一类别的网页文档，简化了用户对信息的搜集，节省了用户的时间。

Description

对网页中高频关键词进行聚类的方法及装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种对网页中高频关键词进行聚类的方法及装置。

背景技术

在互联网信息急剧增加的情况下，如何发现最有价值的信息是尚未解决的问题。因为信息会通过多种渠道和形式发布，甚至出现同一条信息有不同描述的情况，为读者准确获取某类别的信息带来一定障碍。

为了有效获取不同类型的信息，现有技术会对多篇网页文档进行聚类，然而，现有技术的聚类方式是基于网页文档全文的，由于网页文档全文的信息量较大，对全文的聚类需耗费较大工作量；同时，全文里涉及内容较多，一些词语并不能反映文档的主要内容，这些词语会影响文档聚类的准确性。因此，对通过全文对网页文档进行聚类不能满足对信息的聚类要求。

发明内容

本发明实施例提供一种对网页中高频关键词进行聚类的方法和装置，以提供对网页文档更准确的分类方案。

本发明为了实现上述目的，提供一种对多个网页中高频关键词进行聚类的方法，包括：抓取所述多个网页对应的多个网页文档；对抓取到的所述多个网页文档中的各个网页文档进行分词以获取多个词语；确定各个网页文档对应的关键词组合，其中，所述关键词组合包括表征对应网页文档内容的关键词；从多个关键词组合中获取高频关键词，其中，所述高频关键词为多个关键词组合中在预设时间周期内满足预设条件的关键词；以及按相似度对所述高频关键词进行聚类，以获得同类高频关键词。

在一个实施例中，确定各个网页文档对应的关键词组合包括：随机组成多个当前代词语组合；计算所述多个当前代词语组合与所述网页文档的匹配程度，获得当前代最优个体；对所述多个当前代词语组合进行重组操作，得到多个新一代词语组合；计算所述多个新一代词语组合与所述网页文档的多个新匹配程度，获得新一代最优个体；判断所述新一代最优个体对应的新匹配程度是否满足预设匹配条件；以及在所述新匹配程度不满足所述预设匹配条件时，重复所述重组操作，在所述新匹配程度满足所述预设匹配条件时，将所述新一代最优个体确定为所述关键词组合。

在一个实施例中，计算所述词语组合与所述网页文档的匹配程度包括：获取网页文档中的词语总数量；根据词频和反向文档频计算各词语的词频值；根据所述词语组合中各词语的词频值和所述网页文档的词语总数量对所述词语组合进行矢量化，得到词语组合矢量；根据所述网页文档中各词语的词频值和所述网页文档的词语总数量对所述网页文档进行矢量化，得到文档矢量；以及根据所述词语组合矢量和所述文档矢量的矢量参数计算所述词语组合的个体适应度，其中，所述个体适应度作为所述匹配程度的依据。

在一个实施例中，从多个关键词组合中获取高频关键词包括：分别获取所述多个网页文档对应的所述关键词组合中所述多个关键词的访问数量，所述访问数量为在所述预设时间周期内所述关键词组合对应网页文档的独立访客数量；将所述访问数量满足预设数量条件的关键词确定为所述多个网页文档的高频关键词。

在一个实施例中，按相似度对所述高频关键词进行聚类包括：分别获取所述多个网页文档对应的所述关键词组合中所述多个关键词的访问数量，所述访问数量为在所述预设时间周期内所述关键词组合对应网页文档的独立访客数量；获取各关键词的访问数量在所述预设时间周期内随时间的变化趋势；将所述变化趋势的相似系数满足预设系数条件的多个关键词作为同类高频关键词。

在一个实施例中，在按相似度对所述高频关键词进行聚类之后，所述方法还包括：将所述同类高频关键词对应的网页文档以话题的形式推送至用户。

在一个实施例中，抓取所述多个网页对应的所述多个网页文档中包括：确定各个网页中各行的字数；计算各个网页的字数的标准差；在一个网页中，当连续多行的字数大于所述标准差时，确定字数大于标准差的连续多行的文字为网页文档。

本发明为了实现上述目的，提供一种对多个网页中高频关键词进行聚类的装置，包括：抓取单元，用于抓取所述多个网页对应的多个网页文档；分词单元，用于对抓取到的所述多个网页文档中的各个网页文档进行分词以获取多个词语；确定单元，用于确定各个网页文档对应的关键词组合，其中，所述关键词组合包括表征对应网页文档内容的关键词；获取单元，用于从多个关键词组合中获取高频关键词，其中，所述高频关键词为多个关键词组合中在预设时间周期内满足预设条件的关键词；聚类单元，用于按相似度对所述高频关键词进行聚类，以获得同类高频关键词。

在一个实施例中，所述确定单元包括：组合子单元，用于随机组成多个当前代词语组合；第一计算子单元，用于计算所述当前代词语组合与所述网页文档的匹配程度，获得当前代最优词语组合；重组子单元，用于对所述多个当前代词语组合进行重组操作，得到多个新一代词语组合；第二计算子单元，用于计算所述多个新一代词语组合与所述网页文档的多个新匹配程度，获得新一代最优词语组合；判断子单元，用于判断所述新一代最优词语组合对应的新匹配程度是否满足预设匹配条件，以及确定子单元，在所述新匹配程度不满足所述预设匹配条件时，重复所述重组操作，在所述新匹配程度满足所述预设匹配条件时，将所述新一代最优个体确定为所述关键词组合。

在一个实施例中，所述第二计算子单元包括：获取模块，用于获取网页文档中的词语总数量；第一计算模块，用于根据词频和反向文档频计算各词语的词频值；第一矢量模块，用于根据所述词语组合中各词语的词频值和所述网页文档的词语总数量对所述词语组合进行矢量化，得到词语组合矢量；第二矢量模块，用于根据所述网页文档中各词语的词频值和所述网页文档的词语总数量对所述网页文档进行矢量化，得到文档矢量；以及第二计算模块，用于根据所述词语组合矢量和所述文档矢量的矢量参数计算所述词语组合的个体适应度，其中，所述个体适应度作为所述匹配程度的依据。

本发明为了实现上述目的，提供一种对多个文档进行分类的方法，包括：获取所述多个文档；对所述多个文档分别进行分词以获取多个词语；确定每个文档对应的关键词组合，其中，所述关键词组合包括表征对应文档内容的关键词；将包括相同关键词的文档分到相同类别。

在一个实施例中，确定文档对应的关键词组合包括：通过遗传算法从所述关键词中确定关键词组合。

在一个实施例中，通过遗传算法从所述关键词中确定关键词组合包括：将所述多个词语初始化为多个词语组合；对所述多个词语组合进行复制、交叉及变异操作，获得下一代词语组合；计算所述下一代词语组合与所述文档的匹配程度；以及在所述匹配程度满足预设条件时终止所述遗传算法，得到所述关键词组合。

在一个实施例中，计算经过所述遗传算法的所述词语组合与所述文档的匹配程度包括：获取文档中的词语总数量；根据词频和反向文档频计算各词语的词频值；根据所述词语组合中各词语的词频值和所述文档的词语总数量对所述词语组合进行矢量化，得到词语组合矢量；根据所述文档中各词语的词频值和所述文档的词语总数量对所述文档进行矢量化，得到文档矢量；以及根据所述词语组合矢量和所述文档矢量的矢量参数计算所述词语组合的个体适应度，其中，所述个体适应度作为所述匹配程度的依据。

本发明为了实现上述目的，提供一种对多个文档进行分类的装置，包括：获取单元，用于获取所述多个文档；分词单元，对所述多个文档分别进行分词以获取多个词语；确定单元，用于确定每个文档对应的关键词组合，其中，所述关键词组合包括表征对应文档内容的关键词；分类单元，用于将包括相同关键词的文档分到相同类别。

在一个实施例中，所述确定单元还用于：通过遗传算法从所述关键词中确定关键词组合。

在一个实施例中，所述确定单元包括：组合子单元，用于将所述多个词语初始化为多个词语组合；处理子单元，用于对所述多个词语组合进行复制、交叉及变异操作，获得下一代词语组合；计算子单元，用于计算所述下一代词语组合与所述文档的匹配程度；以及终止子单元，用于在所述匹配程度满足预设条件时终止所述遗传算法，得到所述关键词组合。

本发明通过提取关键词组合来准确和全面地反映网页文档的内容，再对组合中的关键词重新聚类，将具有关联性的网页文档划分在同一话题中，从而使用户更加方便地阅读同一话题的网页文档，简化了用户对信息的搜集，节省了用户的时间。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的对多个网页中高频关键词进行聚类的方法的流程图；

图2是根据本发明实施例的关键词组合的确定方法的流程图；

图3是根据本发明实施例的适应度计算方法的流程图；

图4A是根据本发明实施例的获取同类高频关键词方法的流程图；

图4B为根据本发明实施例的关键词聚类二叉树示意图，

图5是根据发明实施例的对多个网页中高频关键词进行聚类的装置的结构框图；

图6是根据本发明实施例的确定单元的结构框图；

图7是根据本发明实施例的第一计算子单元的结构框图；

图8是根据本发明实施例的聚类单元510的结构框图；

图9是根据本发明实施例的对文档进行分类的方法的流程图；

图10是根据本发明实施例的文档的分类装置的结构框图；

图11是根据本发明实施例的确定单元1006的结构框图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本实施例的目的之一是对信息进行聚类，形成话题，话题是高频关键词组合，高频关键词是满足一定条件的表征文档内容的关键词，通过确定不同话题，便于互联网用户更加便捷地获取所需的信息。

基于此，本发明实施例提供了一种对多个网页中高频关键词进行聚类的方法。

图1是根据本发明实施例的对多个网页中高频关键词进行聚类的方法的流程图。

如图1所示，该方法包括如下的步骤S102至步骤S110。

步骤S102，抓取多个网页对应的多个网页文档。

本步骤可具体按以下方式完成：

首先，从浏览器日志中提取用户访问记录，包括用户唯一识别标识和用户访问过的统一资源定位符（Uniform Resource Locator，URL），为避免重复抓取，可根据URL的哈希值进行排重过滤。

然后，遍历排重后的URL集合抓取网页源码。

接着，可以对超文本标记语言（Hypertext Markup Language，HTML）进行格式化，因不规范的HTML代码及噪音数据会严重影响正文提取的效果，所以首先对原始HTML代码进行格式化。补齐不对称的HTML标签（如”<tr><td>表格”，格式化后为”<tr><td>表格</td></tr>”），使用正则表达式初步删除噪音数据（如javascript和css代码等）。

为了更加准确的获取网页文本内容的信息，还可以获取多个网页文档。首先可以确定各个网页文本中各行的字数，以回车符作为换行标识，计算每行的字数LN，本实施例中的字数可以指非标签字符的字数。然后计算各个网页或整篇文档的字数的标准差SD。在一个网页中，当连续多行的字数大于标准差时，确定字数大于标准差的连续多行的文字为网页文档。具体地，字数超过标准差的行间距均值LS，从网页文本中选取多个目标区块，最终的网页文档从目标区块中得出，目标区块可以根据以下标准进行选取：以LN>SD的行作为目标区块开始，以n表示当前行下标，若n+LS行中不存在任意行字数超过SD，则第n行作为目标区块结束，在本实施例中，开始行和结束行为同一行的，不被认为是目标区块。

例如，格式化后的HTML源码字数分布如下：

以上举例计算可得：字数标准差SD=4.4，超过标准差的行间距均值LS=1，所以可以从该网页文档中选取两个目标区块，以行标表示分别为目标区块一{3,4,5}和目标区块二{9,10}，因为目标区块一的字数最多，所以确定目标区块一内的文本为网页文档。

返回图1中的步骤S104，对抓取到的多个网页文档中的各个网页文档进行分词以获取多个词语。

分词过程基于词库的正向最大匹配，非词库中的连续出现的英文数字混排字符也会作分词处理。

首先可以获取词库，其中，词库中包括常用的词汇，例如各常用的动词和名词。

然后将网页文档中的文字与词库匹配以进行分词。例如对于“我想看电影”，分别可以和词库里的“我”“想”“看”和“电影”匹配，因此，不会出现“看电”这样的分词。

步骤S106，确定各个网页文档对应的关键词组合，其中，关键词组合包括表征对应网页文档内容的关键词。一般来讲，每个网页文档唯一对应一个关键词组合。

关键词组合中词语的数量可预先设置，当多个词语组成的特定组合与网页文档的匹配程度满足预设匹配程度时，确定特定组合为关键词组合。例如预设一篇网页文档的关键词组合由4个关键词组成，当某网页文档中由“中国”“鸟巢”“08”“奥运”组成的词语组合与该网页文档的匹配程度满足预设匹配程度时，那么这个词语组合就是这篇网页文档的关键词组合。

图2是根据本发明实施例的关键词组合的确定方法的流程图。

步骤S202，随机组成多个当前代词语组合。

本步骤通过随机组成词语组合进行种群初始化。在利用遗传算法对网页文档中的关键词进行计算时，种群、个体及基因的相应定义如下：种群为多组词语组合，其中每个词语组合为单独个体，每个词语组合中的一个词语即为基因。种群、个体、基因的关系为：多个词语（基因）组成一个词语组合（个体），多个词语组合（个体）组成一个种群。

对各篇文章中的所有词语进行种群初始化，即将这些词语随机分为多个词语组合，定义这多个词语组合为种群，例如，某篇文档共包括X个词语，预设每个词语组合包括N个词语，将该X个词语分为Y个词语组合（X=N*Y），Y个词语组合称为一个种群，N个词语组成的一个词语组合称为一个体。种群大小，即个体数指该种群的Y值，一个种群的种群大小和个体数可以进行预设。

步骤S204，计算当前代词语组合与网页文档的匹配程度，获得当前代最优词语组合。在本实施例中，以词语组合的个体适应度作为匹配程度的依据。匹配度最高的词语组合为当前代的最优个体。

图3是根据本发明实施例的适应度计算方法的流程图。

步骤S302，获取网页文档中的词语总数量。例如，一篇网页文档中有10个不同词语，则词语总数量为10。

步骤S304，根据词频（Term Frequency,TF）和反向文档频（Inverse DocumentFrequency,IF）计算各词语的词频值。

具体地，在本篇网页文档中出现频率越高，则词频越高，在其他网页文档中出现频率越低，则反向文档频越高，例如，在西游记的某一个章节中，“孙悟空”出现频率很高，TF为3，而“孙悟空”在另一篇网页文档中出现次数很少，IDF可能为5，根据用户需求设置一个词频值的计算公式，带入TF和IDF的值，则可以算出该词语的词频值。

步骤S306，根据词语组合中各词语的词频值和网页文档的词语总数量对词语组合进行矢量化。

通过本步骤可以得到词语组合矢量。例如，网页文档由3个不同的词语组成，关键词组合包含2个词语，因此建立一个3维坐标系。如果以上3个词的词频值分别是1，2，3，则第一个词语经矢量化得到的矢量为（1,0,0,），第二个词语经矢量化得到的矢量为（0,2,0），第三个词语经矢量化得到的矢量为（0,0,3），通过矢量相加即可得到每个词语组合的矢量，本实施例中可能出现的词语组合的矢量为（1,2,0）、（0,2,3）和（1,0,3）。

步骤S308，每篇网页文档同样也有一个对应的文档矢量，根据该网页文档中各词语的词频值和网页文档的词语总数量对该网页文档进行矢量化，可以得到该网页文档的文档矢量。

步骤S310，根据词语组合矢量与文档矢量的矢量参数计算该词语组合的个体适应度，其中，个体适应度作为匹配程度的依据。个体适应度的计算函数根据不同的需求而不同，词语组合矢量与文档矢量越匹配，则该词语组合的个体适应度越高，个体适应度最高的词语组合即为该网页文档的关键词组合。

本实施例还可以认为矢量之间的夹角最小的为最匹配，或者矢量端点间距离最短的为最匹配，或者以直方图的形式来表示，在直方图中高度与网页文档最接近的词语组合为该网页文档的关键词组合。

返回图2，步骤S206，对当前代词语组合进行重组操作，得到新一代词语组合。重组操作具体可以表现为复制、交叉及变异。

在针对网页文档的本实施例中，复制为将某个体直接遗传到下一代，即选取一些词语组合直接作为新一代词语组合中的成员；交叉为将两个个体的部分基因相互替换，生成新个体遗传到下一代，即将两个词语组合中的某些词语进行相互替换，得到新一代词语组合中的成员；变异为个体中的某个基因随机更换成别的基因生成新的个体遗传到下一代，即将某个词语组合中的个别词语更换成其他词语。例如，有第一个体（a，b）和第二个体（c，d），将（a，b）直接遗传到下一代为复制，将（a，b）和（c，d）的相互替换变为（a，c）和（b，d）遗传到下一代为交叉，直接将（a，b）变为（a，d）遗传到下一代为变异。

步骤S208，计算新一代词语组合与网页的新匹配程度，获得新一代最优词语组合。该计算方法可参照图3的适应度计算方法。在一个实施例中，当步骤S204已针对当前代词语组合与网页文档的匹配程度进行过计算后，步骤S302获取多个网页文档中的词语总数量及步骤S304根据词频和反向文档频计算各词语的词频值步骤可被省略。新一代词语组合中对应新匹配程度最高的词语组合可作为新一代的最优词语组合。

步骤S210，判断新一代最优词语组合的匹配程度是否满足预设匹配条件，例如，该预设匹配条件可以为以下两种，其中，如前所述，匹配程度及对应个体适应度：

例一，可对最优个体适应度连续不变的迭代代数进行预先指定。例如指定代数阈值n，在n代内种群最优个体的个体适应度不变，则最后一代的最优词语组合为关键词组合。具体地，假设阈值n为5，则在5代内，例如第1代、第2代、第3代、第4代及第5代连续5代内，最优个体的适应度值保持不变，则第5代的最优词语组合为关键词组合。

例二，可将下述公式（1）作为预设匹配条件：

Σ_{x = n - m - 1}^{n - 1} S (x) > Σ_{x = n - m}^{n} S (x) - - - (1)

其中，n为当前代数，m为指定的阈值，S（x）为第x代最优个体的个体适应度。也即，当从第n-m-1代至第n-1代共计m代的最优个体的适应度总和大于从第n-m代至第n代共计m代的最优个体适应度总和时，终止进化。例如：当n=10,m=5时，即当前为第10代，预先指定的代数为5时，从第4代至第9代共计5代的最优个体适应度总和大于或等于从第5代至第10代共计5代的最优个体适应度总和时，最后一代的最优个体即为关键词组合。

步骤S212，当所述新匹配程度不满足该预设匹配条件时，重复重组操作，在新匹配程度满足该预设匹配条件时，将新一代最优词语组合确定为关键词组合。

步骤S214，在确定关键词组合后，终止迭代。

返回图1的步骤S108，从多个关键词组合中获取高频关键词，其中，高频关键词为多组关键词组合中在预设时间周期内满足预设条件的关键词。

在本步骤中，可以获取多个网页文档在预设时间周期内的独立访客数量（UniqueVisitor，UV）并将每个网页文档的UV定义为该文档对应的关键词组合中多个关键词的访问数量；将访问数量在预设数量条件以上的关键词定义为该多个网页文档的高频关键词，具体地，包括以下步骤S1至S3。

S1，统计每个网页的预定时间周期内的UV，并以此作为关键词的访问数量，本实施例中的UV定义如下：同一用户N(N≥1)次访问同一网页，UV为1。

S2，根据步骤S1的数据绘制每个关键词的时间-访问数量走势图，由此可得出每个关键词在预设时间周期内最大访问数量和最大单位时间访问数量，即斜率。

S3，噪音关键词过滤：将访问数量满足预设数量条件的关键词作为高频关键词。例如，取所有关键词最大斜率的平均值为预设数量条件对关键词进行筛选，将最大斜率在该预设数量以下的关键词删去。

本实施例将高频关键词涉及的内容作为舆论关注的热点，通过高频关键词可以快速准确找出当前的热点信息。

返回图1中的步骤S110，按相似度对高频关键词进行聚类，以获得同类高频关键词。该获取同类高频关键词方法的流程图如图4A所示。

步骤S402，分别获取多个网页文档对应的多个关键词组合中的多个关键词的访问数量。该访问数量定义为在预设时间周期内该关键词组合对应的网页文档的UV，例如，预设时间周期为3天，则计算3天内网页文档的UV，该UV即为该网页文档对应的关键词组合中各个关键词的访问数量。

步骤S404，获取各关键词的访问数量在预设时间周期内随时间的变化趋势，例如，建立坐标系，该坐标系的横坐标为时间，纵坐标为某关键词的访问数量，获得该关键词的变化趋势。

步骤S406，将变化趋势的相似系数满足预设系数条件的多个关键词作为同类高频关键词。

本实施例可根据皮尔逊相关系数计算每两个关键词曲线的相似系数S，如下述公式（2）所示：

S = \frac{NΣXY - ΣXΣY}{\sqrt{(NΣ X^{2} - {(ΣX)}^{2}) (NΣ Y^{2} - {(ΣY)}^{2})}} - - - (2)

其中，N为预定时间周期，X为一个关键词的变化趋势曲线，Y为另一个关键词的变化趋势曲线。

在完成所有的两个关键词曲线的相似系数的计算后，可依据关键词之间的相似系数S做分层聚类，根据相似系数大小顺序排列，得出关键词聚类二叉树，其中，每个叶子节点表示一个关键词的变化趋势曲线，非叶子节点表示两个叶子节点之间的相似系数，父叶子节点表示某叶子节点的次近关键词的变化趋势曲线。例如，图4B为根据本发明实施例的关键词聚类二叉树示意图，如图所示，关键词聚类二叉树400包括叶子节点410、412、414及非叶子节点422、432。其中，非叶子节点422表示叶子节点412与414之间的相似系数，叶子节点410为叶子节点412、414的父叶子节点，非叶子节点432表示父叶子节点410与叶子节点412、414之间数值较高的相似系数。

例如，当两个关键词分别为“海监”及“***”时，叶子节点412与414分别代表“海监”的变化趋势曲线（X）和“***”（Y）的变化趋势曲线，非叶子节点422即为根据上述公式（2）所计算的相似系数S，例如：0.5。

得到聚类二叉树400后，从聚类二叉树的叶子节点开始遍历，在原始文档中检索包含两个最近叶子节点关键词的文档，若可以找到，加上父节点上的关键词再次检索，直至检索不到文档为止。由此可得出描述多个话题的词语组合。

仍以上述实例进行说明，如果父叶子节点410表示的关键词为“中国”的变化趋势曲线，计算所得其与叶子节点412、414之间数值较高的相似系数为0.5，则继续检索，一篇文档中是否同时出现“海监”和***”和“中国”，若存在，则继续检索；如果父叶子节点为“钓鱼帽”的变化趋势曲线，计算所得其与叶子节点412、414之间数值较高的相似系数为0.3，检索发现没有文档中同时出现“海监”和***”和“钓鱼帽”，则钓鱼帽无法与“海监”和“***”聚类。

通过以上聚类，可以将杂乱无序的文档按内容进行分类，便于对文档的管理。

完成话题的聚类后，就可以将同类高频关键词对应的网页文档以话题的形式推送至用户。

例如，某用户在看过一篇近期发表的关于***的文章后，***自动将其他近期发表的关于***的文章推送给该用户。

从以上的描述中，可以看出，本发明实施例使用户更加方便地阅读同一话题的网页文档，简化了用户对信息的搜集，节省了用户的时间。

本发明实施例还提供了一种对多个网页中高频关键词进行聚类的装置，以下对本发明实施例所提供的该装置进行介绍。

图5是根据发明实施例的对多个网页中高频关键词进行聚类的装置的结构框图。

如图5所示，该装置包括抓取单元502、分词单元504、确定单元506、获取单元508和聚类单元510。

抓取单元502用于抓取多个网页对应的多个网页文档。

分词单元504用于对抓取到的多个网页文档中的各个网页文档进行分词以获取多个词语。

确定单元506用于各个网页文档对应的关键词组合，其中，关键词组合包括表征对应网页文档内容的关键词。

具体地，确定单元506可以当多个词语组成的特定组合与网页文档的匹配程度大于或等于任意由相同个数的词语组成的词语组合时，确定特定组合为关键词组合。

为了实现上述功能，确定单元506可以包括多个子单元，图6是根据本发明实施例的确定单元的结构框图，如图6所示，确定单元506包括：

组合子单元602，用于随机组成多个当前代词语组合。

第一计算子单元604，用于计算当前代词语组合与网页文档的匹配程度，获得当前代最优词语组合。

重组子单元606，用于对当前代词语组合进行重组操作，得到新一代词语组合。重组操作具体可以表现为复制、交叉及变异。

第二计算子单元608，用于计算新一代词语组合与网页的新匹配程度，获得新一代最优词语组合。

在上述实施例中，第一计算子单元604可以包括多个模块，图7是根据本发明实施例的第一计算子单元的结构框图，如图7所示，第一计算子单元604包括以下模块：

获取模块702，用于获取网页文档中的词语总数量。

第一计算模块704，用于根据词频和反向文档频计算各词语的词频值。

第一矢量模块706，用于根据词语组合中各词语的词频值和网页文档的词语总数量对词语组合进行矢量化。

第二矢量模块708，用于根据该网页文档中各词语的词频值和网页文档的词语总数量对该网页文档进行矢量化。

第二计算模块710，用于根据词语组合矢量与文档矢量的矢量参数计算该词语组合的个体适应度。

获取单元508用于从多个关键词组合中获取高频关键词，其中，高频关键词为多组关键词组合中在预设时间周期内满足预设条件的关键词。

聚类单元510用于按相似度对高频关键词进行聚类，以获得同类高频关键词。

图8是根据本发明实施例的聚类单元510的结构框图，如图8所示，聚类单元510包括：

第一获取子单元802，用于分别获取多个网页文档对应的多个关键词组合中的多个关键词的访问数量。

第二获取子单元804，用于获取各关键词的访问数量在预设时间周期内随时间的变化趋势，例如，建立坐标系，该坐标系的横坐标为时间，纵坐标为某关键词的访问数量，获得该关键词的变化趋势。

聚类子单元806，用于将变化趋势的相似系数满足预设系数条件的多个关键词作为同类高频关键词。

以上各单元和子单元的作用和功能对应于方法实施例中的步骤，各单元和模块的作用和功能在此不再赘述。

在本实施例中，通过提取关键词组合来准确和全面地反映网页文档的内容，再对组合中的关键词重新聚类，将具有关联性的网页文档划分在同一话题中，从而使用户更加方便地阅读同一话题的网页文档，简化了用户对信息的搜集，节省了用户的时间。

本实施例还提供了另一种对文档进行分类的方法，该方法可以多篇文档进行分类，图9是根据本发明实施例的对文档进行分类的方法的流程图，如图9所示，该方法包括步骤S902至S908。

步骤S902，读取多个文档。

在本步骤中读取的文档既可以是网页文档，也可以是本地文档。在对该文档进行分类时，可以不考虑时效性和阅读次数。

步骤S904，对读取到的多个文档进行分词以获取多个词语。

步骤S906，确定文档对应的关键词组合，其中，关键词词组包括表征对应文档的内容的词语，关键词组合中的词语为关键词。

本方法中的分词方法和确定关键词的方法类似于上述对多个网页中高频关键词进行聚类的方法，例如，可以通过遗传算法从关键词中确定关键词组合。

具体地，通过遗传算法确定关键词组合可以包括以下步骤：

首先，将多个词语初始化为组成词语组合。

然后，对词语组合进行复制、交叉及变异操作，获得下一代词语组合。

继而，计算下一代词语组合与文档的匹配程度。

进一步地，计算匹配程度的过程可以通过以下五步实现。

第一步，获取文档中的词语总数量。例如文档共有1000个不同词语。

第二步，根据词频和反向文档频计算各词语的词频值。例如每多出现一次，词频值加1。

第三步，根据词语组合中各词语的词频值和文档的词语总数量对词语组合进行矢量化，得到词语组合矢量。

第四步，根据文档中各词语的词频值和文档的词语总数量对文档进行矢量化，得到文档矢量。

第五步，根据词语组合矢量和文档矢量的矢量参数计算词语组合的个体适应度，其中，个体适应度作为匹配程度的依据。

回到通过遗传算法确定关键词组合的方法中，最后，在匹配程度满足预设条件时终止遗传算法，得到关键词组合。

以上步骤的具体实现过程已在前述实施例具体描述，在此不再赘述。

回到图9所示步骤S908，将包括相同关键词的文档分到相同类别。

例如，关键词中都包括“足球”的文档可以分到同一类别。

同时，同一篇文章可以被分到多个类别中，例如，一篇文档描述了总统观看足球赛，关键词包括“总统”和“足球”，那么该文档可以既归入涉及体育的“足球”类别，也归入涉及政治的“总统”类别。

通过分类，提高了文档阅读时的用户体验。

相应地，本实施例还提供了一种文档的分类装置。图10是根据本发明实施例的文档的分类装置的结构框图。

如图10所示，该装置包括读取单元1002、分词单元1004、确定单元1006和分类单元1008。

读取单元1002用于读取多个文档。

分词单元1004用于对读取到的多个文档进行分词以获取多个词语。

确定单元1006用于确定文档对应的关键词组合，其中，关键词词组包括表征对应文档的内容的词语，关键词组合中的词语为关键词。

确定单元1006具体可以通过遗传算法从关键词中确定关键词组合。

为了实现确定关键词组合的功能，确定单元1006可以包括多个子单元，图11是根据本发明实施例的确定单元1006的结构框图，如图11所示，确定单元1006包括以下子单元：

初始化子单元1102，用于将多个词语初始化为多个词语组合。

处理子单元1104，用于对词语组合进行复制、交叉及变异操作，获得下一代词语组合。

计算子单元1106，用于计算下一代词语组合与文档的匹配程度。

获取子单元1108，用于在匹配程度满足预设条件时终止遗传算法，得到关键词组合。

回到图9所示的装置，分类单元1008用于将包括相同关键词的文档分到相同类别。

通过本装置，可以对多篇文档进行分类，从而方便用户的阅读。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对多个网页中高频关键词进行聚类的方法，其特征在于，包括：

抓取所述多个网页对应的多个网页文档；

对抓取到的所述多个网页文档中的各个网页文档进行分词以获取多个词语；

确定各个网页文档对应的关键词组合，其中，所述关键词组合包括表征对应网页文档内容的关键词；

从多个关键词组合中获取高频关键词，其中，所述高频关键词为多个关键词组合中在预设时间周期内满足预设条件的关键词；以及

按相似度对所述高频关键词进行聚类，以获得同类高频关键词；

从多个关键词组合中获取高频关键词包括：分别获取所述多个网页文档对应的所述关键词组合中所述多个关键词的访问数量，所述访问数量为在所述预设时间周期内所述关键词组合对应网页文档的独立访客数量；以及

将所述访问数量满足预设数量条件的关键词确定为所述多个网页文档的高频关键词；

所述按相似度对所述高频关键词进行聚类包括：分别获取所述多个网页文档对应的所述关键词组合中所述多个关键词的访问数量，所述访问数量为在所述预设时间周期内所述关键词组合对应网页文档的独立访客数量；

获取各关键词的访问数量在所述预设时间周期内随时间的变化趋势；以及将所述变化趋势的相似系数满足预设系数条件的多个关键词作为同类高频关键词。

2.根据权利要求1所述的方法，其特征在于，确定各个网页文档对应的关键词组合包括：

随机组成多个当前代词语组合；

计算所述多个当前代词语组合与所述网页文档的匹配程度，获得当前代最优个体；

对所述多个当前代词语组合进行重组操作，得到多个新一代词语组合；

计算所述多个新一代词语组合与所述网页文档的多个新匹配程度，获得新一代最优个体；

判断所述新一代最优个体对应的新匹配程度是否满足预设匹配条件；以及

在所述新匹配程度不满足所述预设匹配条件时，重复所述重组操作，在所述新匹配程度满足所述预设匹配条件时，将所述新一代最优个体确定为所述关键词组合。

3.根据权利要求2所述的方法，其特征在于，计算所述词语组合与所述网页文档的匹配程度包括：

获取网页文档中的词语总数量；

根据词频和反向文档频计算各词语的词频值；

根据所述词语组合中各词语的词频值和所述网页文档的词语总数量对所述词语组合进行矢量化，得到词语组合矢量；

根据所述网页文档中各词语的词频值和所述网页文档的词语总数量对所述网页文档进行矢量化，得到文档矢量；以及

根据所述词语组合矢量和所述文档矢量的矢量参数计算所述词语组合的个体适应度，其中，所述个体适应度作为所述匹配程度的依据。

4.根据权利要求1所述的方法，其特征在于，在按相似度对所述高频关键词进行聚类之后，所述方法还包括：

将所述同类高频关键词对应的网页文档以话题的形式推送至用户。

5.根据权利要求1所述的方法，其特征在于，抓取所述多个网页对应的所述多个网页文档中包括：

确定各个网页中各行的字数；

计算各个网页的字数的标准差；以及

在一个网页中，当连续多行的字数大于所述标准差时，确定字数大于标准差的连续多行的文字为网页文档。

6.一种对多个网页中高频关键词进行聚类的装置，其特征在于，包括：

抓取单元，用于抓取所述多个网页对应的多个网页文档；

分词单元，用于对抓取到的所述多个网页文档中的各个网页文档进行分词以获取多个词语；

确定单元，用于确定各个网页文档对应的关键词组合，其中，所述关键词组合包括表征对应网页文档内容的关键词；

获取单元，用于从多个关键词组合中获取高频关键词，其中，所述高频关键词为多个关键词组合中在预设时间周期内满足预设条件的关键词；以及从多个关键词组合中获取高频关键词包括：分别获取所述多个网页文档对应的所述关键词组合中所述多个关键词的访问数量，所述访问数量为在所述预设时间周期内所述关键词组合对应网页文档的独立访客数量；以及将所述访问数量满足预设数量条件的关键词确定为所述多个网页文档的高频关键词；

聚类单元，用于按相似度对所述高频关键词进行聚类，以获得同类高频关键词；

所述聚类单元包括：第一获取子单元，用于分别获取多个网页文档对应的多个关键词组合中的多个关键词的访问数量，所述访问数量为在所述预设时间周期内所述关键词组合对应网页文档的独立访客数量；

第二获取子单元，用于获取各关键词的访问数量在预设时间周期内随时间的变化趋势；

聚类子单元，用于将变化趋势的相似系数满足预设系数条件的多个关键词作为同类高频关键词。

7.根据权利要求6所述的装置，其特征在于，所述确定单元包括：

组合子单元，用于随机组成多个当前代词语组合；

第一计算子单元，用于计算所述当前代词语组合与所述网页文档的匹配程度，获得当前代最优词语组合；

重组子单元，用于对所述多个当前代词语组合进行重组操作，得到多个新一代词语组合；

第二计算子单元，用于计算所述多个新一代词语组合与所述网页文档的多个新匹配程度，获得新一代最优词语组合；

判断子单元，用于判断所述新一代最优词语组合对应的新匹配程度是否满足预设匹配条件，以及

确定子单元，在所述新匹配程度不满足所述预设匹配条件时，重复所述重组操作，在所述新匹配程度满足所述预设匹配条件时，将所述新一代最优个体确定为所述关键词组合。

8.根据权利要求7所述的装置，其特征在于，所述第二计算子单元包括：

获取模块，用于获取网页文档中的词语总数量；

第一计算模块，用于根据词频和反向文档频计算各词语的词频值；

第一矢量模块，用于根据所述词语组合中各词语的词频值和所述网页文档的词语总数量对所述词语组合进行矢量化，得到词语组合矢量；

第二矢量模块，用于根据所述网页文档中各词语的词频值和所述网页文档的词语总数量对所述网页文档进行矢量化，得到文档矢量；以及

第二计算模块，用于根据所述词语组合矢量和所述文档矢量的矢量参数计算所述词语组合的个体适应度，其中，所述个体适应度作为所述匹配程度的依据。