CN104881458A

CN104881458A - 一种网页主题的标注方法和装置

Info

Publication number: CN104881458A
Application number: CN201510266108.XA
Authority: CN
Inventors: 李扬曦; 杜翠兰; 李睿; 佟玲玲; 翟羽佳; 王晶; 刘洋; 秦韬; 付戈
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2015-09-02
Anticipated expiration: 2035-05-22
Also published as: CN104881458B

Abstract

本发明公开了一种网页主题的标注方法和装置。所述方法包括：基于网页的标题和正文，获得所述网页的主题特征向量；利用预先训练获得的分类器，对所述主题特征向量进行分类处理；判断是否存在所述主题特征向量所属的类型；若是，则将所述网页标注为所述主题特征向量所属的类型；若否，则将所述网页标记为待标注网页；进一步地，对多个待标注网页进行聚类处理；分析出每个聚类集合的类型；将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式，自动的从网页中获取主题并标注网页，有效提高了网页主题标注的效率和准确性。

Description

一种网页主题的标注方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种网页主题的标注方法和装置。

背景技术

通过分析互联网网页内容，来提取并标注网页主题是互联网数据管理和挖掘等应用的重要基础。目前，网页主题标注多采用关键词匹配方法，通过将网页标题和部分预设关键词进行匹配实现网页的标注。但是，这种直接匹配的做法过于简单，而且，如果网页标题中的关键词发生变化，则该方法将无法准确标注主题，网页标准的准确率将无法保证。另一种网页主题标注是采用聚类的方法，对网页进行聚类，从聚为一类的网页中提取关键词作为这一类网页的标注。但是，由于聚类算法较为耗时，当待标注的网页数量较多时，这类算法的实用性较差，而且仅使用无监督学习算法的网页标注准确率不高。

发明内容

本发明提供一种网页主题的标注方法和装置，用以解决现有技术中网页主题标注准确率低的问题。

基于上述技术问题，本发明是通过以下技术方案来解决的。

本发明提供了一种网页主题的标注方法，包括：基于网页的标题和正文，获得所述网页的主题特征向量；利用预先训练获得的分类器，对所述主题特征向量进行分类处理；判断是否存在所述主题特征向量所属的类型；若是，则将所述网页标注为所述主题特征向量所属的类型；若否，则将所述网页标记为待标注网页；进一步地，对多个待标注网页进行聚类处理；分析出每个聚类集合的类型；将待标注网页标注为其所属的聚类集合的类型。

其中，基于网页的标题和正文，获得所述网页的主题特征向量，包括：分别提取网页中的标题和正文；根据所述标题，构建标题特征向量；根据所述正文，构建正文特征向量；将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。

其中，根据所述标题构建网页标题特征向量，包括：利用预先构建的标题词典，对所述标题进行分词处理，获得标题分词；将所述标题分词映射到所述标题词典中；基于所述标题分词的加权值，对所述标题词典进行加权处理，构建出所述网页的标题特征向量。

其中，根据所述正文构建网页正文特征向量，包括：利用预先构建的正文词典，对所述正文进行分词处理，获得多个正文分词，并记录每个所述正文分词在所述正文中的出现顺序；将多个所述正文分词分别映射到所述正文词典中；基于每个正文分词的加权值和出现顺序，对所述正文词典进行加权处理，构建所述网页的正文特征向量。

其中，利用预先训练获得的分类器，对所述主题特征向量进行分类处理，包括：预先定义多种网页类型；所述分类器针对每种类型，对所述网页的主题特征向量进行一次评分；将每种类型的对应的评分分值分别与预设的标注阈值进行比较；将大于所述标注阈值的评分分值对应的类型，判定为所述主题特征向量所属的类型；其中，所述主题特征向量所属的类型为一个或多个。

其中，分析聚类集合的类型，包括：分别提取聚类集合中每个待标注网页的标题和正文；利用预先构建的标题词典，对所有标题进行分词处理，获得多个标题分词；利用预先构建的正文词典，对所有正文进行分词处理，获得多个正文分词；在多个所述标题分词和多个所述正文分词中，获取出现频率最多的分词，以作为所述聚类集合的类型。

本发明还提供了一种网页主题的标注装置，包括：获得模块，用于基于网页的标题和正文，获得所述网页的主题特征向量；分类模块，用于利用预先训练获得的分类器，对所述主题特征向量进行分类处理；判断模块，用于判断是否存在所述主题特征向量所属的类型；标注模块，用于在所述判断模块判定存在所述主题特征向量所属的类型的情况下，将所述网页标注为所述主题特征向量所属的类型；标记模块，用于在所述判断模块判定不存在所述主题特征向量所属的类型的情况下，将所述网页标记为待标注网页；聚类模块，用于对多个待标注网页进行聚类处理；分析模块，用于分析出每个聚类集合的类型；所述标注模块，还用于将待标注网页标注为其所属的聚类集合的类型。

其中，所述获得模块包括：提取单元，用于分别提取网页中的标题和正文；第一构建单元，用于根据所述标题，构建标题特征向量；第二构建单元，用于根据所述正文，构建正文特征向量；拼接单元，用于将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。

其中，所述第一构建单元具体用于：利用预先构建的标题词典，对所述标题进行分词处理，获得标题分词；将所述标题分词映射到所述标题词典中；基于所述标题分词的加权值，对所述标题词典进行加权处理，构建出所述网页的标题特征向量；所述第二构建单元具体用于：利用预先构建的正文词典，对所述正文进行分词处理，获得多个正文分词，并记录每个所述正文分词在所述正文中的出现顺序；将多个所述正文分词分别映射到所述正文词典中；基于每个正文分词的加权值和出现顺序，对所述正文词典进行加权处理，构建所述网页的正文特征向量。

其中，分类模块具体用于：预先定义多种网页类型；调用所述分类器，以便使所述分类器针对每种类型，对所述网页的主题特征向量进行一次评分；将每种类型的对应的评分分值分别与预设的标注阈值进行比较；将大于所述标注阈值的评分分值对应的类型，判定为所述主题特征向量所属的类型；其中，所述主题特征向量所属的类型为一个或多个；分析模块具体用于：分别提取聚类集合中每个待标注网页的标题和正文；利用预先构建的标题词典，对所有标题进行分词处理，获得多个标题分词；利用预先构建的正文词典，对所有正文进行分词处理，获得多个正文分词；在多个所述标题分词和多个所述正文分词中，获取出现频率最多的分词，以作为所述聚类集合的类型。本发明有益效果如下：

本发明采用有监督的分类方法和无监督的聚类方法级联的方式，自动的从网页中获取主题并标注网页，有效提高了网页主题标注的效率和准确性。

附图说明

图1是根据本发明一实施例的网页主题的标注方法的流程图；

图2是根据本发明另一实施例的网页主题的标注方法的流程图；

图3是根据本发明一实施例的构建网页标题特征向量的步骤流程图；

图4是根据本发明一实施例的构建网页正文特征向量的步骤流程图；

图5是根据本发明一实施例的标题特征向量和正文特征向量的拼接示意图；

图6是根据本发明一实施例的对主题特征向量进行分类的步骤流程图；

图7是根据本发明一实施例的网页主题的标注装置的结构图；

图8是根据本发明一实施例的获取模块的结构图。

具体实施方式

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本实施例提供了一种网页主题的标注方法，如图1所示，为根据本发明一实施例的网页主题的标注方法的流程图。本实施例是针对每个网页执行的步骤。

步骤S110，基于网页的标题和正文，获得该网页的主题特征向量。

由于网页标题和正文的长度、语言风格不同，本实施例分别提取网页中的标题和正文；根据标题，构建标题特征向量；根据正文，构建正文特征向量；将标题特征向量和正文特征向量拼接成网页的主题特征向量。其中，标题特征向量和正文特征向量都包含用于体现网页的主题的词语向量。

采用不同的词典，分别构造特征向量，这样可以更准确地描述网页内容，进而提高网页主题标注的准确性。

步骤S120，利用预先训练获得的分类器，对该主题特征向量进行分类处理。

分类器用于对主题特征向量进行分类，确定主题特征向量的类型。主题特征向量能够体现网页主题，那么确定主题特征向量的类型也即是确定网页的类型。该类型包括：新闻类、经济类、娱乐类、科技类等。

为了提高网页分类的准确性，本实施例采用有监督的分类方法，分类器是利用预先准备的分类标注体系和训练数据，通过训练获得的。

分类标注体系是指预先定义的多种网页类型。例如：新闻类、经济类、娱乐类、科技类。训练数据包括：基于分类标注体系，已经被分析出类型的多个网页。基于分类标注体系和训练数据，采用支持向量机SVM来训练分类器。

步骤S130，判断是否存在该主题特征向量所属的类型。若是，则执行步骤S140；若否，则执行步骤S150。

根据分类器的分类处理结果，判断是否存在该主题特征向量所属的类型。如果存在主题特征向量所属的类型，则该分类处理结果为主题特征向量所属的类型；如果不存在主题特征向量所属的类型，则该分类处理结果为空值。

步骤S140，将该网页标注为该主题特征向量所属的类型。

步骤S150，将该网页标记为待标注网页。

对于分类器能够确定类型的网页，标注相应的类别。对于分类器不能够确定类型的网页，放入待标注网页集合中，使用后续的方法进行处理，以便保证网页标注的准确性。

如图2所示，为根据本发明另一实施例的网页主题的标注方法的流程图。本实施例是针对待标注网页进行的处理。

步骤S210，对多个待标注网页进行聚类处理。

每个预设时间段，确定被标记为待标注网页的网页数量，如果该网页数量大于预设的数量阈值，则对待标注网页进行聚类处理，如果该网页数量小于等于数量阈值，则间隔预设时间段，再次进行网页数量确定。

本实施例采用无监督的聚类方法，因此，在进行聚类处理时，利用预先设置的相似度算法，例如，采用kmeans算法，对多个待标注网页进行两两之间的相似度计算，将相似度大于预设的相似度阈值的两个待标注网页划分到同一聚类集合中。

步骤S220，分析出每个聚类集合的类型。

可以采用canopy算法，来分析出每个聚类集合的类型。

在一个实施例中，针对每个聚类集合可以执行如下步骤：分别提取聚类集合中每个待标注网页的标题和正文；利用标题词典，对所有标题进行分词处理，获得多个标题分词；利用正文词典，对所有正文进行分词处理，获得多个正文分词；在多个标题分词和多个正文分词中，获取出现频率最多的分词，以作为该聚类集合的类型。其中，出现频率最多的分词可以是标题分词、也可以是正文分词。

步骤S230，将待标注网页标注为其所属的聚类集合的类型。

换言之，聚类集合的类型是什么，则类型就是什么，该聚类集合中的待标注网页的标注就是什么。

在一个实施例中，每隔一段时间，利用聚类结果，对分类器进行再次训练，以便增加分类的精准度。进一步地，在标注完成后，可以将该通过聚类获得的新的类型、及该新的类型的网页添加到分类标注体系和训练数据中。进而可以增加对新的类型、及该新的类型的网页进行训练。

通过分类器和聚类处理相结合的方式来确定网页的类型，可以提高网页标注的准确性和标准效率。

针对步骤S110而言，

图3为根据本发明一实施例的构建网页标题特征向量的步骤流程图。

步骤S310，预先构建标题词典。

步骤1，收集网页的标题，形成标题语料库。

步骤2，对标题语料库中的标题文本进行分词，仅保留分词结果中符合条件的词语。例如，该分词结果具有实际意义。可以利用预设的分词算法，分词算法通常包含一个词典，该词典将标题文本划分成一个或多个分词词语。

步骤3，计算被保留的词语的IDF(Inverted Document Frequency)值，并将IDF值大于预设第一IDF阈值的词语组成标题词典。IDF值越大的词语代表性越强，IDF值越小的词语代表性越弱。

词语w的IDF值的计算方式如下式所示：

I D F (w) = l o g \frac{N}{n_{d}} - - - (1.1)

式(1.1)中，N表示整个语料库收集的标题的数量，n_d表示出现过词语w的标题数量。log表示对数，其底数取10或者e，具体根据需求确定。

步骤S320，利用标题词典，对标题进行分词处理，获得标题分词。

利用标题词典中的词语，对标题进行分词处理，获得一个或多个标题分词。

步骤S330，将标题分词映射到标题词典中。

将多个标题分词分别映射到标题词典中。进一步地，标题词典中包括多个词语；在标题分词和标题词典中的词语之间建立映射关系。其中，存在映射关系的标题分词和词语相同。

在映射关系建立之后，可以获得一个长度等于标题词典长度的向量，向量的维数等于标题词典中词语的数量，每个维度对应词典中的一个词语。

步骤S340，基于标题分词的加权值，对标题词典进行加权处理，构建出网页的标题特征向量。

对标题词典进行加权处理，也即是对上述长度等于标题词典长度的向量进行加权处理。对于标题词典中存在映射关系的词语，即向量中与标题分词存在映射关系的词语，使用TFIDF(term frequency–inverse document frequency)值加权，加权后获得的向量即为标题特征向量。其中，TFIDF是一种用于资讯检索与资讯勘探的常用加权技术。

在加权时，向量的每个维度的取值为该维度对应的词语在该标题中的TFIDF值。词语w的TFIDF值的计算方式如下式所示：

T F I D F (w) = T F * I D F = \frac{c_{w}}{c} * l o g \frac{N}{n_{d}} - - - (1.2)

式(1.2)中，IDF值的计算同(1.1)式，TF值表示词语w在当前标题中出现的频率，c_w表示词语w在当前标题中出现的次数，c表示当前标题词语(分词)的个数。

图4为根据本发明一实施例的构建网页正文特征向量的步骤流程图。

步骤S410，预先构建的正文词典。

收集正文内容为正文语料库，通过对正文语料库中的正文文本进行分词，仅保留分词结果中符合条件的词语，如：有实际意义的词语；计算被保留的词语的IDF值；将IDF值大于预设第二IDF阈值的词语组成正文词典。正文词典的构建方式与标题词典的构建相同。IDF值的计算参考式(1.1)。

步骤S420，利用构建的正文词典，对正文进行分词处理，获得多个正文分词，并记录每个正文分词在正文中的出现顺序。

利用正文词典中的词语，对正文进行分词；按照正文从前向后的顺序，记录每个分词(词语)的出现顺序，第一个出现的分词记为1，第二个出现的分词记为2，以此类推，重复出现的分词不记录。

步骤S430，将多个正文分词分别映射到正文词典中。

网页的正文倾向于利用开头简短的文字突出主题、吸引眼球，即重要的词语倾向于出现在正文的前面。

正文词典中包括多个词语；在正文分词和正文词典中的词语之间建立映射关系。其中，存在映射关系的正文分词和词语相同。

在映射关系建立之后，可以获得一个长度等于正文词典长度的向量，向量的维数等于正文词典中词语的数量，每个维度对应词典中的一个词语。

步骤S440，基于每个正文分词的加权值和出现顺序，对正文词典进行加权处理，构建网页的正文特征向量。

对正文词典进行加权处理，也即是对上述长度等于正文词典长度的向量进行加权处理。对于正文词典中存在映射关系的词语，即向量中与正文分词存在映射关系的词语，使用TFIDF值和映射的正文分词的出现顺序加权，加权后获得的向量即为正文特征向量。正文特征向量的每个维度对应词典中的一个词语，每个维度的取值为根据该维度对应的词语在该正文中的出现顺序、以及该词语的TFIDF值，获得的权重值weight_zw：

{weight}_{z w} (w) = (1 - \frac{r a n k (w)}{Σ_{w &Element; W} r a n k (w)}) * T F I D F (w) - - - (1.3)

式(1.3)中，weight_zw(w)表示正文特征向量中词语w的权重值(维度取值)，rank(w)为w在正文中出现的顺序号，∑_w∈Wrank(w)为所有词语顺序号的总和，TFIDF(w)可以参考式(1.2)，将与标题相关的描述更换为正文相关的描述即可。采用上述方法可以获得正文特征向量。式(1.3)中词语的符号采用与式(1.2)中词语的符号一致，都使用w，仅为方便理解式(1.3)中TFIDF(w)的计算过程。

一般而言，标题使用简短的语句标明了网页的内容、主题。因此，标题较短、正文较长，本实施例考虑到标题特征向量的长度通常小于正文特征向量的长度，但标题特征向量的重要性却大于正文特征向量，本实施例提出将标题特征向量和正文特征向量采用加权的方式拼接成表达该网页主题的特征向量，即主题特征向量。例如附图5所示的拼接方式。通过本实施例可以避免造成标题特征向量、正文特征向量在学习中发挥作用失衡的偏差。

在拼接之前，对于标题特征向量中的词语w的维度取值TFIDF(w)值，使用标题权重w_bt进行加权，即：

weight_bt(w)＝w_bt*TFIDF(w) (1.4)

在拼接之前，对于正文特征向量中的词语的维度取值不使用权重值。

在拼接时，将加权后的标题特征向量和未加权的正文特征向量进行拼接。本实施例采用首尾相接的方式进行拼接，组成一个长度等于标题特征向量和正文特征向量之和的向量，其中，加权后的标题特征向量位于未加权的正文特征向量的前面。

本实施例采用网格搜索的方式获得w_bt，w_bt的选择范围参考式(1.5)。在每个w_bt下，分类器对训练数据进行交叉验证，计算分类正确率，取最高正确率对应的w_bt作为最终使用的w_bt值。

w_{b t} &Element; 1, 1 + 0.01, ..., 1 + 0.01 * n; 1 + 0.01 * n < \frac{N_{z w}}{N_{b t}} - - - (1.5)

式(1.5)中，N_bt表示标题特征向量的维数，N_zw表示正文特征向量维数。

针对步骤S120具体而言，

图6为根据本发明一实施例的对主题特征向量进行分类的步骤流程图。

步骤S610，分类器针对每种类型，对网页的主题特征向量进行一次评分。

每种类型，网页的主题特征向量都有一个评分分值。即，如果有多种类型，则有多个评分分值。评分分值用于衡量网页是否符合该评分分值对应的类型。

分类器包括多个分类器函数，每个分类器函数对应一个类型；将主题特征向量分别代入各个分类器函数，就可以得到每个类型的评分分值。

例如，a＝[a1,a2,a3]为分类器，y＝a1*x1+a2*x2+a3*x3为新闻类分类器函数；当然还可以有其他类型的分类器函数；将标题特征向量代入新闻类分类器函数，可以得到y值，即评分分值，当该评分分值大于0时，表示标题特征向量对应的网页为新闻类，反之不是新闻类；假设a＝[1,-2,3]，将维度为3的标题特征向量x＝[1,2,3]代入新闻类分类器函数，可以得到y＝6，那么y>0，标题特征向量x＝[1,2,3]对应的网页是新闻网页。

步骤S620，将每种类型的对应的评分分值分别与预设的标注阈值进行比较。

步骤S630，将大于标注阈值的评分分值对应的类型，判定为主题特征向量所属的类型；其中，所述主题特征向量所属的类型为一个或多个。

具体的，可以按照值从大到小的顺序，对多个评分分值进行排序；判断最大的评分分值是否大于预设的标注阈值，若是，则将网页标注为该最大的评分分值对应的类型，若否，则将网页标记为待标注网页；然后，判断大小仅次于最大的评分分值是否大于预设的标注阈值，若是，则将网页标注为该大小仅次于最大的评分分值对应的类型，若否，则将网页标记为待标注网页；以此类推，直至每个评分分值都和标注阈值进行过比较。

本发明还提供了一种网页主题的标注装置，如图7所示，为根据本发明一实施例的网页主题的标注装置的结构图。

该装置包括：

获得模块710，用于基于网页的标题和正文，获得网页的主题特征向量。

分类模块720，用于利用预先训练获得的分类器，对主题特征向量进行分类处理。

判断模块730，用于判断是否存在主题特征向量所属的类型。

标注模块740，用于在判断模块判定存在主题特征向量所属的类型的情况下，将网页标注为主题特征向量所属的类型。

标记模块750，用于在判断模块判定不存在主题特征向量所属的类型的情况下，将网页标记为待标注网页。

聚类模块760，用于对多个待标注网页进行聚类处理。

分析模块770，用于分析出每个聚类集合的类型。

标注模块780，还用于将待标注网页标注为其所属的聚类集合的类型。

在一个实施例中，获得模块710包括：提取单元711，用于分别提取网页中的标题和正文；第一构建单元712，用于根据标题，构建标题特征向量；第二构建单元713，用于根据正文，构建正文特征向量；拼接单元714，用于将标题特征向量和正文特征向量拼接为主题特征向量。如图8所示。

第一构建单元712用于：利用预先构建的标题词典，对标题进行分词处理，获得标题分词；将标题分词映射到标题词典中；基于标题分词的加权值，对标题词典进行加权处理，构建出网页的标题特征向量。

第二构建单元713用于：利用预先构建的正文词典，对正文进行分词处理，获得多个正文分词，并记录每个正文分词在正文中的出现顺序；将多个正文分词分别映射到正文词典中；基于每个正文分词的加权值和出现顺序，对正文词典进行加权处理，构建网页的正文特征向量。

在另一实施例中，分类模块720具体用于：预先定义多种网页类型；调用分类器，以便使分类器针对每种类型，对网页的主题特征向量进行一次评分；将每种类型的对应的评分分值分别与预设的标注阈值进行比较；将大于标注阈值的评分分值对应的类型，判定为主题特征向量所属的类型；其中，主题特征向量所属的类型为一个或多个。

在又一实施例中，分析模块770具体用于：分别提取聚类集合中每个待标注网页的标题和正文；利用预先构建的标题词典，对所有标题进行分词处理，获得多个标题分词；利用预先构建的正文词典，对所有正文进行分词处理，获得多个正文分词；在多个标题分词和多个正文分词中，获取出现频率最多的分词，以作为聚类集合的类型。

本实施例所述的装置的功能已经在图1-图6所示的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种网页主题的标注方法，其特征在于，包括：

基于网页的标题和正文，获得所述网页的主题特征向量；

利用预先训练获得的分类器，对所述主题特征向量进行分类处理；

判断是否存在所述主题特征向量所属的类型；

若是，则将所述网页标注为所述主题特征向量所属的类型；

若否，则将所述网页标记为待标注网页；进一步地，对多个待标注网页进行聚类处理；分析出每个聚类集合的类型；将待标注网页标注为其所属的聚类集合的类型。

2.如权利要求1所述的方法，其特征在于，基于网页的标题和正文，获得所述网页的主题特征向量，包括：

分别提取网页中的标题和正文；

根据所述标题，构建标题特征向量；

根据所述正文，构建正文特征向量；

将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。

3.如权利要求2所述的方法，其特征在于，根据所述标题构建网页标题特征向量，包括：

利用预先构建的标题词典，对所述标题进行分词处理，获得标题分词；

将所述标题分词映射到所述标题词典中；

基于所述标题分词的加权值，对所述标题词典进行加权处理，构建出所述网页的标题特征向量。

4.如权利要求2所述的方法，其特征在于，根据所述正文构建网页正文特征向量，包括：

利用预先构建的正文词典，对所述正文进行分词处理，获得多个正文分词，并记录每个所述正文分词在所述正文中的出现顺序；

将多个所述正文分词分别映射到所述正文词典中；

基于每个正文分词的加权值和出现顺序，对所述正文词典进行加权处理，构建所述网页的正文特征向量。

5.如权利要求1所述的方法，其特征在于，利用预先训练获得的分类器，对所述主题特征向量进行分类处理，包括：

预先定义多种网页类型；

所述分类器针对每种类型，对所述网页的主题特征向量进行一次评分；

将每种类型的对应的评分分值分别与预设的标注阈值进行比较；

将大于所述标注阈值的评分分值对应的类型，判定为所述主题特征向量所属的类型；其中，所述主题特征向量所属的类型为一个或多个。

6.如权利要求1所述的方法，其特征在于，分析聚类集合的类型，包括：

分别提取聚类集合中每个待标注网页的标题和正文；

利用预先构建的标题词典，对所有标题进行分词处理，获得多个标题分词；

利用预先构建的正文词典，对所有正文进行分词处理，获得多个正文分词；

在多个所述标题分词和多个所述正文分词中，获取出现频率最多的分词，以作为所述聚类集合的类型。

7.一种网页主题的标注装置，其特征在于，包括：

获得模块，用于基于网页的标题和正文，获得所述网页的主题特征向量；

分类模块，用于利用预先训练获得的分类器，对所述主题特征向量进行分类处理；

判断模块，用于判断是否存在所述主题特征向量所属的类型；

标注模块，用于在所述判断模块判定存在所述主题特征向量所属的类型的情况下，将所述网页标注为所述主题特征向量所属的类型；

标记模块，用于在所述判断模块判定不存在所述主题特征向量所属的类型的情况下，将所述网页标记为待标注网页；

聚类模块，用于对多个待标注网页进行聚类处理；

分析模块，用于分析出每个聚类集合的类型；

所述标注模块，还用于将待标注网页标注为其所属的聚类集合的类型。

8.如权利要求7所述的装置，其特征在于，所述获得模块包括：

提取单元，用于分别提取网页中的标题和正文；

第一构建单元，用于根据所述标题，构建标题特征向量；

第二构建单元，用于根据所述正文，构建正文特征向量；

拼接单元，用于将所述标题特征向量和所述正文特征向量拼接为所述主题特征向量。

9.如权利要求8所述的装置，其特征在于，

所述第一构建单元具体用于：

将所述标题分词映射到所述标题词典中；

基于所述标题分词的加权值，对所述标题词典进行加权处理，构建出所述网页的标题特征向量；

所述第二构建单元具体用于：

将多个所述正文分词分别映射到所述正文词典中；

10.如权利要求7所述的装置，其特征在于，

分类模块具体用于：

预先定义多种网页类型；调用所述分类器，以便使所述分类器针对每种类型，对所述网页的主题特征向量进行一次评分；

将大于所述标注阈值的评分分值对应的类型，判定为所述主题特征向量所属的类型；其中，所述主题特征向量所属的类型为一个或多个；

分析模块具体用于：

分别提取聚类集合中每个待标注网页的标题和正文；