CN102629282A

CN102629282A - 一种网址分类方法、装置及***

Info

Publication number: CN102629282A
Application number: CN2012101344981A
Authority: CN
Inventors: 贺泰华; 杨建华; 张广兴; 文吉刚; 袁小坊
Original assignee: HUNAN CNSUNET TECHNOLOGY Co Ltd
Current assignee: HUNAN CNSUNET TECHNOLOGY Co Ltd
Priority date: 2012-05-03
Filing date: 2012-05-03
Publication date: 2012-08-08

Abstract

本发明提供了一种网址分类方法、装置及***，所述方法包括解析当前待分类网址中包含的网址数据信息；提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值，并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量；将所述空间向量置入预设的向量机，获得与所述当前待分类网址相对应的网址类别。通过本申请实施例，当待分类网址对应的网页内容的数据量较大时，不会影响待分类网址的网址数据信息解析，从而降低了***负载，提高了网址分类效率。

Description

一种网址分类方法、装置及***

技术领域

本发明涉及局域网安全管理技术领域，特别涉及一种网址分类方法、装置及***。

背景技术

随着互联网技术的不断发展和日益普及，为了有效的组织和利用互联网上的信息资源，一般通过网址分类方法将待分类网址依据预设的网址类别进行分类。

现有的网址分类方法在进行网址分类时，需要对待分类网址对应的网页内容进行解析，通过TFIDF(Term Frequency Inverse DocumentFrequency，特征频率与倒文档频率)特征加权方法，依据解析的结果生成与所述待分类网址相对应的空间向量，并采用预先设置的向量机将该待分类网址进行分类，获取该待分类网址的网址类别。

其中，采用预先设置向量机将待分类网址进行分类，是指将所述待分类网址对应的空间向量置入该向量机，由该向量机采用建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中方案的方法，将所述待分类网址对应的空间向量进行分类，从而得出所述待分类网址的网址类别。

由上述可知，在采用现有的网址分类方法进行网址分类时，当待分类网址对应的网页内容的数据量较大时，采用现有的网址分类方法会造成较大的***负载，从而使得网址分类的效率较低。

发明内容

本发明所要解决的技术问题是提供一种网址分类方法、装置及***，用以解决采用现有技术中的网址分类方法，当待分类网址对应的网页内容的数据量较大时，导致较大的***负载，使得网址分类效率较低的技术问题。

本申请提供了一种网址分类方法，包括：

解析当前待分类网址中包含的网址数据信息；

提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值，并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量；

将所述空间向量置入预设的向量机，获得与所述当前待分类网址相对应的网址类别。

上述方法，优选地，在所述解析当前待分类网址的网址数据之前，所述方法还包括：

获取互联网中的网址分类数据；

将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类，生成待分类网址集合；

获取所述待分类网址集合中的待分类网址。

上述方法，优选地，在所述解析当前待分类网址的网址数据信息之前，所述方法还包括：

应用预设的hash算法对所述当前待分类网址进行计算，获取计算结果；

查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据，如果是，舍去所述当前待分类网址，结束当前网址分类，否则，将所述计算结果置入所述hash数据集合中。

上述方法，优选地，在所述解析当前待分类网址的网址数据信息之后，在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前，所述方法还包括：

解析所述网址数据信息包括的网址字符串；

判断所述网址字符串是否满足预设的预分类规则，当满足时，依据所述预分类规则获取与所述当前待分类网址相对应的网址类别，结束当前网址分类。

上述方法，优选地，所述获取所述待分类网址集合中的待分类网址包括：

确定所述待分类网址集合中待分类网址的网址权值，及各个待分类网址之间的传递权值；

依据所述网址权值和所述传递权值，获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。

上述方法，优选地，所述向量机采用预设分类算法依据所述空间向量获取最优分类模型，并解析出所述最优分类模型携带的类别号，将所述类别号作为与所述当前待分类网址相对应的网址类别。

上述方法，优选地，所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括：

解析所述网址数据信息中的至少一个HTML标签及其内容；

依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。

本申请还提供了一种网址分类装置，包括数据解析单元、数据提取单元和类别获取单元，其中：

所述数据解析单元，用于解析当前待分类网址中包含的网址数据信息；

所述数据提取单元，用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值，并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量；

所述类别获取单元，用于将所述空间向量置入预设的向量机，获得与所述当前待分类网址相对应的网址类别。

上述装置，优选地，还包括网址获取单元；

所述网址获取单元，用于获取互联网中的网址分类数据，并将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类，生成待分类网址集合，获取所述待分类网址集合中的待分类网址，触发所述数据解析单元。

上述装置，优选地，还包括网址去重单元；

所述网址去重单元，用于应用预设的hash算法对所述当前待分类网址进行计算，获取计算结果，查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据，如果是，舍去所述当前待分类网址，结束当前网址分类，否则，将所述计算结果置入所述hash数据集合中，触发所述数据提取单元。

上述装置，优选地，还包括预分类单元；

所述预分类单元，由所述数据解析单元触发，用于解析所述网址数据信息包括的网址字符串，判断所述网址字符串是否满足预设的预分类规则，当满足时，依据所述预分类规则获取与所述当前待分类网址相对应的网址类别，结束当前网址分类，否则，触发所述数据提取单元。

上述装置，优选地，所述网址获取单元包括网址采集子单元、初始分类子单元和网址获取子单元，其中：

所述网址采集子单元，用于获取互联网中的网址分类数据；

所述初始分类子单元，用于将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类，生成待分类网址集合；

所述网址获取子单元，用于确定所述待分类网址集合中待分类网址的网址权值，及各个待分类网址之间的传递权值，并依据所述网址权值和所述传递权值，获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。

上述装置，优选地，所述数据提取单元包括特征项提取子单元和向量生成子单元，其中：

所述特征项提取子单元，用于解析所述网址数据信息中的至少一个HTML标签及其内容，并依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值；

所述向量生成子单元，用于将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。

本申请还提供了一种网址分类***，包括如上述任意一项所述的网址分类装置。

由上述方案可知，相对于采用现有技术中的网址分类方法，引起当待分类网址对应的网页内容的数据量较大时，导致***负载较大、影响网址分类效率的情况，本申请提供的一种网址分类方法、装置及***，通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值，并由所述特征项及其权值组成与所述待分类网址相对应的空间向量，采用预设的向量机获得与所述待分类网址相对应的网址类别，当待分类网址对应的网页内容的数据量较大时，不会影响待分类网址的网址数据信息解析，从而降低了***负载，提高了网址分类效率。

同时，本申请提供的一种网址分类方法、装置及***通过不断调整待分类网址特征项相关参数及向量机相关参数等，可以得到实现不同分类方法的网址分类方法、装置及***，即本申请提供的是一种可以动态改变网址分类规则的网址分类方法、装置及***。

进一步的，本申请提供的一种网址分类方法、装置及***通过对互联网中的网址进行初步分类，得到待分类网址集合，进而对待分类网址进行分类，使得已分类网址的覆盖范围较广，质量较高，从而使得由已分类网址形成的网址数据库具有更好的查询能力。

进一步的，本申请提供的一种网址分类方法、装置及***通过对待分类网址的网址数据信息中包括的网址字符串进行解析，并依据该解析结果对待分类网址进行预分类处理，从而加快了网址分类的速度。

进一步的，本申请提高的一种网址分类方法、装置及***通过解析所述网址数据信息中的至少一个HTML标签及其内容，利用卡方检验法依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值，相对于现有技术中采用单一TFIDF特征加权方法，提高了网址分类的准确率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种网址分类方法流程图；

图2为本申请实施例二提供的一种网址分类方法的部分流程图；

图3为本申请实施例三提供的一种网址分类方法的部分流程图；

图4为本申请实施例三提供的一种网址分类方法的另一部分流程图；

图5为本申请实施例四提供的一种网址分类方法的部分流程图；

图6为本申请实施例五提供的一种网址分类方法的部分流程图；

图7为本申请实施例六提供的一种网址分类装置的结构示意图；

图8为本申请实施例七提供的一种网址分类装置的结构示意图；

图9为本申请实施例八提供的一种网址分类装置的结构示意图；

图10为本申请实施例八提供的一种网址分类装置的另一结构示意图；

图11为本申请实施例九提供的一种网址分类***的网址采集器的功能实现流程图；

图12为本申请实施例九提供的一种网址分类***获取待分类网址特征项及其权值的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，其示出了本申请实施例一提供的一种网址分类方法流程图，所述方法可以包括以下步骤：

步骤101：解析当前待分类网址中包含的网址数据信息。

其中，所述当前待分类网址链接某一网页内容，所述当前待分类网址的网址数据信息可以包括以下几个方面：该待分类网址的网址首部，例如www、home等；该待分类网址的网址尾部，例如com、cn、org、net等；该待分类网址的网址字符串的数据信息，例如，网址字符串的长度、网址字符串中包含“/”的个数、网址字符串中包含数字的个数等等。

步骤102：提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值，并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。

其中，在所述步骤101中解析到所述当前待分类网址的网址数据信息后，依据该网址数据信息，提取所述网址数据信息中的至少一个特征项及所述特征项的权值。所述特征项及其特征项权值可以依据所述网址数据信息中的网址首部、网址尾部或网址字符串等数据进行提取得到。将提取到的特征项及其权值组成与所述当前待分类网址相对应的高维空间向量，该空间向量中的每个维度代表一个特征项，该空间向量中每个维度对应的值代表该特征的在待分类网址中对应网页文档中的权值。对于任意一个待分类网址，可以将其表示为：U＝(t1:w1，t2:w2，...，tn:wn)，其中，t1，t2，。。。，tn，表示为n维空间中的各个坐标系，w1，w2，...，wn，表示各个坐标系的坐标值，U＝(t1:w1，t2:w2，...，tn:wn)便是这个空间中的一个向量。

步骤103：将所述空间向量置入预设的向量机，获得与所述当前待分类网址相对应的网址类别。

其中，所述向量机的数据格式要求如下：类标号

[index1]:[value1][index2]:[value2][index3]:[value3]...[indexn]:[valuen]

其中，将所述空间向量U＝(t1:w1，t2:w2，...，tn:wn)置入所述向量机，所述t1对应所述向量机中index1，所述w1对应所述向量机中value1，所述t2对应所述向量机中index2，所述w2对应所述向量机中value2，依次类推，所述tn对应所述向量机中indexn，所述wn对应所述向量机中valuen，所述类标号即为将所述空间向量置入该向量机后，所述当前待分类网址对应的网址类别。

其中，上述步骤103获得与所述当前待分类网址相对应的网址类别后，可以获取下一条待分类网址，并按照本申请实施例一提供的网址分类方法对其进行分类，获取其网址类别，实现网址分类的循环，从而提高网址分类的效率。

其中，本申请实施例一提供的网址分类方法还包括：

对所述特征项参数和/或所述向量机中的数据参数进行动态调整。

其中，所述特征项参数包括所述特征项格式等，所述向量机的数据参数包括数据格式中的数据个数，即所述空间向量的维数等。

需要说明的是，本申请实施例一提供的一种网址分类方法可以采用多线程并行进行网址分类的形式，同时对多个待分类网址进行分类，获取其类别标识，由此加快网址分类速度，从而提高网址分类的效率。

其中，本申请实施例一提供的网址分类方法还包括：

将已获取网址类别的网址置于预设的网址存储器中。

其中，所述网址存储器具体网址数据库。

由上述方案可知，相对于采用现有技术中的网址分类方法，引起当待分类网址对应的网页内容的数据量较大时，导致***负载较大、影响网址分类效率的情况，本申请实施例一提供的一种网址分类方法，通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值，并由所述特征项及其权值组成与所述待分类网址相对应的空间向量，采用预设的向量机获得与所述待分类网址相对应的网址类别，当待分类网址对应的网页内容的数据量较大时，不会影响待分类网址的网址数据信息解析，从而降低了***负载，提高了网址分类效率

同时，本申请实施例一提供的一种网址分类方法可以通过不断调整待分类网址特征项相关参数及向量机相关参数等，可以得到实现不同分类方法的网址分类方法、装置及***，即本申请实施例一提供的是一种可以动态改变网址分类规则的网址分类方法。

其中，基于上述本申请实施例，优选地，所述向量机采用预设分类算法依据所述空间向量获取最优分类模型，并解析出所述最优分类模型携带的类别号，将所述类别号作为与所述当前待分类网址相对应的网址类别。

具体的，所述预设分类算法包括LIBSVM开源软件包算法。

参考图2，其示出了本申请实施例二提供的一种网址分类方法的部分流程图，基于本申请实施例一，所述步骤102中，所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值可以包括以下步骤：

步骤201：解析所述网址数据信息中的至少一个HTML标签及其内容。

其中，上述步骤S201具体为：将解析到的所述当前待分类网址的网址数据信息通过建立DOM树状结构，获取所述网址数据信息中的各个HTML标签及其内容。

其中，所述DOM(Document Object Model，文档对象模型)树状结构是指：通过DOM将HTML页面进行解析，并生成的HTML tree树状结构和对应访问方法。借助DOM树状结构，可以直接且简易的操作HTML页面上的每个标记内容。

步骤202：依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。

其中，对所述步骤S201中解析到的所述HTML标签及其内容采用中国科学院计算技术研究所的ICTCLAS分成***进行分成，去除所述HTML标签及其内容中的停用词和数据信息量较小的词条，并采用卡法检验CHI-SQUARE TEST方法提取所述经过分词等处理的HTML标签及其内容中的特征项，对于所述特征项结合其对应的HTML标签的表现力，再采用TFIDF方法进行特征项的加权，得到所述特征项的权值。

其中，所述CHI-SQUARE TEST方法是指：对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据所述HTML标签的频数分布来推断总体的分布，得到所述HTML标签及其内容中的特征项。

其中，所述TFIDF(Term Frequency Inverse Document Frequency，特征频率与倒文档频率)特征加权方法是指：TFIDF权值实际上等于TF*IDF，TF为词频(Term Frequency)，IDF为反文档频率(Inverse DocumentFrequency)；TF表示词条在文档d中出现的频率，IDF表示文档d在整个文档集合中出现的频率。TFIDF算法是建立在这样一个假设之上的：对区别文档最有意义的词语应该是那些在文档中出现频率高，而在整个文档集合的其他文档中出现频率少的词语，所以如果特征空间坐标系取TF词频作为测度，就可以体现同类文本的特点。

由上述方案可知，本申请实施例二提供的一种网址分类方法，通过解析所述网址数据信息中的至少一个HTML标签及其内容，利用卡方检验法依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值，相对于现有技术中采用单一TFIDF特征加权方法，提高了网址分类的准确率。

参考图3，其示出了本申请实施例三提供的一种网址分类方法的部分流程图，基于上述本申请实施例一，在所述步骤101之前，所述方法还可以包括以下步骤：

步骤301：获取互联网中的网址分类数据。

其中，本申请实施例三在进行互联网中网址分类数据获取时，可以通过网络爬虫等网络采集器进行获取。所述互联网中的网址分类数据是指具有较高访问量的网址，例如互联网上常用的网址目录网站、网址导航网站，例如雅虎、hao123等，本申请实施例三通过网络爬虫将所述互联网中的网址分类数据进行爬取。

其中，网络爬虫又被称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动的抓取互联网信息的程序或者脚本。

步骤302：将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类，生成待分类网址集合。

其中，在上述步骤301中将互联网中的网址分类数据进行爬取后，所述步骤302具体地，对具有类别标识的待分类网址依据预设的初始分类规则进行过滤、整合，即分类整合处理，通过预先建立的具有初始类别标识的关系映射表得到初始分类的待分类网址集合，而所述关系映射表如表1所示。

表1关系映射表

其中，如表1所示，所述类别标签为待分类网址依据所述初始分类规则进行分类后的分类结果。

步骤303：获取所述待分类网址集合中的待分类网址。

其中，在需要进一步对网址进行分类时，获取所述待分类网址集合中的待分类网址，并执行本申请实施例一提供的网址分类方法，对需要进一步网址分类的待分类网址进行分类，获取其网址类别。如表1所示，所述预定义的分类类别即为所述需要进行进一步网址分类的待分类网址的网址类别。

由上述方案可知，本申请实施例三提供的一种网址分类方法通过对互联网中的网址进行初步分类，得到待分类网址集合，进而对待分类网址进行分类，使得已分类网址的覆盖范围较广，质量较高，从而使得由已分类网址形成的网址数据库具有更好的查询能力。

基于本申请实施例三，参考图4，其示出了本申请实施例三的另一部分流程图，所述步骤303可以包括以下步骤：

步骤401：确定所述待分类网址集合中待分类网址的网址权值，及各个待分类网址之间的传递权值。

其中，在上述采用网址采集器进行待分类网址的获取时，首先确定待分类网址的网址权重的影响，采用类似SiteRank算法对所述当前待分类网址进行加权。网址权值分为两个部分：网址自身权值和网址链接之间的传递权值。具体的，本申请实施例在进行待分类网址获取时，首先确定待分类网址的网址权值，及各个待分类网址之间的传递权值。

步骤402：依据所述网址权值和所述传递权值，获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。

其中，所述网址获取规则是指，所述网址权值和所述传递权值较高的规则。所述获取所述待分类网址集合中满足预设的网址获取规则的待分类网址具体为，获取所述待分类网址集合中网址权值及传递权值较高的待分类网址。

由上述方案可知，本申请实施例三提供的一种网址分类方法通过对互联网中的网址进行初步分类，得到待分类网址集合，进而对网址权值及传递权值较高的待分类网址进行分类，使得已分类网址的覆盖范围较广，质量较高，从而使得由已分类网址形成的网址数据库具有更好的查询能力。

参考图5，其示出了本申请实施例四提供的一种网址分类方法的部分流程图，基于本申请实施例一或本申请实施例三，在所述步骤101之前，所述方法还可以包括以下步骤：

步骤501：应用预设的hash算法对所述当前待分类网址进行计算，获取计算结果。

其中，对所述当前待分类网址的网址数据信息进行解析之前，需要对所述当前待分类网址进行去重处理，即判断所述当前待分类网址是否已经被分类过，防止重复分类处理，由此提高网址分类的效率。所述去重处理的方法，具体的，预设hash算法，应用所述hash算法对所述当前待分类网址进行计算，得到与所述当前待分类网址相对应的hash算法计算结果。

步骤502：查询预设的hash数据集合中是否存在于所述计算结果相对应的hash数据，如果是，执行步骤503，否则，执行步骤504。

其中，所述hash数据集合中设置有待分类网址的hash算法计算结果。在获取到所述当前待分类网址的hash算法计算结果之后，在所述hash数据集合中查询与所述当前待分类网址对应的hash算法计算结果相对应的hash数据，如果是，表明所述当前待分类网址已经被分类处理过，此时执行所述步骤503，否则，表明所述当前待分类网址未被分类处理，此时执行所述步骤504。

步骤503：舍去所述当前待分类网址，结束当前网址分类。

其中，当所述当前待分类网址已经被分类处理时，需要停止对当前待分类网址的分类方法的执行，即舍去所述当前待分类网址，结束当前网址分类。

需要说明的是，在结束当前网址分类之后，所述方法还包括：

获取其他待分类网址，重新解析所述其他待分类网址的网址数据信息。

其中，所述其他待分类网址与所述当前待分类网址均为需要进行分类的网址，此处采用“其他”和“当前”用以区分未经本申请实施例四提供的网址分类方法进行处理的网址，和正在进行本申请实施例四提供的网址分类方法处理的网址。

步骤504：将所述计算结果置于所述hash数据集合中。

其中，在判断出所述待分类网址未被分类处理时，需要将其对应的hash算法计算结果放置于所述hash数据集合中，便于后期其他待分类网址的分类处理。

由上述方案可知，本申请实施例四提供的网址分类方法通过对待分类网址进行hash算法计算，从而实现待分类网址的去重即二次过滤，进而提高网址分类的效率。

参考图6，其示出了本申请实施例五提供的一种网址分类方法的部分流程图，基于本申请实施例一或本申请实施例三，在所述步骤101之后，在所述步骤102之前，所述方法还可以包括以下步骤：

步骤601：解析所述网址数据信息包括的网址字符串。

其中，所述网址数据信息为所述步骤101中解析到的所述当前待分类网址的网址数据信息，具体的包括：该待分类网址的网址首部，例如www、home等；该待分类网址的网址尾部，例如com、cn、org、net等；该待分类网址的网址字符串的数据信息，例如，网址字符串的长度、网址字符串中包含“/”的个数、网址字符串中包含数字的个数等等。

步骤602：判断所述网址字符串是否满足预设的预分类规则，当满足时，执行步骤603，否则，执行步骤102。

其中，所述预分类规则包括根据所述网址字符串的优先值设置的对当前待分类网址进行分类的规则。具体的，所述预分类规则为判断所述网址字符串中是否含有较强特征的字符或字符串，例如，所述网址字符串中是否具有明显特征性的英文单词或英文缩写，如news或edu等。所述步骤602具体为：判断所述王胡子字符串是否具有明显特征性的英文单词或英文缩写，如news或edu等，如果有，执行步骤603，否则，表明所述当前待分类网址需要继续执行本申请实施例一或本申请实施例三提供的网址分类方法。

步骤603：依据所述预分类规则获取与所述当前待分类网址相对应的网址类别，结束当前网址分类。

其中，当所述网址字符串满足预设的预分类规则时，直接对所述当前待分类网址依据所述预分类规则进行分类，获取所述当前待分类网址的网址类别，结束当前网址分类。

需要说明的是，在本申请实施例中，在结束当前网址分类之后，所述方法还可以包括：

其中，所述其他待分类网址与所述当前待分类网址均为需要进行分类的网址，此处采用“其他”和“当前”用以区分未经本申请实施例五提供的网址分类方法进行处理的网址，和正在进行本申请实施例五提供的网址分类方法处理的网址。

由上述方案可以，本申请实施例五提供的一种网址分类方法通过对待分类网址的网址数据信息中包括的网址字符串进行解析，并依据该解析结果对待分类网址进行预分类处理，从而加快了网址分类的速度，提高了网址分类的效率。

参考图7，其示出了本申请实施例六提供的一种网址分类装置的结构示意图，用于实现本申请实施例一，所述装置包括数据解析单元701、数据提取单元702和类别获取单元703，其中：

所述数据解析单元701，用于解析当前待分类网址中包含的网址数据信息。

所述数据提取单元702，用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值，并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。

其中，在所述数据解析单元701中解析到所述当前待分类网址的网址数据信息后，由所述数据提取单元702依据该网址数据信息，提取所述网址数据信息中的至少一个特征项及所述特征项的权值。所述特征项及其特征项权值可以依据所述网址数据信息中的网址首部、网址尾部或网址字符串等数据进行提取得到。将提取到的特征项及其权值组成与所述当前待分类网址相对应的高维空间向量，该空间向量中的每个维度代表一个特征项，该空间向量中每个维度对应的值代表该特征的在待分类网址中对应网页文档中的权值。对于任意一个待分类网址，可以将其表示为：U＝(t1:w1，t2:w2，...，tn:wn)，其中，t1，t2，。。。，tn，表示为n维空间中的各个坐标系，w1，w2，...，wn，表示各个坐标系的坐标值，U＝(t1:w1，t2:w2，...，tn:wn)便是这个空间中的一个向量。

所述类别获取单元703，用于将所述空间向量置入预设的向量机，获得与所述当前待分类网址相对应的网址类别。

其中，所述向量机的数据格式要求如下：类标号

[index1]:[value1][index2]:[value2][index3]:[value3]...[indexn]:[valuen]

其中，本申请实施例六中，所述类别获取单元703还用于对所述特征项参数和/或所述向量机中的数据参数进行动态调整。

需要说明的是，本申请实施例六提供的一种网址分类装置可以采用多线程并行进行网址分类的形式，同时对多个待分类网址进行分类，获取其类别标识，由此加快网址分类速度，从而提高网址分类的效率。

其中，本申请实施例六提供的网址分类装置还包括网址存储单元；

所述网址存储单元，用于将所述类别获取单元703获取网址类别的网址置于预设的网址存储器中。

其中，所述网址存储器具体网址数据库。

由上述方案可知，相对于采用现有技术中的网址分类装置，引起当待分类网址对应的网页内容的数据量较大时，导致***负载较大、影响网址分类效率的情况，本申请实施例六提供的一种网址分类装置，通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值，并由所述特征项及其权值组成与所述待分类网址相对应的空间向量，采用预设的向量机获得与所述待分类网址相对应的网址类别，当待分类网址对应的网页内容的数据量较大时，不会影响待分类网址的网址数据信息解析，从而降低了***负载，提高了网址分类效率

同时，本申请实施例六提供的一种网址分类装置可以通过不断调整待分类网址特征项相关参数及向量机相关参数等，可以得到实现不同分类方法的网址分类方法、装置及***，即本申请实施例六提供的是一种可以动态改变网址分类规则的网址分类装置。

具体的，所述预设分类算法包括LIBSVM开源软件包算法。

参考图8，其示出了本申请实施例七提供的一种网址分类装置的结构示意图，基于本申请实施例六，用于实现本申请实施例二，其中，所述数据提取单元702包括特征项提取子单元721和向量生成子单元722，其中：

所述特征项提取子单元721，用于解析所述网址数据信息中的至少一个HTML标签及其内容，并依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值；

所述向量生成子单元722，用于将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量。

由上述方案可知，本申请实施例七提供的一种网址分类装置，通过解析所述网址数据信息中的至少一个HTML标签及其内容，利用卡方检验法依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值，相对于现有技术中采用单一TFIDF特征加权方法，提高了网址分类的准确率。

参考图9，其示出了本申请实施例八提供的一种网址分类装置的结构示意图，基于本申请实施例六或本申请实施例七，用于实现本申请实施例三、本申请实施例四及本申请实施例五，所述装置还包括网址获取单元704、网址去重单元705和预分类单元706；

所述网址获取单元704，用于获取互联网中的网址分类数据，并将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类，生成待分类网址集合，获取所述待分类网址集合中的待分类网址，触发所述数据解析单元701。

其中，所述网址获取单元704具体为：网络爬虫等网络采集器。

其中，参考图10，其示出了本申请实施例八的另一结构示意图，所述网址获取单元704包括网址采集子单元741、初始分类子单元742和网址获取子单元743，其中：

所述网址采集子单元741，用于获取互联网中的网址分类数据；

所述初始分类子单元742，用于将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类，生成待分类网址集合；

所述网址获取子单元743，用于确定所述待分类网址集合中待分类网址的网址权值，及各个待分类网址之间的传递权值，并依据所述网址权值和所述传递权值，获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。

所述网址去重单元705，用于应用预设的hash算法对所述当前待分类网址进行计算，获取计算结果，查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据，如果是，舍去所述当前待分类网址，结束当前网址分类，否则，将所述计算结果置入所述hash数据集合中，触发所述数据提取单元702。

其中，所述网址去重单元705在结束当前网址分类后，还可以触发所述网址获取单元704获取其他待分类网址，重新解析所述其他待分类网址的网址数据信息，继续进行网址分类。

所述预分类单元706，由所述数据解析单元701触发，用于解析所述网址数据信息包括的网址字符串，判断所述网址字符串是否满足预设的预分类规则，当满足时，依据所述预分类规则获取与所述当前待分类网址相对应的网址类别，结束当前网址分类，否则，触发所述数据提取单元。

由上述方案可知，相对于采用现有技术中的网址分类装置，引起当待分类网址对应的网页内容的数据量较大时，导致***负载较大、影响网址分类效率的情况，本申请实施例八提供的一种网址分类装置，通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值，并由所述特征项及其权值组成与所述待分类网址相对应的空间向量，采用预设的向量机获得与所述待分类网址相对应的网址类别，当待分类网址对应的网页内容的数据量较大时，不会影响待分类网址的网址数据信息解析，从而降低了***负载，提高了网址分类效率

同时，本申请实施例八提供的一种网址分类装置通过不断调整待分类网址特征项相关参数及向量机相关参数等，可以得到实现不同分类方法的网址分类方法、装置及***，即本申请实施例八提供的是一种可以动态改变网址分类规则的网址分类装置。

进一步的，本申请实施例八提供的一种网址分类装置通过对互联网中的网址进行初步分类，得到待分类网址集合，进而对待分类网址进行分类，使得已分类网址的覆盖范围较广，质量较高，从而使得由已分类网址形成的网址数据库具有更好的查询能力。

进一步的，本申请实施例八提供的一种网址分类装置通过对待分类网址的网址数据信息中包括的网址字符串进行解析，并依据该解析结果对待分类网址进行预分类处理，从而加快了网址分类的速度。

本申请实施例九提供的一种网址分类***，所述***包括如上述任意一项所述的网址分类装置，其中，所述***用于实现以下功能：

所述网址分类***通过网址爬虫将互联网中常用网址目录网站、网址导航网站(例如雅虎、hao123等)的网址分类信息爬取过来，将具有类别标记的网址进行过滤、整合，通过建立一个类别标签的关系映射表，如表1所示，来获取所述常用网址目录网站、网址导航网站的网址对应所述预设的类别标签，最后得到一个已分类的网址库；

所述网址分类***通过实现网址采集器将初始网址分类库中的网址集作为初始队列进行采集，为了确保网址采集器能采集到互联网中较高质量、覆盖范围较广的网址集合，预先制定一套对于网址重要程度的权值设计方案。所述网址分类***将结合网址字符串自身对于网址权重的影响，并采用类似SiteRank算法对网址进行加权。网址权值分为两个部分：网址自身权值和网址链接之间的传递权值。对于网址自身权值，我们将考虑如下几个方面：(1)、网址首部，比如常见的为www，home等；(2)、网址尾部，比如常见的为com，cn，org，net等；(3)、网址字符串中包含”.”的个数；(4)、网址字符串的总长度；(5)、网址字符串包含的数字个数。对于网址链接之间的传递权值，采用将父网址的权值按照一定规则平均划分到该网址页面的子网址中。在采集过程中判断网址是否被采集过采用字符串哈希方法，并采用多线程并行采集提高采集速度，网址采集器的流程如附图11。

所述网址分类***将获取的网页通过建立DOM树状结构获取各个HTML标签及其内容，对这些内容中国科学院计算技术研究所的ICTCLAS分词***进行分词，去除停用词以及包含信息量小、作用不大的词条，并采用CHI-SQUARE TEST方法提取特征项，对于这些特征项结合其对应HTML标签的表现力，采用TFIDF方法进行特征项的加权。我们需要把网址转化为数学模型中的一个高维空间的向量，高位空间中的每个维度代表着一个特征项，向量中每个维度对应的值代表着该特征项在网址对应网页文档中的权值。对于任意一个网址U，我们可以表示为U＝(t1:w1，t2:w2，...，tn:wn)，其中(t1，t2，...，tn)表示为n维空间中的各个坐标系，(w1，w2，...，wn)表示各个坐标系的坐标值，U＝(t1:w1，t2:w2，...，tn:wn)便是这个空间中的一个向量，该过程如附图12。

所述网址分类***在模型训练阶段中，采用的网址训练集和测试集来自所述的已分类网址库，将每个网址表示成一个高维向量，采用LIBSVM开源软件包进行训练和分类，LIBSVM软件包对于训练数据和测试数据的格式要求如下：类标号

[index1]:[value1][index2]:[value2][index3]:[value3]...[indexn]:[valuen]

其中，无论是训练集和测试集都需要类标号，类标号代表着不同的类别，它可以是不连续的数值，对于value值为0的特征项，可以省略。通过不断调整分类的特征项的加权方法、特征项的维数、支持向量机LIBSVM的参数、训练集和测试集的数目等变量，从而寻求最优的LIBSVM模型。

通过将网址自动采集器获取的网址采用LIBSVM分类算法进行自动分类，形成已分类网址数据库。所述网址分类***对于一个网址类别查询的处理步骤如下：

先查询网址是否存在已分类网址数据库中，如果存在该记录则直接返回结果，否则判断网址字符串是否能够被预处理分类，预处理分类是指预先处理那些网址字符串中包含较强特征的网址，以提高分类***的效率性能，这些较强特征主要是指网址字符串包含了具有明显特征性的英文单词或者英文单词缩写，比如news和edu，如果能，则直接返回预处理分类的结果，否则，获取该网址的对应网页，解析网页内容，并提取网址特征向量，通过训练好的LIBSVM模型进行自动分类，返回分类结果，即待分类网址的网址类别。

由上述方案可知，，相对于采用现有技术中的网址分类方法，引起当待分类网址对应的网页内容的数据量较大时，导致***负载较大、影响网址分类效率的情况，本申请实施例九提供的一种网址分类***，通过提取解析到的待分类网址的网址数据信息中的至少一个特征项及其权值，并由所述特征项及其权值组成与所述待分类网址相对应的空间向量，采用预设的向量机获得与所述待分类网址相对应的网址类别，当待分类网址对应的网页内容的数据量较大时，不会影响待分类网址的网址数据信息解析，从而降低了***负载，提高了网址分类效率。

同时，本申请实施例九提供的一种网址分类***通过不断调整待分类网址特征项相关参数及向量机相关参数等，可以得到实现不同分类方法的网址分类方法、装置及***，即本申请实施例九提供的是一种可以动态改变网址分类规则的网址分类***。

进一步的，本申请实施例九提供的一种网址分类***通过对互联网中的网址进行初步分类，得到待分类网址集合，进而对待分类网址进行分类，使得已分类网址的覆盖范围较广，质量较高，从而使得由已分类网址形成的网址数据库具有更好的查询能力。

进一步的，本申请实施例九提供的一种网址分类***通过对待分类网址的网址数据信息中包括的网址字符串进行解析，并依据该解析结果对待分类网址进行预分类处理，从而加快了网址分类的速度。

进一步的，本申请实施例九提高的一种网址分类***通过解析所述网址数据信息中的至少一个HTML标签及其内容，利用卡方检验法依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值，相对于现有技术中采用单一TFIDF特征加权方法，提高了网址分类的准确率。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种网址分类方法、装置及***进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种网址分类方法，其特征在于，包括：

解析当前待分类网址中包含的网址数据信息；

2.根据权利要求1所述的方法，其特征在于，在所述解析当前待分类网址的网址数据之前，所述方法还包括：

获取互联网中的网址分类数据；

获取所述待分类网址集合中的待分类网址。

3.根据权利要求1或2所述的方法，其特征在于，在所述解析当前待分类网址的网址数据信息之前，所述方法还包括：

4.根据权利要求1或2所述的方法，其特征在于，在所述解析当前待分类网址的网址数据信息之后，在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前，所述方法还包括：

解析所述网址数据信息包括的网址字符串；

5.根据权利要求2所述的方法，其特征在于，所述获取所述待分类网址集合中的待分类网址包括：

6.根据权利要求1所述的方法，其特征在于，所述向量机采用预设分类算法依据所述空间向量获取最优分类模型，并解析出所述最优分类模型携带的类别号，将所述类别号作为与所述当前待分类网址相对应的网址类别。

7.根据权利要求1所述的方法，其特征在于，所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括：

解析所述网址数据信息中的至少一个HTML标签及其内容；

8.一种网址分类装置，其特征在于，包括数据解析单元、数据提取单元和类别获取单元，其中：

9.根据权利要求8所述的装置，其特征在于，还包括网址获取单元；

10.根据权利要求8或9所述的装置，其特征在于，还包括网址去重单元；

11.根据权利要求8或9所述的装置，其特征在于，还包括预分类单元；

12.根据权利要求9所述的装置，其特征在于，所述网址获取单元包括网址采集子单元、初始分类子单元和网址获取子单元，其中：

所述网址采集子单元，用于获取互联网中的网址分类数据；

13.根据权利要求8所述的装置，其特征在于，所述数据提取单元包括特征项提取子单元和向量生成子单元，其中：

14.一种网址分类***，其特征在于，包括如上述权利要求8至13任意一项所述的网址分类装置。