CN106649563B

CN106649563B - 一种网站分类字典的构建方法及装置

Info

Publication number: CN106649563B
Application number: CN201610993453.8A
Authority: CN
Inventors: 张惊申; 梁力文
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Information Technologies Co Ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2022-02-25
Anticipated expiration: 2036-11-10
Also published as: CN106649563A

Abstract

本发明实施例公开了一种网站分类字典的构建方法及装置，该方法包括：获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容，其中，N为正整数；根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值；统计每个有效词语对应的初始网站类别的个数；将统计得到的个数大于1的有效词语的初始权重值调小，确定每个有效词语的最终权重值；对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中，进而根据该网站分类字典对网站进行分类。应用本发明实施例，使得权重值设置更加合理，提高了网站分类的准确度。

Description

一种网站分类字典的构建方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种网站分类字典的构建方法及装置。

背景技术

互联网中的网站数目异常庞大，这其中包括各种各样的网站，如：新闻类的网站，体育类的网站，购物类的网站等等。面对各种各样的网站，企业或组织常常需要对网站进行过滤，禁止内部人员访问指定类别的网站。这里，确定一个网站是否需要过滤掉，首先需要对网站进行分类。

目前，网站分类一般依赖于网站分类字典，也就是，针对每一类网站设置一个网站分类字典，网站分类字典中包括：词语和权重值的对应关系。这样，就可以根据网站分类字典，确定待分类网站中的网页内容对应的权重值，进而根据权重值，确定待分类网站的网站类别。

但现有技术中，网站分类字典中词语的权重值都是统一设置的，并未考虑词语在各个网站分类字典中的分布情况，这导致权重值的设置并不是很合理，进而使得网站分类的准确度不高。

发明内容

本发明实施例公开了一种网站分类字典的构建方法及装置，以使权重值设置更加合理，进而提高网站分类的准确度。

为达到上述目的，本发明实施例公开了一种网站分类字典的构建方法，所述方法包括：

获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容；其中，N为正整数；

根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值；

统计每个有效词语对应的初始网站类别的个数；

将统计得到的个数大于1的有效词语的初始权重值调小，确定每个有效词语的最终权重值；

对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。

为达到上述目的，本发明实施例还公开了一种网站分类字典的构建装置，所述装置包括：

第一获取单元，用于获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容；其中，N为正整数；

第一确定单元，用于根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值；

统计单元，用于统计每个有效词语对应的初始网站类别的个数；

调整单元，用于将统计得到的个数大于1的有效词语的初始权重值调小，确定每个有效词语的最终权重值；

存储单元，用于对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。

本发明实施例提供了一种网站分类字典的构建方法及装置，根据预设的N个初始网站类别中的每个初始网站类别对应的样本网站的网页内容，确定每个初始网站类别对应的有效词语，进而为每个有效词语配置初始权重值；另外，统计每个有效词语对应的初始网站类别的个数，也就是确定每个有效词语所属的初始网站类别的个数，对于每个有效词语，若统计得到的个数大于1，则调小该有效词语的初始权重值，进而确定该有效词语的最终权重值，将每个有效词语和最终权重值对应存储至初始网站类别的网站分类字典中。可见本发明实施例中，考虑了词语在各个网站分类字典中的分布情况，权重值的设置更加合理，因此，用本发明实施例的方法构建的网站分类字典进行分类，能够提高网站分类的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网站分类字典的构建方法的流程示意图；

图2为基于图1所示实施例构建的网站分类字典的网站分类方法的流程示意图；

图3为本发明实施例提供的一种网站分类字典的构建装置的结构示意图；

图4为基于图3所示实施例构建的网站分类字典的网站分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面通过具体实施例，对本发明进行详细说明。

参考图1，图1为本发明实施例提供的一种网站分类字典的构建方法的流程示意图，该方法包括：

S101：获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容；其中，N为正整数；

这里，初始网站类别可以包括：“新闻”、“体育”、“金融”等等。另外，可以将所有的网站分类设置为一级分类，也可以再细分为二级和三级分类，如：可以设置“新闻”为一级分类，在“新闻”分类下设置二级分类：“时事”、“体育”、“购物”等；可以设置“金融”为一级分类，在“金融”分类下设置二级分类：“银行”、“证券”等。

在确定N个初始网站类别后，对于每一初始网站类别，获取该初始网站类别对应的至少一个样本网站的URL(Uniform Resource Locator，统一资源定位符)，访问获取到的URL，获取每个样本网站的网页内容，进而确定每个初始网站类别对应的网页内容。

具体地，可以获取初始网站类别对应的至少一个样本网站的URL，通过网络爬虫工具按照网站类别访问相应的样本网站的URL，并从样本网站反馈的内容中提取出该样本网站的网页内容。例如：确定的初始网站类别为：“体育”和“购物”，则获取的“体育”初始网站类别对应的样本网站的URL可以为：新浪体育、搜狐体育、腾讯体育等体育网站的URL，并访问这些体育网站的URL，获取对应“体育”初始网站类别的网页内容；获取“购物”初始网站类别对应的样本网站的URL可以为：淘宝、唯品会、聚美优品等购物网站的URL，并访问这些购物网站的URL，获取对应“购物”初始网站类别的网页内容。

S102：根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值；

对于每个初始网站类别，获取到对应的每个样本网站的网页内容后，可以先移除对应的每个样本网站的网页内容中的无用字符集，例如：非网页有效内容的网页代码、脚本字符集、注释掉的字符集等；之后，对对应的每个样本网站的网页内容进行分词，移除无效词语，获得至少一个有效词语；根据预设的加权算法，为每个有效词语配置初始权重值。这里，无效词语可以理解为在每一初始网站类别中都常见的词语，有效词语可以理解为在该初始网站类别中常见、在其他初始网站类别中不常见的词语。

例如：对“金融”初始网站类别对应的网页内容进行分词后，获得“利率”、“贷款”、“一批”、“中国人”等词语，则“一批”、“中国人”等词语，在每一初始网站类别中都常见，可以将“一批”、“中国人”等词语作为无效词语，并移除无效词语；“利率”、“贷款”等词语，在“金融”初始网站类别中常见、在其他初始网站类别中不常见，可以将“利率”、“贷款”等词语作为有效词语，保留有效词语。

另外，上述预设的加权算法可以为：TF-IDF(Term Frequency-Inverse DocumentFrequency，词频-逆向文件频率)算法、TF-ITF(Term Frequency-Inverse TermFrequency，词频-逆向词语频率)算法、或TF-IDF和TF-ITF这两种算法的变种算法。根据上述加权算法对每个有效词语配置初始权重值为现有技术，此处不再赘述。

S103：统计每个有效词语对应的初始网站类别的个数；

例如，统计得到：7个初始网站类别中包括有效词语“资讯”，初始权重值为3.98；5个初始网站类别中包括有效词语“汽车”，初始权重值为4.02；3个初始网站类别中包括有效词语“官方”，初始权重值为4.58；1个初始网站类别中包括有效词语“就医”，初始权重值为5.74，则统计得到每个有效词语对应的初始网站类别的个数如表1所示。

表1

词语	统计得到的个数	初始权重值
			资讯	7	3.98
汽车	5	4.02
			官方	3	4.58
就医	1	5.74

S104：将统计得到的个数大于1的有效词语的初始权重值调小，确定每个有效词语的最终权重值；

具体地，对于每一有效词语，若统计得到该有效词语对应的初始网站类别的个数大于1，说明该有效词语分布较均匀，对网站分类结果影响较小，需要调小该有效词语的初始权重值，将调小获得初始权重值确定为该有效词语的最终权重值。

在本发明的一个实施例中，可以根据以下公式，确定每个有效词语的最终权重值：

其中，对于第i个有效词语，统计得到第i个有效词语对应的初始网站的个数大于1，K_i为第i个有效词语的最终权重值，Q_i为第i个有效词语的初始权重值，M_i为第i个有效词语对应的初始网站类别的个数，x为预设参数，x>1。

这里，x的取值范围可以为：1.3～6。

仍以S103中例子进行说明，若x为2，统计得到“资讯”对应的初始网站类别的个数为7，7>1，则“资讯”的最终权重值为：

同理，计算得到：“汽车”的最终权重值为：K_汽车＝1.8；“官方”的最终权重值为：K_官方＝2.64；另外，统计得到“就医”对应的初始网站类别的个数为1，1不大于1，因此不对“就医”的初始权重值进行调整，直接将其初始权重值作为其最终权重值，也就是，K_就医＝5.74，如表2所示。

表2

S105：对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。

值得一提的是，网站分类字典可以为表格形式，也可以为文本形式。所有的网站分类字典可以置于一个分类字典集中，也就是，所有的网站分类字典可以置于一个表格或文本中，如表3所示；当然，每一网站分类字典也可以单独存储，也就是，每一网站分类字典置于一个表格或文本中。

表3

词语	所属初始网站类别	初始权重值	最终权重值
				资讯	下载	3.98	1.5
汽车	购物	4.02	1.8
				官方	游戏	4.58	2.64
就医	医疗	5.74	5.74

在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后，网站分类字典构建完成，此时，就可以对网站进行分类了。一般的，参考图2，图2为基于网站分类字典的网站分类方法的流程示意图，该方法可以包括：

S201：获取待分类网站的第一网页内容，并对所述第一网页内容的文本信息进行分词，获得至少一个第一有效词语；

这里，待分类网站可以为用户需要去访问的网站，也可以为用户预先设定的一个网站。

一般的，首先获取待分类网站的URL，采用网络爬虫工具访问该URL，获取该待分类网站的网页内容；提取网页内容中的文本信息，并对提取到的文本信息进行分词，获得至少一个第一有效词语。

S202：根据各个网站分类字典，确定针对每一初始网站类别的每个第一有效词语的第一最终权重值；

S203：确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。

例如，从第一网页内容中获得的第一有效词语有：X₁、X₂、X₃、X₄和X₅，每一第一有效词语与各个初始网站分类的网站分类字典中的有效词语进行匹配，确定：

“体育”初始网站分类的网站分类字典：X₁的第一最终权重值为100；X₂的第一最终权重值为200；X₃的第一最终权重值为240；X₄的第一最终权重值为70；X₅的第一最终权重值为300；

“购物”初始网站分类的网站分类字典：X₁的第一最终权重值为400；X₂的第一最终权重值为300；X₃的第一最终权重值为500；X₄的第一最终权重值为1460；X₅的第一最终权重值为1330；

“商业”初始网站分类的网站分类字典：X₁的第一最终权重值为50；X₂的第一最终权重值为100；X₃的第一最终权重值为300；X₄的第一最终权重值为20；X₅的第一最终权重值为150；

根据上述获得的第一最终权重值，计算得到每一初始网站类别对应的第一最终权重值之和分别为：

“体育”初始网站分类的第一最终权重值之和为：910；

“购物”初始网站分类的第一最终权重值之和为：2990；

“商业”初始网站分类的第一最终权重值之和为：620；

此时，“购物”初始网站分类的第一最终权重值之和最大，可以确定该待分类网站的网站类别为“购物”。

本发明实施例提供了一种网站分类字典的构建方法，根据预设的N个初始网站类别中的每个初始网站类别对应的样本网站的网页内容，确定每个初始网站类别对应的有效词语，进而为每个有效词语配置初始权重值；另外，统计每个有效词语对应的初始网站类别的个数，也就是确定每个有效词语所属的初始网站类别的个数，对于每个有效词语，若统计得到的个数大于1，则调小该有效词语的初始权重值，进而确定该有效词语的最终权重值，将每个有效词语和最终权重值对应存储至初始网站类别的网站分类字典中。可见本发明实施例中，考虑了词语在各个网站分类字典中的分布情况，权重值的设置更加合理，因此，用本发明实施例的方法构建的网站分类字典进行分类，能够提高网站分类的准确度。

参考图3，图3为本发明实施例提供的一种网站分类字典的构建装置的结构示意图，该装置包括：

第一获取单元301，用于获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容；其中，N为正整数；

第一确定单元302，用于根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值；

统计单元303，用于统计每个有效词语对应的初始网站类别的个数；

调整单元304，用于将统计得到的个数大于1的有效词语的初始权重值调小，确定每个有效词语的最终权重值；

存储单元305，用于对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。

在本发明的一个实施例，所述第一获取单元301，具体可以用于：

获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的统一资源定位符URL；

访问所获取的URL，获取每个样本网站的网页内容，确定每个初始网站类别对应的网页内容。

在本发明的一个实施例，所述第一确定单元302，具体可以用于：

对于每个初始网站类别，移除对应的每个样本网站的网页内容中的无用字符集，对对应的每个样本网站的网页内容进行分词，移除无效词语，获得至少一个有效词语；根据预设的加权算法，为每个有效词语配置初始权重值。

在本发明的一个实施例，所述调整单元304，具体可以用于：

根据以下公式，确定每个有效词语的最终权重值：

这里，x的取值范围可以为：1.3～6。

在本发明的一个实施例，参考图4，在图3的基础上，该装置还可以包括：

第二获取单元401，用于在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后，获取待分类网站的第一网页内容，并对所述第一网页内容的文本信息进行分词，获得至少一个第一有效词语；

第二确定单元402，用于根据各个网站分类字典，确定针对每一初始网站类别的每个第一有效词语的第一最终权重值；

分类单元403，用于确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。

本发明实施例提供了一种网站分类字典的构建装置，根据预设的N个初始网站类别中的每个初始网站类别对应的样本网站的网页内容，确定每个初始网站类别对应的有效词语，进而为每个有效词语配置初始权重值；另外，统计每个有效词语对应的初始网站类别的个数，也就是确定每个有效词语所属的初始网站类别的个数，对于每个有效词语，若统计得到的个数大于1，则调小该有效词语的初始权重值，进而确定该有效词语的最终权重值，将每个有效词语和最终权重值对应存储至初始网站类别的网站分类字典中。可见本发明实施例中，考虑了词语在各个网站分类字典中的分布情况，权重值的设置更加合理，因此，用本发明实施例的方法构建的网站分类字典进行分类，能够提高网站分类的准确度。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种网站分类字典的构建方法，其特征在于，所述方法包括：

根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值，其中，所述根据所获取的网页内容，确定每个初始网站类别对应的有效词语，包括：对于每个初始网站类别，移除对应的每个样本网站的网页内容中的无用字符集，对对应的每个样本网站的网页内容进行分词，移除无效词语，获得至少一个有效词语；

统计每个有效词语对应的初始网站类别的个数；

对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中；

获取待分类网站的第一网页内容，并对所述第一网页内容的文本信息进行分词，获得至少一个第一有效词语；

根据各个网站分类字典，确定针对每一初始网站类别的每个第一有效词语的第一最终权重值；

确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。

2.根据权利要求1所述的方法，其特征在于，所述获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容，包括：

3.根据权利要求1所述的方法，其特征在于，所述为每个有效词语配置初始权重值，包括：

根据预设的加权算法，为每个有效词语配置初始权重值。

4.根据权利要求1所述的方法，其特征在于，所述将统计得到的个数大于1的有效词语的初始权重值调小，确定每个有效词语的最终权重值，包括：

根据以下公式，确定每个有效词语的最终权重值：

5.根据权利要求4所述的方法，其特征在于，x的取值范围为：1.3～6。

6.一种网站分类字典的构建装置，其特征在于，所述装置包括：

第一确定单元，用于根据所获取的网页内容，确定每个初始网站类别对应的有效词语，并为每个有效词语配置初始权重值，其中，所述根据所获取的网页内容，确定每个初始网站类别对应的有效词语，包括：对于每个初始网站类别，移除对应的每个样本网站的网页内容中的无用字符集，对对应的每个样本网站的网页内容进行分词，移除无效词语，获得至少一个有效词语；

存储单元，用于对于每个初始网站类别，将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中；

第二获取单元，用于在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后，获取待分类网站的第一网页内容，并对所述第一网页内容的文本信息进行分词，获得至少一个第一有效词语；

第二确定单元，用于根据各个网站分类字典，确定针对每一初始网站类别的每个第一有效词语的第一最终权重值；

分类单元，用于确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。

7.根据权利要求6所述的装置，其特征在于，所述第一获取单元，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述第一确定单元，具体用于：

根据预设的加权算法，为每个有效词语配置初始权重值。

9.根据权利要求6所述的装置，其特征在于，所述调整单元，具体用于：

根据以下公式，确定每个有效词语的最终权重值：

10.根据权利要求9所述的装置，其特征在于，x的取值范围为：1.3～6。