CN106649563B - 一种网站分类字典的构建方法及装置 - Google Patents

一种网站分类字典的构建方法及装置 Download PDF

Info

Publication number
CN106649563B
CN106649563B CN201610993453.8A CN201610993453A CN106649563B CN 106649563 B CN106649563 B CN 106649563B CN 201610993453 A CN201610993453 A CN 201610993453A CN 106649563 B CN106649563 B CN 106649563B
Authority
CN
China
Prior art keywords
website
initial
weight value
word
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610993453.8A
Other languages
English (en)
Other versions
CN106649563A (zh
Inventor
张惊申
梁力文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Priority to CN201610993453.8A priority Critical patent/CN106649563B/zh
Publication of CN106649563A publication Critical patent/CN106649563A/zh
Application granted granted Critical
Publication of CN106649563B publication Critical patent/CN106649563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种网站分类字典的构建方法及装置,该方法包括:获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容,其中,N为正整数;根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;统计每个有效词语对应的初始网站类别的个数;将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中,进而根据该网站分类字典对网站进行分类。应用本发明实施例,使得权重值设置更加合理,提高了网站分类的准确度。

Description

一种网站分类字典的构建方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种网站分类字典的构建方法及装置。
背景技术
互联网中的网站数目异常庞大,这其中包括各种各样的网站,如:新闻类的网站,体育类的网站,购物类的网站等等。面对各种各样的网站,企业或组织常常需要对网站进行过滤,禁止内部人员访问指定类别的网站。这里,确定一个网站是否需要过滤掉,首先需要对网站进行分类。
目前,网站分类一般依赖于网站分类字典,也就是,针对每一类网站设置一个网站分类字典,网站分类字典中包括:词语和权重值的对应关系。这样,就可以根据网站分类字典,确定待分类网站中的网页内容对应的权重值,进而根据权重值,确定待分类网站的网站类别。
但现有技术中,网站分类字典中词语的权重值都是统一设置的,并未考虑词语在各个网站分类字典中的分布情况,这导致权重值的设置并不是很合理,进而使得网站分类的准确度不高。
发明内容
本发明实施例公开了一种网站分类字典的构建方法及装置,以使权重值设置更加合理,进而提高网站分类的准确度。
为达到上述目的,本发明实施例公开了一种网站分类字典的构建方法,所述方法包括:
获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;
根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;
统计每个有效词语对应的初始网站类别的个数;
将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;
对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。
为达到上述目的,本发明实施例还公开了一种网站分类字典的构建装置,所述装置包括:
第一获取单元,用于获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;
第一确定单元,用于根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;
统计单元,用于统计每个有效词语对应的初始网站类别的个数;
调整单元,用于将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;
存储单元,用于对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。
本发明实施例提供了一种网站分类字典的构建方法及装置,根据预设的N个初始网站类别中的每个初始网站类别对应的样本网站的网页内容,确定每个初始网站类别对应的有效词语,进而为每个有效词语配置初始权重值;另外,统计每个有效词语对应的初始网站类别的个数,也就是确定每个有效词语所属的初始网站类别的个数,对于每个有效词语,若统计得到的个数大于1,则调小该有效词语的初始权重值,进而确定该有效词语的最终权重值,将每个有效词语和最终权重值对应存储至初始网站类别的网站分类字典中。可见本发明实施例中,考虑了词语在各个网站分类字典中的分布情况,权重值的设置更加合理,因此,用本发明实施例的方法构建的网站分类字典进行分类,能够提高网站分类的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网站分类字典的构建方法的流程示意图;
图2为基于图1所示实施例构建的网站分类字典的网站分类方法的流程示意图;
图3为本发明实施例提供的一种网站分类字典的构建装置的结构示意图;
图4为基于图3所示实施例构建的网站分类字典的网站分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面通过具体实施例,对本发明进行详细说明。
参考图1,图1为本发明实施例提供的一种网站分类字典的构建方法的流程示意图,该方法包括:
S101:获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;
这里,初始网站类别可以包括:“新闻”、“体育”、“金融”等等。另外,可以将所有的网站分类设置为一级分类,也可以再细分为二级和三级分类,如:可以设置“新闻”为一级分类,在“新闻”分类下设置二级分类:“时事”、“体育”、“购物”等;可以设置“金融”为一级分类,在“金融”分类下设置二级分类:“银行”、“证券”等。
在确定N个初始网站类别后,对于每一初始网站类别,获取该初始网站类别对应的至少一个样本网站的URL(Uniform Resource Locator,统一资源定位符),访问获取到的URL,获取每个样本网站的网页内容,进而确定每个初始网站类别对应的网页内容。
具体地,可以获取初始网站类别对应的至少一个样本网站的URL,通过网络爬虫工具按照网站类别访问相应的样本网站的URL,并从样本网站反馈的内容中提取出该样本网站的网页内容。例如:确定的初始网站类别为:“体育”和“购物”,则获取的“体育”初始网站类别对应的样本网站的URL可以为:新浪体育、搜狐体育、腾讯体育等体育网站的URL,并访问这些体育网站的URL,获取对应“体育”初始网站类别的网页内容;获取“购物”初始网站类别对应的样本网站的URL可以为:淘宝、唯品会、聚美优品等购物网站的URL,并访问这些购物网站的URL,获取对应“购物”初始网站类别的网页内容。
S102:根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;
对于每个初始网站类别,获取到对应的每个样本网站的网页内容后,可以先移除对应的每个样本网站的网页内容中的无用字符集,例如:非网页有效内容的网页代码、脚本字符集、注释掉的字符集等;之后,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;根据预设的加权算法,为每个有效词语配置初始权重值。这里,无效词语可以理解为在每一初始网站类别中都常见的词语,有效词语可以理解为在该初始网站类别中常见、在其他初始网站类别中不常见的词语。
例如:对“金融”初始网站类别对应的网页内容进行分词后,获得“利率”、“贷款”、“一批”、“中国人”等词语,则“一批”、“中国人”等词语,在每一初始网站类别中都常见,可以将“一批”、“中国人”等词语作为无效词语,并移除无效词语;“利率”、“贷款”等词语,在“金融”初始网站类别中常见、在其他初始网站类别中不常见,可以将“利率”、“贷款”等词语作为有效词语,保留有效词语。
另外,上述预设的加权算法可以为:TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆向文件频率)算法、TF-ITF(Term Frequency-Inverse TermFrequency,词频-逆向词语频率)算法、或TF-IDF和TF-ITF这两种算法的变种算法。根据上述加权算法对每个有效词语配置初始权重值为现有技术,此处不再赘述。
S103:统计每个有效词语对应的初始网站类别的个数;
例如,统计得到:7个初始网站类别中包括有效词语“资讯”,初始权重值为3.98;5个初始网站类别中包括有效词语“汽车”,初始权重值为4.02;3个初始网站类别中包括有效词语“官方”,初始权重值为4.58;1个初始网站类别中包括有效词语“就医”,初始权重值为5.74,则统计得到每个有效词语对应的初始网站类别的个数如表1所示。
表1
词语 统计得到的个数 初始权重值
资讯 7 3.98
汽车 5 4.02
官方 3 4.58
就医 1 5.74
S104:将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;
具体地,对于每一有效词语,若统计得到该有效词语对应的初始网站类别的个数大于1,说明该有效词语分布较均匀,对网站分类结果影响较小,需要调小该有效词语的初始权重值,将调小获得初始权重值确定为该有效词语的最终权重值。
在本发明的一个实施例中,可以根据以下公式,确定每个有效词语的最终权重值:
Figure BDA0001149912890000051
其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。
这里,x的取值范围可以为:1.3~6。
仍以S103中例子进行说明,若x为2,统计得到“资讯”对应的初始网站类别的个数为7,7>1,则“资讯”的最终权重值为:
Figure BDA0001149912890000061
同理,计算得到:“汽车”的最终权重值为:K汽车=1.8;“官方”的最终权重值为:K官方=2.64;另外,统计得到“就医”对应的初始网站类别的个数为1,1不大于1,因此不对“就医”的初始权重值进行调整,直接将其初始权重值作为其最终权重值,也就是,K就医=5.74,如表2所示。
表2
词语 统计得到的个数 初始权重值
资讯 7 3.98
汽车 5 4.02
官方 3 4.58
就医 1 5.74
S105:对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。
值得一提的是,网站分类字典可以为表格形式,也可以为文本形式。所有的网站分类字典可以置于一个分类字典集中,也就是,所有的网站分类字典可以置于一个表格或文本中,如表3所示;当然,每一网站分类字典也可以单独存储,也就是,每一网站分类字典置于一个表格或文本中。
表3
词语 所属初始网站类别 初始权重值 最终权重值
资讯 下载 3.98 1.5
汽车 购物 4.02 1.8
官方 游戏 4.58 2.64
就医 医疗 5.74 5.74
在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后,网站分类字典构建完成,此时,就可以对网站进行分类了。一般的,参考图2,图2为基于网站分类字典的网站分类方法的流程示意图,该方法可以包括:
S201:获取待分类网站的第一网页内容,并对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;
这里,待分类网站可以为用户需要去访问的网站,也可以为用户预先设定的一个网站。
一般的,首先获取待分类网站的URL,采用网络爬虫工具访问该URL,获取该待分类网站的网页内容;提取网页内容中的文本信息,并对提取到的文本信息进行分词,获得至少一个第一有效词语。
S202:根据各个网站分类字典,确定针对每一初始网站类别的每个第一有效词语的第一最终权重值;
S203:确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。
例如,从第一网页内容中获得的第一有效词语有:X1、X2、X3、X4和X5,每一第一有效词语与各个初始网站分类的网站分类字典中的有效词语进行匹配,确定:
“体育”初始网站分类的网站分类字典:X1的第一最终权重值为100;X2的第一最终权重值为200;X3的第一最终权重值为240;X4的第一最终权重值为70;X5的第一最终权重值为300;
“购物”初始网站分类的网站分类字典:X1的第一最终权重值为400;X2的第一最终权重值为300;X3的第一最终权重值为500;X4的第一最终权重值为1460;X5的第一最终权重值为1330;
“商业”初始网站分类的网站分类字典:X1的第一最终权重值为50;X2的第一最终权重值为100;X3的第一最终权重值为300;X4的第一最终权重值为20;X5的第一最终权重值为150;
根据上述获得的第一最终权重值,计算得到每一初始网站类别对应的第一最终权重值之和分别为:
“体育”初始网站分类的第一最终权重值之和为:910;
“购物”初始网站分类的第一最终权重值之和为:2990;
“商业”初始网站分类的第一最终权重值之和为:620;
此时,“购物”初始网站分类的第一最终权重值之和最大,可以确定该待分类网站的网站类别为“购物”。
本发明实施例提供了一种网站分类字典的构建方法,根据预设的N个初始网站类别中的每个初始网站类别对应的样本网站的网页内容,确定每个初始网站类别对应的有效词语,进而为每个有效词语配置初始权重值;另外,统计每个有效词语对应的初始网站类别的个数,也就是确定每个有效词语所属的初始网站类别的个数,对于每个有效词语,若统计得到的个数大于1,则调小该有效词语的初始权重值,进而确定该有效词语的最终权重值,将每个有效词语和最终权重值对应存储至初始网站类别的网站分类字典中。可见本发明实施例中,考虑了词语在各个网站分类字典中的分布情况,权重值的设置更加合理,因此,用本发明实施例的方法构建的网站分类字典进行分类,能够提高网站分类的准确度。
参考图3,图3为本发明实施例提供的一种网站分类字典的构建装置的结构示意图,该装置包括:
第一获取单元301,用于获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;
第一确定单元302,用于根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值;
统计单元303,用于统计每个有效词语对应的初始网站类别的个数;
调整单元304,用于将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;
存储单元305,用于对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。
在本发明的一个实施例,所述第一获取单元301,具体可以用于:
获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的统一资源定位符URL;
访问所获取的URL,获取每个样本网站的网页内容,确定每个初始网站类别对应的网页内容。
在本发明的一个实施例,所述第一确定单元302,具体可以用于:
对于每个初始网站类别,移除对应的每个样本网站的网页内容中的无用字符集,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;根据预设的加权算法,为每个有效词语配置初始权重值。
在本发明的一个实施例,所述调整单元304,具体可以用于:
根据以下公式,确定每个有效词语的最终权重值:
Figure BDA0001149912890000091
其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。
这里,x的取值范围可以为:1.3~6。
在本发明的一个实施例,参考图4,在图3的基础上,该装置还可以包括:
第二获取单元401,用于在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后,获取待分类网站的第一网页内容,并对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;
第二确定单元402,用于根据各个网站分类字典,确定针对每一初始网站类别的每个第一有效词语的第一最终权重值;
分类单元403,用于确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。
本发明实施例提供了一种网站分类字典的构建装置,根据预设的N个初始网站类别中的每个初始网站类别对应的样本网站的网页内容,确定每个初始网站类别对应的有效词语,进而为每个有效词语配置初始权重值;另外,统计每个有效词语对应的初始网站类别的个数,也就是确定每个有效词语所属的初始网站类别的个数,对于每个有效词语,若统计得到的个数大于1,则调小该有效词语的初始权重值,进而确定该有效词语的最终权重值,将每个有效词语和最终权重值对应存储至初始网站类别的网站分类字典中。可见本发明实施例中,考虑了词语在各个网站分类字典中的分布情况,权重值的设置更加合理,因此,用本发明实施例的方法构建的网站分类字典进行分类,能够提高网站分类的准确度。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种网站分类字典的构建方法,其特征在于,所述方法包括:
获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;
根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值,其中,所述根据所获取的网页内容,确定每个初始网站类别对应的有效词语,包括:对于每个初始网站类别,移除对应的每个样本网站的网页内容中的无用字符集,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;
统计每个有效词语对应的初始网站类别的个数;
将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;
对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中;
获取待分类网站的第一网页内容,并对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;
根据各个网站分类字典,确定针对每一初始网站类别的每个第一有效词语的第一最终权重值;
确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。
2.根据权利要求1所述的方法,其特征在于,所述获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容,包括:
获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的统一资源定位符URL;
访问所获取的URL,获取每个样本网站的网页内容,确定每个初始网站类别对应的网页内容。
3.根据权利要求1所述的方法,其特征在于,所述为每个有效词语配置初始权重值,包括:
根据预设的加权算法,为每个有效词语配置初始权重值。
4.根据权利要求1所述的方法,其特征在于,所述将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值,包括:
根据以下公式,确定每个有效词语的最终权重值:
Figure FDA0003454747480000021
其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。
5.根据权利要求4所述的方法,其特征在于,x的取值范围为:1.3~6。
6.一种网站分类字典的构建装置,其特征在于,所述装置包括:
第一获取单元,用于获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的网页内容;其中,N为正整数;
第一确定单元,用于根据所获取的网页内容,确定每个初始网站类别对应的有效词语,并为每个有效词语配置初始权重值,其中,所述根据所获取的网页内容,确定每个初始网站类别对应的有效词语,包括:对于每个初始网站类别,移除对应的每个样本网站的网页内容中的无用字符集,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;
统计单元,用于统计每个有效词语对应的初始网站类别的个数;
调整单元,用于将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值;
存储单元,用于对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中;
第二获取单元,用于在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后,获取待分类网站的第一网页内容,并对所述第一网页内容的文本信息进行分词,获得至少一个第一有效词语;
第二确定单元,用于根据各个网站分类字典,确定针对每一初始网站类别的每个第一有效词语的第一最终权重值;
分类单元,用于确定第一最终权重值之和最大的初始网站类别为所述待分类网站的网站类别。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元,具体用于:
获取预设的N个初始网站类别中的每个初始网站类别对应的至少一个样本网站的统一资源定位符URL;
访问所获取的URL,获取每个样本网站的网页内容,确定每个初始网站类别对应的网页内容。
8.根据权利要求6所述的装置,其特征在于,所述第一确定单元,具体用于:
根据预设的加权算法,为每个有效词语配置初始权重值。
9.根据权利要求6所述的装置,其特征在于,所述调整单元,具体用于:
根据以下公式,确定每个有效词语的最终权重值:
Figure FDA0003454747480000031
其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。
10.根据权利要求9所述的装置,其特征在于,x的取值范围为:1.3~6。
CN201610993453.8A 2016-11-10 2016-11-10 一种网站分类字典的构建方法及装置 Active CN106649563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610993453.8A CN106649563B (zh) 2016-11-10 2016-11-10 一种网站分类字典的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610993453.8A CN106649563B (zh) 2016-11-10 2016-11-10 一种网站分类字典的构建方法及装置

Publications (2)

Publication Number Publication Date
CN106649563A CN106649563A (zh) 2017-05-10
CN106649563B true CN106649563B (zh) 2022-02-25

Family

ID=58806170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610993453.8A Active CN106649563B (zh) 2016-11-10 2016-11-10 一种网站分类字典的构建方法及装置

Country Status (1)

Country Link
CN (1) CN106649563B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10958683B2 (en) * 2018-04-26 2021-03-23 Wipro Limited Method and device for classifying uniform resource locators based on content in corresponding websites
CN109933727A (zh) * 2019-03-22 2019-06-25 北京博明信德科技有限公司 用户画像生成方法及***、用户画像应用方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246502A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种在网络上搜索图片的方法及***
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120303359A1 (en) * 2009-12-11 2012-11-29 Nec Corporation Dictionary creation device, word gathering method and recording medium
CN102819591B (zh) * 2012-08-07 2016-04-06 北京网康科技有限公司 一种基于内容的网页分类方法及***
CN103678310B (zh) * 2012-08-31 2018-04-27 腾讯科技(深圳)有限公司 网页主题的分类方法及装置
US9235638B2 (en) * 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results
CN104035968B (zh) * 2014-05-20 2017-11-03 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246502A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种在网络上搜索图片的方法及***
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN103218444A (zh) * 2013-04-22 2013-07-24 中央民族大学 基于语义的藏文网页文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本分类算法中词语权重计算方法的改进;赵小华 等;《电脑知识与技术》;20091231;第10626-10628页 *

Also Published As

Publication number Publication date
CN106649563A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
US20180129749A1 (en) Method, apparatus, and system for recommending real-time information
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及***
CN103914478B (zh) 网页训练方法及***、网页预测方法及***
WO2017097231A1 (zh) 话题处理方法及装置
CN103838798B (zh) 页面分类***及页面分类方法
CN102646100B (zh) 领域词获取方法及***
CN106168968B (zh) 一种网站分类方法及装置
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN106502984B (zh) 一种领域新词发现的方法及装置
CN108108346B (zh) 文档的主题特征词抽取方法及装置
CN105677787B (zh) 信息搜索装置及信息搜索方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN106528777A (zh) 跨屏用户标识归一的方法及其***
CN106250402B (zh) 一种网站分类方法及装置
CN104951448A (zh) 一种为用户推送订阅类别的消息的方法和服务器
CN106649563B (zh) 一种网站分类字典的构建方法及装置
WO2016009419A1 (en) System and method for ranking news feeds
CN103425650A (zh) 推荐搜索方法和***
CN108153899B (zh) 一种智能化文本分类方法
CN106933878B (zh) 一种信息处理方法及装置
CN106202349B (zh) 网页分类字典生成方法及装置
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
CN110399464B (zh) 一种相似新闻判别方法、***及电子设备
CN106484672A (zh) 词汇识别方法和词汇识别***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230625

Address after: 310052 11th Floor, 466 Changhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: H3C INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 310052 Changhe Road, Binjiang District, Hangzhou, Zhejiang Province, No. 466

Patentee before: NEW H3C TECHNOLOGIES Co.,Ltd.