CN104750754A - 网站所属行业的分类方法和服务器 - Google Patents
网站所属行业的分类方法和服务器 Download PDFInfo
- Publication number
- CN104750754A CN104750754A CN201310753049.XA CN201310753049A CN104750754A CN 104750754 A CN104750754 A CN 104750754A CN 201310753049 A CN201310753049 A CN 201310753049A CN 104750754 A CN104750754 A CN 104750754A
- Authority
- CN
- China
- Prior art keywords
- website
- sorted
- notional word
- information
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种网站所属行业的分类方法和服务器,方法包括:服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。本发明实施例有效解决现有技术中,采用人工方式判断各网站所属的行业类型需耗费大量人力且执行效率低的技术问题。
Description
技术领域
本发明涉及信息技术,尤其涉及一种网站所属行业的分类方法和服务器。
背景技术
随着互联网技术的发展,国内网站的数量迅猛增加。这些网站为网民提供各种各样的服务,涉及行业也是五花八门,如:用于为企业拓展业务的各种企业网站,还有为网民提供网上政务或信息查询的政府类网站等。如果能够将上述国内的网站具体所属的行业区分出来,就可以根据具体行业信息,找到该行业类别下类似的网站,这对于网站信息分类和搜索引擎提升搜索结果都有很大作用。
现有技术中,采用人工方式判断各网站所属的行业类型,该方法不但耗费大量人力,而且执行效率低。
发明内容
本发明提供一种网站所属行业的分类方法和服务器,用于解决现有技术中,采用人工方式判断各网站所属的行业类型需耗费大量人力且执行效率低的技术问题。
一方面,本发明实施例提供一种网站所属行业的分类方法,包括:
服务器获取待分类网站的网页内容信息;
所述服务器对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;
所述服务器将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;
所述服务器根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。
另一方面,本发明实施例提供一种服务器,包括:
获取模块,用于获取待分类网站的网页内容信息;
分词模块,用于对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;
匹配模块,用于将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;
确定模块,用于根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。
本发明提供的网站所属行业的分类方法和服务器,服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。该方案在判断各网站所属的行业类型时无需耗费大量人力且提高了执行效率。
附图说明
图1为本发明提供的网站所属行业的分类方法一个实施例的流程图;
图2为本发明提供的根据网站域名的后缀信息判断网站所属行业的分类方法一个实施例的流程图;
图3为本发明提供的根据网站的注册单位信息判断网站所属行业的分类方法一个实施例的流程图;
图4为本发明提供的根据网站名称信息判断网站所属行业的分类方法一个实施例的流程图;
图5为本发明提供的根据网站的首页面的描述信息判断网站所属行业的分类方法一个实施例的流程图;
图6为本发明提供的服务器一个实施例的结构示意图。
具体实施方式
图1为本发明提供的网站所属行业的分类方法一个实施例的流程图。该方法的以下步骤的执行主体可以为具有获取网站相关信息的服务器。如图1所示,该网站所属行业的分类方法具体包括:
S101,服务器获取待分类网站的网页内容信息;
服务器通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网站信息的程序或脚本,从而获得待分类网站的网页内容信息;该网页内容信息包括该网站包含的所有网页页面中涉及的内容信息,包括文字,图片等。
S102,服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;
服务器获取到待分类网站的网页内容信息后,将该网页内容信息中包含的所有文字信息通过分词工具进行分词处理,从而生成每个待分类网站的网页内容信息对应的一个实词集合。该实词集合中包含了用于描述该待分类网站的网页内容信息的所有实词。
S103,服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在网页内容信息对应的实词集合中出现的次数;
其中,上述各行业类别对应的关键词为服务器预先对大量已进行行业分类的网站的网页内容信息进行实词统计后提取获得的。每个行业类别都对应着一定数量的关键词。这些关键词可以在很大概率上确定包含这些关键词的网站所属的行业类别为该关键词对应的行业类别。例如,本实施例所述服务器预先将网络中的网站划分为包括:工农贸易、电子服务、文化体育、新闻广告传媒、电子商务、机械设备和IT服务等多个行业类别。以IT服务行业为例,该行业类别对应关键词可包括:服务器租用、服务器托管、智能带宽出租、双线服务器、机柜出租、虚拟主机服务、虚拟主机等。
服务器将上述待分类网站的网页内容信息对应的实词集合中包含的所有实词与上述预设的各行业类别对应的关键词进行匹配;确定每个行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数。例如,服务器对网站abc.com的网页内容信息中包含的所有文字信息进行分词处理生成对应的实词集合后,通过将实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配,发现IT服务行业对应的关键词:服务器租用、服务器托管、智能带宽出租、分别出现1、2、3次,则确定IT服务行业对应的关键词在网站abc.com的网页内容信息对应的实词集合中出现了6次。
S104,服务器根据各行业类别对应的关键词在网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别;
服务器通过统计各个行业类别对应的上述关键词在当前待分类网站的网页内容信息对应的实词集合中出现的次数,确定这些行业类别对应的关键词之间的在该实词集合中出现的次数比例,并根据次数比例的大小情况确定待分类网站最终属于哪个行业类别。通常认为关键词出现次数比例越大的行业类别越接近于待分类网站的实际类别。本实施例中服务器采用的具体方式即为将各行业类别对应的关键词在网页内容信息对应的实词集合中出现次数最多的行业,确定为待分类网站所属的行业类别。在实际分类中,也可能出现部分行业类别对应的关键词在该网页内容信息对应的实词集合中出现次数较其他行业类别很多,但彼此之间对应的次数比较均等的情况。例如,次数占所有行业类别对应的关键词在该网页内容信息对应的实词集合中出现的总次数的40%和36%的两个行业类别包含的关键词已占据了所有关键词次数的76%。本方案中对于这种情况,可将这两种行业类别都确定为当前待分类网站的行业类别。
本发明提供的网站所属行业的分类方法,服务器获取待分类网站的网页内容信息;服务器对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;服务器根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。该方案在判断各网站所属的行业类型时无需耗费大量人力且提高了执行效率。
本方案在如图1所示网站所属行业的分类方法的基础上,在服务器获取待分类网站的网页内容信息之前,还包括:根据网站域名的后缀信息、网站的注册单位信息、网站名称信息和网站的首页面的描述信息这四个方面分别对待分类网站进行相关信息的匹配,进而确定待分类网站所属的行业类别。当经过以上四个方面的都无法确定待分类网站所属行业类别时,可再通过如图1所示网站所属行业的分类方法对该网站进行行业分类。在具体对待分类网站进行行业分类的过程中,通过上述四个方面对待分类网站进行行业分类的方法中,若存在通过某一方法或多种方法组合后仍无法确定当前待分类网站所属行业时,可以直接通过图1所示实施例的方法进行行业分类。其中,对于组合后的方法中包括的方法个数以及前后顺序本实施例在此不作限制。
以下针对上述四个方面对待分类网站进行行业分类的方法进行具体阐述。
图2为本发明提供的根据网站域名的后缀信息判断网站所属行业的分类方法一个实施例的流程图。如图2所示,该方法具体包括:
S201,服务器获取待分类网站的域名后缀信息;
服务器通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网站信息的程序或脚本,从而获得待分类网站的域名后缀信息。
S202,服务器将待分类网站的域名后缀信息与预设的各行业类别对应的域名后缀信息进行匹配;
服务器预先对大量已进行行业分类的网站的域名后缀信息进行提取,并将提取的域名后缀信息作为相应行业类别对应的域名后缀信息进行分类存储。例如,域名后缀信息为“.edu.cn”的对应于教育行业类网站,域名后缀信息为“.mil.cn”的对应于军事行业类网站。
服务器将待分类网站的域名后缀信息与预设的各行业类别对应的域名后缀信息进行匹配,从而可直接确定当前待分类网站所属的行业类型。
S203,若匹配到相同的域名后缀信息,则服务器将该域名后缀信息对应的行业类别确定为待分类网站所属的行业类别;
当服务器将当前待分类网站的域名后缀信息在预设的各行业类别对应的域名后缀信息中匹配,并且匹配到相同的域名后缀信息时,将匹配到的相同的域名后缀信息对应的行业类别确定为该待分类网站所属的行业类别;若服务器在预设的各行业类别对应的域名后缀信息进行匹配;均没有匹配到相同的域名后缀信息,则服务器认为本次对待分类网站进行行业分类失败,并确定获取待分类网站的网页内容信息,以执行图1所示网站所属行业的分类方法的步骤。
本实施例提供的根据网站域名的后缀信息判断网站所属行业的分类方法,提高了对网站所属行业进行分类的执行效率。
图3为本发明提供的根据网站的注册单位信息判断网站所属行业的分类方法一个实施例的流程图。如图3所示,该方法具体包括:
S301,服务器获取待分类网站的注册单位信息;
服务器通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网站信息的程序或脚本,从而获得待分类网站的注册单位信息。
S302,服务器对注册单位信息中包含的所有文字进行分词处理,以生成注册单位信息对应的实词集合;
服务器获取到待分类网站的注册单位信息后,将该注册单位信息中包含的所有文字信息通过分词工具进行分词处理,从而生成每个待分类网站的注册单位信息对应的一个实词集合。该实词集合中包含了用于描述该待分类网站的注册单位的所有实词。
S303,服务器将注册单位信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;
其中,对于预设的各行业类别对应的关键词的解释可参见步骤103的相应内容。
S304,若各行业类别对应的关键词中存在与注册单位信息对应的实词集合中包含的实词相匹配的实词,则服务器将该匹配的实词数目最多的行业类别确定为待分类网站所属的行业类别;
服务器将上述待分类网站的注册单位信息对应的实词集合中包含的所有实词与上述预设的各行业类别对应的关键词进行匹配,确定每个行业类别对应的关键词在该注册单位信息对应的实词集合中出现的次数,并将匹配到的关键词的次数出现最多的行业类别确定为待分类网站所属的行业类别。例如:注册单位为北京机械厂对应的实词集合包含的所有实词中,只有“机械”一词在机械设备类网站对应的关键词中匹配到。因此,确定机械设备类网站对应的关键词在该注册单位信息对应的实词集合中出现的次数为1,其他行业类别对应的关键词在该注册单位信息对应的实词集合中出现的次数为0。因此,服务器将机械设备类确定为待分类网站所属的行业类别。当然,如果上述待分类网站的注册单位信息对应的实词集合中包含的所有实词在上述预设的各行业类别对应的关键词中都没有匹配到相同的实词,则服务器认为本次对待分类网站进行行业分类失败,并确定获取待分类网站的网页内容信息,以执行图1所示网站所属行业的分类方法的步骤。
本实施例提供的根据网站的注册单位信息判断网站所属行业的分类方法,提高了对网站所属行业进行分类的执行效率。
图4为本发明提供的根据网站名称信息判断网站所属行业的分类方法一个实施例的流程图。如图4所示,该方法具体包括:
S401,服务器获取待分类网站的网站名称信息;
服务器通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网站信息的程序或脚本,从而获得待分类网站的网站名称信息。
S402,服务器对网站名称信息中包含的所有文字进行分词处理,以生成网站名称信息对应的实词集合;
服务器获取到待分类网站的网站名称信息后,将该网站名称信息中包含的所有文字信息通过分词工具进行分词处理,从而生成每个待分类网站的网站名称信息对应的一个实词集合。该实词集合中包含了用于描述该待分类网站的注网站名称的所有实词。
S403,服务器将网站名称信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;
其中,对于预设的各行业类别对应的关键词的解释可参见步骤103的相应内容。
S404,若各行业类别对应的关键词中存在与网站名称信息对应的实词集合中包含的实词相匹配的实词,则服务器将该匹配的实词数目最多的行业类别确定为待分类网站所属的行业类别;
服务器将上述待分类网站的网站名称信息对应的实词集合中包含的所有实词与上述预设的各行业类别对应的关键词进行匹配,确定每个行业类别对应的关键词在该网站名称信息对应的实词集合中出现的次数,并将匹配到的关键词的次数出现最多的行业类别确定为待分类网站所属的行业类别。例如:网站名称信息为XXX团购网的网站对应的实词集合包含的所有实词中,只有“团购网”一词在电子商务类网站对应的关键词中匹配到。因此,确定电子商务类网站对应的关键词在该网站名称信息对应的实词集合中出现的次数为1,其他行业类别对应的关键词在该网站名称信息对应的实词集合中出现的次数为0。因此,服务器将电子商务类确定为待分类网站所属的行业类别。当然,如果上述待分类网站的网站名称信息对应的实词集合中包含的所有实词在上述预设的各行业类别对应的关键词中都没有匹配到相同的实词,则服务器认为本次对待分类网站进行行业分类失败,并确定获取待分类网站的网页内容信息,以执行图1所示网站所属行业的分类方法的步骤。
本实施例提供的根据网站名称信息判断网站所属行业的分类方法,提高了对网站所属行业进行分类的执行效率。
图5为本发明提供的根据网站的首页面的描述信息判断网站所属行业的分类方法一个实施例的流程图。如图5所示,该方法具体包括:
S501,服务器获取待分类网站的首页面的描述信息,该首页面的描述信息包括用于描述待分类网站的首页面的多个关键字段信息;
服务器通过现有的网络信息抓取工具,如“网络爬虫”来抓取待分类网站信息的程序或脚本,从而获得待分类网站的首页面的描述信息。该首页面的描述信息为网站开发者在开发网站时,对所开发的网站的首页面的名称,所属领域以及功能在内的多个关键字段信息进行整体描述的“摘要信息”,并附着于网站的脚本信息中。
S502,服务器将待分类网站的首页面的多个关键字段信息中包含的所有文字进行分词处理,以生成待分类网站的首页面的描述信息对应的实词集合;
服务器获取到待分类网站的首页面的描述信息后,将该首页面的描述信息中包含的所有文字信息通过分词工具进行分词处理,从而生成每个待分类网站的首页面的描述信息对应的一个实词集合。该实词集合中包含了用于描述该待分类网站的首页面内容的描述信息的所有实词。
S503,服务器将待分类网站的首页面的描述信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;
其中,对于预设的各行业类别对应的关键词的解释可参见步骤103的相应内容。
S504,若各行业类别对应的关键词中存在与待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则服务器将该匹配的实词数目最多的行业类别确定为待分类网站所属的行业类别;
服务器将上述待分类网站的首页面的描述信息对应的实词集合中包含的所有实词与上述预设的各行业类别对应的关键词进行匹配,确定每个行业类别对应的关键词在该首页面的描述信息对应的实词集合中出现的次数,并将匹配到的关键词的次数出现最多的行业类别确定为待分类网站所属的行业类别。当然,如果上述待分类网站的首页面的描述信息对应的实词集合中包含的所有实词在上述预设的各行业类别对应的关键词中都没有匹配到相同的实词,则服务器认为本次对待分类网站进行行业分类失败,并确定获取待分类网站的网页内容信息,以执行图1所示网站所属行业的分类方法的步骤。
本实施例提供的根据网站的注册单位信息判断网站所属行业的分类方法,提高了对网站所属行业进行分类的执行效率。
本方案还提供了另一种网站所属行业的分类方法,该方法是在如图1所示网站所属行业的分类方法的基础上,在步骤104之后还包括:
服务器提取已确定行业类别的待分类网站的网页内容信息中的特征词;该特征词可用于判断和描述包含该特征词的网站所属的行业类别。
服务器将该特征词更新至待分类网站所属的行业类别对应的关键词中,以供后续服务器判断待分类网站所属行业类别时的判断依据。
本实施例所示的网站所属行业的分类方法,通过从已确定行业类别的待分类网站的网页内容信息中提取特征词;并将该特征词更新至待分类网站所属的行业类别对应的关键词,增加了各行业类别对应的关键词的词容量,从而提高了判断待分类网站所属行业类别的准确性和分类效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图6为本发明提供的服务器一个实施例的结构示意图,可以执行如图1所示的方法步骤,该服务器包括:
获取模块61,用于获取待分类网站的网页内容信息;
分词模块62,用于对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;
匹配模块63,用于将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在网页内容信息对应的实词集合中出现的次数;
确定模块64,用于根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。
具体地,本实施例所示服务器实现网站所属行业的分类方法的过程为:
获取模块61获取待分类网站的网页内容信息;该获取过程具体可参见步骤101的相应内容;
分词模块62对获取模块61获取的网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;该分词处理过程具体可参见步骤102的相应内容;
匹配模块63将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在网页内容信息对应的实词集合中出现的次数;该匹配过程具体可参见步骤103的相应内容;
确定模块64根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别;该确定过程具体可参见步骤104的相应内容.
进一步的,上述确定模块64根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别时,采用的具体方法为:将各行业类别对应的关键词在网页内容信息对应的实词集合中出现次数最多的行业,确定为该待分类网站所属的行业类别。
进一步的,本实施例所示服务器在执行如图1所示网站所属行业的分类方法的基础上,在获取模块61获取待分类网站的网页内容信息之前,还包括:根据网站域名的后缀信息、网站的注册单位信息、网站名称信息和网站的首页面的描述信息这四个方面分别对待分类网站进行相关信息的匹配,进而确定待分类网站所属的行业类别。当经过以上四个方面的都无法确定待分类网站所属行业类别时,可再通过执行如图1所示网站所属行业的分类方法对该网站进行行业分类。在具体对待分类网站进行行业分类的过程中,通过上述四个方面对待分类网站进行行业分类的方法中,若存在通过某一方法或多种方法组合后仍无法确定当前待分类网站所属行业时,可以直接通过图1所示实施例的方法进行行业分类。其中,对于组合后的方法中包括的方法个数以及前后顺序本实施例在此不作限制。
以下针对上述四个方面,阐述服务器执行对待分类网站进行行业分类的具体过程。
1.服务器根据网站域名的后缀信息判断网站所属行业的分类过程为:
服务器中的获取模块61获取待分类网站的域名后缀信息;匹配模块63将待分类网站的域名后缀信息与预设的各行业类别对应的域名后缀信息进行匹配;若匹配到相同的域名后缀信息,则确定模块64将该域名后缀信息对应的行业类别确定为待分类网站所属的行业类别;若没匹配到相同的域名后缀信息,则确定模块64指示获取模块61获取待分类网站的网页内容信息,以使服务器开始执行图1所示网站所属行业的分类方法的步骤。服务器根据网站域名的后缀信息判断网站所属行业的分类方法的原理具体可参见如图2所示实施例的方法步骤,在此不做赘述。
2.服务器根据网站的注册单位信息判断网站所属行业的分类过程为:
服务器中的获取模块61获取待分类网站的注册单位信息;分词模块62对注册单位信息中包含的所有文字进行分词处理,以生成注册单位信息对应的实词集合;匹配模块63将注册单位信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;若各行业类别对应的关键词中存在与注册单位信息对应的实词集合中包含的实词相匹配的实词,则确定模块64将该匹配的实词数目最多的行业类别确定为待分类网站所属的行业类别;若各行业类别对应的关键词中不存在与注册单位信息对应的实词集合中包含的实词相匹配的实词,则确定模块64指示获取模块61获取待分类网站的网页内容信息,以使服务器开始执行图1所示网站所属行业的分类方法的步骤。服务器根据网站的注册单位信息判断网站所属行业的分类方法的原理具体可参见如图3所示实施例的方法步骤,在此不做赘述。
3.服务器根据网站的名称信息判断网站所属行业的分类过程为:
服务器中的获取模块61获取待分类网站的网站名称信息;分词模块62对网站名称信息中包含的所有文字进行分词处理,以生成网站名称信息对应的实词集合;匹配模块63将网站名称信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;若各行业类别对应的关键词中存在与网站名称信息对应的实词集合中包含的实词相匹配的实词,则确定模块64将该匹配的实词数目最多的行业类别确定为待分类网站所属的行业类别;若各行业类别对应的关键词中不存在与网站名称信息对应的实词集合中包含的实词相匹配的实词,则确定模块64指示获取模块61获取所述待分类网站的网页内容信息,以使服务器开始执行图1所示网站所属行业的分类方法的步骤。服务器根据网站的名称信息判断网站所属行业的分类方法的原理具体可参见如图4所示实施例的方法步骤,在此不做赘述。
4.服务器根据网站的首页面的描述信息判断网站所属行业的分类过程为:
服务器中的获取模块61获取待分类网站的首页面的描述信息,该首页面的描述信息包括用于描述待分类网站的首页面的多个关键字段信息;分词模块62将待分类网站的首页面的多个关键字段信息中包含的所有文字进行分词处理,以生成待分类网站的首页面的描述信息对应的实词集合;匹配模块63将待分类网站的首页面的描述信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;若各行业类别对应的关键词中存在与待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则确定模块64将该匹配的实词数目最多的行业类别确定为待分类网站所属的行业类别;若各行业类别对应的关键词中不存在与待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则确定模块64指示获取模块61获取待分类网站的网页内容信息,以使服务器开始执行图1所示网站所属行业的分类方法的步骤。服务器根据网站的首页面的描述信息判断网站所属行业的分类方法的原理具体可参见如图5所示实施例的方法步骤,在此不做赘述。
进一步的,本实施例所示服务器还包括:提取模块和更新模块,其中:
提取模块,用于提取已确定行业类别的待分类网站的网页内容信息中的特征词;
更新模块,用于将特征词更新至待分类网站所属的行业类别对应的关键词中。
具体地,本实施例所述服务器确定待分类网站所属的行业类别后,可通过提取模块提取已确定行业类别的待分类网站的网页内容信息中的特征词;该特征词可用于判断和描述包含该特征词的网站所属的行业类别;然后通过更新模块将特征词更新至待分类网站所属的行业类别对应的关键词中,以供后续服务器判断待分类网站所属行业类别时的判断依据。
本发明提供的服务器,获取待分类网站的网页内容信息;对网页内容信息中包含的所有文字进行分词处理,以生成网页内容信息对应的实词集合;服务器将网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数;根据各行业类别对应的关键词在该网页内容信息对应的实词集合中出现的次数的比例,确定待分类网站所属的行业类别。该方案在判断各网站所属的行业类型时无需耗费大量人力且提高了执行效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种网站所属行业的分类方法,其特征在于,包括:
服务器获取待分类网站的网页内容信息;
所述服务器对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;
所述服务器将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;
所述服务器根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。
2.根据权利要求1所述的方法,其特征在于,所述服务器根据各行业类别对应的关键词在所述实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别,包括:
所述服务器将所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现次数最多的行业,确定为所述待分类网站所属的行业类别。
3.根据权利要求1或2所述的方法,其特征在于,所述服务器获取待分类网站的网页内容信息之前,包括:
所述服务器获取待分类网站的域名后缀信息;
所述服务器将所述待分类网站的域名后缀信息与预设的各行业类别对应的域名后缀信息进行匹配;
若匹配到相同的域名后缀信息,则服务器将该域名后缀信息对应的行业类别确定为所述待分类网站所属的行业类别;
若没有匹配到相同的域名后缀信息,则服务器确定获取所述待分类网站的网页内容信息。
4.根据权利要求1或2所述的方法,其特征在于,所述服务器获取待分类网站的网页内容信息之前,还包括:
所述服务器获取待分类网站的注册单位信息;
所述服务器对所述注册单位信息中包含的所有文字进行分词处理,以生成所述注册单位信息对应的实词集合;
所述服务器将所述注册单位信息对应的实词集合中包含的所有实词与所述预设的各行业类别对应的关键词进行匹配;
若所述各行业类别对应的关键词中存在与所述注册单位信息对应的实词集合中包含的实词相匹配的实词,则服务器将该匹配的实词数目最多的行业类别确定为所述待分类网站所属的行业类别;
若所述各行业类别对应的关键词中不存在与所述注册单位信息对应的实词集合中包含的实词相匹配的实词,则服务器确定获取所述待分类网站的网页内容信息。
5.根据权利要求1或2所述的方法,其特征在于,所述服务器获取待分类网站的网页内容信息之前,包括:
所述服务器获取待分类网站的网站名称信息;
所述服务器对所述网站名称信息中包含的所有文字进行分词处理,以生成所述网站名称信息对应的实词集合;
所述服务器将所述网站名称信息对应的实词集合中包含的所有实词与所述预设的各行业类别对应的关键词进行匹配;
若所述各行业类别对应的关键词中存在与所述网站名称信息对应的实词集合中包含的实词相匹配的实词,则服务器将该匹配的实词数目最多的行业类别确定为所述待分类网站所属的行业类别;
若所述各行业类别对应的关键词中不存在与所述网站名称信息对应的实词集合中包含的实词相匹配的实词,则服务器确定获取所述待分类网站的网页内容信息。
6.根据权利要求1或2所述的方法,其特征在于,所述服务器获取待分类网站的网页内容信息之前,包括:
所述服务器获取待分类网站的首页面的描述信息,所述首页面的描述信息包括用于描述所述待分类网站的首页面的多个关键字段信息;
所述服务器将所述待分类网站的首页面的多个关键字段信息中包含的所有文字进行分词处理,以生成所述待分类网站的首页面的描述信息对应的实词集合;
所述服务器将所述待分类网站的首页面的描述信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;
若所述各行业类别对应的关键词中存在与所述待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则服务器将该匹配的实词数目最多的行业类别确定为所述待分类网站所属的行业类别;
若所述各行业类别对应的关键词中不存在与所述待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则服务器确定获取所述待分类网站的网页内容信息。
7.根据权利要求1或2所述的方法,其特征在于,所述服务器确定所述待分类网站所属的行业类别之后,还包括:
所述服务器提取已确定所述行业类别的所述待分类网站的网页内容信息中的特征词;
所述服务器将所述特征词更新至所述待分类网站所属的行业类别对应的所述关键词中。
8.一种服务器,其特征在于,包括:
获取模块,用于获取待分类网站的网页内容信息;
分词模块,用于对所述网页内容信息中包含的所有文字进行分词处理,以生成所述网页内容信息对应的实词集合;
匹配模块,用于将所述网页内容信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;确定所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数;
确定模块,用于根据各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现的次数的比例,确定所述待分类网站所属的行业类别。
9.根据权利要求8所述的服务器,其特征在于,
所述确定模块,具体用于将所述各行业类别对应的关键词在所述网页内容信息对应的实词集合中出现次数最多的行业,确定为所述待分类网站所属的行业类别。
10.根据权利要求8或9所述的服务器,其特征在于,
所述获取模块,用于获取待分类网站的域名后缀信息;
所述匹配模块,用于将所述待分类网站的域名后缀信息与预设的各行业类别对应的域名后缀信息进行匹配;
所述确定模块,用于若所述匹配模块匹配到相同的域名后缀信息,则所述确定模块将该域名后缀信息对应的行业类别确定为所述待分类网站所属的行业类别;
所述确定模块,还用于若所述匹配模块没有匹配到相同的域名后缀信息,则指示所述获取模块获取所述待分类网站的网页内容信息。
11.根据权利要求8或9所述的服务器,其特征在于,
所述获取模块,用于获取待分类网站的注册单位信息;
所述分词模块,用于对所述注册单位信息中包含的所有文字进行分词处理,以生成所述注册单位信息对应的实词集合;
所述匹配模块,用于将所述注册单位信息对应的实词集合中包含的所有实词与所述预设的各行业类别对应的关键词进行匹配;
所述确定模块,用于若所述各行业类别对应的关键词中存在与所述注册单位信息对应的实词集合中包含的实词相匹配的实词,则所述确定模块将该匹配的实词数目最多的行业类别确定为所述待分类网站所属的行业类别;
所述确定模块,还用于若所述各行业类别对应的关键词中不存在与所述注册单位信息对应的实词集合中包含的实词相匹配的实词,则指示获取模块获取所述待分类网站的网页内容信息。
12.根据权利要求8或9所述的服务器,其特征在于,
所述获取模块,用于获取待分类网站的网站名称信息;
所述分词模块,用于对所述网站名称信息中包含的所有文字进行分词处理,以生成所述网站名称信息对应的实词集合;
所述匹配模块,用于将所述网站名称信息对应的实词集合中包含的所有实词与所述预设的各行业类别对应的关键词进行匹配;
所述确定模块,用于若所述各行业类别对应的关键词中存在与所述网站名称信息对应的实词集合中包含的实词相匹配的实词,则所述确定模块将该匹配的实词数目最多的行业类别确定为所述待分类网站所属的行业类别;
所述确定模块,还用于若所述各行业类别对应的关键词中不存在与所述网站名称信息对应的实词集合中包含的实词相匹配的实词,则指示获取模块获取所述待分类网站的网页内容信息。
13.根据权利要求8或9所述的服务器,其特征在于,
所述获取模块,用于获取待分类网站的首页面的描述信息,所述首页面的描述信息包括用于描述所述待分类网站的首页面的多个关键字段信息;
所述分词模块,用于将所述待分类网站的首页面的多个关键字段信息中包含的所有文字进行分词处理,以生成所述待分类网站的首页面的描述信息对应的实词集合;
所述匹配模块,用于将所述待分类网站的首页面的描述信息对应的实词集合中包含的所有实词与预设的各行业类别对应的关键词进行匹配;
所述确定模块,用于若所述各行业类别对应的关键词中存在与所述待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则所述确定模块将该匹配的实词数目最多的行业类别确定为所述待分类网站所属的行业类别;
所述确定模块,还用于若所述各行业类别对应的关键词中不存在与所述待分类网站的首页面的描述信息对应的实词集合中包含的实词相匹配的实词,则指示获取模块获取所述待分类网站的网页内容信息。
14.根据权利要求8或9所述的服务器,其特征在于,还包括:
提取模块,用于提取已确定所述行业类别的所述待分类网站的网页内容信息中的特征词;
更新模块,用于将所述特征词更新至所述待分类网站所属的行业类别对应的所述关键词中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310753049.XA CN104750754A (zh) | 2013-12-31 | 2013-12-31 | 网站所属行业的分类方法和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310753049.XA CN104750754A (zh) | 2013-12-31 | 2013-12-31 | 网站所属行业的分类方法和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104750754A true CN104750754A (zh) | 2015-07-01 |
Family
ID=53590449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310753049.XA Pending CN104750754A (zh) | 2013-12-31 | 2013-12-31 | 网站所属行业的分类方法和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104750754A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653651A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种行业网站的发现整理方法及装置 |
CN105723367A (zh) * | 2016-01-07 | 2016-06-29 | 马岩 | 网络信息的分类方法及*** |
CN106250402A (zh) * | 2016-07-19 | 2016-12-21 | 杭州华三通信技术有限公司 | 一种网站分类方法及装置 |
CN106557520A (zh) * | 2015-09-29 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 网站类型的识别方法及装置 |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
CN107169523A (zh) * | 2017-05-27 | 2017-09-15 | 鹏元征信有限公司 | 自动确定机构的所属行业类别的方法、存储设备及终端 |
CN107436890A (zh) * | 2016-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种网站类型的检测方法及装置 |
CN107491536A (zh) * | 2017-08-22 | 2017-12-19 | 广东小天才科技有限公司 | 一种试题校验方法、试题校验装置及电子设备 |
CN108053196A (zh) * | 2018-01-31 | 2018-05-18 | 四川民工加网络科技有限公司 | 一种施工工地的招聘方法 |
CN108090090A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 栏目分类方法和装置 |
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、***、计算机设备和存储介质 |
CN109271481A (zh) * | 2018-08-31 | 2019-01-25 | 国网河北省电力有限公司沧州供电分公司 | 一种电力诉求信息的分类方法、***及终端设备 |
CN109977328A (zh) * | 2019-03-06 | 2019-07-05 | 杭州迪普科技股份有限公司 | 一种url分类方法及装置 |
CN111223496A (zh) * | 2020-01-03 | 2020-06-02 | 广东电网有限责任公司 | 一种语音信息分类方法和装置 |
CN111241240A (zh) * | 2020-01-08 | 2020-06-05 | 中国联合网络通信集团有限公司 | 行业关键词提取方法及装置 |
CN111382385A (zh) * | 2020-02-21 | 2020-07-07 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
CN111784448A (zh) * | 2020-06-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 一种商户数据的处理方法及*** |
GB2601517A (en) * | 2020-12-02 | 2022-06-08 | Silver Bullet Media Services Ltd | A method, apparatus and program for classifying subject matter of content in a webpage |
TWI827984B (zh) * | 2021-10-05 | 2024-01-01 | 台灣大哥大股份有限公司 | 網站分類系統及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW586065B (en) * | 2002-05-20 | 2004-05-01 | Pchome Online Inc | Automatic classification method of website and system thereof |
CN101196923A (zh) * | 2006-11-28 | 2008-06-11 | 株式会社Opms | 基于分类的广告***和方法 |
CN102567494A (zh) * | 2011-12-22 | 2012-07-11 | 北京亿赞普网络技术有限公司 | 网站分类方法及装置 |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及*** |
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
-
2013
- 2013-12-31 CN CN201310753049.XA patent/CN104750754A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW586065B (en) * | 2002-05-20 | 2004-05-01 | Pchome Online Inc | Automatic classification method of website and system thereof |
CN101196923A (zh) * | 2006-11-28 | 2008-06-11 | 株式会社Opms | 基于分类的广告***和方法 |
CN102567494A (zh) * | 2011-12-22 | 2012-07-11 | 北京亿赞普网络技术有限公司 | 网站分类方法及装置 |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及*** |
CN103226578A (zh) * | 2013-04-02 | 2013-07-31 | 浙江大学 | 面向医学领域的网站识别和网页细分类的方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557520A (zh) * | 2015-09-29 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 网站类型的识别方法及装置 |
CN105653651B (zh) * | 2015-12-29 | 2019-04-02 | 云南电网有限责任公司电力科学研究院 | 一种行业网站的发现整理方法及装置 |
CN105653651A (zh) * | 2015-12-29 | 2016-06-08 | 云南电网有限责任公司电力科学研究院 | 一种行业网站的发现整理方法及装置 |
CN105723367A (zh) * | 2016-01-07 | 2016-06-29 | 马岩 | 网络信息的分类方法及*** |
WO2017117781A1 (zh) * | 2016-01-07 | 2017-07-13 | 马岩 | 网络信息的分类方法及*** |
CN107436890A (zh) * | 2016-05-26 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 一种网站类型的检测方法及装置 |
CN106250402A (zh) * | 2016-07-19 | 2016-12-21 | 杭州华三通信技术有限公司 | 一种网站分类方法及装置 |
CN108090090A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 栏目分类方法和装置 |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN106874340B (zh) * | 2016-12-22 | 2020-12-18 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
WO2018196561A1 (zh) * | 2017-04-25 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法、装置及存储介质 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
CN107169523A (zh) * | 2017-05-27 | 2017-09-15 | 鹏元征信有限公司 | 自动确定机构的所属行业类别的方法、存储设备及终端 |
CN107491536A (zh) * | 2017-08-22 | 2017-12-19 | 广东小天才科技有限公司 | 一种试题校验方法、试题校验装置及电子设备 |
CN107491536B (zh) * | 2017-08-22 | 2020-07-07 | 广东小天才科技有限公司 | 一种试题校验方法、试题校验装置及电子设备 |
CN108053196A (zh) * | 2018-01-31 | 2018-05-18 | 四川民工加网络科技有限公司 | 一种施工工地的招聘方法 |
CN108536800A (zh) * | 2018-04-03 | 2018-09-14 | 有米科技股份有限公司 | 文本分类方法、***、计算机设备和存储介质 |
CN108536800B (zh) * | 2018-04-03 | 2022-04-19 | 有米科技股份有限公司 | 文本分类方法、***、计算机设备和存储介质 |
CN109271481A (zh) * | 2018-08-31 | 2019-01-25 | 国网河北省电力有限公司沧州供电分公司 | 一种电力诉求信息的分类方法、***及终端设备 |
CN109977328A (zh) * | 2019-03-06 | 2019-07-05 | 杭州迪普科技股份有限公司 | 一种url分类方法及装置 |
CN111223496A (zh) * | 2020-01-03 | 2020-06-02 | 广东电网有限责任公司 | 一种语音信息分类方法和装置 |
CN111241240A (zh) * | 2020-01-08 | 2020-06-05 | 中国联合网络通信集团有限公司 | 行业关键词提取方法及装置 |
CN111241240B (zh) * | 2020-01-08 | 2023-08-15 | 中国联合网络通信集团有限公司 | 行业关键词提取方法及装置 |
CN111382385A (zh) * | 2020-02-21 | 2020-07-07 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
CN111382385B (zh) * | 2020-02-21 | 2024-04-12 | 奇安信科技集团股份有限公司 | 网页所属行业分类方法及装置 |
CN111784448A (zh) * | 2020-06-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 一种商户数据的处理方法及*** |
GB2601517A (en) * | 2020-12-02 | 2022-06-08 | Silver Bullet Media Services Ltd | A method, apparatus and program for classifying subject matter of content in a webpage |
TWI827984B (zh) * | 2021-10-05 | 2024-01-01 | 台灣大哥大股份有限公司 | 網站分類系統及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750754A (zh) | 网站所属行业的分类方法和服务器 | |
CN102693271B (zh) | 一种网络信息推荐方法及*** | |
CN101782919B (zh) | 一种网页表单数据输出方法、装置及表单处理*** | |
CN104504150A (zh) | 新闻舆情监测*** | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN102521248A (zh) | 一种网络用户分类方法及其装置 | |
CN103248677B (zh) | 互联网行为分析***及其工作方法 | |
CN103617266A (zh) | 个性化扩展搜索方法及装置、*** | |
CN104239298A (zh) | 文本信息推荐方法、服务器、浏览器及*** | |
CN104217031A (zh) | 一种根据服务器搜索日志数据进行用户分类的方法和装置 | |
CN103455758A (zh) | 恶意网站的识别方法及装置 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及*** | |
CN103902535A (zh) | 获取联想词的方法、装置及*** | |
CN102314492A (zh) | 获取与目标文档章节相匹配的候选文档章节的方法与设备 | |
CN103886092A (zh) | 一种提供终端故障问题解决方案的方法及装置 | |
CN105138907A (zh) | 一种主动探测被攻击网站的方法和*** | |
CN106294535A (zh) | 网站的识别方法和装置 | |
CN103440199A (zh) | 测试引导方法和装置 | |
CN104573033A (zh) | 一种动态url过滤方法及装置 | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
US11250080B2 (en) | Method, apparatus, storage medium and electronic device for establishing question and answer system | |
CN106874368B (zh) | 一种rtb竞价广告位价值分析方法及*** | |
CN103399968B (zh) | 一种微博信息采集方法及*** | |
CN104021124A (zh) | 用于处理网页数据的方法、装置和*** | |
CN103618742A (zh) | 获取子域名的方法和***以及网站管理员权限验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150701 |