发明内容
本发明实施例提供一种网站验证方法及装置,用以解决现有的非法网站识别方法存在识别正确率不高的问题。
第一方面,本发明提供一种网站验证方法,包括:
获取待验证网站的源代码中包括的关键字集合;
查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站,所述候选黑名单网站表示所述待验证网站是未知且危险概率较大的网站;
所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中至少包括存在对应关系的两个黑名单关键字。
可选地,所述的方法还包括:
将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键字组成一个集合,得到多个黑名单关键字集合;
利用大数据分析技术,分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在对应关系;
将所述第一黑名单关键字和所述第二黑名单关键字之间的对应关系保存在所述黑名单关键字对应关系库中。
可选地,所述将所述待验证网站确定为候选黑名单网站之后,包括:
获取所述待验证网站的统一资源定位符;
查询白名单网站集合,所述白名单网站集合中包括验证过的多个白名单网站的统一资源定位符;
判断所述待验证网站的统一资源定位符是否在所述白名单网站集合中,若是则确定所述待验证网站为白名单网站,否则将所述待验证网站保存到候选黑名单网站集合中。
可选地,将所述待验证网站保存到候选黑名单网站集合中之后,包括:
获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标识以及对应的访问次数;
根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集;
根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位符。
可选地,根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,包括:
分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;
若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的网站为非法网站。
第二方面,本发明提供一种网站验证装置,其包括:
获取模块,用于获取待验证网站的源代码中包括的关键字集合,所述关键字集合中包括多个关键字;
确定模块,用于查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站,所述候选黑名单网站表示所述待验证网站是未知且危险概率较大的网站;
所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中至少包括存在对应关系的两个黑名单关键字。
可选地,所述获取模块,还用于将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键字组成一个集合,得到多个黑名单关键字集合;
所述确定模块,还用于利用大数据分析技术,分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在对应关系;
所述装置还包括:
保存模块,用于将所述确定模块确定的第一黑名单关键字和所述第二黑名单关键字之间的对应关系保存在所述黑名单关键字对应关系库中。
可选地,所述获取模块,还用于获取所述待验证网站的统一资源定位符;
所述获取模块,还用于查询白名单网站集合,获取所述白名单网站集合中每一个白名单网站的统一资源定位符;
所述确定模块,还用于判断所述待验证网站的统一资源定位符是否与所述白名单网站集合中的其中一个网站的统一资源定位符相匹配,若是则确定所述待验证网站为白名单网站,否则将所述待验证网站保存到候选黑名单网站集合中。
可选地,所述获取模块,还用于获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标识以及对应的访问次数;
所述装置还包括:
分析模块,用于根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集;
所述确定模块,还用于根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位符。
可选地,所述确定模块具体用于:
分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;
若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的网站为非法网站。
采用本发明实施例所述的方法,是根据黑名单关键字对应关系库,确定待验证网站中的关键字集合中是否存在对应关系的黑名单关键字库,若存在则将待验证网站确定为未知且危险概率较大的网站;由于本发明实施例不只是根据已经出现的非法网站(黑名单网站)来确定识别非法网站的关键词,而是根据黑名单关键字之间的对应关系来识别是否存在未知且危险概率较大的网站,即使在海量的网站中,也可以识别变种的未知且危险概率较大的网站,因此,可以解决现有的非法网站识别方法存在识别正确率不高的问题。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的网站验证方法具体可以应用于隐蔽、变种的非法网站的识别分析,可以通过网站验证装置来执行,该网站验证装置可以为服务器(如360网站未知的服务器)。
图1为本发明一实施例提供的网站验证方法的流程示意图,如图1所述,本实施例的方法包括:
101、获取待验证网站的源代码中包括的关键字集合;
例如,利用网页抽取、文本挖掘技术等技术手段获取待验证网站的源代码中包括的关键字集合,其中,源代码例如为超文本标记语言(HyperTextMarkupLanguage,HTML)代码。
102、查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站;所述候选黑名单网站表示所述待验证网站是未知且危险概率较大的网站;
其中,所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中至少包括存在对应关系的两个黑名单关键字。
可选地,本领域的技术人员可知,在高安全等级的情况下,查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,亦可直接将所述待验证网站确定为非法网站。
在本发明的一个可选实施方式中,步骤102之前包括:
将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键字组成一个集合,得到多个黑名单关键字集合;
利用大数据分析技术,分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在对应关系;
将所述第一黑名单关键字和所述第二黑名单关键字之间的对应关系保存在所述黑名单关键字对应关系库中。
举例来说,本发明实施例预设有黑名单网站集合,该黑名单网站集合种包括已经验证确定的非法网站,这些已经验证确定的非法网站可以为从网络中***息中获取的,也可以为相关部门提供,还可以为通过现有的网页抽取和文本挖掘技术获取到的。
举例来说,本发明实施例所述的服务器可以释放出网络爬虫又名网络蜘蛛(Webspider),获取黑名单网站集合上的非法网站,服务器分别对获取到的非法网站进行分词和语义分析,得到多个黑名单关键字集合;需要说明的是,网络爬虫是现有技术中的一个自动提取网页的程序,本发明对此不作详细介绍。
举例来说,本发明实施例所述的大数据分析技术例如包括Hadoop、高性能计算与通信(HighPerformanceComputingandCommunications,HPCC)、Storm、ApacheDrill、RapidMiner等数据挖掘工具,本发明对此不作详细介绍。利用大数据分析技术,分析上述多个黑名单关键字集合,得到一组或一组以上的黑名单关键字之间的对应关系,例如,分析上述多个黑名单关键字集合之后,假设茉莉花和***(赌博工具)这个两个关键词在上述多个黑名单关键字集合中同时出现的次数超过预设阈值,则可以确定茉莉花和***是存在对应关系的黑名单关键词,可以将茉莉花和***之间的对应关系保存在预设的黑名单关键字对应关系库中。
为此,本发明实施例预设有黑名单关键字对应关系库,该黑名单关键字对应关系库中保存上述大数据分析技术得到的各组黑名单关键字对应关系,表1为本发明实施例应用的黑名单关键字对应关系库的结果,如表1所示:
在本发明的一个可选实施方式中,步骤102之后包括:
103、判断所述待验证网站的统一资源定位符是否在所述白名单网站集合中,若是则执行步骤104,否则执行步骤105。
举例来说,获取所述待验证网站的统一资源定位符(Uniform/UniversalResourceLocator,URL),查询白名单网站集合,其中,所述白名单网站集合中包括验证过的多个白名单网站的统一资源定位符;判断所述待验证网站的统一资源定位符是否在所述白名单网站集合中。
104、确定所述待验证网站为白名单网站。
假设判断所述待验证网站的统一资源定位符在所述白名单网站集合中,则可以确定所述待验证网站为白名单网站。例如,新闻网站为已经通过验证确认为合法的网站,当新闻网站中包括非法网站新闻时,该新闻网站中也会出现上述得到的黑名单关键字对应关系,本发明实施例将待验证网站的URL与白名单网站集合中的URL进行比较,可以避免将合法的白名单网站错误地确认为非法网站,可以提高网站识别的正确率。
105、将所述待验证网站保存到候选黑名单网站集合中。
通过上述步骤,可以将经过确认的不在白名单网站集合中,且存在黑名单关键字对应关系的待验证网站保存到候选黑名单网站集合中,以便后续进一步的判断。
在本发明的一个可选实施方式中,步骤105之后还包括:
106、获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标识以及对应的访问次数;
举例来说,所述候选黑名单网站集合的访问记录例如可以从域名服务器或递归服务器中获取;因为每个终端访问过每个网站时,域名服务器或递归服务器中保存有该网站的访问记录。
107、根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集;
其中,聚类算法具体可以为潜在语义分析(latentSemanticAnalysis,LSA)算法或概率潜在语义分析(ProbabilityLatentSemanticAnalysis,PLSA)算法等,根据聚类算法对所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集,每个候选黑名单网站子集中至少包括一个网站,候选黑名单网站子集中的各网站的访问行为具有相似性。
108、根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位符。
在本发明的一个可选实施方式中,步骤108具体实现时包括:
分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;
若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的网站为非法网站。
举例来说,本发明实施例预设有黑名单网站集合,该黑名单网站集合种包括已经验证确定的非法网站,这些已经验证确定的非法网站可以为从网络中***息中获取的,也可以为相关部门提供,还可以为通过现有的网页抽取和文本挖掘技术获取到的。将划分后的各候选黑名单网站子集分别与已知的黑名单网站集合进行比较,如果某一候选黑名单网站子集中含有一部分或全部已知黑名单网站集合中的非法网站,则该候选黑名单网站子集可以被确定为非法网站的集合,该候选黑名单网站子集中的各网站为非法网站。
由于非法网站的特殊性,其面向互联网用户群体往往会相对独立和几种,并且与合法网站所面向的用户群体会表现出较大的差异。对非法网站有特殊兴趣的互连网用户,其网站访问行为必定有别于与其兴趣不同的互联网用户群体。也就是说,非法网站之间潜在的关联关系会更强,非法网站比合法网站之间的独立性会更高,因此,根据互联网用户与网站之间的共现关系来对候选黑名单网站集合进行划分,可以有效的将非法网站和合法网站区分开来。
采用本发明实施例所述的方法,是根据黑名单关键字对应关系库,确定待验证网站中的关键字集合中是否存在对应关系的黑名单关键字库,若存在则将待验证网站确定为未知且危险概率较大的网站;由于本发明实施例不只是根据已经出现的非法网站(黑名单网站)来确定识别非法网站的关键词,而是根据黑名单关键字之间的对应关系来识别是否存在未知且危险概率较大的网站,即使在海量的网站中,也可以识别变种的未知且危险概率较大的网站,因此,可以解决现有的非法网站识别方法存在识别正确率不高的问题。
进一步地,本发明实施例通过根据候选黑名单网站集合的访问记录,利用聚类算法对候选黑名单网站集合进行聚类分析,将候选黑名单网站集合划分为多个子集,根据已知的黑名单网站集合确定各子集中的网站是否是非法网站。针对了非法网站的特殊性,其面向的互联网用户群体与合法网站所面向的互联网用户群体会表现出较大的差异的特点,对非法网站之间潜在的关联关系进行分析,从而将合法网站和非法网站进行区分,提高了非法网站的识别效率和正确率。
图2为本发明一实施例提供的网站验证装置的结构示意图,如图2所示,包括:
获取模块21,用于获取待验证网站的源代码中包括的关键字集合,所述关键字集合中包括多个关键字;
确定模块22,用于查询黑名单关键字对应关系库,若所述关键字集合中至少出现两个黑名单关键字,且所述两个黑名单关键字之间存在对应关系,则将所述待验证网站确定为候选黑名单网站,所述候选黑名单网站表示所述待验证网站是未知且危险概率较大的网站;
所述黑名单关键字对应关系库中包括多个黑名单关键字组,每个黑名单关键字组中至少包括存在对应关系的两个黑名单关键字。
其中:
所述获取模块21,还用于将黑名单网站集合中每个黑名单网站的源代码中包括的黑名单关键字组成一个集合,得到多个黑名单关键字集合;
所述确定模块22,还用于利用大数据分析技术,分析所述多个黑名单关键字集合中,若第一黑名单关键字和第二黑名单关键字同时在所述多个黑名单关键字集合中出现的次数超过预设的次数阈值,则确定所述第一黑名单关键字和所述第二黑名单关键字之间存在对应关系;
所述装置还包括:
保存模块23,用于将所述确定模块22确定的第一黑名单关键字和所述第二黑名单关键字之间的对应关系保存在所述黑名单关键字对应关系库中。
其中:
所述获取模块21,还用于获取所述待验证网站的统一资源定位符;
所述获取模块21,还用于查询白名单网站集合,获取所述白名单网站集合中每一个白名单网站的统一资源定位符;
所述确定模块22,还用于判断所述待验证网站的统一资源定位符是否与所述白名单网站集合中的其中一个网站的统一资源定位符相匹配,若是则确定所述待验证网站为白名单网站,否则将所述待验证网站保存到候选黑名单网站集合中。
其中:
所述获取模块21,还用于获取所述候选黑名单网站集合的访问记录,所述访问记录中包括预设时间段内访问过所述候选黑名单网站集合中的候选黑名单网站的终端标识以及对应的访问次数;
所述装置还包括:
分析模块24,用于根据聚类算法对获取模块21获取的所述候选黑名单网站集合的访问记录进行聚类分析,将所述候选黑名单网站集合划分为多个候选黑名单网站子集;
所述确定模块22,还用于根据黑名单网站集合分别确定所述多个候选黑名单网站子集的合法性,所述黑名单网站集合中包括验证过的多个黑名单网站的统一资源定位符。
其中,所述确定模块22具体用于:
分别将各候选黑名单网站子集中的每个候选黑名单网站的统一资源定位符与所述黑名单网站集合中包括的统一资源定位符进行比较;
若所述候选黑名单网站子集与所述黑名单网站集合中相同的统一资源定位符的数量大于预设阈值,则确定所述候选黑名单网站子集中的网站为非法网站。
本发明实施例根据黑名单关键字对应关系库,确定待验证网站中的关键字集合中是否存在对应关系的黑名单关键字库,若存在则将待验证网站确定为未知且危险概率较大的网站;由于本发明实施例不只是根据已经出现的非法网站(黑名单网站)来确定识别非法网站的关键词,而是根据黑名单关键字之间的对应关系来识别是否存在未知且危险概率较大的网站,即使在海量的网站中,也可以识别变种的未知且危险概率较大的网站,因此,可以解决现有的非法网站识别方法存在识别正确率不高的问题。
进一步地,本发明实施例通过根据候选黑名单网站集合的访问记录,利用聚类算法对候选黑名单网站集合进行聚类分析,将候选黑名单网站集合划分为多个子集,根据已知的黑名单网站集合确定各子集中的网站是否是非法网站。针对了非法网站的特殊性,其面向的互联网用户群体与合法网站所面向的互联网用户群体会表现出较大的差异的特点,对非法网站之间潜在的关联关系进行分析,从而将合法网站和非法网站进行区分,提高了非法网站的识别效率和正确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以以代码的形式存储在一个计算机可读取存储介质中。上述代码存储在一个计算机可读存储介质中,包括若干指令用以使处理器或硬件电路执行本发明各个实施例所述方法的部分或全部步骤。而前述的存储介质包括:通用串行总线接口的无需物理驱动器的微型高容量移动存储盘、移动硬盘、只读存储器(英文:Read-OnlyMemory,简称ROM)、随机存取存储器(英文:RandomAccessMemory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。