具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的钓鱼网站的检测方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,从待检测网站的网页源代码中提取多个数据源;对多个数据源进行交叉处理,得到包含多个关键词的关键词组。
其中,多个数据源为通过浏览器加载后会在页面中呈现出来的用户可见数据,例如,对于一个利用HTML语言编码的网站,可以选取title标签,即标题标签的代码对应的内容为一个数据源,但是,本发明并不以此为限,在具体实施过程中,本领域技术人员可根据需求灵活选择不同数据源,具体可从源代码中筛选出最能表示待检测网站的网页特征的内容作为数据源。
具体地,从网页源代码中提取出多个数据源,通过对数据源进行交叉处理,可选的,交叉处理包括对多个数据源两两进行取并集处理,和/或,进行取交集处理,得到一个关键词组,该关键词组中包括多个关键词。举例来说,若选定四个数据源,则对四个数据源两两取交集,得到六个词组,然后对六个词组取并集,得到一个关键词组。
步骤S102,从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名。
在得到关键词组后,利用搜索引擎搜索该关键词组,搜索得到一系列的URL网址,分别从搜索到的一系列URL网址中解析出相应的注册域名,进而解析出与一系列URL网址一一对应的多个注册域名。举例来说,搜索出的URL网站为https://zhidao.***.com/question/263101382.html,则解析出相应的注册域名是***.com。但是,本发明对从URL网址中解析出注册域名的方法不作具体限定,在具体实施时,本领域技术人员可从任意解析注册域名的方法中任意选择一种或多种进行注册域名的解析。
步骤S103,根据多个注册域名检测待检测网站是否为可疑网站;若是,则执行步骤S104;若否,则本方法结束。
其中,可疑网站指无法确定为合法网站的待检测网站。
具体地,确定合法网站的两个基本准则为:准则一,新的钓鱼网站是不会被搜索引擎在较靠前的位置搜索到的,可选的,较靠前的位置指搜索结果的前两页的位置,换言之,较靠前的位置搜索到的对应的多个注册域名均不是新的钓鱼网站的注册域名;准则二,旧的钓鱼网站已被识别,并且加入到了浏览器黑名单中,通常也不会被搜索到,换言之,旧的钓鱼网站的注册域名不可能出现在搜索结果对应的多个注册域名中。基于上述两个原则,可以检测出合法网站,相应的,针对一个待检测网站,若未检测出为合法网站,则确定为可疑网站,则需要执行步骤S104,以进行进一步的判断;若检测出为合法网站,则本方法结束。
步骤S104,根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站。
在本发明中,当未检测出待检测网站为合法网站时,并不是直接将待检测网站确定为钓鱼网站,而是将待检测网站确定为可疑网站,并对可疑网站进行进一步的检测,以确定该可疑网站是否为钓鱼网站,进而提高了检测结果的准确性。
具体地,从各个注册域名中提取出相应的主域名,得到分别与多个注册域名对应的多个主域名。由于注册域名具有全球唯一性的特点,则根据注册域名仅能检测出合法网站,不能直接检测出钓鱼网站;而将注册域名去掉后缀,得到相应的主域名后,根据关键词与主域名的匹配情况,可以检测出可疑网站为钓鱼网站的情况。举例来说,用关键词apple去搜索引擎搜索,搜索到了一个带子域名的苹果网站URL为www.xxx.apple.com,这个子域名xxx不是钓鱼网站关注的重点,所以需要解析出这个URL中的主域名apple,然后将该主域名与关键词进行匹配,并检测出可疑网站是否为钓鱼网站。
根据本实施例提供的钓鱼网站的检测方法,从待检测网站的网页源代码中提取多个数据源;对所述多个数据源进行交叉处理,得到包含多个关键词的关键词组;从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名;根据多个注册域名检测待检测网站是否为可疑网站;若是,则根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站。利用本实施例方案,通过对多个数据源进行交叉处理提取关键词组,得到待检测网站的有效关键词,提高检测结果的准确率;以及,无需采集大量的样本数据,利用搜索出的注册域名即可检测出待检测网站是否为钓鱼网站,进而节省了投入。
图2示出了根据本发明另一个实施例的钓鱼网站的检测方法的流程图。如图2所示,该方法包括以下步骤:
步骤S201,从待检测网站的网页源代码中提取多个数据源;对多个数据源进行交叉处理,得到包含多个关键词的关键词组。
其中,多个数据源为通过浏览器加载后会在页面中呈现出来的用户可见任意数据,本发明对此不做具体限定。可选的,在本发明的一个具体实施例中,多个数据源包括:起始地址和登录地址、标题标签数据源、主体(body)标签数据源、以及版权信息。其中,起始地址和登录地址对应的数据为起始地址和登录地址(Starting and landing URLs),起始地址即给用户访问网站的URL;登录地址即页面完全加载时,浏览器地址栏中的URL,两者可能是相同的,也可能是不同的;title标签数据源为title标签中的文本数据;body标签维度数据源为body标签中的文本数据;版权信息(copyright)为网站的版权信息。
具体地,从各种数据中按照预设的标准筛选出特定文本,作为对应的数据源。例如,从各个数据中筛选出出现频率最高的特定文本作为对应的数据源。然后,通过对数据源进行交叉处理,可选的,首先对数据源进行取交集处理,然后对取交集后得到的多个词组进行取并集处理,即可得到一个关键词组。另外,作为本实施例的一个可选的步骤,在对数据源进行交叉处理后,得到一个待选的关键词组,分别计算该待选的关键词组中每个关键词在待检测网站的页面中出现的频率,并根据出现频率由高到低的顺序进行排序,再选取其中出现频率最高的N个词组组成关键词组。在本发明的一个具体实施例中,N=5,经验表示,该值是组成关键词组中的关键词数量的一个优选数值。
步骤S202,从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名。
步骤S203,判断多个注册域名中是否存在待检测网站的注册域名;若是,则确定待检测网站为合法网站,则本方法结束;若否,则确定待检测网站为可疑网站,则执行步骤S204。
具体地,按照步骤S103中提到的确定合法网站的两个基本准则,可以确定:搜索结果中的多个注册域名对应的网站均为合法网站,以及,结合注册域名的全球唯一性,则当多个注册域名中存在待检测网站的注册域名,确定该待检测网站即为注册域名列表中相应的注册域名对应的网站,也即为合法网站,则本方法结束;当多个注册域名中不存在待检测网站的注册域名,则确定待检测网站为可疑网站,则执行步骤S204及其后续步骤,以进行进一步的检测。
步骤S204,将多个主域名与关键词组中的多个关键词进行匹配,判断多个注册域名对应的主域名中是否存在至少一个主域名与多个关键词中的至少一个关键词相匹配;若是,则本方法结束;若否,则执行步骤S205。
在本步骤中,通过将多个主域名与关键词组中的多个关键词进行匹配,以检测出可疑网站是否为钓鱼网站。
具体地,若多个注册域名对应的主域名中存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为钓鱼网站。其中,相匹配的情况有两种,一种是主域名与关键词相同,另一种是关键词包括主域名。当存在至少一个主域名与至少一个关键词相匹配时,则认为根据待检测网站(即可疑网站)的多个数据源提取出的关键词组,接近于该至少一个主域名对应的网站中呈现给用户的标识性信息,而多个注册域名中不存在该待检测网站(即可疑网站)的注册域名,则可以确定可疑网站为钓鱼网站,则本方法结束;否则,即:当不存在至少一个主域名与至少一个关键词相匹配时,则认为根据待检测网站(即可疑网站)的多个数据源提取出的关键词组,不接近于任一主域名对应的网站中呈现给用户的标识性信息,同时,考虑到数据源获取的不全面的问题,此处并不直接确定可疑网站为合法网站,而只是将此种情况确定为未检测出可疑网站为钓鱼网站的情况,并执行步骤S205及其后续步骤,以进一步检测该可疑网站是否为钓鱼网站。
举例来说,苹果官网注册域名apple.com,这个注册域名是唯一的,某待检测网站的注册域名是apple.com.ioscy.cn,通过注册域名可以检测出待检测网站为可疑网站;若从该待检测网站最终提取的关键词中包含apple,与苹果官网的主域名匹配,则确定该可疑网站试图在模仿苹果网站,则检测出该可疑网站为钓鱼网站。
步骤S205,若未检测出可疑网站为钓鱼网站,则从待检测网站的网站截图中提取文字信息的数据源,将该文字信息的数据源与从待检测网站的网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组。
由于部分钓鱼网站在源代码中隐藏伪造目标网站的痕迹,但该网站最终呈现给用户的视觉信息与目标网站的相似度不会改变。在本发明中,若未检测出可疑网站为钓鱼网站,则从待检测网站的其他除网页源代码之外的角度提取其他数据源,并结合该其他数据源来检测可疑网站是否为钓鱼网站。可选的,在本实施例中,为了避免对部分使用图片伪造内容的钓鱼网站检测效果差的问题,若未检测出可疑网站为钓鱼网站,则再次通过网站截图角度提取关键词组,可降低漏报率。
具体地,利用图片文字识别技术,从待检测网站(即可疑网站)的网站截图中提取文字信息,得到文字信息的数据源,可选的,图片文字识别技术为光学字符识别(OpticalCharacter Recognition,简称OCR)。然后,将该文字信息的数据源与从网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组。其中,交叉处理的具体实现可参照上述步骤S201中对多个数据源进行交叉处理的描述,在此不再赘述。在得到更新后的关键词组之后,利用更新后的关键词组继续执行步骤S202至步骤S204,以检测出待检测网站是否为钓鱼网站,具体参见下述步骤S206至步骤S208的说明。
步骤S206,从以更新后的关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名。
步骤S207,判断多个注册域名中是否存在待检测网站(即可疑网站)的注册域名;若多个注册域名中存在待检测网站(即可疑网站)的注册域名,则确定可疑网站为合法网站,本方法结束;若多个注册域名中不存在待检测网站(即可疑网站)的注册域名,则继续将可疑网站确定为可疑网站。
步骤S208,针对可疑网站,将多个主域名与关键词组中的多个关键词进行匹配,判断多个注册域名对应的主域名中是否存在至少一个主域名与多个关键词中的至少一个关键词相匹配,若多个注册域名对应的主域名中存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为钓鱼网站。
在此处需要注意的是,若多个注册域名对应的主域名中不存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为合法网站。换言之,在经过两轮的检测之后,若仍不能确定可疑网站为钓鱼网站,则认为可疑网站为合法网站。
经过本实施例的上述步骤S201至步骤S208,即可检测出待检测网站是否为钓鱼网站。而在本发明的另一些具体实施例中,若检测出可疑网站为钓鱼网站(包括任意一轮中检测出可疑网站为钓鱼网站的情况),则可以进一步根据多个注册域名对应的主域名确定钓鱼网站模仿的目标网站,具体地,根据多个主域名与多个关键词的匹配结果的不同,采用不同的方式确定钓鱼网站模仿的目标网站:
方式一,若多个注册域名对应的主域名中存在一个主域名与多个关键词中的至少一个关键词相匹配,则确定对应一个主域名的网站为钓鱼网站模仿的目标网站。
方式二,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的一个关键词相匹配,则根据搜索到的多个注册域名中至少两个主域名对应在搜索结果中的排序,确定钓鱼网站模仿的目标网站。具体地,为便于确定搜索到的多个注册域名中至少两个主域名对应的排序,在搜索得到一系列URL网址后,按搜索结果中一系列URL网址的顺序将多个注册域名加入到注册域名列表中,然后,在提取到多个注册域名的主域名之后,按照注册域名列表中的顺序将多个主域名加入到主域名列表中,其中,注册域名列表和主域名列表可以为同一个列表,也可以为不同列表。当存在至少两个主域名与一个关键词相匹配时,则通过查询主域名列表,根据主域名列表中该至少两个主域名在主域名列表中的排序,确定排序靠前的主域名;并将对应该排序靠前的主域名的网站确定为钓鱼网站模仿的目标网站。
方式三,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的至少两个关键词相匹配,则根据至少两个关键词在提取出的数据源中出现的频率,确定钓鱼网站模仿的目标网站。具体地,针对每个相匹配的主域名,分别计算与该主域名匹配的关键词在数据源中出现的频率;再将同一关键词的频率累加,按至少两个关键词中在提取出的数据源中出现的频率由高至低排序,根据排序结果确定出现频率最高的关键词;将与所述出现频率最高的关键词相匹配的主域名,对应的网站确定为钓鱼网站模仿的目标网站。
利用本实施例方案,可以广泛应用于各种检测钓鱼网站的场景,以及应用于查找模仿某合法网站的钓鱼网站的场景中。其中,针对检测钓鱼网站的场景,可以直接通过本实施例的钓鱼网站的检测方法来检测待检测网站是否为钓鱼网站。针对查找模仿某合法网站的钓鱼网站的场景,即:对于一个合法网站而言,当需要查找出所有模仿该合法网站的钓鱼网站时,可以采用以下方式来实现:在查找模仿该合法网站的钓鱼网站之前,先对该合法网站的域名进行模仿,包括对注册域名中包括的字母或数字,在多形上进行相近的替换,例如:域名中的字母l和数字1,字母o和数字0,字母组合rn和字母m,字母组合nn和字母m等等,当进行域名模仿之后,会生成相关模仿域名,将这些模仿域名进行DNS查找;然后将通过DNS查找成功的所有模仿域名作为待检测网站,并通过本实施例提出的钓鱼网站的检测方法进行钓鱼网站检测;若检测出待检测网站为钓鱼网站,且其目标网站为上述某合法网站,则认为对应的待检测网站为模仿该合法网站的钓鱼网站。
根据本实施例提供的钓鱼网站的检测方法,从待检测网站的网页源代码中提取多个数据源;对多个数据源进行交叉处理,得到包含多个关键词的关键词组;从以关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名;判断多个注册域名中是否存在待检测网站的注册域名,若否,则确定待检测网站为可疑网站;若确定待检测网站为可疑网站,将多个主域名与关键词组中的多个关键词进行匹配,根据匹配结果检测可疑网站是否为钓鱼网站;若未检测出可疑网站为钓鱼网站,则从待检测网站的网站截图中提取文字信息的数据源,将该文字信息的数据源与从待检测网站的网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组,并跳转执行上述以关键词组为搜索条件进行搜索,以及检测可疑网站是否为钓鱼网站的步骤,以进行第二轮的检测;在检测出可疑网站为钓鱼网站之后,根据多个主域名与多个关键词的匹配结果,确定钓鱼网站模仿的目标网站。利用本实施例方案,通过多维交叉分析提取关键词组,针对钓鱼网站,则提取到钓鱼网站模仿的目标网站的最有效关键词,可提高钓鱼网站的检测准确率;通过结合网页源代码和网页截图两次提取的关键词组,进行二次检测可降低钓鱼网站检测的误报率及漏报率,从而提高钓鱼网站检测的成功率;通过对匹配结果的多样性分析,提高了对钓鱼网站模仿的目标网站识别的成功率,同时避免了由于数据单一导致识别目标网站错误率高的问题。
图3示出了根据本发明一个实施例的钓鱼网站的检测装置的功能框图。如图3所示,该装置包括:
第一提取模块301,适于从待检测网站的网页源代码中提取多个数据源;对所述多个数据源进行交叉处理,得到包含多个关键词的关键词组;
第二提取模块302,适于从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名;
检测模块303,适于根据所述多个注册域名检测待检测网站是否为可疑网站;若是,则根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站。
第三提取模块304,适于从待检测网站的网站截图中提取文字信息的数据源,将该文字信息的数据源与从待检测网站的网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组。
检测模块303进一步适于:判断所述多个注册域名中是否存在待检测网站的注册域名;若是,则确定待检测网站为合法网站;若否,则确定待检测网站为可疑网站。
检测模块303进一步适于:若多个注册域名对应的主域名中存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为钓鱼网站。
检测模块303进一步适于:若多个注册域名对应的主域名中不存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为合法网站。
确定模块305,适于根据多个注册域名对应的主域名确定所述钓鱼网站模仿的目标网站。
确定模块305进一步适于:若多个注册域名对应的主域名中存在一个主域名与多个关键词中的至少一个关键词相匹配,则确定对应所述一个主域名的网站为钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的一个关键词相匹配,则根据搜索到的多个注册域名中所述至少两个主域名对应在搜索结果中的排序,确定钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的至少两个关键词相匹配,则根据至少两个关键词在提取出的数据源中出现的频率,确定钓鱼网站模仿的目标网站。
确定模块305进一步适于:按至少两个关键词中在提取出的数据源中出现的频率由高至低排序,根据排序结果确定出现频率最高的关键词;
将与所述出现频率最高的关键词相匹配的主域名,对应的网站确定为钓鱼网站模仿的目标网站。
其中,所述多个数据源包括:起始地址和登录地址、标题标签数据源、主体标签数据源、以及版权信息。
其中,所述交叉处理包括:取并集处理,和/或,取交集处理。
关于上述各个模块的具体结构和工作原理可参照方法实施例中相应步骤的描述,此处不再赘述。
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的钓鱼网站的检测方法。
图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述钓鱼网站的检测方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
步骤S1,从待检测网站的网页源代码中提取多个数据源;对所述多个数据源进行交叉处理,得到包含多个关键词的关键词组;
步骤S2,从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名;
步骤S3,根据所述多个注册域名检测待检测网站是否为可疑网站;若是,则根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
从待检测网站的网站截图中提取文字信息的数据源,将该文字信息的数据源与从待检测网站的网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组,并利用更新后的关键词组继续执行步骤S2和步骤S3对应的操作。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
判断所述多个注册域名中是否存在待检测网站的注册域名;若是,则确定待检测网站为合法网站;若否,则确定待检测网站为可疑网站。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
若多个注册域名对应的主域名中存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为钓鱼网站。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
若多个注册域名对应的主域名中不存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为合法网站。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
根据多个注册域名对应的主域名确定所述钓鱼网站模仿的目标网站。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
若多个注册域名对应的主域名中存在一个主域名与多个关键词中的至少一个关键词相匹配,则确定对应所述一个主域名的网站为钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的一个关键词相匹配,则根据搜索到的多个注册域名中所述至少两个主域名对应在搜索结果中的排序,确定钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的至少两个关键词相匹配,则根据至少两个关键词在提取出的数据源中出现的频率,确定钓鱼网站模仿的目标网站。
在一种可选的方式中,程序510具体可以进一步用于使得处理器502执行以下操作:
按至少两个关键词中在提取出的数据源中出现的频率由高至低排序,根据排序结果确定出现频率最高的关键词;
将与所述出现频率最高的关键词相匹配的主域名,对应的网站确定为钓鱼网站模仿的目标网站。
在一种可选的方式中,所述多个数据源包括:起始地址和登录地址、标题标签数据源、主体标签数据源、以及版权信息。
在一种可选的方式中,所述交叉处理包括:取并集处理,和/或,取交集处理。至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应该被理解和认定为覆盖了所有这些其他变型或修改。
本领域技术人员应当理解,本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。此外,本发明也不针对任何特定编程语言,应当明白,可以利用各种编程语言实现本发明描述的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
需要注意的是,尽管在上面的说明中详细描述了钓鱼网站的检测装置的若干模块,但是这种划分仅仅是示例性的,并非是强制性的。本领域的技术人员可以理解,实际上,可以对实施例中的模块进行自适应性地改变,将实施例中的多个模块组合成一个模块,也可将一个模块划分成多个模块。
此外,尽管在附图中以特定顺序描述了本发明实施操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。可以省略某些步骤,将多个步骤合并为一个步骤执行,或者将一个步骤分成多个步骤执行。
以上对本发明的方法和具体实施方法进行了详细的介绍,并给出了相应的实施例。当然,除上述实施例外,本发明还可以有其它实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明所要保护的范围之内。
本发明公开了:A1.一种钓鱼网站的检测方法,其特征在于,包括:
步骤S1,从待检测网站的网页源代码中提取多个数据源;对所述多个数据源进行交叉处理,得到包含多个关键词的关键词组;
步骤S2,从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名;
步骤S3,根据所述多个注册域名检测待检测网站是否为可疑网站;若是,则根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站。
A2.根据A1所述的方法,其特征在于,若未检测出可疑网站为钓鱼网站,所述方法还包括:
从待检测网站的网站截图中提取文字信息的数据源,将该文字信息的数据源与所述从待检测网站的网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组,并利用更新后的关键词组继续执行步骤S2和步骤S3对应的操作。
A3.根据A1或A2所述的方法,其特征在于,所述根据所述多个注册域名检测待检测网站是否为可疑网站进一步包括:
判断所述多个注册域名中是否存在待检测网站的注册域名;若是,则确定待检测网站为合法网站;若否,则确定待检测网站为可疑网站。
A4.根据A3所述的方法,其特征在于,所述根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站进一步包括:
若多个注册域名对应的主域名中存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为钓鱼网站。
A5.根据A2所述的方法,其特征在于,所述根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站进一步包括:
若多个注册域名对应的主域名中不存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为合法网站。
A6.根据A1或A2所述的方法,其特征在于,若检测出可疑网站为钓鱼网站,所述方法还包括:根据多个注册域名对应的主域名确定所述钓鱼网站模仿的目标网站。
A7.根据A6所述的方法,其特征在于,所述根据多个注册域名对应的主域名确定所述钓鱼网站模仿的目标网站进一步包括:
若多个注册域名对应的主域名中存在一个主域名与多个关键词中的至少一个关键词相匹配,则确定对应所述一个主域名的网站为钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的一个关键词相匹配,则根据搜索到的多个注册域名中所述至少两个主域名对应在搜索结果中的排序,确定钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的至少两个关键词相匹配,则根据至少两个关键词在提取出的数据源中出现的频率,确定钓鱼网站模仿的目标网站。
A8.根据A7所述的方法,其特征在于,所述根据至少两个关键词在提取出的数据源中出现的频率,确定钓鱼网站模仿的目标网站具体为:
按至少两个关键词中在提取出的数据源中出现的频率由高至低排序,根据排序结果确定出现频率最高的关键词;
将与所述出现频率最高的关键词相匹配的主域名,对应的网站确定为钓鱼网站模仿的目标网站。
A9.根据A1或A2所述的方法,其特征在于,所述多个数据源包括:起始地址和登录地址、标题标签数据源、主体标签数据源、以及版权信息。
A10.根据A1或A2所述的方法,其特征在于,所述交叉处理包括:取并集处理,和/或,取交集处理。
本发明还公开了:B11.一种钓鱼网站的检测装置,其特征在于,包括:
第一提取模块,适于从待检测网站的网页源代码中提取多个数据源;对所述多个数据源进行交叉处理,得到包含多个关键词的关键词组;
第二提取模块,适于从以所述关键词组为搜索条件搜索得到的搜索结果中提取多个注册域名;
检测模块,适于根据所述多个注册域名检测待检测网站是否为可疑网站;若是,则根据多个注册域名对应的主域名检测可疑网站是否为钓鱼网站。
B12.根据B11所述的装置,其特征在于,所述装置还包括:
第三提取模块,适于从待检测网站的网站截图中提取文字信息的数据源,将该文字信息的数据源与所述从待检测网站的网页源代码中提取的多个数据源进行交叉处理,得到包含多个关键词的更新后的关键词组。
B13.根据B11或B12所述的装置,其特征在于,所述检测模块进一步适于:
判断所述多个注册域名中是否存在待检测网站的注册域名;若是,则确定待检测网站为合法网站;若否,则确定待检测网站为可疑网站。
B14.根据B13所述的装置,其特征在于,所述检测模块进一步适于:
若多个注册域名对应的主域名中存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为钓鱼网站。
B15.根据B12所述的装置,其特征在于,所述检测模块进一步适于:
若多个注册域名对应的主域名中不存在至少一个主域名与多个关键词中的至少一个关键词相匹配,则确定可疑网站为合法网站。
B16.根据B11或B12所述的装置,其特征在于,所述装置还包括:确定模块,适于根据多个注册域名对应的主域名确定所述钓鱼网站模仿的目标网站。
B17.根据B16所述的装置,其特征在于,所述确定模块进一步适于:
若多个注册域名对应的主域名中存在一个主域名与多个关键词中的至少一个关键词相匹配,则确定对应所述一个主域名的网站为钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的一个关键词相匹配,则根据搜索到的多个注册域名中所述至少两个主域名对应在搜索结果中的排序,确定钓鱼网站模仿的目标网站;
和/或,若多个注册域名对应的主域名中存在至少两个主域名与多个关键词中的至少两个关键词相匹配,则根据至少两个关键词在提取出的数据源中出现的频率,确定钓鱼网站模仿的目标网站。
B18.根据B17所述的装置,其特征在于,所述确定模块进一步适于:
按至少两个关键词中在提取出的数据源中出现的频率由高至低排序,根据排序结果确定出现频率最高的关键词;
将与所述出现频率最高的关键词相匹配的主域名,对应的网站确定为钓鱼网站模仿的目标网站。
B19.根据B11或B12所述的装置,其特征在于,所述多个数据源包括:起始地址和登录地址、标题标签数据源、主体标签数据源、以及版权信息。
B20.根据B11或B12所述的装置,其特征在于,所述交叉处理包括:取并集处理,和/或,取交集处理。
本发明还公开:C21.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如A1-A10中任一项所述的钓鱼网站的检测方法对应的操作。
本发明还公开了:D22.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如A1-A10中任一项所述的钓鱼网站的检测方法对应的操作。