CN104202291A - 基于多因素综合评定方法的反钓鱼方法 - Google Patents

基于多因素综合评定方法的反钓鱼方法 Download PDF

Info

Publication number
CN104202291A
CN104202291A CN201410177968.1A CN201410177968A CN104202291A CN 104202291 A CN104202291 A CN 104202291A CN 201410177968 A CN201410177968 A CN 201410177968A CN 104202291 A CN104202291 A CN 104202291A
Authority
CN
China
Prior art keywords
website
url
value
result
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410177968.1A
Other languages
English (en)
Inventor
胡建伟
崔艳鹏
李英
胥红艳
李蕊
许乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410177968.1A priority Critical patent/CN104202291A/zh
Publication of CN104202291A publication Critical patent/CN104202291A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于多因素综合评定方法的反钓鱼方法,其包括以下步骤:步骤a,建立URL的黑白名单库,并对目标URL进行处理,判断经过处理后的URL是否在黑/白名单中,如果在名单库中,则执行步骤d,直接反馈结果给用户;如果不在名单库中,则执行步骤b,进行后面对网站的检测;步骤b,对网站进行URL角度识别,网站行为及细节特征识别,服务器角度识别和爬虫角度识别四个方面的检测;步骤c,总结平权反馈结果;步骤d,显示结果。本发明所提供的方法从多方面进行评定,过程严谨;考虑全面,准确度高;将命中的可疑点及相应权值、搜索到的网页链接、网站文件、判断依据显示在图形界面,简单明了,在反馈给用户的同时也可供相关专业人员查看。

Description

基于多因素综合评定方法的反钓鱼方法
技术领域
本发明涉及一种防范网络钓鱼攻击的评定方法,尤其涉及一种基于多因素综合评定方法的反钓鱼方法。
背景技术
目前,互联网欺诈事件频频发生,威胁着用户的隐私安全。据统计,仅2010年上半年,网络钓鱼给民众和社会带来的直接与间接经济损失超过120亿元。如何防范网络钓鱼攻击(Phishing attack)已迫在眉睫。目前安全软件对钓鱼网站基于URL识别的方法单一,不涉及钓鱼网站本质;黑白名单识别具有滞后性,且钓鱼网站频繁更换URL,该方法是一种被动的以牺牲部分用户利益为前提的反钓鱼;基于页面特征识别效率和速度很低,容易被钓鱼者伪装突破检测,另外,此类解决方案都面临一个共同的问题,即通常在保持高识别率的同时会伴随一个较高的误报率。因而现有的传统反钓鱼方法面对日新月异的威胁显然力不从心。
经过对已有反钓鱼手段的总结和对大量钓鱼网站的分析,本发明弥补了目前安全软件的不足。本发明从众多方向对钓鱼网站进行分析,通过应用统计算法、阈值算法、线性加权、校验和(checksum)算法等手段,使得本本发明具有很高的识别率并减少了错报率。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本创作。
发明内容
本发明的目的在于提供一种基于多因素综合评定方法的反钓鱼方法用以克服上述技术缺陷。
为实现上述目的,本发明提供一种基于多因素综合评定方法的反钓鱼方法,其包括以下步骤:
步骤a,建立URL的黑白名单库,并对目标URL进行处理,判断经过处理后的URL是否在黑/白名单中,如果在名单库中,则执行步骤d,直接反馈结果给用户;如果不在名单库中,则执行步骤b,进行后面对网站的检测;
步骤b,对网站进行检测;
所述检测包括四个方面的检测,URL角度识别,网站行为及细节特征识别,服务器角度识别和爬虫角度识别;首先执行所述URL角度识别;所述网站行为及细节特征识别,所述服务器角度识别和所述爬虫角度识别分别以三个线程执行并且检测完成后会将总权值以设定格式写入到文件中,以方便结果总结反馈;
步骤c,总结平权反馈结果;
如果总权值加起来超过设定的阈值,则给用户发出钓鱼网站的危险报警,如果小于阈值,则给用户反馈安全的检测结果;
步骤d,显示结果。
较佳的,所述URL角度识别方法步骤为:
步骤b11,对传入参数的URL进行格式规范;
步骤b12,若域名级数超过规定值,则在记录权值数组的相应位置加上对应的值;
步骤b13,若所述规范后的URL是IP形式的,则在记录权值数组的相应位置加上对应的值;
步骤b14,若包含特殊字符,则说明网址用特殊字符进行了伪装,则在记录权值数组的相应位置加上对应的值;
步骤b15,若路径数层数过多,则在记录权值数组的相应位置加上对应的值。
较佳的,所述网站行为及细节特征识别的过程为,
步骤b21,传入待检测的网址,处理URL并提取域名和路径,进行DNS查询,与目标建立连接;
步骤b22,根据提取出的路径发送HTTP的GET请求,获得页面源代码并对该源代码进行分析;
步骤b23,对收到的请求进行分析。
较佳的,所述对收到的请求进行分析的步骤为,
步骤b231,检查消息头中是否设置了Cookie,若没有则给全局变量赋予相应权值;
步骤b232,对响应中脚本的内容进行统计,用其长度除以总页面长度,得脚本所占比例,与下限阈值进行比较,如果大于阈值则在记录权值数组的相应位置加上对应的值;
步骤b233,检测HTML代码是否规范,包括判断标签内的属性大小写是否符合规范,action的目标是否用双引号括起;每符合一个可疑特征,对应权值所乘系数加1;
步骤b234,查看<form>标签中action属性的目标是否与本域名相同,若不同则加权;
步骤b235,在action目标在本域名下时,分析GET响应提取参数并发送表单,对其响应进行分析,若消息头中有Location,检测该地址是否在本域名下,若不是则加权;
步骤b236,将结果以约定形式输出到权值反馈文件中,便于汇总权值时调用。
较佳的,所述服务器角度识别的过程为:
步骤b31,对传入的URL进行处理,提取主域名,进行DNS查询,若其下不只一个IP,不加权;若其下只有一个IP,则在记录权值数组的相应位置加上对应的值;
步骤b32,对IP地址进行查询,如果是目标是在钓鱼网站分布较多的国家,则在记录权值数组的相应位置加上对应的值;
步骤b33,将规范化后的域名进行查询,从得到的响应中提取出网站到期时间与注册时间的差值,若小于指定值,则在记录权值数组的相应位置加上对应的值;否则不需要在记录权值数组上对应的值;
步骤b34,将结果按照格式输出到权值反馈文件中。
较佳的,所述权值数组,初始化为0后统计结果时将数组中的值相加,最后按照格式输出到文件权值反馈文件中,便于汇总权值时调用;
所述总权值的计算公式为:G=∑siwi;若得出数值G大于上限阈值,则给用户警告此网站危险;若得出的数值G小于下限阈值,则给用户返回网站安全的提示;若得出的数值G在上下限之间,则给用户返回相应的可疑度,提示用户要小心访问,并建议用户了解防钓鱼攻击的方法。
较佳的,所述爬虫角度识别包括一网页出度链接数目检测;
所述网页出度链接数目检测的方法步骤为,在传入URL后,首先用爬虫爬取待测网页,获取相同母域名下的第一层出度,将搜索到的结果返回在图形化界面中以方便用户查看,并记录其链接数目;
选取第二层链接进行测试时,采用从第一层链接中随即抽取小于或等于5个出度的方法来实现;爬取第二层链接时,选择原网页母域名下的路径进行查找,记录它们的出度总数;若数目大于设定最大阈值,则认为该网站不可疑,跳出执行;
最后,将结果输出至权值反馈文件中。
较佳的,所述爬虫角度识别还包括一网页文件数目和种类检测的方法,该方法的步骤为:
在传入URL后,首先用爬虫爬取待测网页,获取相同母域名下的第一层出度,将搜索到的结果返回在图形化界面中以方便用户查看,并记录其链接数目;
爬取第二层链接时,选择原网页母域名下的路径进行查找,依次查看网页下的文件,判断其是否以html,htm,shtlm,asp,php五种类型之一结尾,如果是,则记录这第一层链接的文件名;再看其URL是否在原母域名下,如果是则对这链接爬取出第二层文件,查找相应类型的文件并记录其数目,若数目大于设定最大阈值,则认为该网站不可疑,跳出执行;
最后,将结果输出至权值反馈文件中。
较佳的,所述网页文件数目和种类检测的方法中,所述权值评定采取了分区间判定的方法;首先用统计方法划分数目区间,根据结果所在区间赋予相应的可疑度S(S∈[0,1]),然后乘以整体划分的系数K;可疑度总权值:N=SK;最后将总权值以指定形式输出到权值反馈文件中。
较佳的,所述总权值报警的上阈值定为70,下阈值为30。
与现有技术比较本发明的有益效果在于:经过对已有反钓鱼手段的总结和对大量钓鱼网站的分析,本发明突破了传统反钓鱼方法检测角度单一的缺点,并结合已有检测手段,从URL、网站行为及细节特征、服务器、爬虫获取信息等多方面进行评定,每个方面又有多项评定指标,过程严谨;利用统计算法和阈值算法,对各项可疑点赋予相应权值,最后综合评分,考虑全面,准确度高;将命中的可疑点及相应权值、搜索到的网页链接、网站文件、判断依据显示在图形界面,简单明了,在反馈给用户的同时也可供相关专业人员查看。
附图说明
图1为本发明配电线宽带电力载波通信***的功能框图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
请参阅图1所示,其为本发明基于多因素综合评定方法的反钓鱼方法的流程图,其中:
步骤a,建立URL的黑白名单库,并对目标URL进行处理,判断经过处理后的URL是否在黑/白名单中,如果在名单库中,则执行步骤d,直接反馈结果给用户;如果不在名单库中,则执行步骤b,进行后面对网站的检测。
步骤b,检测过程中,首先执行的是URL角度识别,因为该部分执行速度比较快,没有必要再浪费开销专门设一个线程;之后是三个线程进行剩下三方面的检测。这三个部分的检测完成后会将总权值以约定好的格式写入到文件temp_result.dat中,以方便结果总结反馈。
步骤c,总结平权反馈结果。如果总权值加起来超过约定的阈值,则给用户发出钓鱼网站的危险报警,如果小于阈值,则给用户反馈安全的检测结果。
权值的记录用到了一个表示结果的数组,先初始化为0,之后统计结果时将数组中的值相加,最后按照格式输出到文件temp_result中,便于汇总权值时调用。针对URL、网站行为及细节特征、服务器角度,首先将所有可疑点权值设置为1,接着对PhishTank上公布的500个外国钓鱼网站和500个国内钓鱼网站进行测试统计每个点命中的次数,再根据结果给各可疑点赋予权值。
在对上述检测结果的处理中,主要应用了线性加权法、阈值算法和统计算法等。统计算法是在给定的范围内求出符合设定条件的记录个数,用一个条件语句判断当前记录是否符合给定条件,符合则统计个数加一。在前三部分中,我们采用多因素综合评分方法中的线性加权法来对以上识别结果进行打分。使用两个向量来进行实现,分别为向量S<s1,s2,......si,....>和向量W<w1,w2,......wi,......>。在向量S中,如果上面的可疑点为可疑的,则将响应赋值为1,否则赋值为0;在向量W中,wi为对应si的权值,wi的方法由上述统计算法得出。
所述总权值的计算公式为:G=∑siwi。设定,若得出数值G大于上限阈值,则给用户警告此网站危险;若得出的数值G小于下限阈值,则给用户返回网站安全的提示;若得出的数值G在上下限之间,则给用户返回相应的可疑度,提示用户要小心访问,并建议用户了解防钓鱼攻击的方法。其中,具体的阈值也由统计算法得出。规定总权值报警的上阈值定为:70,下阈值为30。
步骤d,显示结果。
在运行过程中,会同步返回目标网站的form表单响应、GET请求响应,地理位置查询,网站出度链接等,网站文件以及可疑特征点及其相应权值,可供相关专业人员了解工作原理;程序运行结束后,会根据总权值的不同,弹出不同的提醒窗口给用户。
所述步骤b中,包括四个方面的检查,URL角度识别b1,网站行为及细节特征识别b2,服务器角度识别b3和爬虫角度识别b4。以下分别对这四种检查进行描述。
所述URL角度识别:本发明角度识别中,包括黑白名单识别,网址形式检查,使用特殊字符进行伪装检查,域名级数检查,路径级数检查。
URL识别是目前最广泛采用的方法之一,具有识别速度快,黑白名单100%识别率等优点,包括基于URL黑名单技术和基于机器学习的URL检测技术等。本发明中,在黑白名单中则直接提示用户,来进一步提高检测的准确率和速度。
所述网址形式检查,是用于判断网址形式是否可疑。钓鱼者往往使用IP来表示钓鱼网站URL的全域名,这样可以有效隐藏服务器身份,同时该种URL也不能通过关闭域名的形式来禁止,而此种情况在正常网站的情况下较少出现,故可用作判断URL可疑性的标志。
所述使用特殊字符进行伪装检查,用以检查钓鱼网站除了使用IP地址来隐藏其域名外的其他表现形式,通常用十六进制这种方式加密或在URL中加入特殊字符乔装伪造URL。URL使用进行伪装检查,URL中有些字符有特定的功能,有些字符根据位置而有特定的功能。如果字符不能照字面意思显示,就会以转义格式发送给WEB服务器。在URL中真正起解析作用的网址是从标志后面开始的,这就是欺骗原理。
所述域名级数值检查,用以判断域名级数是否正规。一个正常的URL中域名能够简单明了地反应网站内容,而钓鱼者为了让用户相信他们访问的网站是正规网站,一方面会将其域名设置成和正规网站近似,另一方面也会在其使用的域名后补充几级正规网站的域名。
所述路径级数检查,用以检查URL的路径级数。一个正常的URL由域名、访问路径和访问参数组成。钓鱼者不仅会在域名上下功夫,后面的访问路径也往往会加上仿冒网站的缩写等内容来欺骗用户,而这往往表现为路径级数非常多。
所述URL角度识别方法过程:
步骤b11,对传入参数的URL规范成以http://开头的形式
步骤b12,统计字符串中“.”、英文字母和“/”的数目,若“.”的数目超过指定门限,则说明域名级数超过规定值,在记录权值数组的相应位置加上对应的值;
步骤b13,若没有英文字母且“.”的数目为3(如192.168.0.1),则说明是IP形式,加权值;
步骤b14,若包含特殊字符,如“”字符和使用了过多的十六进制编码(如:%XX,X表示数字),则说明网址用特殊字符进行了伪装,加权;
步骤b15,若“/”的数目过多,则说明路径数层数过多,加权。
权值的记录用到了一个表示结果的数组,先初始化为0,之后统计结果时将数组中的值相加,最后按照格式输出到文件temp_result中,便于汇总权值时调用。
所述网站行为及细节特征识别包括表单Action检查,提交表单后响应分析,HTML规范度检查,设置Cookie检查,脚本比例检查。
在钓鱼网站中,输入随意输入用户名以及密码后,钓鱼网站无法得知用户是否输入了真正的用户名以及密码,而是做出几乎类似的响应给用户。在钓鱼网站中,90%以上都是在得到用户名以及密码后,将用户重定向到正规的网站来隐藏自己;还有一些是“层层递进式”,即随意输入数据后也会得到登陆成功的响应来进行后续欺诈内容。钓鱼网站之所以有这样的行为特征,是因为它没有可进行查询核实的数据库,只为了记录用户名和密码而已,而这正是其与正规网站在处理用户提交行为方面最本质的差别。
所述表单Action检查,所述表单用于搜集不同类型的用户输入,当用户单击确认按钮时,表单的内容会被传送到另一个文件。表单的动作属性(action)定义了目的文件的文件名(“html_form_action.asp”)。由动作属性定义的这个文件通常会对接收到的输入数据进行相关的处理。钓鱼网站所关联的注册内容是通过由form表单提交到正规网站的,而正规网站往往不会提交表单至别的域名下,故此可作为一个可疑特征。
所述提交表单后响应分析,提交表单后,正规网站执行的操作是将用户名与密码到数据库中进行查询比对,而钓鱼网站往往是采取固定的一些行为,如将用户重定向到正规的网站,来增强自己的隐蔽性,让用户难以察觉。可疑特征是将用户重定向到另一个不属于原域名的域名下。
所述HTML规范度检查,用以检查网站的HTML代码有规范。一个合法正规的网站应当尽可能的遵守新的标准,而钓鱼网站代码的书写往往比较随意,其规范化程度与正规网站相比较低。因此,如果发现一个网站的HTML代码有不规范的地方,那将增加其可疑度。
所述设置Cookie检查,Cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。然而,钓鱼网站通常并不需要上述Cookie提供的功能。其构建只是为了套取用户的账户信息等内容,甚至不希望用户再次访问他们,这样会增加他们被发现举报的风险。
所述脚本比例检查,通过统计来设定一个阈值,如果脚本长度占总页面的比例超过了这个阈值,则认为它是可疑的。
网站行为及细节特征识别过程为
步骤b21,传入待检测的网址,接着处理URL并提取域名和路径,进行DNS查询,与目标建立连接;
步骤b22,根据提取出的路径发送HTTP的GET请求,获得页面源代码进行分析。其中GET请求是模仿IE浏览器请求而构建的
步骤b23,对收到的请求进行如下几步分析:
(1)检查消息头中是否设置了Cookie,若没有则给全局变量Weight_Sum赋予相应权值。
(2)对响应中所有“<script>”和“</script>”之间的内容进行统计,用其长度除以总页面长度,得脚本所占比例,与下限阈值进行比较,如果大于阈值则Weight_Sum加上对应权值。本团队对正规网站和具有长脚本特征的钓鱼网站的script脚本比例进行大量统计,确定下限阈值为0.60;
(3)检测HTML代码是否规范:若在找到“<****>”标签的情况下寻找响应关闭标签“</****>”,判断标签内的属性大小写是否符合规范,action的目标是否用双引号″″括起,等等。每符合一个可疑特征,对应权值所乘系数加1。
(4)查看<form>标签中action属性的目标是否与本域名相同,若不同则加权;
(5)在action目标在本域名下时,分析GET响应提取参数并发送表单,对其响应进行分析,若消息头中有Location,检测该地址是否在本域名下,若不是则加权。
(6)将结果以约定形式输出到temp_result.dat文件中,便于汇总权值时调用。
服务器角度识别包括域名下对应IP个数检查,IP地址地理位置检查和Whois信息检查。
一个正规网站的访问量和钓鱼网站的访问量是有很大差别的,因此正规网站的服务器和钓鱼网站的服务器方面技术或许是有差别的。据统计,90%以上的钓鱼站点分布在境外来逃脱国内法律制裁。另外,如果你访问的是国内银行,但是那个域名却解析到了境外,这也是很可疑的。所以,我们也可以从IP的地理位置来推测它是否为钓鱼网站。一些研究人员还表示,钓鱼网站有生存期短的特点,这会反映在网站域名的whois信息上。
所述域名下对应IP个数检查,对大型网站进行访问,有时候会被映射到不同的IP上去,这是因为这些访问量较高的域名使用了负载均衡技术。DNS负载均衡技术是在DNS服务器中为同一个主机名配置多个IP地址,在应答DNS查询时,DNS服务器对每个查询将以DNS文件中主机记录的IP地址按顺序返回不同的解析结果,将客户端的访问引导到不同的机器上去,使得不同的客户端访问不同的服务器,从而达到负载均衡的目的。然而,一个简陋的钓鱼网站往往访问量十分有限,制作者不会花费成本来采用这种技术,因此可作为判断钓鱼网站的一种特征。
所述IP地址地理位置检查,用以判断IP地址是否异常。针对国内的用户,我们可以检测其要访问的IP地理位置,看其是否是在国内和是否在上述几个最可疑的地域来判断其是否可疑。
所述Whois信息检查,据统计,钓鱼网站的平均生存时间少于一天,且其所使用的域名往往比较廉价,域名的使用时间并不长。而关键的正规网站其资质较老,注册时间早,截止日期与注册时间的差值会较大。根据本团队测试,大部分的正规网站此差值大于3年,而钓鱼网站大部分少于三年。因此,可据此作为一个可疑点,来检测站点是否为钓鱼网站。
所述服务器角度识别的过程为:
步骤b31,对传入的URL进行处理,提取主域名,进行DNS查询,运用winsock中的gethostbyname函数,对返回的结构体hostent中h_addr_list链表长度进行统计,若大于1则说明其下不只一个IP,不加权,否则加对应权值。
步骤b32,对返回的IP提交到http://www.ip138.com/进行查询,根据反钓鱼联盟的统计结果,针对国内用户而言,如果是目标是在钓鱼网站分布较多的国家,如:美国,则对应加权。
步骤b33,将规范化后的域名提交到http://whois.chinaz.com/进行查询,从得到的响应中提取出网站到期时间与注册时间的差值,若小于指定值,则加权,否则不加权。这里根据之前的统计,指定值暂为3年。
步骤b34,仍然将结果安装约定格式输出到temp_result.dat中。
所述爬虫角度识别包括网页出度链接数目检测和网页文件数目和种类检测。
网络爬虫(Spider)是通过链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过它们寻找下一个网页,一直循环下去,直到把这个网站所有的网页都抓取完为止。通过用爬虫的方法,可以分析出网站的结构、规模及重要性。
所述网页出度链接数目检测,互联网的本质是一些由超链接形成的Web图。在用网络爬虫处理的时候,需要把上述超链接形成的Web图放入内存中。对Web图中的网页,其指向的链接称为网页的“出度”。网站的出站链接叫做该网站的“第一层出度链接”,简称“第一层出度”;对应网页第一层出度的出站链接则称为原网站的“第二层出度链接”,简称“第二层出度”;网页重要性由网页的两层出度链接综合得出,以提高搜索结果的相关性和质量。所述网页出度链接数目检测的判断原则:正规网站,网页第一层出度链接数目很多,网页的第二层出度数也较大。而钓鱼网站由个人或者小团队经营,与其他网站关联程度低,很难形成较大网络结构,两层出度链接数都较少。
所述网页出度链接数目检测的方法步骤为,在传入URL后,首先用爬虫爬取待测网页,获取相同母域名下的第一层出度,将搜索到的结果返回在图形化界面中以方便用户查看,并记录其链接数目。
由于网站第一层可能会有很多的链接,考虑到时间和效率,不能对每个链接都依次进行爬取。为了解决这个问题,选取第二层链接进行测试时,程序采用从第一层链接中随即抽取5个出度的方法来获取实现,若不满5个链接,则全部选取进行测试。爬取第二层链接时,选择原网页母域名下的路径进行查找,记录它们的出度总数。为预防所检测网站出度数目过多的问题,设定了最大阈值,若数目大于它则认为该网站不可疑,跳出。经过实验统计,钓鱼网站两层出度总数目一般不会超过500,所以阈值暂定为500。
最后,将结果以约定形式文件中,以便后续调用进行评权估定。
所述网页文件数目和种类检测,用爬虫对网页文件进行获取,可以得到相应种类的文件数目。网页文件,主要有以下几种:静态网页文本html、htm,动态页面文件shtml,服务器脚本文件asp、php等。它们可以表现出对应网站的组成和结构布局,其数目及种类越多,网站层次越深,服务器前端与后方库文件关联性越强,网站严整性越高,网站也越重要。
正规网站由于网站制作精细,文件层次分明,架构完备,故网页文件数目较多且种类(以功能划分)较为齐全。而钓鱼网站一般页面模仿正规网站,整体结构松散,与其他网站的关联程度较低,故网页文本和服务器脚本种类及数目都很少,一般后台仅有记录登录信息的管理员日志和支持网站的php、asp等,通过爬虫的检测结果可以直接对比出来。
但有些钓鱼网站管理员会仿照正规网站的结构特点,在服务器端添加文件,这样只通过检测本页面就会发现其文件数目和种类都很多,结构也合理,从而达到以假乱真的目的。针对这种情况,用爬虫获取第二层出度链接的网页文件:即只查找母域名下的路径,然后分别进行访问,记录相应文件的种类和数目。因为钓鱼网站的第二层被创建的出度链接重要性低,网站构架结构简单,网页文件较少。故综合分析两层爬取结果,可得出网站可疑程度。
所述网页文件数目和种类检测的方法步骤:
首先用爬虫爬取待测网页,依次查看网页下的文件,判断其是否以html,htm,shtlm,asp,php五种类型之一结尾,如果是,则记录这第一层链接的文件名;再看其URL是否在原母域名下,如果是则对这链接爬取出第二层文件,查找相应类型的文件并记录其数目,且将出度依次返回在图形化界面框中形成树形图方便用户查看。考虑时间与效率,数目选取方法与上面链接部分相同,只是两层链接总数上限阈值改为200。
由于本部分获得的是数目,所以权值评定采取了分区间判定的方法。首先用统计方法划分数目区间,根据结果所在区间赋予相应的可疑度S(S∈[0,1]),然后乘以整体划分的系数K。可疑度总权值:N=SK。最后将总权值以约定形式输出到文件中,便于后面调用反馈。
以上所述仅为本发明的较佳实施例,对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (10)

1.一种基于多因素综合评定方法的反钓鱼方法,其特征在于,其包括以下步骤:
步骤a,建立URL的黑白名单库,并对目标URL进行处理,判断经过处理后的URL是否在黑/白名单中,如果在名单库中,则执行步骤d,直接反馈结果给用户;如果不在名单库中,则执行步骤b,进行后面对网站的检测;
步骤b,对网站进行检测;
所述检测包括四个方面的检测,URL角度识别,网站行为及细节特征识别,服务器角度识别和爬虫角度识别;首先执行所述URL角度识别;所述网站行为及细节特征识别,所述服务器角度识别和所述爬虫角度识别分别以三个线程执行并且检测完成后会将总权值以设定格式写入到文件中,以方便结果总结反馈;
步骤c,总结平权反馈结果;
如果总权值加起来超过设定的阈值,则给用户发出钓鱼网站的危险报警,如果小于阈值,则给用户反馈安全的检测结果;
步骤d,获取结果。
2.根据权利要求1所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述URL角度识别方法步骤为:
步骤b11,对传入参数的URL进行格式规范;
步骤b12,若域名级数超过规定值,则在记录权值数组的相应位置加上对应的值;
步骤b13,若所述规范后的URL是IP形式的,则在记录权值数组的相应位置加上对应的值;
步骤b14,若包含特殊字符,则说明网址用特殊字符进行了伪装,则在记录权值数组的相应位置加上对应的值;
步骤b15,若路径数层数过多,则在记录权值数组的相应位置加上对应的值。
3.根据权利要求2所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述网站行为及细节特征识别的过程为,
步骤b21,传入待检测的网址,处理URL并提取域名和路径,进行DNS查询,与目标建立连接;
步骤b22,根据提取出的路径发送HTTP的GET请求,获得页面源代码并对该源代码进行分析;
步骡b23,对收到的请求进行分析。
4.根据权利要求3所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述对收到的请求进行分析的步骤为,
步骤b231,检查消息头中是否设置了Cookie,若没有则给全局变量赋予相应权值;
步骤b232,对响应中脚本的内容进行统计,用其长度除以总页面长度,得脚本所占比例,与下限阈值进行比较,如果大于阈值则在记录权值数组的相应位置加上对应的值;
步骤b233,检测HTML代码是否规范,包括判断标签内的属性大小写是否符合规范,action的目标是否用双引号括起;每符合一个可疑特征,对应权值所乘系数加1;
步骤b234,查看<form>标签中action属性的目标是否与本域名相同,若不同则加权;
步骤b235,在action目标在本域名下时,分析GET响应提取参数并发送表单,对其响应进行分析,若消息头中有Location,检测该地址是否在本域名下,若不是则加权;
步骤b236,将结果以约定形式输出到权值反馈文件中,便于汇总权值时调用。
5.根据权利要求1所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述服务器角度识别的过程为:
步骤b31,对传入的URL进行处理,提取主域名,进行DNS查询,若其下不只一个IP,不加权;若其下只有一个IP,则在记录权值数组的相应位置加上对应的值;
步骤b32,对IP地址进行查询,如果是目标是在钓鱼网站分布较多的国家,则在记录权值数组的相应位置加上对应的值;
步骤b33,将规范化后的域名进行查询,从得到的响应中提取出网站到期时间与注册时间的差值,若小于指定值,则在记录权值数组的相应位置加上对应的值;否则不需要在记录权值数组上对应的值;
步骤b34,将结果按照格式输出到权值反馈文件中。
6.根据权利要求2或4或5所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,
所述权值数组,初始化为0后统计结果时将数组中的值相加,最后按照格式输出到文件权值反馈文件中,便于汇总权值时调用;
所述总权值的计算公式为:G=∑siwi;若得出数值G大于上限阈值,则给用户警告此网站危险;若得出的数值G小于下限阈值,则给用户返回网站安全的提示;若得出的数值G在上下限之间,则给用户返回相应的可疑度,提示用户要小心访问,并建议用户了解防钓鱼攻击的方法。
7.根据权利要求1所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述爬虫角度识别包括一网页出度链接数目检测;
所述网页出度链接数目检测的方法步骤为,在传入URL后,首先用爬虫爬取待测网页,获取相同母域名下的第一层出度,将搜索到的结果返回在图形化界面中以方便用户查看,并记录其链接数目;
选取第二层链接进行测试时,采用从第一层链接中随即抽取小于或等于5个出度的方法来实现;爬取第二层链接时,选择原网页母域名下的路径进行查找,记录它们的出度总数;若数目大于设定最大阈值,则认为该网站不可疑,跳出执行;
最后,将结果输出至权值反馈文件中。
8.根据权利要求1所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述爬虫角度识别还包括一网页文件数目和种类检测的方法,该方法的步骤为:
在传入URL后,首先用爬虫爬取待测网页,获取相同母域名下的第一层出度,将搜索到的结果返回在图形化界面中以方便用户查看,并记录其链接数目;
爬取第二层链接时,选择原网页母域名下的路径进行查找,依次查看网页下的文件,判断其是否以html,htm,shtlm,asp,php五种类型之一结尾,如果是,则记录这第一层链接的文件名;再看其URL是否在原母域名下,如果是则对这链接爬取出第二层文件,查找相应类型的文件并记录其数目,若数目大于设定最大阈值,则认为该网站不可疑,跳出执行;
最后,将结果输出至权值反馈文件中。
9.根据权利要求7或8所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述网页文件数目和种类检测的方法中,所述权值评定采取了分区间判定的方法;首先用统计方法划分数目区间,根据结果所在区间赋予相应的可疑度S(S∈[0,1]),然后乘以整体划分的系数K;可疑度总权值:N=SK;最后将总权值以指定形式输出到权值反馈文件中。
10.根据权利要求9所述的基于多因素综合评定方法的反钓鱼方法,其特征在于,所述总权值报警的上阈值定为70,下阈值为30。
CN201410177968.1A 2014-07-11 2014-07-11 基于多因素综合评定方法的反钓鱼方法 Pending CN104202291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410177968.1A CN104202291A (zh) 2014-07-11 2014-07-11 基于多因素综合评定方法的反钓鱼方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410177968.1A CN104202291A (zh) 2014-07-11 2014-07-11 基于多因素综合评定方法的反钓鱼方法

Publications (1)

Publication Number Publication Date
CN104202291A true CN104202291A (zh) 2014-12-10

Family

ID=52087518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410177968.1A Pending CN104202291A (zh) 2014-07-11 2014-07-11 基于多因素综合评定方法的反钓鱼方法

Country Status (1)

Country Link
CN (1) CN104202291A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104902008A (zh) * 2015-04-26 2015-09-09 成都创行信息科技有限公司 一种针对爬虫的数据处理方法
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
CN106776946A (zh) * 2016-12-02 2017-05-31 重庆大学 一种欺诈网站的检测方法
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN107392022A (zh) * 2017-07-20 2017-11-24 北京小度信息科技有限公司 爬虫识别、处理方法及相关装置
CN107896225A (zh) * 2017-12-08 2018-04-10 深信服科技股份有限公司 钓鱼网站判定方法、服务器及存储介质
WO2018072363A1 (zh) * 2016-10-19 2018-04-26 中国互联网络信息中心 一种数据源扩展方法及装置
CN108243189A (zh) * 2018-01-08 2018-07-03 平安科技(深圳)有限公司 一种网络威胁管理方法、装置、计算机设备及存储介质
CN109121004A (zh) * 2018-06-29 2019-01-01 深圳市九洲电器有限公司 机顶盒文件访问保护方法及***
CN112966194A (zh) * 2021-02-23 2021-06-15 杭州安恒信息技术股份有限公司 一种检验二维码的方法和***
CN113420239A (zh) * 2021-06-24 2021-09-21 中山大学 一种基于hacker搜索语法的钓鱼站点检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080028444A1 (en) * 2006-07-27 2008-01-31 William Loesch Secure web site authentication using web site characteristics, secure user credentials and private browser
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN103905372A (zh) * 2012-12-24 2014-07-02 珠海市君天电子科技有限公司 一种钓鱼网站去误报的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080028444A1 (en) * 2006-07-27 2008-01-31 William Loesch Secure web site authentication using web site characteristics, secure user credentials and private browser
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN103905372A (zh) * 2012-12-24 2014-07-02 珠海市君天电子科技有限公司 一种钓鱼网站去误报的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁雪松: "《基于浏览器的钓鱼网站检测技术研究》", 《信息安全与同心保密》 *
谭光林: "《反钓鱼***的研究与设计》", 《反钓鱼***的研究与设计》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104902008A (zh) * 2015-04-26 2015-09-09 成都创行信息科技有限公司 一种针对爬虫的数据处理方法
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
WO2018072363A1 (zh) * 2016-10-19 2018-04-26 中国互联网络信息中心 一种数据源扩展方法及装置
CN106776946A (zh) * 2016-12-02 2017-05-31 重庆大学 一种欺诈网站的检测方法
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN107392022A (zh) * 2017-07-20 2017-11-24 北京小度信息科技有限公司 爬虫识别、处理方法及相关装置
CN107392022B (zh) * 2017-07-20 2020-12-29 北京星选科技有限公司 爬虫识别、处理方法及相关装置
CN107896225A (zh) * 2017-12-08 2018-04-10 深信服科技股份有限公司 钓鱼网站判定方法、服务器及存储介质
CN108243189A (zh) * 2018-01-08 2018-07-03 平安科技(深圳)有限公司 一种网络威胁管理方法、装置、计算机设备及存储介质
CN108243189B (zh) * 2018-01-08 2020-08-18 平安科技(深圳)有限公司 一种网络威胁管理方法、装置、计算机设备及存储介质
CN109121004A (zh) * 2018-06-29 2019-01-01 深圳市九洲电器有限公司 机顶盒文件访问保护方法及***
CN109121004B (zh) * 2018-06-29 2021-02-12 深圳市九洲电器有限公司 机顶盒文件访问保护方法及***
CN112966194A (zh) * 2021-02-23 2021-06-15 杭州安恒信息技术股份有限公司 一种检验二维码的方法和***
CN113420239A (zh) * 2021-06-24 2021-09-21 中山大学 一种基于hacker搜索语法的钓鱼站点检测方法

Similar Documents

Publication Publication Date Title
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
Cresci et al. Fame for sale: Efficient detection of fake Twitter followers
CN104077396B (zh) 一种钓鱼网站检测方法及装置
CN107659570A (zh) 基于机器学习与动静态分析的Webshell检测方法及***
CN111435507A (zh) 广告反作弊方法、装置、电子设备及可读存储介质
CN106357689A (zh) 威胁数据的处理方法及***
CN105357221A (zh) 识别钓鱼网站的方法及装置
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
US11308502B2 (en) Method for detecting web tracking services
US20220070215A1 (en) Method and Apparatus for Evaluating Phishing Sites to Determine Their Level of Danger and Profile Phisher Behavior
CN108023868B (zh) 恶意资源地址检测方法和装置
CN108229170B (zh) 利用大数据和神经网络的软件分析方法和装置
CN107800686A (zh) 一种钓鱼网站识别方法和装置
Hu et al. Multi-country study of third party trackers from real browser histories
CN109657119A (zh) 一种基于访问日志ip分析的网络爬虫检测方法
CN105376217A (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
Burda et al. Characterizing the redundancy of DarkWeb. onion services
Apruzzese et al. Spacephish: The evasion-space of adversarial attacks against phishing website detectors using machine learning
CN107231383A (zh) Cc攻击的检测方法及装置
CN107231364A (zh) 一种网站漏洞检测方法及装置、计算机装置及存储介质
Roy et al. A large-scale analysis of phishing websites hosted on free web hosting domains
CN111787002B (zh) 一种业务数据网络安全分析的方法及***
Shrestha et al. High-performance classification of phishing URLs using a multi-modal approach with MapReduce
CN113225343B (zh) 一种基于身份特征信息的风险网站识别方法及***
Wang et al. Minedetector: Javascript browser-side cryptomining detection using static methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141210

RJ01 Rejection of invention patent application after publication