CN109274632B - 一种网站的识别方法及装置 - Google Patents

一种网站的识别方法及装置 Download PDF

Info

Publication number
CN109274632B
CN109274632B CN201710565741.8A CN201710565741A CN109274632B CN 109274632 B CN109274632 B CN 109274632B CN 201710565741 A CN201710565741 A CN 201710565741A CN 109274632 B CN109274632 B CN 109274632B
Authority
CN
China
Prior art keywords
website
url
abnormal
probability
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710565741.8A
Other languages
English (en)
Other versions
CN109274632A (zh
Inventor
付为民
郝建忠
郑浩彬
陈涛
邬学农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710565741.8A priority Critical patent/CN109274632B/zh
Publication of CN109274632A publication Critical patent/CN109274632A/zh
Application granted granted Critical
Publication of CN109274632B publication Critical patent/CN109274632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施提供一种网站的识别方法及装置,所述方法包括:接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。本发明实施例实现了快速准确高效地识别异常网站,并有效地降低了***的误判率,提升了用户体验。

Description

一种网站的识别方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种网站的识别方法及装置。
背景技术
随着移动互联网的高速发展,用户浏览网站信息的途径已经从单一的PC端越来越多转变为移动端设备。2016年6月22日,中国互联网络信息中心(CNNIC)在北京发布第37次《中国互联网络发展状况统计报告》,报告显示:截至2015年12月,我国网民规模达6.88亿,其中手机网民规模达6.20亿,占比高达90.12%。
与此同时手机客户端的安全问题也日益凸显,2015年我国境内活跃的智能手机联网终端达11.3亿部,以“仿冒、钓鱼网站、恶意程序”为首的问题日益增多,给用户上网安全带来了威胁,造成钱财的损失或者个人信息的泄露。
目前运营商对手机客户端请求的统一资源***(Uniform Resoure Locator:以下简称URL)在网络侧主要通过黑名单方式进行拦截。
黑名单方法:在无线应用协议(Wireless Application Protocol:以下简称WAP)为WAP网关配置黑名单列表,手机http请求到达WAP网关后,网关分析超文本传输协议(HyperText Transfer Protocol,HTTP)头中的URL,并依次检索匹配,如果次URL在黑名单中命中,则WAP网关不再代理请求,直接返回给手机终端403,拒绝访问该页面。
黑名单方法的优点:简单直接,凡是命中黑名单的URL网关都不再进行下一步做代理请求,由于代理网关无需向原始服务器做请求,因此能够减轻代理网关的负荷。手机终端直接得到403拒绝访问的页面(浏览器或应用程序app呈现)。
黑名单方法缺点:
1、目前黑名单部署在WAP网关,需要用户在终端设置10.0.0.172代理,如果不设置代理,则用户上网流量不经过WAP网关,就无法拦截。
据统计,目前90%以上的用户都不在终端侧设置10.0.0.172代理,该拦截方案对此部分用户没有效果。
2、黑名单拦截方式,页面过于简单,会导致用户误以为网络故障,体验较差。
用户访问非法的网站,多数是从非法短信/邮件/广告等的推送得到,用户本身并不知晓自己访问的网站是非法的/有害的/错误的。黑名单的处理方式,有效地阻止了用户的访问,但是用户得到一个过于简单的拒绝访问页面,用户会误认为网络或者网站服务存在问题,降低用户对运营商网络或者网站的评价。另外,该方式容易导致用户反复尝试访问,或者客户端自动尝试重新访问,这样随着“仿冒、钓鱼网站”的增多,黑名单也越来越大,过大的黑名单意味着每次匹配需要更长的时间。这增加了代理网关的处理负荷,降低代理网关处理效率,从而降低用户上网速度。
3、传统的黑名单拦截方式要求数据准确度非常高,为了确保不会误拦正常网站,需要大量的人工去逐个审核,耗时耗力,无法针对整个互联网上的数以几十亿计的疑似网站进行逐一审核。另外,仿冒、钓鱼网站具有域名变化频繁、相似度高、时效性短等特点,所以传统黑名单方式已经不适应当前需求。
4、传统的黑名单拦截方式对于绝大部分的疑似网站不能灵活处理,如果加入黑名单直接拦截容易引起网站的投诉,如果不做任何处理又确实存在泄露客户隐私的风险。
因此,如何改进传统的黑名单拦截方式,快速准确高效地识别异常网站成为一个亟待解决的技术问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供了一种网站的识别方法及装置。
第一方面,本发明实施例提供了一种网站的识别方法,所述方法包括:
接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;
在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;
若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。
可选的,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:
根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。
可选的,所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站。
可选的,所述方法还包括:
若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;
若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;
若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;
若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
可选的,所述方法还包括:
根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;
若识别结果为所述高概率异常网站,则添加到所述黑名单中;
若识别结果为所述高概率正常网站,则添加到所述白名单中;
若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。
可选的,所述域名名称相似度权重的计算方法包括:
建立白名单网站域名库;
对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除内容,得到判断结果;
根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。
第二方面,本发明实施例提供了一种网站的识别装置,所述装置包括:
白名单处理装置,用于接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;
黑名单处理装置,用于在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;
异常网站处理装置,用于若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。
可选的,所述异常网站处理装置具体包括:
根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。
可选的,所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站。
可选的,所述装置还包括:
二次识别装置,用于若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;
高概率异常网站处理装置,用于若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;
高概率正常网站处理装置,用于若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;
疑似异常网站处理装置,用于若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
可选的,所述装置还包括:
迭代计算装置,用于根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;
高概率异常网站迭代装置,用于若识别结果为所述高概率异常网站,则添加到所述黑名单中;
高概率正常网站迭代装置,用于若识别结果为所述高概率正常网站,则添加到所述白名单中;
疑似异常网站迭代装置,用于若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。
可选的,所述域名名称相似度权重的计算装置具体包括:
白名单网站建立装置,用于建立白名单网站域名库;
对比装置,用于对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除内容,得到判断结果;
处理装置,用于根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述对应的任一方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述对应的任一方法。
本发明实施例提供的网站的识别方法及装置,通过从域名相似度、网页内容相似度、用户举报信息、网站的二次访问量多个维度对异常网站进行综合分析识别,并且在此基础上建立了一个多维度综合研判的异常网站识别算法模型对网站进行分类实现分级访问控制,在分级访问控制中,用户可以根据实际情况对网站信息进行反馈,同样也可为识别算法模型提供重要的参考数据,大大提高了异常网站的识别准确率,有效地降低了***的误判率,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中网站的识别方法的流程示意图;
图2为本发明实施例中另一个网站的识别方法的流程图;
图3为本发明实施例中网站的识别装置的结构示意图;
图4为本发明一个实施例提供的电子设备的逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种网站的识别方法,图1为本发明实施例中网站的识别方法的流程示意图,如图1所示,所述方法包括:
步骤S101、接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;
其中,所述白名单是指,白名单的概念与“黑名单”相对应。例如:在电脑***里,有很多软件都应用到了黑白名单规则,操作***、防火墙、杀毒软件、邮件***、应用软件等,凡是涉及到控制方面几乎都应用了黑白名单规则。如果设立了白名单,则在白名单中的用户(或IP地址、IP包、邮件等)会优先通过,不会被当成垃圾邮件拒收,安全性和快捷性都大大提高。将其含义扩展一步,那么凡有黑名单功能的应用,就会有白名单功能与其对应。
所述URL请求为网站访问用户发送的当前用户需要链接的URL。
步骤S102、在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;
其中,所述黑名单是指,黑名单启用后,被列入到黑名单的用户(或IP地址、IP包、邮件、病毒等)不能通过。
步骤S103、若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。
其中,所述权重是一个相对的概念,针对某一指标而言,某一指标的权重是指该指标在整体评价中的相对重要程度。权重是要从若干评价指标中分出轻重来,一组评价指标体系相对应的权重组成了权重体系。
所述异常网站是一种旨在窃取您的身份的电子邮件欺骗网站,在异常网站手段中,骗局策划者试图通过虚假借口骗取您的信任,从而使您泄露有价值的个人数据,如信用***、密码、帐户数据或其他信息;异常网站还包括黄色网站、木马病毒下载链接等网站,异常网站手段可通过电话或短信或通过垃圾邮件或弹出窗口在线实现。
本发明实施例提供的异常网站的识别方法,通过预设规则计算网站对应的各个特征权重值,运算获得各个特征权重值判断所述网站为异常网站的概率,本发明实施例大大提高了异常网站的识别准确率,有效地降低了***的误判率,提升了用户体验。在上述方法实施例的基础上,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:
根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。
其中,所述域名名称相似度权重的计算方法为:
第一步、建立一个常用的白名网站域名库,包括常见的运营商、银行、电商、公检法网站;
第二步、将待检测URL的域名与白名单内的域名经行一一比对,是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除等内容;
第三步、根据第二步的结果计算出该域名与白名单内的每个域名的域名相似度得分值,并取其中的最大值作为该域名的域名相似度得分值。
所述网页内容相似度权重的计算方法为:
第一步、建立一个常用的白名单网站中的网页内容特征库,特征包含:标题、关键字、图片等,如www.10086.cn、www.ccb.com等的网页内容特征库;
第二步、通过爬虫技术爬取疑似异常网站的网页内容特征;
其中,所述爬虫是指,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫技术的工作原理是指,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足***的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到***的某一条件时停止。另外,所有被爬虫抓取的网页将会被***存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
第三步、从白名单特征库中取出域名相似度算法分析得出与疑似异常网站相似度最高的白名单域名特征信息,计算疑似异常网站的网页内容特征相似度值。
所述用户举报量的权重的计算方法:
第一步、统计该网站被用户举报为异常网站或者被用户拉入黑名单的数量;
第二步、统计该网站被用户举报为正常网站或者被用户申诉为白名单的数量;
第三步、根据统计值,计算该网站的用户举报信息特征得分值。
所述二次访问量权重的计算方法为:
统计该网站被提示存在风险后的二次访问量及占比,计算网站的二次访问量特征得分值。
异常网站识别算法的模型就是综合该URL的域名相似度得分值、网页内容相似度得分值、用户举报信息特征得分值以及网站二次访问量特征得分值,根据不同的权重进行决策判断,最终判定该URL是否为仿冒URL。
在上述方法实施例的基础上,所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站。
其中,所述高概率异常网站,顾名思义,是指根据上述预设规则计算得出的各个特征权重值获知为很大可能性的异常网站,危险网站。
所述高概率正常网站,是指根据上述预设规则计算得出的各个特征权重值获知为很小可能性的异常网站,非危险网站。
所述疑似异常网站,是指根据上述预设规则计算得出的各个特征权重值获知为不确定可能性的异常网站,危险性还有待计算和考察。
在上述方法实施例的基础上,所述方法还包括:
若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;
其中,所述二次识别是指对第一次识别结果为高概率异常网站和疑似异常网站进行跟踪识别,当用户进行二次访问时放行并统计二次访问量,并对所述两种网站根据预设规则进行迭代计算,进行特征权重值计算,再次获得判断识别的结果。
若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;
若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;
若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
在上述方法实施例的基础上,所述方法还包括:
根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;
若识别结果为所述高概率异常网站,则添加到所述黑名单中;
若识别结果为所述高概率正常网站,则添加到所述白名单中;
若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。
本发明实施例提供的网站的识别方法,通过疑似异常网站灰名单、高概率正常网站白名单和高概率异常网站黑名单(伪基站URL库、手机恶意软件链接库、客服搜集的URL黑名单数据库),建立一个三级访问控制与用户反馈的机制,根据用户反馈、网站二次访问量等信息对疑似异常网站灰名单、高概率异常网站黑名单、高概率正常网站白名单中URL不断进行迭代计算更新,有效地降低***的误判率,提升了用户体验。
在上述方法实施例的基础上,所述域名名称相似度权重的计算方法包括:
建立白名单网站域名库;
对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除内容,得到判断结果;
根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。
本发明实施例提供的网站的识别方法,通过域名名称相似度分析算法从常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除等16个角度对域名进行全面分析,识别准确率高。
本发明实施例的具体实施方式为:
图2为本发明实施例中另一个网站的识别方法的流程图,如图2所示,所述方法具体包括:
第一步、对用户首次提交的URL请求进行白名单过滤,若命中则判定是正常网站,直接放通;
第二步、若未命中白名单,将该域名进行黑名单过滤(黑名单库主要为:伪基站URL库、手机恶意软件链接库、客服搜集的URL黑名单数据库、从挂马举报平台上通过爬虫获取被挂马的网站库),若命中则对用户进行高危风险提示;
第三步、若未命中黑名单,则计算域名名称相似度权重、网页内容相似度权重、用户举报量的权重、网站二次访问量权重等四个维度的特征值,用异常网站识别算法模型对网站进行分类,分为高概率异常网站、疑似异常网站、高概率正常网站;
第四步、对于高概率的异常网站,对用户进行高危风险提示;并对该网站跟踪识别,以便在用户二次访问时放行并统计二次访问量;并将该网站存入高概率的异常网站黑名单库;对于高概率正常网站,则判定为正常网站,直接放通,并添加到高概率正常网站白名单库;对于疑似异常网站,对用户进行一般风险提示,并添加到疑似异常网站的灰名单库,对该网站跟踪识别,以便在用户二次访问时放行并统计二次访问量;
第五步、对于高概率的异常网站黑名单库、疑似异常网站灰名单库、高概率正常网站白名单库,根据用户每次反馈、周期性的爬取网页内容更新网页内容特征相似度值、网站二次访问量的周期性更新等信息对其进行迭代计算识别,对于识别结果为高概率异常网站的继续存入高概率的异常网站黑名单库;对于识别结果为高概率正常网站的存入概率正常网站白名单库;其他网站继续保留在疑似异常网站灰名单库中等待下一次迭代计算。
本发明实施例提供的网站的识别方法,通过从域名相似度、网页内容相似度、用户举报信息、网站的二次访问量多个维度对异常网站进行综合分析识别,并且在此基础上建立了一个多维度综合研判的异常网站识别算法模型对网站进行分类实现分级访问控制,在分级访问控制中,用户可以根据实际情况对网站信息进行反馈,同样也可为识别算法模型提供重要的参考数据,大大提高了异常网站的识别准确率,有效地降低了***的误判率,提升了用户体验。
本发明实施例提供了一种网站的识别装置,图3为本发明实施例中网站的识别装置的结构示意图,如图3所示,所述装置包括:白名单处理装置301、黑名单处理装置302和异常网站处理装置303;其中,
白名单处理装置301用于接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;黑名单处理装置302用于在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;异常网站处理装置303用于若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。
本发明实施例提供的网站的识别装置,通过异常网站处理装置,根据预设规则计算网站对应的各个特征权重值,运算获得各个特征权重值判断所述网站为异常网站的概率,本发明实施例大大提高了异常网站的识别准确率,有效地降低了***的误判率,提升了用户体验。
在上述方法实施例的基础上,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:
根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。
在上述方法实施例的基础上,所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站。
可选的,所述装置还包括:二次识别装置、高概率异常网站处理装置、高概率正常网站处理装置和疑似异常网站处理装置;其中
二次识别装置用于若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;高概率异常网站处理装置用于若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;高概率正常网站处理装置用于若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;疑似异常网站处理装置用于若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
在上述方法实施例的基础上,所述装置还包括:迭代计算装置、高概率异常网站迭代装置、高概率正常网站迭代装置和疑似异常网站迭代装置;其中,
迭代计算装置用于根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;高概率异常网站迭代装置用于若识别结果为所述高概率异常网站,则添加到所述黑名单中;高概率正常网站迭代装置用于若识别结果为所述高概率正常网站,则添加到所述白名单中;疑似异常网站迭代装置用于若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。
本发明实施例提供的网站的识别装置,通过疑似异常网站灰名单、高概率正常网站白名单和高概率异常网站黑名单(伪基站URL库、手机恶意软件链接库、客服搜集的URL黑名单数据库)的迭代计算装置,建立一个三级访问控制与用户反馈的机制,根据用户反馈、网站二次访问量等信息对疑似异常网站灰名单、高概率异常网站黑名单、高概率正常网站白名单中URL不断进行迭代计算更新,有效地降低***的误判率,提升了用户体验。
在上述方法实施例的基础上,所述域名名称相似度权重的计算装置包括:白名单网站建立装置、对比装置和处理装置;其中,
白名单网站建立装置用于建立白名单网站域名库;对比装置用于对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除内容,得到判断结果;处理装置用于根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。
本发明实施例提供的网站的识别装置,通过域名名称相似度分析计算装置从常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除等16个角度对域名进行全面分析,识别准确率高。
本发明实施例提供的网站的识别装置是用于实现本发明实施例提供的网站的识别方法的,具体实施方式在上述方法实施例中已经具体陈述,在此不再赘述。
本发明实施例提供的网站的识别装置,通过从域名相似度、网页内容相似度、用户举报信息、网站的二次访问量多个维度对异常网站进行综合分析识别,并且在此基础上建立了一个多维度综合研判的异常网站识别算法模型对网站进行分类实现分级访问控制,在分级访问控制中,用户可以根据实际情况对网站信息进行反馈,同样也可为识别算法模型提供重要的参考数据,大大提高了异常网站的识别准确率,有效地降低了***的误判率,提升了用户体验。
图4为本发明一个实施例提供的电子设备的逻辑框图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
其中,所述处理器401和存储器402通过所述总线403完成相互间的通信;所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (7)

1.一种网站的识别方法,其特征在于,所述方法包括:
接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;
在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;
若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站;
所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站;
若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;
若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;
若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;
若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
2.根据权利要求1所述的方法,其特征在于,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:
根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;
若识别结果为所述高概率异常网站,则添加到所述黑名单中;
若识别结果为所述高概率正常网站,则添加到所述白名单中;
若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。
4.根据权利要求2所述的方法,其特征在于,所述域名名称相似度权重的计算方法包括:
建立白名单网站域名库;
对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或***、分隔字符的***或删除内容,得到判断结果;
根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。
5.一种网站的识别装置,其特征在于,所述装置包括:
白名单处理装置,用于接收用户访问网站的统一资源***URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;
黑名单处理装置,用于在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;
异常网站处理装置,用于若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站;
其中,所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站;
若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;
若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;
若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;
若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至4任一所述的方法。
CN201710565741.8A 2017-07-12 2017-07-12 一种网站的识别方法及装置 Active CN109274632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710565741.8A CN109274632B (zh) 2017-07-12 2017-07-12 一种网站的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710565741.8A CN109274632B (zh) 2017-07-12 2017-07-12 一种网站的识别方法及装置

Publications (2)

Publication Number Publication Date
CN109274632A CN109274632A (zh) 2019-01-25
CN109274632B true CN109274632B (zh) 2021-05-11

Family

ID=65147708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710565741.8A Active CN109274632B (zh) 2017-07-12 2017-07-12 一种网站的识别方法及装置

Country Status (1)

Country Link
CN (1) CN109274632B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109831465B (zh) * 2019-04-12 2020-07-10 重庆天蓬网络有限公司 一种基于大数据日志分析的网站入侵检测方法
CN110069693B (zh) * 2019-04-29 2021-12-24 百度在线网络技术(北京)有限公司 用于确定目标页面的方法和装置
CN111147490A (zh) * 2019-12-26 2020-05-12 中国科学院信息工程研究所 一种定向钓鱼攻击事件发现方法及装置
CN111756728B (zh) * 2020-06-23 2021-08-17 深圳前海微众银行股份有限公司 一种漏洞攻击检测的方法、装置、计算设备及存储介质
CN112256988A (zh) * 2020-10-19 2021-01-22 中国互联网金融协会 监测跨境购房网站的方法及装置、电子设备及存储介质
CN112417329A (zh) * 2020-10-19 2021-02-26 中国互联网金融协会 监测非法互联网外汇保证金交易平台的方法及装置
CN112733057A (zh) * 2020-11-27 2021-04-30 杭州安恒信息安全技术有限公司 网络内容安全检测方法、电子装置和存储介质
CN112948725A (zh) * 2021-03-02 2021-06-11 北京六方云信息技术有限公司 基于机器学习的钓鱼网站url检测方法及***
CN114389854A (zh) * 2021-12-22 2022-04-22 杭州美创科技有限公司 一种恶意电子邮件检测方法及其***
CN115801455B (zh) * 2023-01-31 2023-05-26 北京微步在线科技有限公司 一种基于网站指纹的仿冒网站检测方法及装置
CN116366338B (zh) * 2023-03-30 2024-02-06 北京微步在线科技有限公司 一种风险网站识别方法、装置、计算机设备及存储介质
CN116846668A (zh) * 2023-07-28 2023-10-03 北京中睿天下信息技术有限公司 一种有害url检测方法、***、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
US7854001B1 (en) * 2007-06-29 2010-12-14 Trend Micro Incorporated Aggregation-based phishing site detection
US8544090B1 (en) * 2011-01-21 2013-09-24 Symantec Corporation Systems and methods for detecting a potentially malicious uniform resource locator
CN103428186A (zh) * 2012-05-24 2013-12-04 ***通信集团公司 一种检测钓鱼网站的方法及装置
CN103607385A (zh) * 2013-11-14 2014-02-26 北京奇虎科技有限公司 基于浏览器进行安全检测的方法和装置
CN106209488A (zh) * 2015-04-28 2016-12-07 北京瀚思安信科技有限公司 用于检测网站攻击的方法和设备
CN106603490A (zh) * 2016-11-10 2017-04-26 上海斐讯数据通信技术有限公司 一种钓鱼网站的检测方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
US7854001B1 (en) * 2007-06-29 2010-12-14 Trend Micro Incorporated Aggregation-based phishing site detection
US8544090B1 (en) * 2011-01-21 2013-09-24 Symantec Corporation Systems and methods for detecting a potentially malicious uniform resource locator
CN103428186A (zh) * 2012-05-24 2013-12-04 ***通信集团公司 一种检测钓鱼网站的方法及装置
CN103607385A (zh) * 2013-11-14 2014-02-26 北京奇虎科技有限公司 基于浏览器进行安全检测的方法和装置
CN106209488A (zh) * 2015-04-28 2016-12-07 北京瀚思安信科技有限公司 用于检测网站攻击的方法和设备
CN106603490A (zh) * 2016-11-10 2017-04-26 上海斐讯数据通信技术有限公司 一种钓鱼网站的检测方法和***

Also Published As

Publication number Publication date
CN109274632A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109274632B (zh) 一种网站的识别方法及装置
US20180219907A1 (en) Method and apparatus for detecting website security
US20200358819A1 (en) Systems and methods using computer vision and machine learning for detection of malicious actions
US11399288B2 (en) Method for HTTP-based access point fingerprint and classification using machine learning
US8763116B1 (en) Detecting fraudulent activity by analysis of information requests
CN109768992B (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
CN104217160A (zh) 一种中文钓鱼网站检测方法及***
WO2010123623A2 (en) System and method for developing a risk profile for an internet resource
CN108023868B (zh) 恶意资源地址检测方法和装置
CN104954372A (zh) 一种钓鱼网站的取证与验证方法及***
CN109831459B (zh) 安全访问的方法、装置、存储介质和终端设备
US11856005B2 (en) Malicious homoglyphic domain name generation and associated cyber security applications
CN104143008A (zh) 基于图片匹配检测钓鱼网页的方法及装置
CN104135467B (zh) 识别恶意网站的方法及装置
US20210006592A1 (en) Phishing Detection based on Interaction with End User
Banerjee et al. SUT: Quantifying and mitigating url typosquatting
CN103986731A (zh) 通过图片匹配来检测钓鱼网页的方法及装置
Ramesh et al. Identification of phishing webpages and its target domains by analyzing the feign relationship
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN107896225A (zh) 钓鱼网站判定方法、服务器及存储介质
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
CN108804501B (zh) 一种检测有效信息的方法及装置
JP4564916B2 (ja) フィッシング詐欺対策方法、端末、サーバ及びプログラム
Thaker et al. Detecting phishing websites using data mining
Roopak et al. On effectiveness of source code and SSL based features for phishing website detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant