CN107872452A - 一种恶意网站的识别方法、装置、存储介质及程序产品 - Google Patents

一种恶意网站的识别方法、装置、存储介质及程序产品 Download PDF

Info

Publication number
CN107872452A
CN107872452A CN201711010692.8A CN201711010692A CN107872452A CN 107872452 A CN107872452 A CN 107872452A CN 201711010692 A CN201711010692 A CN 201711010692A CN 107872452 A CN107872452 A CN 107872452A
Authority
CN
China
Prior art keywords
identified
network address
website
malicious websites
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711010692.8A
Other languages
English (en)
Inventor
邹荣珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201711010692.8A priority Critical patent/CN107872452A/zh
Publication of CN107872452A publication Critical patent/CN107872452A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供了一种恶意网站的识别方法、装置、存储介质及程序产品,其中,恶意网站的识别方法包括:获取待识别网站的待识别网址;基于待识别网址的内容,从待识别网址中提取目标特征;根据目标特征识别待识别网站是否为恶意网站。本申请提供的恶意网站的识别方法、装置、存储介质及程序产品充分利用网址本身的丰富信息,基于从网址中提取的目标特征对网址进行识别,这种识别方式的识别率较高,且这种识别方式不需要加载网页,识别效率较高。

Description

一种恶意网站的识别方法、装置、存储介质及程序产品
技术领域
本发明涉及网站识别技术领域,尤其涉及一种恶意网站的识别方法、装置、存储介质及程序产品。
背景技术
随着社会信息化的发展,互联网已经深入到社会生活的各个方面。因此,互联网面临的安全攻击也愈发频繁和严重。网址是用户访问网络资源的入口,其本身含有的信息可以用来检测恶意网站。现有技术中存在一些利用域名识别恶意网站的方法,但是,这些方法识别率较低,且有的识别方法还需要加载网页,识别效率较低。
发明内容
有鉴于此,本发明提供了一种恶意网站的识别方法、装置、存储介质及程序产品,用以解决现有技术中的恶意网站识别方法识别率较低,且有的识别方法还需要加载网页,导致识别效率较低的问题,其技术方案如下:
一种恶意网站的识别方法,包括:
获取待识别网站的待识别网址;
基于所述待识别网址的内容,从所述待识别网址中提取目标特征;
根据所述目标特征识别所述待识别网站是否为恶意网站。
优选地,在获取所述待识别网址后,所述方法还包括:
确定所述待识别网址是否在网站黑白名单中;
若所述待识别网址在网站黑名单中,确定所述待识别网站为恶意网站;
若所述待识别网址在网站白名单中,确定所述待识别网站为正常网站;
若确定所述待识别网址不在所述网站黑白名单中,则执行所述基于所述待识别网址的内容,从所述待识别网址中提取目标特征。
优选地,在确定所述待识别网址不在所述网站黑白名单中之后,执行所述基于所述待识别网址的内容,从所述待识别网址中提取目标特征之前,所述方法还包括:
基于所述待识别网址的域名和信任域名集合,根据相似度匹配算法确定所述待识别网站是否为恶意网站。
其中,所述根据所述目标特征识别所述待识别网站是否为恶意网站,包括:
根据文本特征、统计特征和/或协议特征识别所述待识别网站是否为恶意网站。
其中,所述根据文本特征和/或协议特征识别所述待识别网站是否为恶意网站,包括:
识别所述待识别网址的内容,获取所述待识别网址中的文本特征和/或协议特征;
判断所述文本特征和/或所述协议特征中是否包含预设字符,所述预设字符为可确定待识别网址为恶意网站的网址的字符;
若所述文本特征和/或所述协议特征中包含所述预设字符,则确定所述待识别网站为恶意网站。
所述恶意网站的识别方法还包括:
若所述文本特征和所述协议特征中不包含所述预设字符,对所述文本特征和/或所述协议特征进行统计,得到所述统计特征;
根据所述统计特征确定所述待识别网站是否为恶意网站。
一种恶意网站的识别装置,包括:获取模块、特征提取模块和第一识别模块;
所述获取模块,用于获取待识别网站的待识别网址;
所述特征提取模块,用于基于所述待识别网址的内容,从所述待识别网址中提取目标特征;
所述第一识别模块,用于根据所述目标特征识别所述待识别网站是否为恶意网站。
优选地,所述装置还包括:第二识别模块;
所述第二识别模块,用于在所述获取模块获取所述待识别网址之后,确定所述待识别网址是否在网站黑白名单中,若所述待识别网址在网站黑名单中,确定所述待识别网站为恶意网站,若所述待识别网址在网站白名单中,确定所述待识别网站为正常网站;
所述特征提取模块,具体用于在所述第二识别模块确定所述待识别网址不在所述网站黑白名单中时,基于所述待识别网址的内容,从所述待识别网址中提取目标特征。
优选地,所述装置还包括:第三识别模块;
所述第三识别模块,用于在所述第二识别模块确定所述待识别网址不在所述网站黑白名单中之后,所述特征提取模块基于所述待识别网址的内容,从所述待识别网址中提取目标特征之前,基于所述待识别网址的域名和信任域名集合,根据相似度匹配算法确定所述待识别网站是否为恶意网站。
其中,所述第一识别模块,具体用于根据文本特征、统计特征和/或协议特征识别所述待识别网站是否为恶意网站。
一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在网络设备上运行时,使得所述网络设备执行上述的恶意网站的识别方法。
一种计算机程序产品,所述计算机程序产品在网络设备上运行时,使得所述网络设备执行权利要求上述的恶意网站的识别方法。
上述技术方案具有如下有益效果:
本发明提供的恶意网站的识别方法、装置、存储介质及程序产品,充分利用网址本身的丰富信息,由于网址本身包含了域名、访问协议、路径等信息,因此,可基于网址包含的这些信息从待识别网站的待识别网址中提取用于进行网站识别的特征,进而基于提取的特征识别待识别网站是否为恶意网站,这种识别方式的识别率较高,并由于该识别方法只是基于网址本身包含的信息进行识别,而不需要借助网页中的信息,即识别过程不需要加载网页,因此识别效率较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的恶意网站的识别方法的一流程示意图;
图2为本发明实施例提供的恶意网站的识别方法中,根据文本特征、统计特征和/或协议特征识别待识别网站是否为恶意网站的实现过程的流程示意图;
图3为本发明实施例提供的恶意网站的识别方法的另一流程示意图;
图4为本发明实施例提供的恶意网站的识别方法中,基于待识别网址的域名和信任域名集合,根据相似度匹配算法确定待识别网站是否为恶意网站的实现过程的流程示意图;
图5为本发明实施例提供的恶意网站的识别装置的一结构示意图;
图6为本发明实施例提供的恶意网站的识别装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
用户在访问网站时,无法获知其访问的网站是正常网站还是恶意网站,如果访问的是恶意网站,可能会窃取用户的信息,给用户带来不必要的损失,基于此,本发明提供一种恶意网站的识别方法,该恶意网站的识别方法可以应用于网络设备,该网络设备为可以接入网络的设备,例如终端设备(如手机、PC、笔记本电脑、PAD等)、路由器、网关、交换机等,当用户基于一网址访问网站时,网络设备可对该网址进行识别,如果经识别,该网址对应的网站为恶意网站,则可对其进行拦截,或者返回提示信息,以提示用户其访问的网站是恶意网站。
以下将从网络设备的角度对本发明实施例提供的恶意网站的识别方法进行说明。
请参阅图1,示出了本发明实施例提供的恶意网站的识别方法的实施例一的流程示意图,本实施例可应用于网络设备,本实施例可以包括如下步骤:
步骤101:获取待识别网站的待识别网址。
网址是通向网站的地址,其包含丰富的信息,例如域名信息、访问协议信息等,本实施例充分挖掘网址本身所包含的信息,利用这些信息进行恶意网站的识别。
步骤102:基于待识别网址的内容,从待识别网址中提取目标特征。
其中,目标特征可以包括文本特征、统计特征和/或协议特征。文本特征可以包括待识别网址中域名的信息,协议特征可以包括待识别网址中访问协议、访问端口等信息,统计特征可以为对文本特征和/或协议特征进行统计得到的特征,例如,网址中域名的统计信息、网址中路径的统计信息等。
步骤103:根据目标特征识别待识别网站是否为恶意网站。
具体地,根据文本特征、统计特征和/或协议特征识别待识别网站是否为恶意网站。文本特征和协议特征能够表征待识别网址中域名的特性和协议的特性,可以理解的是,恶意网站的网址中域名和协议的特性与正常网站的网址中域名和协议的特性是不同的,因此,基于从待识别网址中提取出的文本特征和/或协议特征可以确定出待识别网站是否为恶意网站。统计特征也能够用于进行恶意网站的识别,比如,恶意网站的网址中域名所包含字符的随机性较高,而正常网站的网址中域名所包含字符的随机性较地低,因此,可对文本特征进行统计,获得域名所包含字符的随机性特征。
根据文本特征、统计特征和/或协议特征识别待识别网站是否为恶意网站的具体实现过程可以参见后续实施例的说明。
本发明实施例提供的恶意网站的识别方法,充分利用网址本身的丰富信息,由于网址本身包含了域名、访问协议、路径等信息,因此,可基于网址包含的这些信息从待识别网站的待识别网址中提取文本特征、协议特征和/或统计特征,进而根据这些特征识别待识别网站是否为恶意网站,这种识别方法的识别率较高,并且,由于该识别方法只是基于网址本身包含的信息进行识别,而不需要借助网页中的信息进行识别,即识别过程不需要加载网页,因此识别效率较高。
以下再对根据文本特征、统计特征和/或协议特征识别待识别网站是否为恶意网站的具体实现过程进行说明,请参阅图2,示出了根据文本特征、统计特征和/或协议特征识别待识别网站是否为恶意网站的具体实现过程的流程示意图,可以包括:
步骤201:识别待识别网址的内容,获取待识别网址中的文本特征和/或协议特征。
其中,文本特征可以包括待识别网址中域名的信息,协议特征可以包括待识别网址中访问协议、访问端口等信息。
步骤202:判断文本特征和/或协议特征中是否包含预设字符。
其中,预设字符为可确定待识别网址为恶意网站的网址的字符。
在本实施例中,预设字符可以包括:IP地址、非标准端口号、确定地址重定向的字符、知名网站域名的子域、短域名、出现在域名的子域中的顶级域名、特殊字符、https子串、用户敏感信息中的一种或多种。
步骤203a:若文本特征和/或协议特征中包含预设字符,则确定待识别网站为恶意网站。
正常网站为了方便用户记忆,一般会注册域名,而不会让用户直接访问网站的IP地址,因此,可通过判断文本特征中是否包含IP地址来确定待识别网站是否为恶意网站,例如恶意网址http://81.215.214.238/pp/。
有些恶意网站为了便于非法操作,可能会在访问网址上添加非标准端口,因此,可通过判断协议特征是否包含非标准端口来确定待识别网站是否为恶意网站。例如,正常http协议的网址采用80端口、8080端口,恶意网址中会采用非80端口、非8080端口,比如恶意网址http://www.syjsbmcl.com:13835。
有些恶意网站为迷惑访问者,在网址上包含地址重定向,地址重定向是指当使用者浏览某个网址时,将他导向到另一个网址,例如,http://www.legitimate.com//http://www.phishing.com。因此,可通过判断协议特征中是否包含确定地址重定向的字符来确定待识别网站是否为恶意网站,例如,上述网址中包含的多个http://。
通常https访问的网址需要进行SSL认证,一般被正常网站用作身份认证,但恶意网站可能将https作为拼写字符串出现,例如:http://https-www-paypal-it-webapps-mpp-home.soft-hair.com/,因此,当协议特征指示待识别网址的访问方式为非https方式时,通过判断协议特征中是否包含https子串来确定待识别网站是否为恶意网站。
恶意网站可能在非https方式访问的网址中包含用户的敏感信息,例如pay.bjkmsm.top/pay/wxpay.php?username=jiaming&uid=10927&gid=1&top_uid=4977&hosturl=www.69111d.com,该网址中包含了敏感信息username,因此,当协议特征指示待识别网址的访问方式为非https方式时,还可通过判断协议特征中是否包含用户敏感信息来确定待识别网址是否为恶意网站的网址。其中,用户敏感信息可以包括字符串“Update、Confirm、User、Customer、Client、Suspend、Restrict、Hold、Verify、Account、Login、Username、Password、SSN、SocialSecurity”等。
有些恶意网站为了增信,在域名中包含知名域名的子域名,因此,可通过判断文本特征中是否包含知名域名的子域名来确定待识别网站是否为恶意网站,例如:haosou-***55-***-qqcom-hao123-sogou.pinjianyun.com。
域名缩短是在特定网站上注册一个短小的域名,用户在访问这个短域名之后会跳转到较长的真实域名。有些恶意网站会利用知名网站的短域名来增信,基于此,可通过判断文本特征中是否包含短域名来确定待识别网站是否为恶意网站,例如恶意网站的网址http://goo.gl/VmwBNh利用了谷歌的短域名goo.gl来迷惑用户,让用户误以为访问的是谷歌的网站。
有些恶意网站会让顶级域名出现在域名的子域中,因此,可通过判断文本特征中是否包含顶级域名来确定待识别网站是否为恶意网站,例如:http://cgi.ebay.com.ebaymotors.732issapidll.private99dll.qqmotorsqq.ebmdata.com,在该恶意网站的网址中,ebay后的.com实质是顶级域名,但其出现在了域名的子域中。
另外,还可通过判断文本特征中是否包含特殊字符来确定待识别网站是否为恶意网站。例如,网址http://www.paybankonline.com:[email protected],按照域名规则,'@‘之前的部分被忽略,真实的域名是“50.28.170.70”,因此,可以将文本特征是否包含'@'、'-'或者unicode等特殊字符来确定待识别网站是否为恶意网站。
需要说明的是,当文本特征或协议特征中出现上述一种预设字符时,并不能说明待识别网站即为恶意网站,只能说明待识别网站可能为恶意网站,即,通过判断文本特征或协议特征中是否包含上述一种预设字符来确定待识别网站是否为恶意网站,会存在一定的误检率,基于此,本实施例优选将上述多种字符组合,即通过判断文本特征和/或协议特征中是否同时包含上述多种字符确定待识别网站是否为恶意网站。
步骤203b:若文本特征和协议特征中不包含预设字符,则对文本特征和/或协议特征进行统计,得到统计特征。
其中,统计特征可以包括:网址中路径的统计信息和网址中域名的统计信息中的一种或多种。
具体地,网址中路径的统计信息可以包括:路径的总长度、路径中子路径的数量、路径中子路径的平均长度、路径中子路径的最大长度中的一种或多种;网址中域名的统计信息可以包括:域名长度及数量的统计信息、域名中字符的统计信息中的一种或多种,本发明实施例不做具体限定。
其中,域名长度及数量的统计信息进一步可以包括:域名的总长度、域名中子域的数量、域名中子域的平均长度、域名中子域的最大长度中的一种或多种。
其中,域名中字符的统计信息进一步可以包括:域名中各字符出现的随机性信息(其可通过Shannon熵表征)、域名中元音字符占域名字符的比例、域名中数字占域名字符的比例、域名中重复字符占域名字符的比例、域名中连续数字占域名字符的比例、域名中连续的辅音占域名字符的比例、域名中词的统计排名信息、域名字符之间的随机性信息中的一种或多种。
需要说明的是,在获取上述域名中词的统计排名信息时,首先要按预设的分词方法,如N-Gram统计分词方法(包括uni-gram、bi-gram、tri-gram等统计分词方法)对待识别网址的域名进行分词,获得多个词,然后确定每个词的排名,从而获得域名中词的统计排名信息。如果域名中包含较多排名靠前的词,一般为正常网站的域名,否则可能为恶意网站的域名。在本实施例中,确定待识别网址的域名中每个词的排名的过程为:预先获取目标网址集合,然后采用N-Gram统计分词对目标网址集合进行分词,最后将分词结果进行词频排序,获得词的统计排名信息,基于词的统计排名信息确定待识别网址的域名中每个词的排名。需要说明的是,目标网址集合中的网址可通过多种途径获得,例如,可从网络厂商的网络设备获得,也可从一些开源的第三方网站获得,还可通过搜索引擎获得等等。
另外需要说明的是,上述域名字符之间的随机性信息可通过字符之间的转换概率表征,如果域名中字符之间的转换概率低,则可认为域名的字符随机性高,域名的字符随机性高,一般为恶意网站的域名。在一种可能的实现方式中,可采用隐马尔科夫模型HMM分析域名字符之间的转换概率。由于隐马尔科夫模型HMM是一种根据显式的状态序列,分析状态的转换概率,发现其隐藏状态模式的方法,其比较适合分析域名字符之间的转换概率,即分析域名的随机性就是分析域名对应的HMM模式的过程。
步骤204:根据统计特征确定待识别网站是否为恶意网站。
需要说明是,可采用上述列举的一种统计特征对待识别网站的性质进行识别,示例性的,统计特征为域名字符之间的转换概率,如果域名字符之间的转换概率小于预设值,则可确定域名的字符随机性高,进而可确定该待识别网站为恶意网站。实际上,某些正常网站的域名也可能存在字符随机性高的情况,因此,采用一种统计特征进行识别会存在一定的误检率,基于此,在一种优选的实现方式中,可将上述列举的多个特征相结合来对待识别网站的性质进行识别,示例性地,可将上述多个特征组成一特征向量,根据该特征向量采用预设的识别算法进行计算,当计算结果大于预设值时为正常网站,否则为恶意网站,其中,预设的识别算法可以但不限定为贝叶斯分类算法等。
上述实施例提供的恶意网站的识别方法,在对网站进行识别时,由于基于网址本身的信息进行识别而不需要加载网页使得网站的识别效率较高,在上述实施例的基础上,为了进一步提高网站的识别效率,本发明实施例提供了恶意网站的识别方法的另一实施例,该实施例可以应用于网络设备,请参阅图3,示出了该实施例的流程示意图,该实施例可以包括如下步骤:
步骤301:获取待识别网站的待识别网址。
网址是通向网站的地址,其包含丰富的信息,例如域名信息、访问协议信息等。
步骤302:判断待识别网址是否在网站黑白名单中。
在本实施例中,可预先生成网站黑白名单,网站黑名单中包括恶意网站的域名,网站白名单中包括正常网站的域名。
具体的,生成网站黑白名单的过程可以包括:按预设统计周期统计经过网络设备的域名的访问频率,将在预设时间段内访问频率较稳定的域名生成网站白名单,将在预设时间段内访问频率不稳定的域名生成网站黑名单。
可以理解的是,如果某一域名在预设时间段内的访问频率较稳定,则表明该域名为正常网站的域名,如果某一域名在预设时间段内的访问频率不稳定,例如,在预设时间段内的某一个或几个统计周期访问频率较高,而在其它统计周期访问频率较低或为0,则表明该域名为恶意网站的域名。
另外,需要说明的是,由于网络上域名变更频繁,为了保证网站黑白名单的有效性,可对网站黑白名单定期进行更新。
步骤303a:若待识别网址在网站黑名单中,确定待识别网站为恶意网站。
由于网站黑名单中均为恶意网站的域名,因此,若待识别网址的域名在网站黑名单中,则可确定待识别网站为恶意网站。
步骤303b:若待识别网址在网站白名单中,确定所述待识别网站为正常网站。
由于网站白名单中均为正常网站的域名,因此,若待识别网址的域名在网站白名单中,则可确定待识别网站为正常网站。
通过网站黑白名单能够快速的对待识别网站的性质进行识别。
步骤303c:若待识别网址不在网站黑白名单中,则基于待识别网址的域名和信任域名集合,根据相似度匹配算法确定待识别网站是否为恶意网站。
在一种可能的实现方式中,信任域名集合可以为知名网站列表。具体的,可先获取域名排名列表,然后将域名排名列表中的前N个域名生成知名网站列表,其中,N可根据实际需求进行设定。
进一步地,域名排名列表的获取方式有多种,在一种可能的实现方式中,可从一些网站获取,目前存在一些专门为各个网站的访问量做排名的网站,例如Alexa,可从这些网站下载域名排名列表,该列表为将众多网站的域名按访问量由高到低的顺序进行排名后的域名列表。可以理解的是,排名靠前的域名为访问量较高的域名,这类域名通常为知名网站的域名,因此,可将域名排名列表中的前N个域名形成知名网站列表作为信任域名集合。
基于待识别网址的域名和信任域名集合,根据相似度匹配算法确定待识别网站是否为恶意网站的具体实现过程可以参见后续实施例的说明。
步骤304:若根据相似度匹配算法无法确定待识别网站的性质,则基于待识别网址的内容,从待识别网址中提取目标特征。
其中,目标特征可以包括文本特征、统计特征和/或协议特征。文本特征可以包括待识别网址中域名的信息,协议特征可以包括待识别网址中访问协议、访问端口等信息,统计特征可以为对文本特征和/或协议特征进行统计得到的特征,例如网址中域名的统计信息、网址中路径的统计信息等。
步骤305:根据目标特征识别待识别网站是否为恶意网站。
根据目标特征识别待识别网站是否为恶意网站的具体过程可参见上述实施例,在此不做赘述。
本发明实施例提供的恶意网站的识别方法,考虑到基于网站黑白名单的识别方法识别复杂度较低、识别效率较高,首先基于网站黑白名单识别待识别网站是否为恶意网站,在基于网站黑白名单无法识别待识别网站的性质时,进一步采用识别复杂度次之,识别效率也相对较高的基于相似度匹配算法的识别方法识别待识别网站的性质,在根据相似度匹配算法无法确定待识别网站的性质时,再基于从待识别网址中提取出的目标特征识别待识别网站是否为恶意网站。由此可见,本发明实施例提供的恶意网站的识别方法,可采用多种网站识别方法实现对恶意网站的识别,且识别过程只是基于网址本身,而不需要借助网页中的信息,即不需要加载网页,这不但提高了网站的识别率,还大大提高了网站的识别效率。
以下再对步骤303c基于待识别网址的域名和信任域名集合,根据相似度匹配算法确定待识别网站是否为恶意网站的具体实现过程进行说明,请参阅图4,示出了步骤303c的具体实现过程的流程示意图,可以包括:
步骤401:计算待识别网址的域名与信任域名集合中各个信任域名的相似度。
步骤402:基于相似度从高到低的顺序,从信任域名集合中确定k个目标信任域名。
其中,k个目标信任域名为与待识别网址的域名的相似度排名前k的域名,k为大于等于1的正整数。
示例性的,k为1,即在目标信任域集合中确定与待识别网址的域名的相似度最大的域名,假设待识别网址的域名为D0,信任域集合中的域名包括D1、D2、D3、D4、D5、D6,分别计算D0与D1、D2、D3、D4、D5、D6的相似度,如果经计算发现,D3与D0的相似度最大,则将D3确定为目标信任域名。
示例性的,k为3,待识别网址的域名为D0,信任域集合中的域名包括D1、D2、D3、D4、D5、D6,分别计算D0与D1、D2、D3、D4、D5、D6的相似度,如果经计算发现,与D0相似度最大的域名为D3,其次是D4、D2、D1、D5,那么,可确定目标信任域名为D3、D4、D2
步骤403:判断k个目标信任域名中是否存在与待识别网址的域名的相似度小于设定阈值的域名。
步骤404:若k个信任域名中存在与待识别网址的域名的相似度小于设定阈值的域名,则确定待识别网站为恶意网站。
若k个信任域名中不存在与待识别网址的域名的相似度小于设定阈值的域名,则执行步骤304。
由上述过程可知,目标信任域名可以为一个,也可以为多个。若目标信任域名为一个,则判断其与待识别网址的相似度是否小于设定阈值,如果是,则可确定待识别网址为恶意网站的网址,即待识别网站为恶意网站,并且,该目标信任域名对应的网站为恶意网站仿冒的网站。若目标信任域名为多个,分别判断待识别网址的域名与各个目标信任域名的相似度是否小于设定阈值,若存在至少一个目标域名与待识别网址的域名的相似度小于设定阈值,则可确定待识别网址为恶意网站的网址,即待识别网站为恶意网站,且,与待识别网址的域名的相似度小于设定阈值的至少一个目标域名对应的网站是恶意网站仿冒的网站。
在一种可能的实现方式中,可采用bed-tree算法确定目标信任域名,该方法将所有的信任域名按照trie树组织存储,然后从中搜索与待识别网址的域名最相似的域名,在该算法中,相似度可通过编辑距离表征,即在搜索过程中,计算待识别网址的域名与信任域名的编辑距离,从而确定与待识别网址的域名的编辑距离最小的信任域名作为目标信任域名,在进行判断时,即判断待识别网址的域名与目标信任域名的编辑距离是否小于设定阈值,如果是,则可判定待识别网站为恶意网站。
示例性的,目标信任域名为“www.icbc.com.cn”,待识别网址的域名为“www.icbc.cmn.cn”,设定阈值为3,由于“www.icbc.com.cn”与“www.icbc.cmn.cn”的编辑距离为1,小于设定阈值3,因此,可判定待识别网站为恶意网站,该恶意网站的域名仿冒了域名www.icbc.com.cn。
可选地,当判定出待识别网站为恶意网站时,还可输出该恶意网站仿冒的网站的网址或域名。
本发明实施例还提供相应的恶意网站的识别装置,请参阅图5,示出了该恶意网站的识别装置的一结构示意图,可以包括:获取模块501、特征提取模块502和第一识别模块503。
获取模块501,用于获取待识别网站的待识别网址。
特征提取模块502,用于基于待识别网址的内容,从待识别网址中提取目标特征。
第一识别模块503,用于根据目标特征识别待识别网站是否为恶意网站。
在本发明实施例的一些可能的实现方式中,第一识别模块503可以包括:识别子模块、判断子模块和第一确定子模块。
识别子模块,用于识别待识别网址的内容,获得待识别网址中的文本特征和/或协议特征。
判断子模块,用于判断文本特征和/或所述协议特征中是否包含预设字符,其中,预设字符为可确定待识别网址为恶意网站的网址的字符。
第一确定子模块,用于在判断子模块判断出文本特征和/或所述协议特征中包含预设字符时,确定待识别网站为恶意网站。
在本发明实施例的一些可能的实现方式中,第一识别模块303还可以包括:统计子模块和第二确定子模块。
统计子模块,用于在判断子模块判断出文本特征和/或协议特征中不包含预设字符时,对文本特征和/或协议特征进行统计,得到统计特征。
第二确定子模块,用于根据统计子模块统计得到的统计特征确定待识别网站是否为恶意网站。
本发明实施例提供的恶意网站的识别装置,充分利用网址本身的丰富信息,由于网址本身包含了域名、访问协议、路径等信息,因此,可基于网址包含的这些信息从待识别网站的待识别网址中提取文本特征、协议特征和/或统计特征,进而根据这些特征识别待识别网站是否为恶意网站,这种识别方法的识别率较高,并且,由于该识别方法只是基于网址本身包含的信息进行识别,而不需要借助网页中的信息进行识别,因此,识别过程不需要加载网页,因此,识别效率较高。
请参阅图6,示出了恶意网站的识别装置的另一结构示意图,该装置60可以包括:获取模块601、特征提取模块602、第一识别模块603、第二识别模块604和第三识别模块605。
获取模块601,用于获取待识别网站的待识别网址。
第二识别模块604,用于在获取模块601获取待识别网站之后,确定待识别网址是否在网站黑白名单中,若待识别网址在网站黑名单中,确定待识别网站为恶意网站,若待识别网址在网站白名单中,确定待识别网站为正常网站。
第三识别模块605,用于在第二识别模块604确定待识别网址不在网站黑白名单中时,基于待识别网址的域名和信任域名集合,根据相似度匹配算法确定待识别网站是否为恶意网站。
特征提取模块602,用于在第三识别模块603无法识别待识别网站的性质时,基于待识别网址的内容,从待识别网址中提取目标特征。
第一识别模块603,用于根据目标特征识别待识别网站是否为恶意网站。
需要说明的是,第一识别模块603的具体结构以及其根据目标特征识别待识别网站是否为恶意网站的具体实现过程可参见上述实施例中对第一识别模块303的说明,在此不做赘述。
本发明实施例提供的恶意网站的识别装置,在获取待识别网站的待识别网址之后,考虑到基于网站黑白名单的识别方法识别复杂度较低、识别效率较高,在基于网站黑白名单无法识别待识别网站的性质时,进一步采用识别复杂度次之,识别效率也相对较高的基于相似度匹配算法的识别方法识别待识别网站的性质,在根据相似度匹配算法无法确定待识别网站的性质时,再基于从待识别网址中提取出的目标特征识别待识别网站是否为恶意网站。本发明实施例提供的恶意网站的识别装置,可采用多种网站识别方法实现对恶意网站的识别,且识别过程只是基于网址本身,而不需要借助网页中的信息,即不需要加载网页,这不但提高了网站的识别率,还大大提高了网站的识别效率。
另外,本发明实施例还提供一种计算机可读存储介质,该机算机可读存储介质中可以存储有指令,当该指令在网络设备上运行时,使得网络设备执行本发明实施例中提供的恶意网站的识别方法。
本发明实施例还提供一种计算机程序产品,该计算机程序产品在网络设备上运行时,可以使得网络设备执行本发明实施例提供的恶意网站的识别方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种恶意网站的识别方法,其特征在于,包括:
获取待识别网站的待识别网址;
基于所述待识别网址的内容,从所述待识别网址中提取目标特征;
根据所述目标特征识别所述待识别网站是否为恶意网站。
2.根据权利要求1所述的恶意网站的识别方法,其特征在于,获取所述待识别网址后,所述方法还包括:
确定所述待识别网址是否在网站黑白名单中;
若所述待识别网址在网站黑名单中,确定所述待识别网站为恶意网站;
若所述待识别网址在网站白名单中,确定所述待识别网站为正常网站;
若确定所述待识别网址不在所述网站黑白名单中,则执行所述基于所述待识别网址的内容,从所述待识别网址中提取目标特征。
3.根据权利要求2所述的恶意网站的识别方法,其特征在于,在确定所述待识别网址不在所述网站黑白名单中之后,执行所述基于所述待识别网址的内容,从所述待识别网址中提取目标特征之前,所述方法还包括:
基于所述待识别网址的域名和信任域名集合,根据相似度匹配算法确定所述待识别网站是否为恶意网站。
4.根据权利要求1-3中任意一项所述的恶意网站的识别方法,其特征在于,所述根据所述目标特征识别所述待识别网站是否为恶意网站,包括:
根据文本特征、统计特征和/或协议特征识别所述待识别网站是否为恶意网站。
5.根据权利要求4所述的恶意网站的识别方法,其特征在于,所述根据文本特征和/或协议特征识别所述待识别网站是否为恶意网站,包括:
识别所述待识别网址的内容,获取所述待识别网址中的文本特征和/或协议特征;
判断所述文本特征和/或所述协议特征中是否包含预设字符,所述预设字符为可确定待识别网址为恶意网站的网址的字符;
若所述文本特征和/或所述协议特征中包含所述预设字符,则确定所述待识别网站为恶意网站。
6.根据权利要求4所述的恶意网站的识别方法,其特征在于,所述方法还包括:
若所述文本特征和所述协议特征中不包含所述预设字符,对所述文本特征和/或所述协议特征进行统计,得到所述统计特征;
根据所述统计特征确定所述待识别网站是否为恶意网站。
7.一种恶意网站的识别装置,其特征在于,包括:获取模块、特征提取模块和第一识别模块;
所述获取模块,用于获取待识别网站的待识别网址;
所述特征提取模块,用于基于所述待识别网址的内容,从所述待识别网址中提取目标特征;
所述第一识别模块,用于根据所述目标特征识别所述待识别网站是否为恶意网站。
8.根据权利要求7所述的恶意网站的识别装置,其特征在于,所述第一识别模块,具体用于根据文本特征、统计特征和/或协议特征识别所述待识别网站是否为恶意网站。
9.一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在网络设备上运行时,使得所述网络设备执行权利要求1-6任一项所述的恶意网站的识别方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品在网络设备上运行时,使得所述网络设备执行权利要求1-6任一项所述的恶意网站的识别方法。
CN201711010692.8A 2017-10-25 2017-10-25 一种恶意网站的识别方法、装置、存储介质及程序产品 Pending CN107872452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711010692.8A CN107872452A (zh) 2017-10-25 2017-10-25 一种恶意网站的识别方法、装置、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711010692.8A CN107872452A (zh) 2017-10-25 2017-10-25 一种恶意网站的识别方法、装置、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN107872452A true CN107872452A (zh) 2018-04-03

Family

ID=61753321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711010692.8A Pending CN107872452A (zh) 2017-10-25 2017-10-25 一种恶意网站的识别方法、装置、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN107872452A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108683649A (zh) * 2018-04-28 2018-10-19 四川大学 一种基于文本特征的恶意域名检测方法
CN109413045A (zh) * 2018-09-26 2019-03-01 中国联合网络通信集团有限公司 一种访问控制***及方法
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN109743309A (zh) * 2018-12-28 2019-05-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN109766496A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 一种内容风险识别方法、***、设备及介质
CN110138758A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于域名词汇的误植域名检测方法
CN110535806A (zh) * 2018-05-24 2019-12-03 ***通信集团重庆有限公司 监测异常网站的方法、装置、设备和计算机存储介质
CN110875959A (zh) * 2018-08-13 2020-03-10 阿里巴巴集团控股有限公司 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
CN111010458A (zh) * 2019-12-04 2020-04-14 北京奇虎科技有限公司 域名规则的生成方法、设备及计算机可读存储介质
CN111049816A (zh) * 2019-12-04 2020-04-21 北京奇虎科技有限公司 域名地址的过滤方法、设备及计算机可读存储介质
CN111131534A (zh) * 2019-12-04 2020-05-08 北京奇虎科技有限公司 域名规则的处理方法、设备及计算机可读存储介质
CN112347402A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 非法网站/app自动识别方法、***和电子装置
CN112751804A (zh) * 2019-10-30 2021-05-04 北京观成科技有限公司 一种仿冒域名的识别方法、装置和设备
CN112929390A (zh) * 2021-03-12 2021-06-08 厦门帝恩思科技股份有限公司 一种基于多策略融合的网络智能监控方法
CN113051876A (zh) * 2021-04-02 2021-06-29 网易(杭州)网络有限公司 恶意网址识别方法及装置、存储介质、电子设备
CN113225343A (zh) * 2021-05-10 2021-08-06 广州掌动智能科技有限公司 一种基于身份特征信息的风险网站识别方法及***
CN113221106A (zh) * 2021-05-25 2021-08-06 杭州安恒信息安全技术有限公司 一种车辆的防护方法、装置和计算机可读存储介质
CN115130104A (zh) * 2022-07-15 2022-09-30 深圳安巽科技有限公司 一种恶意网址综合评判方法、***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及***
CN103428186A (zh) * 2012-05-24 2013-12-04 ***通信集团公司 一种检测钓鱼网站的方法及装置
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428186A (zh) * 2012-05-24 2013-12-04 ***通信集团公司 一种检测钓鱼网站的方法及装置
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及***
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108683649A (zh) * 2018-04-28 2018-10-19 四川大学 一种基于文本特征的恶意域名检测方法
CN110535806A (zh) * 2018-05-24 2019-12-03 ***通信集团重庆有限公司 监测异常网站的方法、装置、设备和计算机存储介质
CN110535806B (zh) * 2018-05-24 2022-04-01 ***通信集团重庆有限公司 监测异常网站的方法、装置、设备和计算机存储介质
CN110875959A (zh) * 2018-08-13 2020-03-10 阿里巴巴集团控股有限公司 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
CN110875959B (zh) * 2018-08-13 2022-10-18 阿里巴巴集团控股有限公司 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
CN109413045A (zh) * 2018-09-26 2019-03-01 中国联合网络通信集团有限公司 一种访问控制***及方法
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN109743309A (zh) * 2018-12-28 2019-05-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN109766496A (zh) * 2018-12-28 2019-05-17 北京奇安信科技有限公司 一种内容风险识别方法、***、设备及介质
CN109743309B (zh) * 2018-12-28 2021-09-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN110138758A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于域名词汇的误植域名检测方法
CN112751804B (zh) * 2019-10-30 2023-04-07 北京观成科技有限公司 一种仿冒域名的识别方法、装置和设备
CN112751804A (zh) * 2019-10-30 2021-05-04 北京观成科技有限公司 一种仿冒域名的识别方法、装置和设备
CN111010458B (zh) * 2019-12-04 2022-07-01 北京奇虎科技有限公司 域名规则的生成方法、设备及计算机可读存储介质
CN111131534B (zh) * 2019-12-04 2022-12-02 北京奇虎科技有限公司 域名规则的处理方法、设备及计算机可读存储介质
CN111131534A (zh) * 2019-12-04 2020-05-08 北京奇虎科技有限公司 域名规则的处理方法、设备及计算机可读存储介质
CN111049816A (zh) * 2019-12-04 2020-04-21 北京奇虎科技有限公司 域名地址的过滤方法、设备及计算机可读存储介质
CN111010458A (zh) * 2019-12-04 2020-04-14 北京奇虎科技有限公司 域名规则的生成方法、设备及计算机可读存储介质
CN112347402A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 非法网站/app自动识别方法、***和电子装置
CN112929390A (zh) * 2021-03-12 2021-06-08 厦门帝恩思科技股份有限公司 一种基于多策略融合的网络智能监控方法
CN112929390B (zh) * 2021-03-12 2023-03-24 厦门帝恩思科技股份有限公司 一种基于多策略融合的网络智能监控方法
CN113051876A (zh) * 2021-04-02 2021-06-29 网易(杭州)网络有限公司 恶意网址识别方法及装置、存储介质、电子设备
CN113051876B (zh) * 2021-04-02 2024-04-23 杭州网易智企科技有限公司 恶意网址识别方法及装置、存储介质、电子设备
CN113225343B (zh) * 2021-05-10 2022-09-20 广州掌动智能科技有限公司 一种基于身份特征信息的风险网站识别方法及***
CN113225343A (zh) * 2021-05-10 2021-08-06 广州掌动智能科技有限公司 一种基于身份特征信息的风险网站识别方法及***
CN113221106A (zh) * 2021-05-25 2021-08-06 杭州安恒信息安全技术有限公司 一种车辆的防护方法、装置和计算机可读存储介质
CN115130104A (zh) * 2022-07-15 2022-09-30 深圳安巽科技有限公司 一种恶意网址综合评判方法、***及存储介质

Similar Documents

Publication Publication Date Title
CN107872452A (zh) 一种恶意网站的识别方法、装置、存储介质及程序产品
Arora et al. Permpair: Android malware detection using permission pairs
ES2866723T3 (es) Métodos y sistemas de agregación de puntuaciones dinámicas de detección de fraude en línea
RU2606564C1 (ru) Система и способ блокировки выполнения сценариев
RU2708356C1 (ru) Система и способ двухэтапной классификации файлов
WO2016201938A1 (zh) 一种多阶段钓鱼网站检测方法与***
US9639689B1 (en) User authentication
JP2019079493A (ja) 機械学習を用いる悪意のあるファイルを検出するシステムおよび方法
JP2019003596A (ja) 静的分析の要素を用いた悪質なファイルを検出するためのシステム及び方法
WO2018113730A1 (zh) 网络安全的检测方法和装置
CN109598124A (zh) 一种webshell检测方法以及装置
US9973525B1 (en) Systems and methods for determining the risk of information leaks from cloud-based services
CN107463844B (zh) Web木马检测方法及***
CN107563201A (zh) 基于机器学习的关联样本查找方法、装置及服务器
CN105653949B (zh) 一种恶意程序检测方法及装置
CN116366338B (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
Geyik et al. Detection of phishing websites from URLs by using classification techniques on WEKA
CN109582844A (zh) 一种识别爬虫的方法、装置及***
CN110581835B (zh) 一种漏洞检测方法、装置及终端设备
CN116010947A (zh) 一种基于异质网络的Android恶意软件检测方法
CN110135162A (zh) Webshell后门识别方法、装置、设备及存储介质
CN114944961B (zh) 网络安全防护方法、装置、***和电子设备
WO2019114246A1 (zh) 一种身份认证方法、服务器及客户端设备
CN114091042A (zh) 风险预警方法
CN112751804B (zh) 一种仿冒域名的识别方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180403