CN102663000B - 恶意网址数据库的建立方法、恶意网址的识别方法和装置 - Google Patents

恶意网址数据库的建立方法、恶意网址的识别方法和装置 Download PDF

Info

Publication number
CN102663000B
CN102663000B CN201210069443.7A CN201210069443A CN102663000B CN 102663000 B CN102663000 B CN 102663000B CN 201210069443 A CN201210069443 A CN 201210069443A CN 102663000 B CN102663000 B CN 102663000B
Authority
CN
China
Prior art keywords
url
website
network address
detected
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210069443.7A
Other languages
English (en)
Other versions
CN102663000A (zh
Inventor
梁知音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210069443.7A priority Critical patent/CN102663000B/zh
Publication of CN102663000A publication Critical patent/CN102663000A/zh
Application granted granted Critical
Publication of CN102663000B publication Critical patent/CN102663000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种恶意网址数据库的建立方法、恶意网址的识别方法和装置,该建立方法包括:S1、构建站点信息关联数据库;S2、构建反链关联数据库;S3、获取已知恶意网址,添加到待检测队列中,重复执行步骤S4,直至所述待检测队列为空,利用所有出现在待检测队列中数据构建恶意网址数据库;S4、查询反链关联数据库,确定当前url的所有反链url,将权值超过预设阈值的反链url添加到待检测队列中;或者,解析当前url的站点属性信息,查询站点信息关联数据库,确定与当前url具有相同站点属性信息的网站域名,将权值超过预设阈值的网站域名添加到待检测队列中。相比现有技术,本发明提高了检测的及时性和准确性,减少漏报。

Description

恶意网址数据库的建立方法、恶意网址的识别方法和装置
【技术领域】
本发明涉及计算机安全技术领域,特别涉及一种恶意网址数据库的建立方法、恶意网址的识别方法和装置。
【背景技术】
随着计算机及网络技术的不断发展,互联网对人们越来越重要,已经深入到了人们的工作和生活的各个方面。但是随之而来的,针对互联网的恶意行为也越来越多,各种安全问题极大地困扰了网络用户。目前互联网上用于欺诈等恶意行为的网站数量众多,这些非法盈利的网站因其盈利渠道的隐蔽性,威胁着用户安全。然而这些非法的网站生存周期短暂,通常一经发现,常常会被取缔或被取消,为了保障效果,非法网站经营者通常持有大量的类似站群用于随时替换,这些站群之间有密切的关联,逐渐细化并形成了一个巨大的黑色产业链,常被称为“互联网地下产业链”。
现有的恶意网址检测手段有:静态特征检测和模拟浏览器检测。静态检测是利用预先收集的恶意代码特征,通过检查网页HTML(HypertextMarkupLanguage,超文本标记语言)代码中是否包含该些特征码来进行判断,如果包含,则判断为恶意网址。这种检测方法的识别率通常较低,易被各种脚本加密和编码方式绕开。模拟浏览器检测是利用预先构建好的浏览器环境,模拟用户访问网址,如果出现非法的行为特征时,则将其识别为恶意网址。这种方式的检测效率较低,当遇到恶意网址后,浏览器环境还可能需要重新恢复,而且较难构建完全真实的浏览器环境,容易导致漏报。对于非法网站经营者随时替换的网址库,需要逐个执行后才能进行判断,无法提前发现恶意网址,时效性较差。
【发明内容】
有鉴于此,本发明提供了一种恶意网址数据库的建立方法、恶意网址的识别方法和装置,以便于提高检测的及时性和准确性,减少漏报。
具体技术方案如下:
一种恶意网址数据库的建立方法,该方法包括以下步骤:
S1、预先将各网站域名与对应的站点属性信息进行关联,构建站点信息关联数据库;
S2、预先构建反链关联数据库,保存各url之间的链接关系;
S3、获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列中取出url并对取出的当前url分别执行步骤S4,直至待检测队列为空,并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库;
S4、查询所述反链关联数据库,确定当前url的所有反链url,将与已知恶意网址的url之间的关联程度满足预设要求的反链url添加到待检测队列中;或者
解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与当前url具有相同站点属性信息的网站域名,将与已知恶意网址的url之间的关联程度满足预设要求的网站域名添加到待检测队列中。
根据本发明一优选实施例,所述站点属性信息包括以下所列的至少一种:网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息,ICP信息。
根据本发明一优选实施例,在所述步骤S3中还包括:为所述恶意网址的url赋予初始权值,为存在反链关系的各url之间设定反链因子,针对网站域名之间共有的站点属性信息的类型设定影响因子,所述反链因子和影响因子的取值范围为区间(0,1);
反链url与已知恶意网址的url之间关联程度的计算包括:将当前url的权值乘以反链因子,得到反链url的权值;
网站域名与已知恶意网址的url之间关联程度的计算包括:将当前url的权值乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子,得到网站域名的权值;
所述关联程度满足预设要求为:所述反链url或网站域名的权值超过预设阈值。
根据本发明一优选实施例,所述恶意网址数据库还包括:所有添加到待检测队列中的url或网站域名对应的站点属性信息和权值。
一种恶意网址的识别方法,该方法包括:
获取待检测url,查询恶意网址数据库中是否包含所述待检测url,如果是,则确定所述待检测url为恶意网址;
其中所述恶意网址数据库是采用所述恶意网址数据库的建立方法建立的。
一种恶意网址的识别方法,该方法包括以下步骤:
S201、获取待检测url,解析该url的站点属性信息;
S202、利用解析得到的站点属性信息,在恶意网址数据库中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用所述恶意网址数据库的建立的方法建立的;
S203、利用查找到的恶意网址的权值计算待检测url的权值;
S204、判断所述待检测url的权值是否超过预设阈值,如果是,则将所述待检测url识别为恶意url。
根据本发明一优选实施例,所述步骤S203具体为:
将步骤S202查找到的恶意网址的权值进行合并计算,得到所述待检测url的权值。
根据本发明一优选实施例,所述合并计算是取最大值,或者取平均值,或者求和。
一种恶意网址数据库的建立装置,该装置包括:
站点信息关联模块,用于预先将各网站域名与对应的站点属性信息进行关联,构建站点信息关联数据库;
反链关联模块,用于预先构建反链关联数据库,保存各url之间的链接关系;
数据库建立模块,用于获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列中取出url并将取出的当前url提供给反链检测模块或站点信息检测模块,直至待检测队列为空,并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库;
反链检测模块,用于查询所述反链关联数据库,确定所述数据库建立模块提供的当前url的所有反链url,将与已知恶意网址的url之间的关联程度满足预设要求的反链url添加到待检测队列中;
站点信息检测模块,用于解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与所述数据库建立模块提供的当前url具有相同站点属性信息的网站域名,将与已知恶意网址的url之间的关联程度满足预设要求的网站域名添加到待检测队列中。
根据本发明一优选实施例,所述站点属性信息包括以下所列的至少一种:网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息,ICP信息。
根据本发明一优选实施例,该装置还包括:
因子设定模块,用于为存在反链关系的各url之间设定反链因子,以及,针对网站域名之间共有的站点属性信息的类型设定影响因子,所述反链因子和影响因子的取值范围为区间(0,1);
所述数据库建立模块还用于为所述恶意网址的url赋予初始权值;
所述反链检测模块将当前url的权值分别乘以反链因子,得到各反链url的权值,由反链url的权值体现反链url与已知恶意网址的url之间关联程度;
所述站点信息检测模块将当前url的权值分别乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子,得到网站域名的权值,由网站域名的权值体现网站域名与已知恶意网址的url之间关联程度。
根据本发明一优选实施例,所述恶意网址数据库还包括:所有添加到待检测队列中的url或网站域名对应的站点属性信息和权值。
一种恶意网址的识别装置,该装置包括:查询判断模块,用于获取待检测url,查询恶意网址数据库中是否包含所述待检测url,如果是,则确定所述待检测url为恶意网址;
其中所述恶意网址数据库是采用所述恶意网址数据库的建立装置建立的。
一种恶意网址的识别装置,该装置包括:
解析模块,用于获取待检测url,解析该url的站点属性信息;
查询模块,用于利用解析得到的站点属性信息,在恶意网址数据库中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用所述恶意网址数据库的建立装置建立的;
合并模块,用于利用查找到的恶意网址的权值计算待检测url的权值;
判断模块,用于判断所述待检测url的权值是否超过预设阈值,如果是,则将所述待检测url识别为恶意url。
根据本发明一优选实施例,所述合并模块具体配置为:
将所述查询模块中查找到的恶意网址的权值进行合并计算,得到所述待检测url的权值。
根据本发明一优选实施例,所述合并计算是取最大值,或者取平均值,或者求和。
由以上技术方案可以看出,本发明提供的恶意网址数据库的建立方法、恶意网址的识别方法和装置,考虑整个地下产业链之间的关联性,利用互联网上各网站之间站点属性信息的关联数据和链接关系对已知恶意网址url进行扩展,基于扩展出的url与恶意网址url的关联程度,构建恶意网址数据库,基于该恶意网址数据库所实现的识别方法并不基于恶意代码特征,具有较高的检测准确率,并且无需模拟浏览器环境执行也能对尚未投入使用的网址进行判断,提高了检测的及时性和准确性,减少漏报。
【附图说明】
图1为本发明实施例一提供的恶意网址数据库的建立方法流程图;
图2为本发明实施例二提供的恶意网址的识别方法流程图;
图3为本发明实施例三提供的恶意网址数据库的建立装置示意图;
图4为本发明实施例四提供的恶意网址的识别装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1是本实施例提供的恶意网址数据库的建立方法流程图,如图1所示,该方法包括:
步骤S101、预先将各网站域名与对应的站点属性信息进行关联,构建站点信息关联数据库。
一个网站通常包括许多网页,每一个网页都有相对应的网址,网址通常采用url(uniformresourcelocator,统一资源定位符)来表示,一般为访问协议+域名的形式。例如,百度网站包括诸多网页,百度首页的url为“http://www.***.com”,域名为“***.com”。由于网站域名具有唯一性,因而可以利用网站域名来表示一个网站。
对于一个域名,利用whois等工具,可以查询到该域名对应网站的注册信息。通常注册信息包括网站名、申请的域名、网站所有人、网站所有人联络信息(包括单位名称、单位负责人、所在单位行业、通信地址、邮政编码、电子邮件、电话号码、传真号码以及认证信息)、域名服务器的主机名以及IP地址等等。
在地下产业链中,同一个非法网站经营者通常持有多个恶意网站形成相类似的站群,这些恶意网站通常具有相同的站点属性信息,比如,可能具有相同的网站所有人或相同的域名服务器等信息。利用这些站点属性信息之间的关联关系,来发现非法网站经营者的站群。
预先利用互联网上存在的网站的站点属性信息,构建站点信息关联数据库,用以查询各网站之间的关联关系。
具体地,在构建站点信息关联数据库时,先对互联网上存在的网站通过whois工具,收集该些网站注册信息,包括网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息等。再通过网页爬虫等方法,获取网站的ICP(InternetContentProvider,网络内容服务商)信息,包括公司信息,网站备案号码,网站名,网站首页网址等信息,将这些信息与网站域名进行关联,形成网站域名与站点属性信息之间的关联关系,构建站点信息关联数据库。
所述站点信息关联数据库可以但不限于采用表格索引的方式进行存储,包括网站域名与对应的站点属性信息的关联关系,其中站点属性信息包括网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息等。
步骤S102、预先构建反链关联数据库,保存各url之间的链接关系。
一个网页中可能包括多个导出链接与其他网页发生关联,相应地,一个网页也有可能在多个网页中以导入链接的方式发生关联。
反链,即导入链接,是指其他网页中通过一段源头文字或路径将一个url引入到他们的网页中的链接。凡是在网页中包含该url的导入链接的网址都为该url的反链url。
利用这些网页对应的url之间的链接关系,构建反链关联数据库。采用现有的网络爬虫(webcrawler)等方法爬取网页内容,保存各url之间的链接关系,构建得到反链关联数据库,以便后续查找url的反链。
步骤S103、为不同的关联关系设定不同的影响因子。
两个网站发生关联,是指这两个网站具有相同的站点属性信息。不同的关联关系是指各网站站点两两之间发生关联的站点属性信息类型不同。由于网站之间发生关联的站点属性信息的类型不同,网站之间的关联程度也不太相同。例如,采用相同email地址注册的网站基本上可以确定为同一个注册人,而相同IP地址则表示网站之间共享主机IP。
根据站点属性信息的类型,为不同的关联关系设定不同的影响因子。预设的各类型影响因子是根据网站域名之间共有的站点属性信息的类型设置的。例如,为采用相同email地址注册的网站设定email因子,为固定值0.9,为采用相同IP地址的网站设定IP因子,为固定值0.8,为反链关系的网站设定反链因子,为固定值0.8。针对网站域名之间共有的站点属性信息的类型设定影响因子,为存在反链关系的各url之间设置反链因子。
各类型影响因子包括反链因子、email因子、IP因子、注册用户名因子、注册公司因子、ICP因子等各个站点属性信息类型的影响因子。该些不同类型的影响因子α可以但不限于依照已有经验数据进行设定,其中0<α<1。
步骤S104、获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列中取出url并对取出的当前url分别执行步骤S105。
已知恶意网址可以是通过现有的杀毒软件或者每天更新的恶意网站监测技术等方式确定的网址。将该些恶意网址作为输入,为已知恶意网址赋予初始权值,并添加到待检测队列中。此时,待检测队列中包括各恶意网址及各恶意网址的初始权值。
针对待检测队列中的网址(url)逐个取出进行检测,对取出的当前url执行步骤S105。
步骤S105、查询所述反链关联数据库,确定当前url的所有反链url,将与已知恶意网址的url之间的关联程度满足预设要求的反链url添加到待检测队列中。
反链url与已知恶意网址的url之间关联程度的计算包括:将当前url的权值与反链因子相乘,得到各反链url的权值。
在本步骤中,检索到的反链url与当前url是反链关系,因而,采用的影响因子是反链因子。
对于检测到的恶意网址,采用的权值为恶意网址的初始权值,即为1。利用恶意网址的初始权值与反链因子得到各反链url的权值。如果设定的反链因子为0.8,则各反链url的权值为0.8*1=0.8。
所述关联程度满足预设要求为:所述反链url的权值超过预设阈值。将权值超过预设阈值的反链url添加到待检测队列中。所述预设阈值可以根据实际经验进行设定,比如,设置预设阈值为0.7,则将权值超过0.7的反链url及对应权值添加到待检测队列中。
步骤S106、解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与当前url具有相同站点属性信息的网站域名,将与已知恶意网址的url之间的关联程度满足预设要求的网站域名添加到待检测队列中。
网站域名与已知恶意网址的url之间关联程度的计算包括:将当前url的权值乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子,得到网站域名的权值。
所述关联程度满足预设要求为:所述网站域名的权值超过预设阈值。
具体地,先依据各网站域名与当前url之间共有的站点属性信息的类型确定对应的影响因子。将当前url的权值与各对应的影响因子相乘,得到各网站域名的权值,将权值超过预设阈值的网站域名添加到待检测队列中。
提取当前url对应的网站域名,利用whois工具查询,得到当前url对应的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名,ICP号等,利用这些站点属性信息在站点信息关联数据库中进行匹配,查询到具有相同属性的网站域名,并记录该些网站域名与当前url发生关联的站点属性信息类型,用以确定各影响因子。
各影响因子是指各网站域名与当前url发生关联的站点属性信息类型对应的影响因子。例如,网站域名A与当前url具有相同的email地址,则该网站域名A的权值为当前url的权值与email因子的乘积。如果网站域名B与当前url具有相同的IP地址,则该网站域名B的权值为当前url的权值与IP因子的乘积。依次类推,计算得到各网站域名的权值。
如果网站域名与当前url发生关联的影响因子为多个,例如,存在相同email地址和相同的注册用户名时,则确定影响因子时可以选择这两个影响因子的最大值来作为网站域名与当前url的影响因子。或者,也可以为不同的站点属性信息分配不同的权重,但总和为1,如果存在多个站点属性信息相同,则将各个站点属性信息对应的系数进行加权,确定影响因子。
将权值超过预设阈值的网站域名添加到待检测队列中。所述预设阈值与步骤S105中的相同。
值得一提的是,所述步骤S105和步骤S106的先后顺序可以调换,也可以仅采用其中的一种方式进行检测。
步骤S107、从待检测队列中取出下一url或网站域名,重复步骤S105和步骤S106,直至所述待检测队列为空,利用所有出现在待检测队列中的url或网站域名以及对应的站点属性信息构建恶意网址数据库。
由于网站域名是url的特例,在url库中,网站域名指向的是这个网站的首页。因而,网站域名可以转化成网站首页url,在恶意网址数据库中统一采用url进行表示。
由于设置的影响因子0<α<1,在经过不断重复之后,计算得到的url的权值会越来越小,处于收敛过程中,当所有url的权值均小于预设阈值,即不再新增待检测队列且待检测队列为空时,收集得到一批关联的可疑网站的闭包。
利用这些所有出现在待检测队列中的url或网站域名、该些url或网站域名对应的站点属性信息和权值,保存到数据库中,构建恶意网址数据库,形成一个地下产业数据数据库。恶意网址数据库中可以但不限于采用表格索引的方式进行存储,包括收集到的url信息,email地址信息,域名(domain)信息,ICP信息,IP地址信息等等。
举个例子,如果得到的已知恶意网址有url1,则将该些恶意网址赋予初始权值,例如为1,添加到待检测队列中。取出一个url,如url1作为当前url进行分析。
利用url1到反链关联数据库中查找出与该恶意网址url1对应的所有反链url,例如可能包括url2,url3。利用该恶意网址url1的权值(即初始权值)与设定的反链因子相乘,作为反链url2和url3的权值,例如设定的反链因子为0.8,则url2和url3的权值为0.8*1=0.8。将权值超过预设阈值的反链url添加到待检测队列中,如果预设阈值为0.7,则将url2和url3都添加到待检测队列中。
从url1提取得到相应的域名,例如为www.xxx123.com,利用whois等工具查询得到该url1对应的站点属性信息,包括网站名,网站所有人,网站所有人emai,公司名,IP地址,ICP号等,利用这些站点属性信息在站点信息关联数据库中进行匹配,查询到具有相同属性的网站域名,例如有相同email地址的域名1和有相同IP地址的域名2。计算域名1和域名2的权值,如果设定的email因子为0.9,IP因子为0.8,则域名1的权值为初始权值与email因子的乘积:0.9*1=0.9,域名2的权值为初始权值与IP因子的乘积:0.8*1=0.8。由于域名1和域名2的权值也超过预设阈值0.7,则也将域名1和域名2添加到待检测队列中。
取出下一个url或网站域名,假设取出url2,进行重复检测。
利用url2到反链关联数据库中查找出与url2对应的所有反链url,例如可能包括url4,url5。利用该url2的权值与设定的反链因子0.8相乘,作为反链url4和url5的权值,则url4和url5的权值为0.8*0.8=0.64。由于url4和url5的权值均小于预设阈值0.7,则都不添加到待检测队列中。
从url2提取得到相应的域名,利用whois等工具查询得到该url2对应的站点属性信息,利用这些站点属性信息在站点信息关联数据库中进行匹配,查询到具有相同属性的网站域名,例如有相同email地址的域名3和有相同注册公司的域名4。计算得到域名3的权值为0.8*0.9=0.72,如果设定的注册公司因子为0.8,则域名4的权值为0.8*0.8=0.64。由于域名3超过预设阈值0.7,则也将域名3添加到待检测队列中,而域名4小于预设阈值0.7,则不添加。
依此类推,重复步骤S105和S106,直到待检测队列为空,得到关于url1、url2、url3、域名1、域名2和域名3等的信息及对应的权值,构建恶意网址数据库。
利用构建好的恶意网址数据库,可以对未知是否恶意的url进行检测。一种方式,可以直接获取待检测url,查询恶意网址数据库中是否包含该待检测url,如果是,则确定所述待检测url为恶意网址。而对于无法在恶意网址数据库中直接查找到的url,可以利用包含相关信息的记录,进行识别。下面通过实施例二对本发明提供的恶意网址的识别方法进行说明。
实施例二、
图2是本实施例提供的恶意网址的识别方法流程图,如图2所示,该方法包括:
步骤S201、获取待检测url,解析该待检测url的站点属性信息。
对于待检测url,提取对应的域名,利用whois等工具查询得到该待检测url的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名,IP地址,ICP号等信息。
步骤S202、利用解析得到的站点属性信息,在恶意网址数据库中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用如实施例一所述的方法建立的。
在实施例一构建好的恶意网址数据库中,利用待检测url的站点属性信息,提取包含该些站点属性信息的恶意url,得到一批与该待检测url相关联的恶意url。
步骤S203、利用查找到的恶意网址的权值计算待检测url的权值。
将步骤S202查找到的恶意网址的权值进行合并计算,得到所述待检测url的权值。所述合并计算可以是取最大值,或者取平均值,或者求和等方式。优选地,将查找到的恶意url对应的权值中选取最大值作为所述待检测url的权值。
对于重复出现多次的恶意url,在进行合并计算时还可以进行调权处理,增加一个预设的调权因子。当一个url经过来自不同的数据源都被判断为可疑url时,表示该url为恶意网址的嫌疑度越高。
步骤S204、判断所述待检测url的权值是否超过预设阈值,如果是,则将所述待检测url识别为恶意url。
所述预设阈值可以与实施例一中步骤S105和步骤S106中的相同,也可以另设一个固定值。
因而,对于未知url,可以利用建立好的恶意网址数据库进行判断是否为恶意网址。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的恶意网址数据库的建立装置和恶意网址的识别装置进行详细描述。
实施例三
图3是本实施例提供的恶意网址数据库的建立装置示意图。如图3所示,该装置包括:
站点信息关联模块301,用于预先将各网站域名与对应的站点属性信息进行关联,构建站点信息关联数据库。
站点信息关联模块301预先利用互联网上存在的网站的站点属性信息,构建站点信息关联数据库,用以查询各网站之间的关联关系。
具体地,在构建站点信息关联数据库时,先对互联网上存在的网站通过whois工具,收集该些网站注册信息,包括网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息等。再通过网页爬虫等方法,获取网站的ICP(InternetContentProvider,网络内容服务商)信息,包括公司信息,网站备案号码,网站名,网站首页网址等信息,将这些信息与网站域名进行关联,形成网站域名与站点属性信息之间的关联关系,构建站点信息关联数据库。
所述站点信息关联数据库可以但不限于采用表格索引的方式进行存储,包括网站域名与对应的站点属性信息的关联关系,其中站点属性信息包括网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息等。
反链关联模块302,用于预先构建反链关联数据库,保存各url之间的链接关系。
一个网页中可能包括多个导出链接与其他网页发生关联,相应地,一个网页也有可能在多个网页中以导入链接的方式发生关联。
反链,即导入链接,是指其他网页中通过一段源头文字或路径将一个url引入到他们的网页中的链接。凡是在网页中包含该url的导入链接的网址都为该url的反链url。
反链关联模块302利用这些网页对应的url之间的链接关系,构建反链关联数据库。采用现有的网络爬虫(webcrawler)等方法爬取网页内容,保存各url之间的链接关系,构建得到反链关联数据库,以便后续查找url的反链。
因子设定模块303,用于为存在反链关系的各url之间设定反链因子,以及,针对网站域名之间共有的站点属性信息的类型设定影响因子。
所述反链因子和影响因子的取值范围为区间(0,1)。
因子设定模块303根据站点属性信息的类型,为不同的关联关系设定不同的影响因子。预设的各类型影响因子是根据网站域名之间共有的站点属性信息的类型设置的。例如,为采用相同email地址注册的网站设定email因子,为固定值0.9,为采用相同IP地址的网站设定IP因子,为固定值0.8,为反链关系的网站设定反链因子,为固定值0.8。依据网站域名之间共有的站点属性信息的类型设定对应的影响因子,为存在反链关系的各url之间设置反链因子。
各类型影响因子包括反链因子、email因子、IP因子、注册用户名因子、注册公司因子、ICP因子等各个站点属性信息类型的影响因子。该些不同类型的影响因子α可以但不限于依照已有经验数据进行设定,其中0<α<1。
数据库建立模块304,用于获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列中取出url并将取出的当前url提供给反链检测模块305或站点信息检测模块306,直至待检测队列为空,并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库。
已知恶意网址可以是通过现有的杀毒软件或者每天更新的恶意网站监测技术等方式确定的网址。将该些恶意网址作为输入,为已知恶意网址赋予初始权值,并添加到待检测队列中。此时,待检测队列中包括各恶意网址及各恶意网址的初始权值。
针对待检测队列中的网址(url)逐个取出,利用反链检测模块305或站点信息检测模块306进行检测。
反链检测模块305,用于查询所述反链关联数据库,确定数据库建立模块304提供的当前url的所有反链url,将与已知恶意网址的url之间的关联程度满足预设要求的反链url添加到待检测队列中。
反链检测模块305将当前url的权值与反链因子相乘,得到各反链url的权值,由反链url的权值体现反链url与已知恶意网址的url之间关联程度。将权值超过预设阈值的反链url添加到待检测队列中。
对于检测到的恶意网址,采用的权值为恶意网址的初始权值,即为1。利用恶意网址的初始权值与反链因子得到各反链url的权值。如果设定的反链因子为0.8,则各反链url的权值为0.8*1=0.8。
反链检测模块305将权值超过预设阈值的反链url添加到待检测队列中。所述预设阈值可以根据实际经验进行设定,比如,设置预设阈值为0.7,则将权值超过0.7的反链url及对应权值添加到待检测队列中。
站点信息检测模块306,用于解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与数据库建立模块304提供的当前url具有相同站点属性信息的网站域名,将与已知恶意网址的url之间的关联程度满足预设要求的网站域名添加到待检测队列中。
站点信息检测模块306先依据各网站域名与当前url之间共有的站点属性信息的类型确定对应的影响因子。将当前url的权值分别乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子,得到网站域名的权值,由网站域名的权值体现网站域名与已知恶意网址的url之间关联程度。将权值超过预设阈值的网站域名添加到待检测队列中。
提取当前url对应的网站域名,利用whois工具查询,得到当前url对应的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名,ICP号等,利用这些站点属性信息在站点信息关联数据库中进行匹配,查询到具有相同属性的网站域名,并记录该些网站域名与当前url发生关联的站点属性信息类型,用以确定各影响因子。
各影响因子是指各网站域名与当前url发生关联的站点属性信息类型对应的影响因子。例如,网站域名A与当前url具有相同的email地址,则该网站域名A的权值为当前url的权值与email因子的乘积。如果网站域名B与当前url具有相同的IP地址,则该网站域名B的权值为当前url的权值与IP因子的乘积。依次类推,计算得到各网站域名的权值。
如果网站域名与当前url发生关联的影响因子为多个,例如,存在相同email地址和相同的注册用户名时,则确定影响因子时可以选择这两个影响因子的最大值来作为网站域名与当前url的影响因子。或者,也可以为不同的站点属性信息分配不同的权重,但总和为1,如果存在多个站点属性信息相同,则将各个站点属性信息对应的系数进行加权,确定影响因子。将权值超过预设阈值的网站域名添加到待检测队列中。
而后,数据库建立模块304逐个从待检测队列中取出url并对取出的当前url触发反链检测模块305或站点信息检测模块306,直至待检测队列为空,并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库。
由于网站域名是url的特例,在url库中,网站域名指向的是这个网站的首页。因而,网站域名可以转化成网站首页url,在恶意网址数据库中统一采用url进行表示。
由于设置的影响因子0<α<1,在经过不断重复之后,计算得到的url的权值会越来越小,处于收敛过程中,当所有url的权值均小于预设阈值,即不再新增待检测队列且待检测队列为空时,收集得到一批关联的可疑网站的闭包。
利用这些所有出现在待检测队列中的url或网站域名、该些url或网站域名对应的站点属性信息和权值,保存到数据库中,构建恶意网址数据库,形成一个地下产业数据数据库。恶意网址数据库中可以但不限于采用表格索引的方式进行存储,包括收集到的url信息,email地址信息,域名(domain)信息,ICP信息,IP地址信息等等。
利用构建好的恶意网址数据库,可以对未知是否恶意的url进行检测。一种识别装置可以包括:查询判断模块,直接获取待检测url,查询恶意网址数据库中是否包含该待检测url,如果是,则确定所述待检测url为恶意网址。而对于无法在恶意网址数据库中直接查找到的url,可以利用包含相关信息的记录,进行识别。下面通过实施例四对本发明提供的恶意网址的识别装置进行说明。
图4是本实施例提供的恶意网址的识别装置示意图。如图4所示,该装置包括:
解析模块401,用于获取待检测url,解析该url的站点属性信息。
对于待检测url,解析模块401提取对应的域名,利用whois等工具查询得到该待检测url的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名,IP地址,ICP号等信息。
查询模块402,用于利用解析得到的站点属性信息,在恶意网址数据库中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用实施例三所述的装置建立的。
查询模块402利用待检测url的站点属性信息,提取包含该些站点属性信息的恶意url,查询得到一批与该待检测url相关联的恶意url。
合并模块403,用于利用查询模块402查找到的恶意网址的权值计算待检测url的权值。
将查询模块402查找到的恶意网址的权值进行合并计算,得到所述待检测url的权值。所述合并计算可以是取最大值,或者取平均值,或者求和等方式。优选地,将查找到的恶意url对应的权值中选取最大值作为所述待检测url的权值。
对于重复出现多次的恶意url,在进行合并计算时还可以进行调权处理,增加一个预设的调权因子。当一个url经过来自不同的数据源都被判断为可疑url时,表示该url为恶意网址的嫌疑度越高。
判断模块404,用于判断所述待检测url的权值是否超过预设阈值,如果是,则将所述待检测url识别为恶意url。
对于未知url,可以利用建立好的恶意网址数据库进行判断是否为恶意网址。
本发明提供的恶意网址数据库的建立方法、恶意网址的识别方法和装置,考虑整个地下产业链之间的关联性,利用互联网上各网站之间站点属性信息的关联数据,构建恶意网址数据库,无需执行也能对未知网址进行判断,提高了检测的及时性和准确性,减少漏报。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种恶意网址数据库的建立方法,其特征在于,该方法包括:
S1、预先将各网站域名与对应的站点属性信息进行关联,构建站点信息关联数据库;
S2、预先构建反链关联数据库,保存各url之间的链接关系;
S3、获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列中取出url并对取出的当前url分别执行步骤S4,直至待检测队列为空,并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库;
S4、查询所述反链关联数据库,确定当前url的所有反链url,将权值超过预设阈值的反链url添加到待检测队列中,其中反链url的权值由当前url的权值乘以反链因子得到;或者,
解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与当前url具有相同站点属性信息的网站域名,将权值超过预设阈值的网站域名添加到待检测队列中,其中网站域名的权值由当前url的权值乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子得到。
2.根据权利要求1所述的方法,其特征在于,所述站点属性信息包括以下所列的至少一种:网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息,ICP信息。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S3中还包括:为所述恶意网址的url赋予初始权值,为存在反链关系的各url之间设定反链因子,针对网站域名之间共有的站点属性信息的类型设定影响因子,所述反链因子和影响因子的取值范围为区间(0,1);
其中若一个url的网页中包含另一个url的导入链接,则这两个url存在反链关系。
4.根据权利要求3所述的方法,其特征在于,所述恶意网址数据库还包括:所有添加到待检测队列中的url或网站域名对应的站点属性信息和权值。
5.一种恶意网址的识别方法,其特征在于,该方法包括:
获取待检测url,查询恶意网址数据库中是否包含所述待检测url,如果是,则确定所述待检测url为恶意网址;
其中所述恶意网址数据库是采用如权利要求1至4任一权项所述的方法建立的。
6.一种恶意网址的识别方法,其特征在于,该方法包括:
S201、获取待检测url,解析该url的站点属性信息;
S202、利用解析得到的站点属性信息,在恶意网址数据库中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用如权利要求4所述的方法建立的;
S203、利用查找到的恶意网址的权值计算待检测url的权值;
S204、判断所述待检测url的权值是否超过预设阈值,如果是,则将所述待检测url识别为恶意url。
7.根据权利要求6所述的方法,其特征在于,所述步骤S203具体为:
将步骤S202查找到的恶意网址的权值进行合并计算,得到所述待检测url的权值。
8.根据权利要求7所述的方法,其特征在于,所述合并计算是取最大值,或者取平均值,或者求和。
9.一种恶意网址数据库的建立装置,其特征在于,该装置包括:
站点信息关联模块,用于预先将各网站域名与对应的站点属性信息进行关联,构建站点信息关联数据库;
反链关联模块,用于预先构建反链关联数据库,保存各url之间的链接关系;
数据库建立模块,用于获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列中取出url并将取出的当前url提供给反链检测模块或站点信息检测模块,直至待检测队列为空,并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库;
反链检测模块,用于查询所述反链关联数据库,确定所述数据库建立模块提供的当前url的所有反链url,将权值超过预设阈值的反链url添加到待检测队列中,其中反链url的权值由当前url的权值乘以反链因子得到;
站点信息检测模块,用于解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与所述数据库建立模块提供的当前url具有相同站点属性信息的网站域名,将权值超过预设阈值的网站域名添加到待检测队列中,其中网站域名的权值由当前url的权值乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子得到。
10.根据权利要求9所述的装置,其特征在于,所述站点属性信息包括以下所列的至少一种:网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息,ICP信息。
11.根据权利要求9所述的装置,其特征在于,该装置还包括:
因子设定模块,用于为存在反链关系的各url之间设定反链因子,以及,针对网站域名之间共有的站点属性信息的类型设定影响因子,所述反链因子和影响因子的取值范围为区间(0,1);
所述数据库建立模块还用于为所述恶意网址的url赋予初始权值;
其中若一个url的网页中包含另一个url的导入链接,则这两个url存在反链关系。
12.根据权利要求11所述的装置,其特征在于,所述恶意网址数据库还包括:所有添加到待检测队列中的url或网站域名对应的站点属性信息和权值。
13.一种恶意网址的识别装置,其特征在于,该装置包括:查询判断模块,用于获取待检测url,查询恶意网址数据库中是否包含所述待检测url,如果是,则确定所述待检测url为恶意网址;
其中所述恶意网址数据库是采用如权利要求9至12任一权项所述的装置建立的。
14.一种恶意网址的识别装置,其特征在于,该装置包括:
解析模块,用于获取待检测url,解析该url的站点属性信息;
查询模块,用于利用解析得到的站点属性信息,在恶意网址数据库中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用如权利要求12所述的装置建立的;
合并模块,用于利用查找到的恶意网址的权值计算待检测url的权值;
判断模块,用于判断所述待检测url的权值是否超过预设阈值,如果是,则将所述待检测url识别为恶意url。
15.根据权利要求14所述的装置,其特征在于,所述合并模块具体配置为:
将所述查询模块中查找到的恶意网址的权值进行合并计算,得到所述待检测url的权值。
16.根据权利要求15所述的装置,其特征在于,所述合并计算是取最大值,或者取平均值,或者求和。
CN201210069443.7A 2012-03-15 2012-03-15 恶意网址数据库的建立方法、恶意网址的识别方法和装置 Active CN102663000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210069443.7A CN102663000B (zh) 2012-03-15 2012-03-15 恶意网址数据库的建立方法、恶意网址的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210069443.7A CN102663000B (zh) 2012-03-15 2012-03-15 恶意网址数据库的建立方法、恶意网址的识别方法和装置

Publications (2)

Publication Number Publication Date
CN102663000A CN102663000A (zh) 2012-09-12
CN102663000B true CN102663000B (zh) 2016-08-03

Family

ID=46772491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210069443.7A Active CN102663000B (zh) 2012-03-15 2012-03-15 恶意网址数据库的建立方法、恶意网址的识别方法和装置

Country Status (1)

Country Link
CN (1) CN102663000B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778113B (zh) * 2012-10-17 2017-04-19 腾讯科技(深圳)有限公司 终端、服务器及终端、服务器的网页处理方法
CN102945349B (zh) * 2012-10-19 2016-06-22 北京奇虎科技有限公司 未知文件处理方法与装置
CN103036896B (zh) * 2012-12-20 2015-07-01 北京奇虎科技有限公司 用于检测恶意链接的方法及***
WO2014094653A1 (zh) * 2012-12-20 2014-06-26 北京奇虎科技有限公司 一种用于检测恶意链接的设备、方法及***
CN104615695B (zh) * 2015-01-23 2018-10-09 腾讯科技(深圳)有限公司 一种恶意网址的检测方法及***
CN110851680B (zh) * 2015-05-15 2023-06-30 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN104980446A (zh) * 2015-06-30 2015-10-14 百度在线网络技术(北京)有限公司 一种恶意行为的检测方法及***
CN105335480A (zh) * 2015-10-13 2016-02-17 国家电网公司 一种互联网网站责任主体识别方法
CN105956472B (zh) * 2016-05-12 2019-10-18 宝利九章(北京)数据技术有限公司 识别网页中是否包含恶意内容的方法和***
CN107463583A (zh) * 2016-06-06 2017-12-12 广州泰尔智信科技有限公司 应用开发者所在区域确定方法和装置
CN107517193A (zh) * 2016-06-17 2017-12-26 百度在线网络技术(北京)有限公司 恶意网站识别方法和装置
CN106992967A (zh) * 2017-02-28 2017-07-28 北京瑞星信息技术股份有限公司 恶意网站识别方法和***
CN109391583B (zh) * 2017-08-03 2021-06-25 武汉安天信息技术有限责任公司 一种基于恶意应用的攻击者溯源方法和***
CN108092963B (zh) * 2017-12-08 2020-05-08 平安科技(深圳)有限公司 网页识别方法、装置、计算机设备及存储介质
CN108062413B (zh) * 2017-12-30 2019-05-28 平安科技(深圳)有限公司 网页数据处理方法、装置、计算机设备及存储介质
CN109063106B (zh) * 2018-07-27 2022-03-04 北京字节跳动网络技术有限公司 网址修正方法、装置、计算机设备和存储介质
CN110865818B (zh) * 2018-08-28 2023-07-28 阿里巴巴(中国)有限公司 应用关联域名的检测方法、装置及电子设备
CN110012030A (zh) * 2019-04-23 2019-07-12 北京微步在线科技有限公司 一种关联检测黑客的方法及装置
CN112351441B (zh) * 2019-08-06 2023-08-15 ***通信集团广东有限公司 一种数据处理方法、装置及电子设备
CN110837619B (zh) * 2019-11-05 2022-07-12 北京锐安科技有限公司 一种网站审核的方法、装置、设备和存储介质
CN112954083B (zh) * 2019-12-11 2022-03-08 中盈优创资讯科技有限公司 注册ip地址管理方法及装置
CN113360895B (zh) * 2021-06-02 2023-07-25 北京百度网讯科技有限公司 站群检测方法、装置及电子设备
CN113742627A (zh) * 2021-09-08 2021-12-03 北京百度网讯科技有限公司 不良网站识别方法、装置、电子设备和介质
CN114172725B (zh) * 2021-12-07 2023-11-14 百度在线网络技术(北京)有限公司 非法网站的处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732264A (en) * 1994-11-08 1998-03-24 Matsushita Electric Industrial Co., Ltd. Information management system and method for managing, processing storing and displaying attribute information of object information
CN101547197A (zh) * 2009-04-30 2009-09-30 珠海金山软件股份有限公司 Url洗白装置和洗白方法
CN102045360A (zh) * 2010-12-27 2011-05-04 成都市华为赛门铁克科技有限公司 恶意网址库的处理方法及装置
CN102045358A (zh) * 2010-12-29 2011-05-04 深圳市永达电子股份有限公司 一种基于整合相关性分析与分级聚类的入侵检测方法
CN102096683A (zh) * 2009-12-11 2011-06-15 奇智软件(北京)有限公司 一种实现浏览器地址栏铭牌的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732264A (en) * 1994-11-08 1998-03-24 Matsushita Electric Industrial Co., Ltd. Information management system and method for managing, processing storing and displaying attribute information of object information
CN101547197A (zh) * 2009-04-30 2009-09-30 珠海金山软件股份有限公司 Url洗白装置和洗白方法
CN102096683A (zh) * 2009-12-11 2011-06-15 奇智软件(北京)有限公司 一种实现浏览器地址栏铭牌的方法
CN102045360A (zh) * 2010-12-27 2011-05-04 成都市华为赛门铁克科技有限公司 恶意网址库的处理方法及装置
CN102045358A (zh) * 2010-12-29 2011-05-04 深圳市永达电子股份有限公司 一种基于整合相关性分析与分级聚类的入侵检测方法

Also Published As

Publication number Publication date
CN102663000A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102663000B (zh) 恶意网址数据库的建立方法、恶意网址的识别方法和装置
US9218482B2 (en) Method and device for detecting phishing web page
CN103778151B (zh) 一种识别特征群体的方法及装置和搜索方法及装置
CN107341399B (zh) 评估代码文件安全性的方法及装置
CN102710795B (zh) 热点聚合方法及装置
CN102739653B (zh) 一种针对网址的检测方法及装置
CN102833258A (zh) 网址访问方法及***
CN112929390B (zh) 一种基于多策略融合的网络智能监控方法
CN102868773B (zh) 检测dns黑洞劫持的方法、装置及***
Aldwairi et al. Malurls: A lightweight malicious website classification based on url features
CN103559235A (zh) 一种在线社交网络恶意网页检测识别方法
CN107888606B (zh) 一种域名信誉度评估方法及***
CN105049301A (zh) 一种提供网站综合评价服务的方法和装置
CN103793508B (zh) 一种加载推荐信息、网址检测的方法、装置和***
CN111541674A (zh) 一种检测效率高的web站点安全防护方法及***
CN103685606A (zh) 关联域名的获取方法和***以及网站管理员权限验证方法
CN105530251A (zh) 识别钓鱼网站的方法及装置
Sardar et al. Detection and confirmation of web robot requests for cleaning the voluminous web log data
CN103220277B (zh) 监控跨站脚本攻击的方法、装置及***
CN105138912A (zh) 钓鱼网站检测规则的自动生成方法及装置
Cheng et al. Detecting malicious domain names with abnormal whois records using feature-based rules
CN104717226A (zh) 一种针对网址的检测方法及装置
CN105515882A (zh) 网站安全检测方法及装置
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN105516114A (zh) 一种基于网页哈希值扫描漏洞的方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant