WO2017167208A1

WO2017167208A1 - 识别恶意网站的方法、装置及计算机存储介质

Info

Publication number: WO2017167208A1
Application number: PCT/CN2017/078650
Authority: WO
Inventors: 刘健
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-03-29
Filing date: 2017-03-29
Publication date: 2017-10-05
Also published as: KR20180074774A; CN107239701A; US10834105B2; KR102090982B1; CN107239701B; US20180248898A1

Abstract

本申请公开了一种识别恶意网站的方法及装置，属于互联网领域。所述方法包括：当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息，基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息，基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。本申请能够在对第一网站进行识别的同时，还能够识别第一网站的页面内容中超链接信息所链接的第二网站，提高了识别恶意网站的效率。

Description

识别恶意网站的方法、装置及计算机存储介质

相关申请的交叉引用

本申请基于申请号为201610186975.7、申请日为2016年03月29日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及互联网领域，特别涉及一种识别恶意网站的方法、装置及计算机存储介质。

背景技术

互联网技术的快速发展给人们的生活带来越来越多的便利，比如，人们可以通过互联网下载各类资料、进行网络购物等。与此同时，出现了将各类木马病毒伪装成正常文件来肆意传播、钓鱼网站模仿正常网站盗取用户账号和密码等恶意行为，因此，识别恶意网站的方法受到了广泛地关注。

其中，相关技术中是通过云安全服务器根据网站的网址信息来识别恶意网站，所以，当恶意分子发现某个网址信息被拦截时，该恶意分子可以通过新网址信息来进行恶意行为。此时，信息数据库中不包括该新网址信息的记录，所以，云安全服务器就不会识别出该网站为恶意网站。为了解决该问题，云安全服务器需要下载该网站的页面内容，并对该网站的页面内容进行分析，如果分析结果指示该网站为恶意网站，则在信息数据库中存储该新网址信息的记录，以便下次可以识别出该新网址信息对应的网站为恶意网站。

然而，对于信息数据库中不存在的每个新网址，该云安全服务器都需要执行上述的下载页面内容操作和分析页面内容操作，会浪费大量的带宽和处理资源，并且花费的时间较长，不利于快速有效地识别恶意网站。

发明内容

为了解决现有技术的问题，本申请提供了一种识别恶意网站的方法及装置。所述技术方案如下：

一方面，提供了一种识别恶意网站的方法，所述方法包括：

当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息；

基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息；

基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。

另一方面，提供了一种识别恶意网站的装置，所述装置包括：

第一识别模块，用于当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息；

获取模块，用于基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息；

第二识别模块，用于基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。

再一方面，本申请还提供一种计算机存储介质，该存储介质包括一组指令，当执行所述指令时，引起至少一个处理器执行包括以下的操作：

本申请提供的技术方案带来的有益效果是：在本申请中，当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，并从该第一网站的页面内容中获取至少一个超链接信息，进而基于该至少一个超链接信息，分别对该至少一个超链接信息所链接的第二网站进行识别，即能够在对第一网站进行识别的同时，还能够识别第一网站的页面内容中超链接信息所链接的第二网站，提高了识别恶意网站的效率。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种识别恶意网站方法流程图；

图2是本申请提供的另一种识别恶意网站方法流程图；

图3是本申请提供的一种识别恶意网站装置结构示意图；

图4是本申请提供的另一种识别恶意网站装置结构示意图；

图5为本申请一种硬件组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请进行详细的解释说明之前，先对本申请的应用场景予以介绍。在用户通过互联网下载各类资料、进行网络购物的同时，各类木马病毒和钓鱼网站也有可能盗取用户账号和密码等用户信息，危害用户信息安全。相关技术中，对于信息数据库中每个不存在的网址信息，该云安全服务器都需要下载该网址信息对应网站的页面内容，并对该网站的页面内容进行分析，降低了识别恶意网站的效率。因此，本申请提供了一种识别恶意网站的方法，能够节省带宽和处理资源，并提高识别恶意网站的效率。

图1为本申请提供的一种识别恶意网站方法流程图，参见图1，该方法包括：

步骤101：当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息。

步骤102：基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息。

步骤103：基于该至少一个超链接信息，分别对至少一个第二网站进行识别，该至少一个第二网站为该至少一个超链接信息分别所链接的网站。

在本申请中，当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，并从该第一网站的页面内容中获取至少一个超链接信息，进而基于该至少一个超链接信息，分别对该至少一个超链接信息所链接的第二网站进行识别，即能够在对第一网站进行识别的同时，还能够识别第一网站的页面内容中超链接信息所链接的第二网站，提高了识别恶意网站的效率。

可选地，从该第一网站的页面内容中获取至少一个超链接信息，包括：

从该第一网站的页面内容中，获取至少一个超链接开始标签和至少一个超链接结束标签；

从该第一网站的页面内容中，将目标超链接开始标签、目标超链接结束标签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息，该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签，该目标超链接结束标签与该目标超链接开始标签对应。

可选地，基于该至少一个超链接信息，分别对至少一个第二网站进行识别，包括：

对于该至少一个超链接信息中的每个超链接信息，从该超链接信息中获取链接地址信息；

判断存储的恶意信息数据库中是否存在该链接地址信息；

当该恶意信息数据库中存在该链接地址信息时，确定该超链接信息所链接的第二网站为恶意网站。

可选地，判断存储的信息数据库中是否存在该链接地址信息之后，还包括：

当该信息数据库中不存在该链接地址信息时，根据预设条件，对该超链接信息所链接的第二网站进行识别。

可选地，根据预设条件，对该超链接信息所链接的第二网站进行识别，包括：

从存储的恶意链接索引库中，获取第三网址信息数目，第三网址信息为第三网站的网址信息，且该链接地址信息被该第三网站所引用；

当该第三网址信息数目大于第一预设数值时，将该第二网站确定为恶意网站。

从存储的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目，该第一上下文信息为第三网站的页面内容中与该链接地址信息位于同一显示区域的文字信息；

当该特定词语数目大于第二预设数值时，将该第二网站确定为恶意网站。

可选地，基于该至少一个超链接信息，分别对至少一个第二网站进行识别之后，还包括：

对于该至少一个第二网站中任一第二网站，当该第二网站为恶意网站时，将该第二网站对应的链接地址信息存储到该恶意信息数据库中。

对于该至少一个第二网站中任一第二网站，当该第二网站不为恶意网站且该第一网站为恶意网站时，将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到该恶意链接索引库中，该第二上下文信息为该第一网站的页面内容中与该第二网站对应的链接地址信息位于同一显示区域的文字信息。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请对此不再一一赘述。

图2为本申请提供的另一种识别恶意网站方法流程图，参见图2，该识别恶意网站方法用于服务器中，该方法包括：

步骤201：当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，该恶意网站查询请求中携带该第一网址信息，该第一网址信息为该第一网站的网址信息。

由于在用户通过互联网下载各类资料、进行网络购物的同时，各类木马病毒和钓鱼网站也有可能盗取用户账号和密码等用户信息，危害用户信息安全。因此，为了保护用户信息安全，该服务器可以在接收到终端发送的恶意网站查询请求时，基于第一网址信息，对第一网站进行识别。

其中，该终端可以是手机、电脑等能够接入互联网的设备，该终端可以在访问第一网站或者在用户输入第一网址信息时，向该服务器发送该恶意网站查询请求，当然，在实际应用中，该终端也可以在其他时机向服务器发送恶意网站查询请求，本申请对此不做具体限定。

需要说明的是，第一网址信息可以是网络协议(IP，Internet Protocol)地址，也可以是域名地址，当然，在实际应用中，第一网址信息还可以是其它地址，本申请对此不做具体限定。

进一步地，当该服务器基于第一网址信息，对第一网站进行识别时，可以判断该服务器存储的恶意信息数据库中是否存在第一网址信息，当该恶意信息数据库中存在第一网址信息时，将第一网站识别为恶意网站；当该恶意信息数据库中不存在第一网址时，下载第一网站的页面内容，进而根据第一网站的页面内容，对第一网站进行识别。

其中，该恶意信息数据库可以由该服务器在接收该恶意网站查询请求之前存储，该恶意信息数据库中可以包括多个恶意网址信息，如下述表1所示，网址信息1、网址信息2、网址信息3等都是恶意网址信息。

表1

网址信息1
网址信息2
网址信息3
……

需要说明的是，本申请仅以上述表1所示的恶意信息数据库中包括的多个恶意网址信息为例进行说明，上述表1并不对本申请构成限定。

还需要说明的是，当该服务器根据该第一网站的页面内容，对第一网站进行识别时，可以判断该第一网站的页面内容中是否包括特定词语，当出现该特定词语时，将第一网站识别为恶意网站。另外，该服务器根据该第一网站的页面内容对第一网站进行识别的方法，还可以参考现有技术，本申请不再一一赘述。

例如，当该服务器接收到恶意网站查询请求1，且恶意网站查询请求中携带网址信息1时，该服务器判断上述表1所述的恶意信息数据库中存在网址信息1，因此，将网址信息1对应的第一网站1识别为恶意网站；当该服务器接收到恶意网站查询请求2，且恶意网站查询请求中携带网址信息4时，该服务器判断上述表1所述的恶意信息数据库中不存在网址信息4，因此，下载网址信息对应的第一网站2的页面内容，进而根据第一网站2的页面内容，对第一网站2进行识别。

步骤202：对该第一网站进行识别之后，从该第一网站的页面内容中获取至少一个超链接信息。

由于第一网站的页面内容中除了图片和文字等内容之外，经常还包括超链接信息，用户可以通过超链接信息访问到该超链接信息所链接的网站，如果该超链接信息所链接的网站是恶意网站，同样会危害用户信息安全，因此，为了对该超链接信息所链接的网站进行识别，进一步确保用户信息安全，在对该第一网站进行识别之后，可以从该第一网站的页面内容中获取至少一个超链接信息。

需要说明的是，由前述可知，当该恶意信息数据库中存在第一网址信息时，该服务器不下载第一网站的页面内容，也能够将第一网站识别为恶意网站，因此，当该服务器根据该恶意信息数据库，将第一网站识别为恶意网站之后，也可以下载第一网站对应的页面内容，进而对第一网站的页面内容中包括的超链接信息所链接的网站进行识别。

进一步地，从该第一网站的页面内容中获取至少一个超链接信息的操作可以为：从该第一网站的页面内容中，获取至少一个超链接开始标签和至少一个超链接结束标签，从该第一网站的页面内容中，将目标超链接开始标签、目标超链接结束标签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息，该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签，该目标超链接结束标签与该目标超链接开始标签对应。

其中，超链接开始标签和与该超链接开始标签对应的超链接结束标签用于说明该超链接开始标签、该超链接结束标签、以及该超链接开始标签与该超链接开始标签对应的超链接结束标签之间的内容为超链接信息，比如，该超链接开始标签可以是<a多个标签属性>，该超链接结束标签可以为</a>，当然，在实际应用中，超链接开始标签和超链接结束标签还可以通过其他形式进行表示，本申请对此不做具体限定。

需要说明的是，为了准确说明该超链接信息，该超链接开始标签可以包括多个标签属性，比如，目标(target)属性用于说明打开该超链接信息所链接的网站的方式，超文本引用(href，Hypertext Reference)属性用于说明该超链接信息所链接网站的链接地址信息，当然，在实际应用中，该多个标签属性还可以包括其他属性，本申请对此不做具体限定。

还需要说明的是，除上述方法外，从该第一网站的页面内容中获取至少一个超链接信息的操作，还可以参考现有技术，本申请不再一一赘述。

例如，当超链接开始标签为<a target＝"target属性值"href＝"href属性值">，超链接结束标签为</a>，第一网站1的页面内容为“<li<a target＝"_blank"href＝"www.123.com">这是123网</a></li>”时，该服务器从第一网站1的页面内容中获取<a target＝"_blank"href＝"www.123.com">、</a>以及<a target＝"_blank"href＝"www.123.com">与</a>之间的内容“<a target＝"_blank"href＝"www.123.com">这是123网</a>”为超链接信息1。

进一步地，由前述可知，超链接开始标签通常都包括该超链接信息所链接网站的链接地址信息，因此，为了提高获取超链接信息的效率，该服务器可以只获取超链接开始标签，进而将获取的超链接开始标签确定为超链接信息。

步骤203：基于该至少一个超链接信息，分别对至少一个第二网站进行识别，该至少一个第二网站为该至少一个超链接信息分别所链接的网站。

由前述可知，用户可以通过超链接信息访问该超链接信息所链接的网站，而当该超链接信息所链接的网站为恶意网站时，该恶意网站可能会危害用户信息安全，因此，为了提高识别恶意网站的效率，在对第一网站进行识别之后，还可以基于该至少一个超链接信息，分别对至少一个第二网站进行识别。

其中，基于该至少一个超链接信息，分别对至少一个第二网站进行识别的操作可以为：对于该至少一个超链接信息中的每个超链接信息，从该超链接信息中获取链接地址信息，判断存储的恶意信息数据库中是否存在该链接地址信息，当该恶意信息数据库中存在该链接地址信息时，确定该超链接信息所链接的第二网站为恶意网站。

需要说明的是，由于超链接信息在包括链接地址信息的同时，还可能包括其它信息，比如，链接地址说明等信息，其中，链接地址信息为第二网站对应的网址信息，其它信息用于对该链接地址信息进行说明。

还需要说明的是，该链接地址信息可以是IP地址，也可以是域名地址，当然，在实际应用中，该链接地址信息还可以是其它地址，本申请对此不做具体限定。

例如，在超链接信息1“<a href＝"www.123.com">这是123网>/a>”中，“www.123.com”为第二网站对应的链接地址信息，“这是123网”为链接地址说明，用于对该链接地址信息进行说明。

进一步地，判断存储的恶意信息数据库中是否存在该链接地址信息之后，当该恶意信息数据库中不存在该链接地址信息时，还可以根据预设条件，对该超链接信息所链接的第二网站进行识别。

其中，根据预设条件，对该超链接信息所链接的第二网站进行识别的操作可以包括下述两种方式。

第一种方式，从存储的恶意链接索引库中，获取第三网址信息数目，第三网址信息为第三网站的网址信息，且该链接地址信息被该第三网站所引用，当该第三网址信息数目大于第一预设数值时，将该第二网站确定为恶意网站。

其中，第三网站为恶意网站，第三网址信息可以是IP地址，也可以是域名地址，当然，在实际应用中，第三网址信息还可以是其它地址，本申请对此不做具体限定。

需要说明的是，该恶意链接索引库至少包括第三网址信息和第三网站引用的链接地址信息，当然在实际应用中，为了提高识别第二网站是否为恶意网站的准确性，该恶意链接索引库还可以包括其它内容，比如，为了指示第三网站所属的类型，该恶意链接索引库还可以包括第三网站类型，本申请对此不做具体限定。

还需要说明的是，由于第三网站在引用链接地址信息时，常会引用与第三网站类型相同的网站的链接地址信息，当多个恶意网站都引用该链接地址信息时，该第二网站也可能为恶意网站，比如，在***类网站为恶意网站的情况下，当多个***类网站都引用了该链接地址信息时，第二网站也可能为***类网站，进而第二网站也可能是恶意网站，因此，为了提高识别第二网站是否为恶意网站的准确率，该服务器可以从存储的恶意链接索引库中，获取引用该链接地址信息的第三网址信息数目，当该第三网址信息数目大于第一预设数值时，将该第二网站确定为恶意网站。

进一步地，该服务器可以在获取第三网址信息数目之前，根据实际应用的需要，设置第一预设数值，比如，可以将第一预设数值设置为2。当然，第一预设数值还可以是其它值，本申请对此不做具体限定。

例如，当第一预设数值为2，该服务器从超链接信息中获取到链接地址信息1时，该服务器从如下述表2所示的恶意链接索引库中，获取引用链接地址信息1的第三网址信息数目为3，确定第三网址信息数目3大于第一预设数值2，因此，将链接地址信息1对应的第二网站1识别为恶意网站。

表2

链接地址信息	第三网址信息
链接地址信息1	第三网址信息1
链接地址信息1	第三网址信息2
链接地址信息1	第三网址信息3
链接地址信息2	第三网址信息4
链接地址信息3	第三网址信息2
链接地址信息3	第三网址信息5
……	……

需要说明的是，本申请仅以上述表2所示的恶意链接索引库中包括的链接地址信息、第三网址信息为例进行说明，上述表2并不对本申请构成限定。

进一步地，该服务器可以在获取第三网址信息数目之前，将已识别为恶意网站的第三网站对应的第三网址信息和第三网站所引用的链接地址信息存储在恶意链接索引库中。

进一步地，在该第三网址信息数目大于第一预设数值，并将该第二网站确定为恶意网站之后，还可以将该链接地址信息存储到恶意信息数据库中，当该服务器需要再次对该第二网站进行识别时，可以根据该恶意信息数据库中的链接地址信息，将该第二网站识别为恶意网站，提高了识别恶意网站的效率。

另外，在步骤201中识别第一网站时，也可以通过上述方式从恶意链接索引库中，获取引用了第一网址信息的第三网址信息数目，当获取的第三网址信息数目大于第一预设数值时，将第一网站识别为恶意网站。

第二种方式，从存储的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目，当该特定词语数目大于第二预设数值时，将该第二网站确定为恶意网站。

其中，由于第三网站在引用该链接地址信息时，通常还会在与该链接地址信息位于同一显示区域，通过文字信息对该链接地址信息进行说明，或者对该第二网站类型进行说明，因此，为了增加识别第二网站是否为恶意网站的准确率，恶意链接索引库中还可以包括第一上下文信息，第一上下文信息即为第三网站的页面内容中与该链接地址信息位于同一显示区域的文字信息，所以该服务器可以从存储的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目，进而在该特定词语数目大于第二预设数值时，将该第二网站确定为恶意网站。

需要说明的是，该服务器可以在获取第一上下文信息之前，根据实际应用需要，设置第二预设数值，比如，第二预设数值可以为3，当然，第二预设数值还可以为其它数值，本申请对此不做具体限定。

例如，当第二预设数值为3，特定词语为“***”，该服务器从超链接信息中获取到链接地址信息1时，该服务器从如下述表3所示的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目为4，确定该特定词语数目4大于第二预设数值3，因此，将第二网站识别为恶意网站。

表3

链接地址信息	第三网址信息	第一上下文信息
链接地址信息1	第三网址信息1	***地理
链接地址信息1	第三网址信息2	***
链接地址信息1	第三网址信息3	******
链接地址信息2	第三网址信息4	教育科学
链接地址信息3	第三网址信息2	天文新闻
链接地址信息3	第三网址信息5	生活百科
……	……

需要说明的是，本申请仅以上述表3所示的恶意链接索引库中包括的链接地址信息、第三网址信息和第一上下文信息为例进行说明，上述表3并不对本申请构成限定。

进一步地，该服务器可以在获取第一上下文信息中包括的特定词语数目之前，将已识别为恶意网站的第三网站对应的第三网址信息、第三网站所引用的链接地址信息和第一上下文信息存储在恶意链接索引库中。

另外，该服务器还可以通过其它方式，根据预设条件，对该超链接信息所链接的第二网站进行识别，比如，该服务器可以同时从存储的恶意链接索引库中，获取第三网址信息数目和第一上下文信息中包括的特定词语数目，并在第三网址数目大于第一预设数值且特定词语数目大于第二预设数值时，将第二网站识别为恶意网站，本申请对此不做具体限定。

步骤204：对于该至少一个第二网站中任一第二网站，当该第二网站不为恶意网站且该第一网站为恶意网站时，将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到所述恶意链接索引库中。

由于当第一网站为恶意网站时，第一网站所引用的第二网站也很可能是恶意网站，因此，为了进一步提高识别第二网站是否为恶意网站的准确性，当该服务器通过步骤201至步骤203将第一网站识别为恶意网站，但未将第二网站识别为恶意网站时，该服务器可以将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到恶意链接索引库中，之后，当该服务器再次对引用了该第二网站对应的链接地址信息的网站进行识别时，还可以对该第二网站进行进一步识别，以确定该第二网站是否为恶意网站。

需要说明的是，第二上下文信息为第一网站的页面内容中与第二网站对应的链接地址信息位于同一显示区域的文字信息。

另外，当该服务器对第一网站和至少一个第二网站中的任一第二网站进行识别时，除上述将第一网站识别为恶意网站，但未将第二网站识别为恶意网站的结果外，可能会包括下述三种结果：第一种结果，将第一网站和第二网站均识别为恶意网站；第二种结果，将第二网站识别为恶意网站，将第一网站识别为非恶意网站；第三种结果，将第一网站和第二网站均识别为非恶意网站。

需要说明的是，该服务器在对第一网站和至少一个第二网站中的任一第二网站进行识别之后，还应该将识别为恶意网站的第一网站或者第二网站存储在该恶意信息数据库中。具体地，对于第一种结果，该服务器可以将第一网址信息和第二网站对应的链接地址信息均存储在该恶意信息数据库中；对于第二种结果，该服务器可以将第二网站对应的链接地址信息存储到该恶意信息数据库中；对于第四种结果，该服务器可以不存储第一网址信息和第二网站对应的链接地址信息。

在本申请中，当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，并从该第一网站的页面内容中获取至少一个超链接信息，进而基于该至少一个超链接信息，分别对该至少一个超链接信息所链接的第二网站进行识别，即能够在对第一网站进行识别的同时，还能够识别第一网站的页面内容中超链接信息所链接的第二网站，提高了识别恶意网站的效率。另外，该服务器识别第二网站时，不需要下载第二网站的页面内容，而是基于存储的恶意信息数据库和恶意链接索引库中的数据，根据实际应用的不同需求，选择不同的预设条件对第二网站进行识别，在提高了识别恶意网站的效率的同时，也提高了识别恶意网站的灵活性。

图3为本申请提供的一种识别恶意网站装置示意图，参见图3，该装置包括第一识别模块301、获取模块302和第二识别模块303。

第一识别模块301，用于当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，该恶意网站查询请求中携带该第一网址信息，该第一网址信息为该第一网站的网址信息；

获取模块302，用于对该第一网站进行识别之后，从该第一网站的页面内容中获取至少一个超链接信息；

第二识别模块303，用于基于该至少一个超链接信息，分别对至少一个第二网站进行识别，该至少一个第二网站为该至少一个超链接信息分别所链接的网站。

可选地，该获取模块包括：

第一获取单元，用于从该第一网站的页面内容中，获取至少一个超链接开始标签和至少一个超链接结束标签；

第一确定单元，用于从该第一网站的页面内容中，将目标超链接开始标签、目标超链接结束标签、以及该目标超链接开始标签与该目标超链接结束标签之间的信息确定为超链接信息，该目标超链接开始标签为该至少一个超链接开始标签中的任一超链接开始标签，该目标超链接结束标签与该目标超链接开始标签对应。

可选地，该第二识别模块包括：

第二获取单元，用于对于该至少一个超链接信息中的每个超链接信息，从该超链接信息中获取链接地址信息；

判断单元，用于判断存储的恶意信息数据库中是否存在该链接地址信息；

第二确定单元，用于当该恶意信息数据库中存在该链接地址信息时，确定该超链接信息所链接的第二网站为恶意网站。

可选地，该第二识别模块还包括：

识别单元，用于当该信息数据库中不存在该链接地址信息时，根据预设条件，对该超链接信息所链接的第二网站进行识别。

可选地，该识别单元包括：

第一获取子单元，用于从存储的恶意链接索引库中，获取第三网址信息数目，第三网址信息为第三网站的网址信息，且该链接地址信息被该第三网站所引用；

第一确定子单元，用于当该第三网址信息数目大于第一预设数值时，将该第二网站确定为恶意网站。

可选地，该识别单元包括：

第二获取子单元，用于从存储的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目，该第一上下文信息为第三网站的页面内容中与该链接地址信息位于同一显示区域的文字信息；

第二确定子单元，用于当该特定词语数目大于第二预设数值时，将该第二网站确定为恶意网站。

可选地，该装置还包括：

第一存储模块，用于对于该至少一个第二网站中任一第二网站，当该第二网站为恶意网站时，将该第二网站对应的链接地址信息存储到该恶意信息数据库中。

可选地，该装置还包括：

第二存储模块，用于对于该至少一个第二网站中任一第二网站，当该第二网站不为恶意网站且该第一网站为恶意网站时，将该第二网站对应的链接地址信息、该第一网址信息和第二上下文信息存储到该恶意链接索引库中，该第二上下文信息为该第一网站的页面内容中与该第二网站对应的链接地址信息位于同一显示区域的文字信息。

综上所述，在本申请中，当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，并从该第一网站的页面内容中获取至少一个超链接信息，进而基于该至少一个超链接信息，分别对该至少一个超链接信息所链接的第二网站进行识别，即能够在对第一网站进行识别的同时，还能够识别第一网站的页面内容中超链接信息所链接的第二网站，提高了识别恶意网站的效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4为本申请一个实施例提供的另一种识别恶意网站装置结构示意图。该装置可以是服务器，该服务器可以是后台服务器集群中的服务器。参照图4，具体来讲：

服务器400包括中央处理单元(CPU)401、包括随机存取存储器(Random Access Memory，RAM)402和只读存储器(Read-Only Memory，ROM)403的***存储器404，以及连接***存储器404和中央处理单元401的***总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)406，和用于存储操作***413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出***406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到***总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出***406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到***总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器404和大容量存储设备407可以统称为存储器。

根据本申请的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在***总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请提供的如下所述的识别恶意网站方法的指令，包括：

当接收到恶意网站查询请求时，基于第一网址信息，对第一网站进行识别，该恶意网站查询请求中携带该第一网址信息，该第一网址信息为该第一网站的网址信息。

对该第一网站进行识别之后，从该第一网站的页面内容中获取至少一个超链接信息。

基于该至少一个超链接信息，分别对至少一个第二网站进行识别，该至少一个第二网站为该至少一个超链接信息分别所链接的网站。

判断存储的恶意信息数据库中是否存在该链接地址信息；

需要说明的是：上述实施例提供的识别恶意网站的装置在识别恶意网站时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的识别恶意网站的装置与识别恶意网站的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内

在前述场景的基础上，本实施例所提供的装置作为硬件实体的一个示例如图5所示，包括处理器、存储介质以及至少一个外部通信接口；所述处理器、存储介质以及外部通信接口均通过总线连接。

本申请装置的处理器执行以下处理：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，如本申请中，该程序可存储于计算机***的存储介质中，并被该计算机***中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、ROM或RAM等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种识别恶意网站的方法，所述方法包括：

当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息；

基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息；

基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。
如权利要求1所述的方法，其中，所述从所述第一网站的页面内容中获取至少一个超链接信息，包括：

从所述第一网站的页面内容中，获取至少一个超链接开始标签和至少一个超链接结束标签；

从所述第一网站的页面内容中，将目标超链接开始标签、目标超链接结束标签、以及所述目标超链接开始标签与所述目标超链接结束标签之间的信息确定为超链接信息，所述目标超链接开始标签为所述至少一个超链接开始标签中的任一超链接开始标签，所述目标超链接结束标签与所述目标超链接开始标签对应。
如权利要求1所述的方法，其中，所述基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，包括：

对于所述至少一个超链接信息中的每个超链接信息，从所述超链接信息中获取链接地址信息；

判断存储的恶意信息数据库中是否存在所述链接地址信息；

当所述恶意信息数据库中存在所述链接地址信息时，确定所述超链接信息所链接的第二网站为恶意网站。
如权利要求3所述的方法，其中，所述判断存储的信息数据库中是否存在所述链接地址信息之后，还包括：

当所述信息数据库中不存在所述链接地址信息时，根据预设条件，对所述超链接信息所链接的第二网站进行识别。
如权利要求所述4所述到的方法，其中，所述根据预设条件，对所述超链接信息所链接的第二网站进行识别，包括：

从存储的恶意链接索引库中，获取第三网址信息数目，第三网址信息为第三网站的网址信息，且所述链接地址信息被所述第三网站所引用；

当所述第三网址信息数目大于第一预设数值时，将所述第二网站确定为恶意网站。
如权利要求所述4所述到的方法，其中，所述根据预设条件，对所述超链接信息所链接的第二网站进行识别，包括：

从存储的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目，所述第一上下文信息为第三网站的页面内容中与所述链接地址信息位于同一显示区域的文字信息；

当所述特定词语数目大于第二预设数值时，将所述第二网站确定为恶意网站。
如权利要求3-6任一权利要求所述的方法，其中，所述基于所述至少一个超链接信息，分别对至少一个第二网站进行识别之后，还包括：

对于所述至少一个第二网站中任一第二网站，当所述第二网站为恶意网站时，将所述第二网站对应的链接地址信息存储到所述恶意信息数据库中。
如权利要求3-6任一权利要求所述的方法，其中，所述基于所述至少一个超链接信息，分别对至少一个第二网站进行识别之后，还包括：

对于所述至少一个第二网站中任一第二网站，当所述第二网站不为恶意网站且所述第一网站为恶意网站时，将所述第二网站对应的链接地址信息、所述第一网址信息和第二上下文信息存储到所述恶意链接索引库中，所述第二上下文信息为所述第一网站的页面内容中与所述第二网站对应的链接地址信息位于同一显示区域的文字信息。
一种识别恶意网站的装置，所述装置包括：

第一识别模块，配置为当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息；

获取模块，配置为基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息；

第二识别模块，配置为基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。
如权利要求9所述的装置，其中，所述获取模块包括：

第一获取单元，配置为从所述第一网站的页面内容中，获取至少一个超链接开始标签和至少一个超链接结束标签；

第一确定单元，配置为从所述第一网站的页面内容中，将目标超链接开始标签、目标超链接结束标签、以及所述目标超链接开始标签与所述目标超链接结束标签之间的信息确定为超链接信息，所述目标超链接开始标签为所述至少一个超链接开始标签中的任一超链接开始标签，所述目标超链接结束标签与所述目标超链接开始标签对应。
如权利要求9所述的装置，其中，所述第二识别模块包括：

第二获取单元，配置为对于所述至少一个超链接信息中的每个超链接信息，从所述超链接信息中获取链接地址信息；

判断单元，配置为判断存储的恶意信息数据库中是否存在所述链接地址信息；

第二确定单元，配置为当所述恶意信息数据库中存在所述链接地址信息时，确定所述超链接信息所链接的第二网站为恶意网站。
如权利要求11所述的装置，其中，所述第二识别模块还包括：

识别单元，配置为当所述信息数据库中不存在所述链接地址信息时，根据预设条件，对所述超链接信息所链接的第二网站进行识别。
如权利要求所述12所述到的装置，其中，所述识别单元包括：

第一获取子单元，配置为从存储的恶意链接索引库中，获取第三网址信息数目，第三网址信息为第三网站的网址信息，且所述链接地址信息被所述第三网站所引用；

第一确定子单元，配置为当所述第三网址信息数目大于第一预设数值时，将所述第二网站确定为恶意网站。
如权利要求所述12所述到的装置，其中，所述识别单元包括：

第二获取子单元，配置为从存储的恶意链接索引库中，获取第一上下文信息中包括的特定词语数目，所述第一上下文信息为第三网站的页面内容中与所述链接地址信息位于同一显示区域的文字信息；

第二确定子单元，配置为当所述特定词语数目大于第二预设数值时，将所述第二网站确定为恶意网站。
如权利要求11-14任一权利要求所述的装置，其中，所述装置还包括：

第一存储模块，配置为对于所述至少一个第二网站中任一第二网站，当所述第二网站为恶意网站时，将所述第二网站对应的链接地址信息存储到所述恶意信息数据库中。
如权利要求11-14任一权利要求所述的装置，其中，所述装置还包括：

第二存储模块，配置为对于所述至少一个第二网站中任一第二网站，当所述第二网站不为恶意网站且所述第一网站为恶意网站时，将所述第二网站对应的链接地址信息、所述第一网址信息和第二上下文信息存储到所述恶意链接索引库中，所述第二上下文信息为所述第一网站的页面内容中与所述第二网站对应的链接地址信息位于同一显示区域的文字信息。
一种计算机存储介质，该存储介质包括一组指令，当执行所述指令时，引起至少一个处理器执行包括以下的操作：

当接收到恶意网站查询请求时，基于所述恶意网站查询请求中携带的第一网址信息，对第一网站进行识别得到识别结果；其中，所述第一网址信息为该第一网站的网址信息；

基于对该第一网站的识别结果，从该第一网站的页面内容中获取至少一个超链接信息；

基于所述至少一个超链接信息，分别对至少一个第二网站进行识别，所述至少一个第二网站为所述至少一个超链接信息分别所链接的网站。