CN110929257B

CN110929257B - 一种网页中携带恶意代码的检测方法和装置

Info

Publication number: CN110929257B
Application number: CN201911040978.XA
Authority: CN
Inventors: 侯贺明; 王赟; 黄华桥; 程波; 曾伟; 谭国权; 李明栋
Original assignee: Wuhan Greenet Information Service Co Ltd
Current assignee: Wuhan Greenet Information Service Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-02-01
Anticipated expiration: 2039-10-30
Also published as: CN110929257A

Abstract

本发明涉及互联网技术领域，提供了一种网页中携带恶意代码的检测方法和装置。方法包括使用搜索引擎爬虫的User‑agent，赋值第一网址请求消息中的User_agent字段后，向待检测网页的地址发送第一网址请求消息；使用普通终端用户的User‑agent，赋值第二网址请求消息中的User_agent字段后，向待检测网页的地址发送第二网址请求消息；匹配第一响应消息和第二响应消息中所携带的内容，若匹配结果差异性大于预设条件，则将待检测网页标定为潜在携带恶意代码的网站。本发明通过模拟搜索引擎爬虫爬取网站首页内容，模拟正常用户爬取网站首页内容，并比较下标题的差异，对黑帽SEO类的挂马有很好的检测效果。

Description

一种网页中携带恶意代码的检测方法和装置

【技术领域】

本发明涉及互联网技术领域，特别是涉及一种网页中携带恶意代码的检测方法和装置。

【背景技术】

网页挂马是一种通俗的叫法，是指网页形式的恶意代码。网页恶意代码具体来说又分为两类，一类是通过修改原来的网页，把原来正常功能的网页变成了带有恶意功能的网页，这种修改包括但不限于：增加或修改网页的标题，meta字段，Javascirpt代码，Iframe标签等等。另外一类是指网页后门类，也叫做webshell，这种类型的恶意网页不是在原来的网页基础上修改得来的，而是全部内容都是黑客提供的恶意代码，是一个单独的文件。

对于第一种类型，有两种常用的利用方式，一是黑帽SEO(全称为：Search EngineOptimization)，二是浏览器漏洞利用。黑帽SEO本质上是利用黑客技术手段来欺骗搜索引擎，让本来不应该出现的网站网址出现在搜索引擎的检测结果页面上，这样一来，用户就可以在搜索引擎上搜索到相关的非法网站网址。对于黑帽SEO，技术实现方式多种多样，一些常见的方法如暗链、关键词堆砌、蜘蛛欺骗、寄生虫技术等等。但是，针对其有效实现识别和检测的方法手段却非常稀缺。

鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

【发明内容】

本发明要解决的技术问题是现有技术缺少一种手段能够针对黑帽SEO，针对蜘蛛欺骗技术和关键词堆砌进行有效的检测。

本发明进一步要解决的技术问题是提供一种网页中携带恶意代码的检测方法和装置。

本发明采用如下技术方案：

第一方面，本发明提供了一种网页中携带恶意代码的检测方法，包括：

使用搜索引擎爬虫的User-agent，赋值第一网址请求消息中的User_agent字段后，向待检测网页的地址发送第一网址请求消息；

接收所述待检测网页返回的第一响应消息，并存储所述响应消息中携带的网页标题、正文内容、HTML标签中的一项或者多项；

使用普通终端用户的User-agent，赋值第二网址请求消息中的User_agent字段后，向待检测网页的地址发送第二网址请求消息；

接收所述待检测网页返回的第二响应消息，并存储所述响应消息中携带的网页标题、正文内容、HTML标签中的一项或者多项；

匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站。

优选的，所述匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站，具体包括：

匹配所述第一响应消息和第二响应消息中所携带的网页标题，若匹配结果为不完全相同，则将所述待检测网页标定为潜在携带恶意代码的网站；

其中，匹配结果差异性大于预设条件，具体为所述若匹配结果为不完全相同。

优选的，所述待检测网页标定为潜在携带恶意代码的网站之后，所述方法还包括：

根据匹配出的第一响应消息和第二响应消息中所携带的网页标题中的差异性字节，与非法网站关键词库进行匹配，若匹配成功则将所述潜在携带恶意代码的网站，标注为确信携带恶意代码的网站。

根据匹配出的第一响应消息和第二响应消息中所携带的网页标题中的差异性字节，与非法网站关键词库进行匹配，若匹配不成功则将所述潜在携带恶意代码的网站，标注为正常网站；

在后续需要再次针对所述网站进行是否携带恶意代码的检测时，则直接将本轮匹配出的差异性字节与前一轮匹配出的差异字节进行匹配，若匹配上则仍然标注其为正常网站；其中，所述的前一轮为所述标注为正常网站的一轮。

若连续指定轮数根据网页标题匹配结果都是正常网站，则进一步进行所述正文内容与非法网站关键词库的匹配过程，完成二级验证；

若二级验证确定为正常网站，则后续仍然按照连续指定轮数根据网页标题匹配结果都是正常网站，则进行一轮二级验证的周期过程。

匹配所述第一响应消息和第二响应消息中所携带的HTML标签，若匹配结果为HTML标签对不完全一致，则将所述待检测网页标定为潜在携带恶意代码的网站；

其中，匹配结果差异性大于预设条件，具体为所述若匹配结果为HTML标签对不完全一致。

优选的，所示方法还包括：使用非法网站关键词库，匹配所述第一响应消息和第二响应消息中携带的正文内容，若匹配结果为正文内容与非法网站关键词库匹配成功的数量超过第一预设阈值，则标注为确信携带恶意代码的网站。

优选的，所述搜索引擎爬虫的User-agent类型，包括百度、搜狗、谷歌、360中的一种或者多种。

第二方面，本发明还提供了一种网页中携带恶意代码的检测方法和装置，用于实现第一方面所述的网页中携带恶意代码的检测方法，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行第一方面所述的网页中携带恶意代码的检测方法。

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的网页中携带恶意代码的检测方法。

本发明通过主动模拟搜索引擎爬虫爬取网站首页的方法来检测网站是否挂马，模拟搜索引擎爬虫爬取网站首页内容，模拟正常用户爬取网站首页内容，并比较两种情况下标题的差异，对黑帽SEO类的挂马有很好的检测效果。

本发明优选方案中还引入了检查HTML页面中HTML标签对匹配情况，通过HTML页面结构的异常来判断是否被注入恶意代码；以及通过关键字列表来匹配正文内容，来判断网页是否在做黑帽SEO推广或者被恶意代码攻击。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网页中携带恶意代码的检测方法的流程示意图；

图2是本发明实施例提供的一种改良型的网页中携带恶意代码的检测方法的流程示意图；

图3是本发明实施例提供的一种基于正文内容的网页中携带恶意代码的检测方法的流程示意图；

图4是本发明实施例提供的一种典型的网页中携带恶意代码的检测方法的流程示意图；

图5是本发明实施例提供的一种网页中携带恶意代码的检测装置结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

当黑客入侵网站后，想要通过黑帽SEO手段来变现，一个普遍采用的方法是，蜘蛛欺骗结合关键字堆砌。蜘蛛欺骗具体的手法是，修改网站首页的页面源代码，增加一段Javascript代码，此段代码用来判断来访者的身份，具体实现方式是比较来访者的User-agent，如果发现来访者是搜索引擎的爬虫，如百度，必应，谷歌等等，那么就返回一个黑客自己设置的页面标题和页面Meta信息；如果发现来访者是普通用户，那么就返回网站原来的页面，不修改页面的标题和内容。关键字堆砌的手法是，黑客为了提高网页页面对某个关键字的权重，在此页面的标题，Meta标签，内容等位置大量堆砌此关键字或者相关的关键字。

我们检测此种挂马网页的方法如下：

设置一个正常用户的User-agent对目标网站的首页发起访问，其次设置一个搜索引擎的User-agent对目标网站的首页发起访问，然后比较两次访问得到的HTML页面的源码中TITLE标签的内容，如果发现网页的标题不一样，那么说明有可能是网页挂马，而且是黑帽SEO中的蜘蛛欺骗技术。

本发明方法是事先准备一个关键字列表(在本发明实施例中也被描述为非法网站关键词库)，这个列表中包含了常用的目标关键字，然后根据搜索引擎User-agent爬取的目标网站首页，在这个首页源码中检索关键字，如果可以匹配，则判定为网页挂马。其中，正常用户的User-agent可以做成一个列表，其中涵盖典型的浏览器User-agent；搜索引擎的User-agent同样也可以做成一个列表，其中包含几种主流的搜索引擎，如百度，谷歌，必应等等；每次可以从列表中随机选取一个User-agent。对于关键字列表，在匹配的时候，为了防止误报，可以设置一个阈值作为最少匹配次数，只有达到了这个阈值，才算做是匹配命中。

上面所述的检测title标题的变化是其中的一种方法，除此之外，我们发现黑客在修改HTML网页源码时，经常会破坏掉原有的HTML的格式(因为其要将自身的内容融入到正常网页中，很难保证原始格式的一致性)，比较典型的有两种，一是在HTML网页中引入了多个title标签；二是在<html>标签之前引入了新数据，或者是在</html>标签之后引入了新数据。因为一个HTML文件以<html>和</html>为开始和结束的标志，如果在它们之外引入了其它的数据，那么这些数据有可能是黑客注入的恶意代码。

本文中涉及到的检测方法是有适用范围的，具体而言是，针对第一类网页挂马，针对黑帽SEO，针对蜘蛛欺骗技术和关键词堆砌这种技术手段。换句话说，我们通过大量分析这一类型恶意网页代码，发现了此类型恶意代码的一些共同的行为和特征，基于这些共性的行为和特征，针对性的提出了本文中的检测方法。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

本发明实施例1提供了一种网页中携带恶意代码的检测方法，如图1所示，包括：

在步骤201中，使用搜索引擎爬虫的User-agent，赋值第一网址请求消息中的User_agent字段后，向待检测网页的地址发送第一网址请求消息。

其中，所述搜索引擎爬虫的User-agent类型，包括百度、搜狗、谷歌、360中的一种或者多种。

在步骤202中，接收所述待检测网页返回的第一响应消息，并存储所述响应消息中携带的网页标题、正文内容、HTML标签中的一项或者多项。

在步骤203中，使用普通终端用户的User-agent，赋值第二网址请求消息中的User_agent字段后，向待检测网页的地址发送第二网址请求消息。

在步骤204中，接收所述待检测网页返回的第二响应消息，并存储所述响应消息中携带的网页标题、正文内容、HTML标签中的一项或者多项。

在步骤205中，匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站。

本发明实施例通过主动模拟搜索引擎爬虫爬取网站首页的方法来检测网站是否挂马，模拟搜索引擎爬虫爬取网站首页内容，模拟正常用户爬取网站首页内容，并比较两种情况下标题的差异，对黑帽SEO类的挂马有很好的检测效果。

在本发明实施例中，对于所述匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站，提供了至少以下优选的方式：

方式一：

在具体实现时，通常在所述待检测网页标定为潜在携带恶意代码的网站之后，所述方法还包括：

因为，实际情况中，对于服务器所维护的列表中的网页地址是需要进行周期性的安全性验证，即执行本发明实施例所述步骤201-205的方法过程，以便能够验证其是否携带上了恶意代码，因此，在本发明实施例所提出的方式一中，对于已经完成一轮验证为正常网站时候，紧接的下一轮或者下面几轮是可以采用如下的优选方案提高检测效率的检测方式，尤其适用于在进行步骤202和步骤204中所获取到的网页标题匹配必定存在差异的情况，所述待检测网页标定为潜在携带恶意代码的网站之后，如图2所示，所述方法还包括：

在步骤301中，根据匹配出的第一响应消息和第二响应消息中所携带的网页标题中的差异性字节，与非法网站关键词库进行匹配，若匹配不成功则将所述潜在携带恶意代码的网站，标注为正常网站。

在步骤302中，在后续需要再次针对所述网站进行是否携带恶意代码的检测时，则直接将本轮匹配出的差异性字节与前一轮匹配出的差异字节进行匹配，若匹配上则仍然标注其为正常网站；其中，所述的前一轮为所述标注为正常网站的一轮。

本发明实施例方式一存在的意义在于，对于在正常网页中恶意串改代码的行为，其根本目的是为了宣传自身的网站内容，因此，无论是直接修改正常网站，还是进行链接的跳转，最终表现结果都是在网页标题上能够产生实质差异，并且，相应差异字节较大概率上就是非法网站关键词库内记载的。因此，本发明实施例方式一直接定标与网页标题上的手段，分析所占用的资源更少，效率更高，适合于大列表中包含大量网站需要标注的场合。

然而，在测试的过程中，发现有些网站，即便其自身是正常的网站，但是，其为了维护自身会员的或者直登用户的特权，会给携带搜索引擎爬虫的User-agent类型返回与普通终端用户的User-agent直接登录差异性的网页标题，即会发生上述的第一响应消息和第二响应消息中携带的网页标题不一致，因此，才有了上述的先将所述待检测网页标定为潜在携带恶意代码的网站，并通过将相应差异字节与非法网站关键词库进行匹配进行确标。

对于多次网页标题匹配都确标为正常网站的情况，则进行一次更耗费资源的网页中携带的正文内容的全面匹配过程，从而达到全面验证的效果。这样的实现方式，不仅可以保证最终验证的结果的可靠性，并且，实现了一种分级式的验证过程；因此，本发明实施例对此还提供了一种优选的方案，所述待检测网页标定为潜在携带恶意代码的网站之后，如图3所示，所述方法还包括：

在步骤401中，若连续指定轮数根据网页标题匹配结果都是正常网站，则进一步进行所述正文内容与非法网站关键词库的匹配过程，完成二级验证。

在步骤402中，若二级验证确定为正常网站，则后续仍然按照连续指定轮数根据网页标题匹配结果都是正常网站，则进行一轮二级验证的周期过程。

上述步骤401和步骤402则是从严谨性的考虑，在优选的方案中，除了按照步骤401和402所描述的指定轮数外，还可以将服务器的计算资源占用情况考量进来，即在服务器计算器资源占用较低情况下，优选的将待进行二级验证的网站调取出来进行二级验证。

方式二：

和方式一中考虑的因素一样，即存在待检测网页所属的平台方，针对普通用户访问和搜索引擎爬虫方式做了差异化的响应，此时，通过上述方式二是不好直接得出结论的，因此，才有了上述的标定为潜在携带恶意代码的网站。

此时，为了完成严谨的校验过程，通常还包括以下内容：使用非法网站关键词库，匹配所述第一响应消息和第二响应消息中携带的正文内容，若匹配结果为正文内容与非法网站关键词库匹配成功的数量超过第一预设阈值，则标注为确信携带恶意代码的网站。

需要说明的是，在具体实现方式中，方式一和方式二也可以直接组合起来使用，并且可以通过统计来提高两者结合方式的准确性；即本发明实施例方案中，涉及到对正文内容的匹配过程，就已经达到最底层的分析了，因此，若将网页标题的匹配一致性和HTML标签对的匹配一致性，同时满足存在差异，即得到该检验网站是被携带恶意代码，若其准确性可达到99％，则可以作为本发明可选的第三种实现方式，并且，可以直接跳过正文内容与非法网站关键词库的匹配。当然，其可行性需要进一步的测试实验论证，但是属于潜在可行的实现方式。同样应该属于本发明实施例的保护范围内。

实施例2：

本发明实施例将基于百度搜索引擎爬虫的User-agent，阐述本发明实施例1中所描述的步骤201-步骤204中实现网页标题获取的过程，网站的首页，存储页面内容为Page_1。这里搜索引擎选取主流搜索引擎如百度，这里设置搜索引擎爬虫User-agent为百度爬虫的User-agent，即：

Mozilla/5.0(compatible；Baiduspider/2.0；+http://www.***.com/search/spider.html)。如图4所示，具体的：

在步骤501中，使用百度搜索引擎爬虫的User-agent，爬取网站的首页，存储页面内容为Page_1；爬取网站时(即实施例1中所描述的发送第一网址请求消息)，只需要爬取网站的首页内容，不需要爬取全部页面，以www.example.com为例，这里如果提供的是一个域名，而不是带有协议字段的URL，那么我们要首先判断目标域名的协议是http还是https，判断方法是探测域名对应IP地址的80和443端口，如果目标域名既提供http服务也提供https服务，那么我们应该选取https服务。如果提供的是一个完整的URL地址，如http://www.example.com/，那么我们可以直接访问此网站，获取首页文件内容。当我们获取了网站首页之后，需要对网站首页内容做适当的解码，这里的解码指的是把字节数据解码为字符串数据，为后续的检索做准备。

在步骤502中，使用主流浏览器的User-agent来爬取网站的首页，存储页面内容为Page_2。具体来说，这里浏览器可以选取主流浏览器如Chrome，IE，Firefox，Safari等。爬取网站时，只需要爬取网站的首页内容，不需要爬取全部页面。当我们获取了网站首页之后，需要对网站首页内容做适当的解码，这里的解码指的是把字节数据解码为字符串数据，为后续的检索做准备。

在步骤503中，从页面内容中提取标题。从步骤501和502中提供的Page_1和Page_2中分别提取标题，记为Title_1和Title_2。具体来说，这里的标题指的是HTML中的两个标签<title>和</title>之间的数据。少数情况下，某个HTML页面中会出现多个标题标签，这本身表示此HTML网页的结构是损坏的，如果我们碰到此种情况，则取第一个title标签作为此页面的标题。

实施例3：

如图5所示，是本发明实施例的网页中携带恶意代码的检测装置的架构示意图。本实施例的网页中携带恶意代码的检测装置包括一个或多个处理器21以及存储器22。其中，图5中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的网页中携带恶意代码的检测方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行网页中携带恶意代码的检测方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的网页中携带恶意代码的检测方法，例如，执行以上描述的图1-图4所示的各个步骤。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页中携带恶意代码的检测方法，其特征在于，包括：

匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站；

所述待检测网页标定为潜在携带恶意代码的网站之后，所述方法还包括：

2.根据权利要求1所述的网页中携带恶意代码的检测方法，其特征在于，所述匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站，具体包括：

3.根据权利要求2所述的网页中携带恶意代码的检测方法，其特征在于，所述待检测网页标定为潜在携带恶意代码的网站之后，所述方法还包括：

4.根据权利要求1所述的网页中携带恶意代码的检测方法，其特征在于，所述待检测网页标定为潜在携带恶意代码的网站之后，所述方法还包括：

5.根据权利要求1所述的网页中携带恶意代码的检测方法，其特征在于，所述匹配所述第一响应消息和第二响应消息中所携带的，所述网页标题、正文内容、HTML标签中的一项或者多项，若匹配结果差异性大于预设条件，则将所述待检测网页标定为潜在携带恶意代码的网站，具体包括：

6.根据权利要求5所述的网页中携带恶意代码的检测方法，其特征在于，所示方法还包括：使用非法网站关键词库，匹配所述第一响应消息和第二响应消息中携带的正文内容，若匹配结果为正文内容与非法网站关键词库匹配成功的数量超过第一预设阈值，则标注为确信携带恶意代码的网站。

7.根据权利要求1-6任一所述的网页中携带恶意代码的检测方法，其特征在于，所述搜索引擎爬虫的User-agent类型，包括百度、搜狗、谷歌、360中的一种或者多种。

8.一种网页中携带恶意代码的检测装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行权利要求1-7任一所述的网页中携带恶意代码的检测方法。