CN110162973A

CN110162973A - 一种Webshell文件检测方法及装置

Info

Publication number: CN110162973A
Application number: CN201910440465.1A
Authority: CN
Inventors: 任方英
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-23
Anticipated expiration: 2039-05-24
Also published as: CN110162973B

Abstract

本申请实施例提供了一种Webshell文件检测方法及装置，包括：获取待检测文件；计算待检测文件的哈希值，作为目标哈希值；检测预设哈希值库中是否存储有目标哈希值，预设哈希值库中存储有Webshell文件的哈希值；若未存储目标哈希值，则按照预设检测方式，检测待检测文件是否为Webshell文件；若存储有目标哈希值，则确定待检测文件为Webshell文件。应用本申请实施例提供的技术方案，降低了WebShell文件检测中耗费的人工成本。

Description

一种Webshell文件检测方法及装置

技术领域

本申请涉及网络安全技术领域，特别是涉及一种Webshell文件检测方法及装置。

背景技术

随着计算机与网络的普及，各种Web(网络)应用层出不穷，Web安全漏洞也与日俱增，攻击者通过Web漏洞上传WebShell文件对网站服务器进行攻击的形势也日益严峻。为了提高网络安全性，这就要求网站管理员能及时、快速、准确的检测网站服务器是否被上传了WebShell文件。

目前，主要采用特征库的方式识别WebShell文件。具体的，检测设备获取大量的WebShell文件，从WebShell文件中提取特征码，将提取到的大量WebShell文件的特征码添加至特征库中。当一个文件的特征码与特征库中的特征码，检测设备可确定该文件为WebShell文件。

针对已知的海量的WebShell文件，为识别出每一WebShell文件，特征库中包括的特征码将非常多，维护困难，人工成本高。

发明内容

本申请实施例的目的在于提供一种Webshell文件检测方法及装置，以降低WebShell文件检测中耗费的人工成本。具体技术方案如下：

第一方面，本申请实施例提供了一种Webshell文件检测方法，所述方法包括：

获取待检测文件；

计算所述待检测文件的哈希值，作为目标哈希值；

检测预设哈希值库中是否存储有所述目标哈希值，所述预设哈希值库中存储有Webshell文件的哈希值；

若未存储所述目标哈希值，则按照预设检测方式，检测所述待检测文件是否为Webshell文件；

若存储有所述目标哈希值，则确定所述待检测文件为Webshell文件。

第二方面，本申请实施例提供了一种Webshell文件检测装置，所述方法包括：

获取单元，用于获取待检测文件；

检测单元，用于计算所述待检测文件的哈希值，作为目标哈希值；检测预设哈希值库中是否存储有所述目标哈希值，所述预设哈希值库中存储有Webshell文件的哈希值；

处理单元，用于若未存储所述目标哈希值，则按照预设检测方式，检测所述待检测文件是否为Webshell文件；若存储有所述目标哈希值，则确定所述待检测文件为Webshell文件。

第三方面，本申请实施例提供了一种网络设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现上述Webshell文件检测方法的任一步骤。

第四方面，本申请实施例提供了一种机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现上述Webshell文件检测方法的任一步骤。

本申请实施例提供的一种Webshell文件检测方法及装置，可基于待检测文件的哈希值和预设哈希值库，判断待检测文件是否为Webshell文件。可见，本申请实施例提供的技术方案中，只需要维护预设哈希值库中存储的Webshell文件的哈希值，哈希值作为静态指标，相对于动态指标的特征码，维持简单，降低了WebShell文件检测中耗费的人工成本。

当然，实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的Webshell文件检测方法的第一种流程示意图；

图2为本申请实施例提供的Webshell文件检测方法的第二种流程示意图

图3为本申请实施例提供的Webshell文件检测方法的第三种流程示意图；

图4为本申请实施例提供的机器学习模型训练的一种流程示意图；

图5为本申请实施例提供的Webshell文件检测方法的第四种流程示意图；

图6为本申请实施例提供的Webshell文件检测方法的第五种流程示意图；

图7为本申请实施例提供的Webshell文件检测装置的一种结构示意图；

图8为本申请实施例提供的Webshell文件检测装置中检测单元的一种结构示意图；

图9为本申请实施例提供的网络设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解，下面对本申请实施例中出现的词语进行解释说明。

WebShell文件，是一种以asp、php、jsp或者cgi等动态网页文件形式存在的命令执行环境，也可以将WebShell文件称做为一种网页后门。

OpCode(Operate Code，操作码)，是一种由解释器对脚本代码的分析后，生成的可以被脚本执行器直接运行的中间代码。

信息熵，是指离散随机事件的出现概率。一般把信息熵理解成某种特定信息的出现概率。

压缩率，是指文件压缩后的大小与压缩前的大小之比。

重合指数，是数学计算用的函数的一种，用于计算文本中相同字母的概率。

最长单词长度，是指数据中由指定边界字符集合分割文本后，集合中字符个数的最大值。

目前，针对已知的海量的WebShell文件，为识别出每一WebShell文件，用于识别WebShell文件的特征库中包括的特征码会非常多，维护困难，人工成本高。

为降低WebShell文件检测中耗费的人工成本，本申请实施例提供的一种Webshell文件检测方法。该方法可以应用于防火墙设备、路由器、交换机等电子设备。该方法中，基于待检测文件的哈希值，判断待检测文件是否为Webshell文件。可见，本申请实施例提供的技术方案中，只需要维护预设哈希值库中存储的Webshell文件的哈希值，哈希值作为静态指标，相对于动态指标的特征码，维持简单，降低了WebShell文件检测中耗费的人工成本。

下面通过具体实施例，对本申请实施例提供的Webshell文件检测方法进行详细说明。为便于理解，下面以检测设备为执行主体进行说明。

参考图1，图1为本申请实施例提供的Webshell文件检测方法的第一种流程示意图。该方法包括如下步骤。

步骤101，获取待检测文件。

本申请实施例中，检测设备可以从网络报文中剥离得到待检测文件。检测设备也可以接收用户手动上传的文件，作为待检测文件。检测设备还可以通过部署在终端的代理软件收集文件，作为待检测文件。本申请实施例对获取待检测文件的方式不做具体限定。

步骤102，计算待检测文件的hash值，作为目标hash值。

检测设备获取到待检测文件后，计算待检测文件的hash值，作为目标hash值。

在一个可选的实施例中，检测设备获取到待检测文件后，移除待检测文件中的无效字符。其中，无效字符包括空白、注释等。检测设备计算移除无效字符后的待检测文件的哈希值，作为目标哈希值。这样，降低了无效字符对哈希值计算的影响，提高了后续Webshell文件检测的准确性。

步骤103，检测预设hash值库中是否存储有目标hash值。若存储有目标hash值，则执行步骤104。若未存储目标hash值，则执行步骤105。其中，预设hash值库中存储有Webshell文件的hash值。

步骤104，确定待检测文件为Webshell文件。

检测设备若检测到目标hash值存储在预设hash值库中，则可确定待检测文件为Webshell文件。

hash值为静态指标，一个文件具有一个hash值，一个hash值对应多个文件。特征码为动态指标，一个文件中会包括多个特征码，不同文件包括的特征码不同。

本申请实施例提供的技术方案中，只需要维护预设hash值库中存储的Webshell文件的hash值，hash值作为静态指标，相对于动态指标的特征码，维持简单，降低了WebShell文件检测中耗费的人工成本。

步骤105，按照预设检测方式，检测待检测文件是否为Webshell文件。

本申请实施例中，预设检测方式可以为基于特征库，检测待检测文件是否为Webshell文件。预设检测方式也可以为基于待检测文件的参数值、中间代码或调用的函数等信息检测待检测文件是否为Webshell文件。本申请实施例对此不进行限定。

另一个可选的实施例中，为提高Webshell文件检测的准确性，本申请实施例提供了一种Webshell文件检测方法。参考图2，图2为本申请实施例提供的Webshell文件检测方法的第二种流程示意图。该方法可以包括如下步骤。

步骤201，获取待检测文件。

步骤202，计算待检测文件的hash值，作为目标hash值。

步骤203，检测预设hash值库中是否存储有目标hash值。若存储有目标hash值，则执行步骤204。若未存储目标hash值，则执行步骤205。其中，预设hash值库中存储有Webshell文件的hash值。

步骤204，确定待检测文件为Webshell文件。

上述步骤201-204与步骤101-104相同。

步骤205，提取待检测文件中至少一种预设种类参数的待检测参数值。

本申请实施例中，预设种类参数可以包括信息熵、重合指数、压缩率和最长单词长度中的一种或多种。

检测设备从待检测文件中提取每一种预设种类参数的值，作为待检测参数值。例如，预设种类参数包括信息熵、重合指数、压缩率和最长单词长度。检测设备从待检测文件中提取信息熵的值，重合指数的值，压缩率的值，以及最长单词长度的值。

步骤206，根据提取的待检测参数值和每一种预设种类参数的权重，确定待检测文件的判定参数值。

一个实施例中，预设种类参数包括信息熵、重合指数、压缩率和最长单词长度。其中，信息熵的权重为x，重合指数的权重为y，压缩率的权重为m，最长单词长度的权重为n。检测设备获取到信息熵的值为E，重合指数的值为I，压缩率的值为C，最长单词长度的值为L。检测设备可确定待检测文件的判定参数值T＝x*E+y*I+m*C+n*L。

步骤207，检测判定参数值是否大于预设判定阈值。若大于预设判定阈值，则执行步骤208。

本申请实施例中，预设判定阈值可以根据实际需求进行设定。例如，实际中，Webshell文件的判定参数值大于等于50，则可确定预设判定阈值为50。

步骤208，确定待检测文件为Webshell文件，并将目标hash值存储至预设hash值库。

本申请实施例中，若检测到待检测文件的判定参数值大于预设判定阈值，检测设备可确定待检测文件符合Webshell文件的特征，确定待检测文件为Webshell文件。另外，为便于后续Webshell文件的检测，检测设备在确定待检测文件为Webshell文件后，将待检测文件的目标hash值存储至预设hash值库。

一个可选的实施例中，若检测到待检测文件的判定参数值小于等于预设判定阈值，则检测设备可确定待检测文件不是Webshell文件。

本申请实施例提供的技术方案中，结合待检测文件的hash值，以及至少一种预设种类参数，检测Webshell文件，考虑了Webshell文件在多个方面的特点，提高了Webshell文件检测的准确性。

另一个可选的实施例中，为提高Webshell文件检测的准确性，本申请实施例提供了一种Webshell文件检测方法。参考图3，图3为本申请实施例提供的Webshell文件检测方法的第三种流程示意图。该方法可以包括如下步骤。

步骤301，获取待检测文件。

步骤302，计算待检测文件的hash值，作为目标hash值。

步骤303，检测预设hash值库中是否存储有目标hash值。若存储有目标hash值，则执行步骤304。若未存储目标hash值，则执行步骤305。其中，预设hash值库中存储有Webshell文件的hash值。

步骤304，确定待检测文件为Webshell文件。

上述步骤301-304与步骤101-104相同。

步骤305，抽取待检测文件的中间代码。

其中，中间代码即为OpCode。

步骤306，利用中间代码和预先训练好的机器学习模型，得到待检测文件为Webshell文件的可靠度，其中，机器学习模型为根据带有标签的多个样本文件训练得到的模型，标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签。

本申请实施例中，机器学习模型可以为Xgboost算法，神经网络模型等。其中，待检测文件为Webshell文件的可靠度，可理解为待检测文件为Webshell文件的概率。

步骤307，检测待检测文件为Webshell文件的可靠度是否大于等于预设可靠度阈值。若是，则执行步骤308。

步骤308，确定待检测文件为Webshell文件，并将目标hash值存储至预设hash值库。

检测设备若检测到待检测文件为Webshell文件的可靠度大于等于预设可靠度阈值，则可确定待检测文件为Webshell文件。另外，为便于后续Webshell文件的检测，检测设备在确定待检测文件为Webshell文件后，将待检测文件的目标hash值存储至预设hash值库。

一个可选的实施例中，若检测到待检测文件为Webshell文件的可靠度小于预设可靠度阈值，则检测设备可确定待检测文件不是Webshell文件。

本申请实施例提供的技术方案中，结合待检测文件的hash值，以及机器学习模型，检测Webshell文件，考虑了Webshell文件在多个方面的特点，提高了Webshell文件检测的准确性。

另外，无论Webshell文件做各种编码、混淆和加密等操作，最终Webshell文件均需要转换中间代码。本申请实施例提供的技术方案中，利用中间代码检测待检测文件是否为Webshell文件，解决了针对编码、混淆和加密等操作未知Webshell文件，特征码无法识别的方案。

一个可选的实施例中，机器学习模型为Xgboost算法。机器学习模型的训练过程如图4所示。机器学习模型的训练过程可以由检测设备实现，也可以有其他设备实现，本申请实施例对此不进行限定。为便于理解，下面以由检测设备实现机器学习模型的训练为例进行说明。

步骤401，获取带有标签的多个样本文件。

上述样本文件可以为用户预先设置在检测设备，也可以为检测设备通过网络爬手工具从网络中获取到的样本文件。

步骤402，抽取每一样本文件的中间代码。

步骤403，对于每一样本文件，统计该样本文件的每一中间代码的出现次数。

例如，一样本文件的中间代码包括a、b、c、d、a、d、d、b、b和b。检测设备统计得到中间代码a出现次数为2，中间代码b出现次数为4，中间代码c出现次数为1，中间代码d出现次数为3。

一个实施例中，对于每一样本文件，检测设备根据中间代码与数字的对应关系，将该样本文件的每一中间代码转换为对应的数字，统计该样本文件对应的每一数字的出现次数。

例如，一样本文件的中间代码包括a、b、c、d、a、d、d、b、b和b。其中，a对应1，b对应2，c对应3，d对应4。检测设备将样本文件的中间代码转换为1、2、3、4、1、4、4、2、2和2，进而统计得到中间代码a对应的数字1出现次数为2，中间代码b对应的数字2出现次数为4，中间代码c对应的数字3出现次数为1，中间代码d对应的数字4出现次数为3。

样本文件的中间代码中包括字母、数字、间隔符等多格式的字符。检测设备将这些中间代码通过同一格式的数字表示，便于中间代码的出现次数的统计。

步骤404，对于每一样本文件，根据该样本文件的每一中间代码的出现次数，统计该样本文件中每一中间代码的TF-IDF，得到该样本文件对应的TF-IDF向量。

一个示例中，对于每一样本文件中的每一中间代码，检测设备可以利用如下公式(1)、(2)和(3)，确定该中间代码的TF-IDF。

TF_w＝T_w/T₀ (1)

IDF_w＝log(F₀/F_w) (2)

TF-IDF_w＝TF_w*IDF_w (3)

其中，w表示中间代码w，T_w表示中间代码w在该样本文件的中间代码w出现的次数，T₀表示该样本文的中间代码的总个数，F_w表示包括中间代码w的样本文件的个数；F₀表示获取的样本文件的总个数。

另一个示例中，为了提高文本词语的TF-IDF权重计算的防滑效果，上述公式(2)可以变形为公式(4)。

IDF_w＝log[F₀/(F_w+1)] (4)

检测设备结合公式(1)、(4)和(3)，确定该样本文件中每一中间代码的TF-IDF，得到该样本文件对应的TF-IDF向量。

例如，中间代码包括a、b、c和d。对于一样本文件，检测设备分别确定中间代码a的TF-IDF为0.4，中间代码b的TF-IDF为0.5，中间代码c的TF-IDF为0.7，中间代码d的TF-IDF为0.3。检测设备可确定该样本文件对应的TF-IDF向量为{0.4，0.5，0.7，0.3}。

步骤405，将每一样本文件对应的TF-IDF向量分别输入预设Xgboost算法，得到每一样本文件第一概率和第二概率，其中，第一概率为样本文件为Webshell文件的概率，第二概率为样本文件不是Webshell文件的概率。第一概率可以作为样本文件为Webshell文件的可靠度。

步骤406，基于每一样本文件的第一概率和第二概率，以及每一样本文件的标签，确定损失值。

一个实施例中，若第一概率大于第二概率，则检测设备确定该样本文件的检测结果为：该样本文件为Webshell文件。若第一概率小于等于第二概率，则检测设备确定该样本文件的检测结果为：该样本文件不是Webshell文件。基于每一样本文件的标签和检测结果，确定正确率或错误率。检测设备将正确率或错误率作为损失值。

步骤407，基于损失值，确定预设Xgboost算法是否收敛。若是，则执行步骤408。若否，则执行步骤409。

一个实施例中，损失值为正确率。此时若损失值大于第一预设阈值，则可确定预设Xgboost算法收敛。另一个实施例中，损失值为错误率。此时若损失值小于等于第二预设阈值，则可确定预设Xgboost算法收敛。上述第一预设阈值大于第二预设阈值。

步骤408，将当前的预设Xgboost算法，确定为机器学习模型。

步骤409，调整预设Xgboost算法的参数，重新执行步骤405。

基于训练好的机器学习模型，检测设备可将待检测文件的中间代码转换为待检测文件对应的TF-IDF向量，将该TF-IDF向量输入预先训练好的机器学习模型，得到待检测文件为Webshell文件的概率，即得到待检测文件为Webshell文件的可靠度。

另一个可选的实施例中，为提高Webshell文件检测的准确性，本申请实施例提供了一种Webshell文件检测方法。参考图5，图5为本申请实施例提供的Webshell文件检测方法的第三种流程示意图。该方法可以包括如下步骤。

步骤501，获取待检测文件。

步骤502，计算待检测文件的hash值，作为目标hash值。

步骤503，检测预设hash值库中是否存储有目标hash值。若存储有目标hash值，则执行步骤504。若未存储目标hash值，则执行步骤505。其中，预设hash值库中存储有Webshell文件的hash值。

步骤504，确定待检测文件为Webshell文件。

上述步骤501-504与步骤101-104相同。

步骤505，运行待检测文件，检测是否向预设敏感函数传入预设参数，预设参数为运行Webshell文件时向预设敏感函数传入的参数。若检测到向预设敏感函数传入预设参数，则执行步骤506。

本申请实施例中，预设敏感函数可以为运行Webshell文件时调用频率高于预设频率阈值的函数，也可以为安全性级别要求高于预设安全级别的函数。具体的可以根据用户需求进行设定，对此不做具体限定。

步骤506，确定待检测文件为Webshell文件，并将目标hash值存储至预设hash值库。

检测设备在检测到预设hash值库中未存储目标hash值的情况下，可利用轻量级应用沙箱运行待检测文件，检测运行待检测文件时是否调用预设敏感函数。若调用了预设敏感函数，检测设备检测是否向预设敏感函数传入预设参数。若向预设敏感函数传入预设参数，检测设备可确定待检测文件的行为与Webshell文件的行为相同，确定待检测文件为Webshell文件。另外，为便于后续Webshell文件的检测，检测设备在确定待检测文件为Webshell文件后，将待检测文件的目标hash值存储至预设hash值库。

一个可选的实施例中，若未检测到向预设敏感函数传入预设参数，则检测设备可确定待检测文件不是Webshell文件。

本申请实施例提供的技术方案中，结合待检测文件的hash值，以及轻量级应用沙箱，检测Webshell文件，考虑了Webshell文件在多个方面的特点，提高了Webshell文件检测的准确性。

本申请实施例中，为了提高了Webshell文件检测的准确性，可以任意结合上述图1-图5所示的检测方式。下面通过图6所示实施例对本申请实施例提供的Webshell文件检测方法进行说明。

步骤601，获取待检测文件。

步骤602，计算待检测文件的hash值，作为目标hash值。

步骤603，检测预设hash值库中是否存储有目标hash值。若存储有目标hash值，则执行步骤604。若未存储目标hash值，则执行步骤605。其中，预设hash值库中存储有Webshell文件的hash值。

步骤604，确定待检测文件为Webshell文件。

步骤605，提取待检测文件中至少一种预设种类参数的待检测参数值。

步骤606，根据提取的待检测参数值和每一种预设种类参数的权重，确定待检测文件的判定参数值。

步骤607，检测判定参数值是否大于预设判定阈值。若大于预设判定阈值，则执行步骤608。若小于等于预设判定阈值，则执行步骤609。

步骤608，确定待检测文件为Webshell文件，并将目标hash值存储至预设hash值库。

步骤609，抽取待检测文件的中间代码。

步骤610，利用中间代码和预先训练好的机器学习模型，得到待检测文件为Webshell文件的可靠度，其中，机器学习模型为根据带有标签的多个样本文件训练得到的模型，标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签。

步骤611，检测待检测文件为Webshell文件的可靠度是否大于等于预设可靠度阈值。若大于等于预设可靠度阈值，则执行步骤608。若小于预设可靠度阈值，则执行步骤612。

步骤612，运行待检测文件，检测是否向预设敏感函数传入预设参数，预设参数为运行Webshell文件时向预设敏感函数传入的参数。若检测到向预设敏感函数传入预设参数，则执行步骤608。若未检测到向预设敏感函数传入预设参数，则执行步骤613。

步骤613，确定待检测文件不是Webshell文件。

上述步骤601-613部分的描述比较简单，具体可参考图1-图5部分的描述。

通过本申请实施例提供的技术方案中，Webshell文件的检测，不依赖与特定的特征码，利用文件的hash值、预设种类参数、中间代码以及敏感函数等实现，能够实现编码、混淆和加密等操作未知Webshell文件的检测。且利用多种信息进行Webshell文件的检测，提高了Webshell文件检测的准确性。

基于相同的发明构思，根据上述Webshell文件检测方法实施例，本申请实施例提供了一种Webshell文件检测装置。参考图7，图7为本申请实施例提供的Webshell文件检测装置的一种结构示意图。该装置包括获取单元701、检测单元702和处理单元703。

获取单元701，用于获取待检测文件；

检测单元702，用于计算待检测文件的哈希值，作为目标哈希值；检测预设哈希值库中是否存储有目标哈希值，预设哈希值库中存储有Webshell文件的哈希值；

处理单元703，用于若未存储目标哈希值，则按照预设检测方式，检测待检测文件是否为Webshell文件；若存储有目标哈希值，则确定待检测文件为Webshell文件。

一个可选的实施例中，检测单元702，具体可以用于：

移除待检测文件中的无效字符；计算移除无效字符后的待检测文件的哈希值，作为目标哈希值。

一个可选的实施例中，处理单元703，具体可以用于：

提取待检测文件中至少一种预设种类参数的待检测参数值；根据提取的待检测参数值和每一种预设种类参数的权重，确定待检测文件的判定参数值；检测判定参数值是否大于预设判定阈值；

若大于预设判定阈值，则确定待检测文件为Webshell文件，并将目标哈希值存储至预设哈希值库。

一个可选的实施例中，上述至少一种预设种类参数可以包括：信息熵、重合指数、压缩率和最长单词长度中的一种或多种。

一个可选的实施例中，处理单元703，具体可以用于：

抽取待检测文件的中间代码；利用中间代码和预先训练好的机器学习模型，得到待检测文件为Webshell文件的可靠度，其中，机器学习模型为根据带有标签的多个样本文件训练得到的模型，标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签；

若可靠度大于等于预设可靠度阈值，则确定待检测文件为Webshell文件，并将目标哈希值存储至预设哈希值库。

一个可选的实施例中，处理单元703，具体可以用于：

运行待检测文件，检测是否向预设敏感函数传入预设参数，预设参数为运行Webshell文件时向预设敏感函数传入的参数；

若检测到向预设敏感函数传入预设参数，则确定待检测文件为Webshell文件，并将目标哈希值存储至预设哈希值库。

本申请实施例提供的技术方案中，基于待检测文件的哈希值和预设哈希值库，判断待检测文件是否为Webshell文件。可见，本申请实施例提供的技术方案中，只需要维护预设哈希值库中存储的Webshell文件的哈希值，哈希值作为静态指标，相对于动态指标的特征码，维持简单，降低了WebShell文件检测中耗费的人工成本。

在本申请的一个实施例中，参考图8所示，上述检测单元702可以包括hash库比对模块801，上述处理单元703可以包括、钻石转发模块802、机器学习模块803和轻量级应用沙箱804。

其中，hash库比对模块801，用于计算待检测文件的哈希值，作为目标哈希值；检测预设哈希值库中是否存储有目标哈希值。

钻石转发模块802，用于提取待检测文件中至少一种预设种类参数的待检测参数值；根据提取的待检测参数值和每一种预设种类参数的权重，确定待检测文件的判定参数值；检测判定参数值是否大于预设判定阈值。

机器学习模块803，用于抽取待检测文件的中间代码；利用中间代码和预先训练好的机器学习模型，得到待检测文件为Webshell文件的可靠度。

轻量级应用沙箱804，用于运行待检测文件，检测是否向预设敏感函数传入预设参数。

基于相同的发明构思，根据上述Webshell文件检测方法实施例，本申请实施例还提供了一种网络设备，如图9所示，包括处理器901和机器可读存储介质902，机器可读存储介质902存储有能够被处理器901执行的机器可执行指令。处理器901被机器可执行指令促使实现上述图1-图6所示的任一步骤。

一个可选的实施例中，如图9所示，网络设备还可以包括：通信接口903和通信总线904；其中，处理器901、机器可读存储介质902、通信接口903通过通信总线904完成相互间的通信，通信接口903用于上述网络设备与其他设备之间的通信。

基于相同的发明构思，根据上述Webshell文件检测方法实施例，本申请实施例还提供了一种机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令。处理器被机器可执行指令促使实现上述图1-图6所示的任一步骤。

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

上述机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。另外，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于Webshell文件检测装置、网络设备、机器可读存储介质实施例而言，由于其基本相似于Webshell文件检测方法实施例，所以描述的比较简单，相关之处参见Webshell文件检测方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种Webshell文件检测方法，其特征在于，所述方法包括：

获取待检测文件；

计算所述待检测文件的哈希值，作为目标哈希值；

2.根据权利要求1所述的方法，其特征在于，所述计算所述待检测文件的哈希值，作为目标哈希值的步骤，包括：

移除所述待检测文件中的无效字符；

计算移除无效字符后的待检测文件的哈希值，作为目标哈希值。

3.根据权利要求1所述的方法，其特征在于，所述按照预设检测方式，检测所述待检测文件是否为Webshell文件的步骤，包括：

提取所述待检测文件中至少一种预设种类参数的待检测参数值；

根据提取的待检测参数值和每一种预设种类参数的权重，确定所述待检测文件的判定参数值；

检测所述判定参数值是否大于预设判定阈值；

若大于所述预设判定阈值，则确定所述待检测文件为Webshell文件，并将所述目标哈希值存储至所述预设哈希值库。

4.根据权利要求3所述的方法，其特征在于，所述至少一种预设种类参数包括：信息熵、重合指数、压缩率和最长单词长度中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，所述按照预设检测方式，检测所述待检测文件是否为Webshell文件的步骤，包括：

抽取所述待检测文件的中间代码；

利用所述中间代码和预先训练好的机器学习模型，得到所述待检测文件为Webshell文件的可靠度，其中，所述机器学习模型为根据带有标签的多个样本文件训练得到的模型，所述标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签；

若所述可靠度大于等于所述预设可靠度阈值，则确定所述待检测文件为Webshell文件，并将所述目标哈希值存储至所述预设哈希值库。

6.根据权利要求1所述的方法，其特征在于，所述按照预设检测方式，检测所述待检测文件是否为Webshell文件的步骤，包括：

运行所述待检测文件，检测是否向预设敏感函数传入预设参数，所述预设参数为运行Webshell文件时向所述预设敏感函数传入的参数；

若检测到向所述预设敏感函数传入所述预设参数，则确定所述待检测文件为Webshell文件，并将所述目标哈希值存储至所述预设哈希值库。

7.一种Webshell文件检测装置，其特征在于，所述方法包括：

获取单元，用于获取待检测文件；

8.根据权利要求7所述的装置，其特征在于，所述检测单元，具体用于：

移除所述待检测文件中的无效字符；计算移除无效字符后的待检测文件的哈希值，作为目标哈希值。

9.根据权利要求7所述的装置，其特征在于，所述处理单元具体用于：

提取所述待检测文件中至少一种预设种类参数的待检测参数值；根据提取的待检测参数值和每一种预设种类参数的权重，确定所述待检测文件的判定参数值；检测所述判定参数值是否大于预设判定阈值；

10.根据权利要求9所述的装置，其特征在于，所述至少一种预设种类参数包括：信息熵、重合指数、压缩率和最长单词长度中的一种或多种。

11.根据权利要求10所述的装置，其特征在于，所述处理单元具体用于：

抽取所述待检测文件的中间代码；利用所述中间代码和预先训练好的机器学习模型，得到所述待检测文件为Webshell文件的可靠度，其中，所述机器学习模型为根据带有标签的多个样本文件训练得到的模型，所述标签包括指示文件为Webshell文件的第一标签和指示文件不是Webshell文件的第二标签；

12.根据权利要求7所述的装置，其特征在于，所述处理单元具体用于：

13.一种网络设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-6任一所述的方法步骤。

14.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-6任一所述的方法步骤。