CN115396237A

CN115396237A - 网页恶意篡改识别方法、***及可读存储介质

Info

Publication number: CN115396237A
Application number: CN202211322297.4A
Authority: CN
Inventors: 陈晓莉; 和建文; 冯国栋; 赵祥廷; 张晶晶; 章亮
Original assignee: Zhejiang Ponshine Information Technology Co ltd; China Mobile Group Yunnan Co Ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd; China Mobile Group Yunnan Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-11-25

Abstract

本发明涉及网页恶意篡改识别方法、***及可读存储介质，识别方法包括：S1、爬取待测网页的图片数据和文本数据；S2、判断待测网页的数据信息与预设网页的数据信息是否相同；若否，则转至步骤S3；S3、利用VGG卷积神经网络的全连接层的输出作为SVM分类器的输入构成的第一分类模型对待测网页的图片数据进行分类，得到第一分类标签及其对应的置信度；利用BERT神经网络拼接双向LSTM神经网络并在输出前添加注意力构成的第二分类模型对待测网页的文本数据进行分类，得到第二分类标签及其对应的置信度；S4、判断各置信度是否超出置信度阈值；若是，则输出网页存在恶意篡改告警。本发明有效提升了网页恶意篡改识别的精度和效率。

Description

网页恶意篡改识别方法、***及可读存储介质

技术领域

本发明属于网络安全技术领域，具体涉及网页恶意篡改识别方法、***及可读存储介质。

背景技术

通信网络技术和移动设备的快速发展，满足了人们对信息快速传递的需求，但同时网络中存在着大量的不良信息，黑客通常利用网站漏洞将不良图片或文字信息嵌入网站首页，以达到恶意篡改的目的。网页篡改导致的不良信息的产生，仅依靠人工审核方式进行排查，工作量巨大，且处理速度远远低于不良信息在网络中出现的速度，工作效率低，因此有必要开发快速自动识别的方式，以便及时发现并快速处置。

现有技术主要侧重于异常流量的监测及识别，基于异常流程规则进行特征匹配，结合网络安全处置技术，如通过防火墙或WAF等安全设备联动。

例如，申请号为CN201610178383的专利文献公开的一种异常流量攻击检测处置的方法，其通过过滤来访IP地址的已知的异常流量和正常流量；根据通过的来访IP地址的当前流量数值与流量TOPN动态过滤表中对应的流量模板数值区分出通过的来访IP地址中的异常流量和正常流量；丢弃异常流量，转发正常流量；其只能通过过滤来访IP地址的已知流量进行分析，主要基于预定的攻击检测规则，缺乏自动学习能力，一旦攻击手段发生变化，攻击检测规则将会失效；而且，其也未明确针对不同的流量攻击完成动态处置。

又如，申请号为CN202010991945的专利文献公开了一种网络安全事件的处理方法，由不同职责的分析引擎分析不同类型的日志数据，生成相应的安全事件，并对安全事件涉及的主机根据类型计算风险主机的风险值，以确定其风险等级；并且进一步对主机的风险进行分析，输出处置建议和信息展示；对于风险主机，执行相应的处置动作；但仅适用于已获取异常流量需要直接进行处置的情况；而且，也未明确安全事件来源，只给出了处置方案，而无法判定处置事件是否准确。

再如，申请号为CN202011536026的专利文献公开了一种基于深度迁移学习的异常流量监测与分析方法，通过获取流量数据，对流量数据进行解析获得报文内容信息；将报文内容信息中的数据输入到预先采用迁移学习方法训练好的最终分类器中，从而将报文内容划分为非涉敏数据、涉敏数据两大类，对涉敏数据进行风险分析；其采用最大熵模型MEM作为分类器完成敏感数据分类的过程，但未涉及样本的来源以及敏感数据确认分析的过程，在实际应用中存在分类准确率低、适配性不强等不足。

因此，现阶段企业安全依靠防火墙、入侵检测、防病毒、访问控制等单一的网络安全防护技术，已不能满足网络安全的需求，同时在告警监测方向，传统的基于规则匹配的模式存在告警误报多、策略更新不及时等缺陷。故本领域亟需开发新的技术，以便及时发现网络中的异常攻击事件并能够快速抑制，实现事前自动评估预测、事中动态处置。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个，换言之，本发明的目的之一是提供满足前述需求之一或多个的网页恶意篡改识别方法、***及可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

网页恶意篡改识别方法，包括以下步骤：

S1、爬取待测网页的数据信息；其中，数据信息包括图片数据和文本数据；

S2、判断待测网页的数据信息与预设网页的数据信息是否相同；若是，则返回至步骤S1；若否，则转至步骤S3；

S3、利用VGG卷积神经网络的全连接层的输出作为SVM分类器的输入构成的第一分类模型对待测网页的图片数据进行分类，得到第一分类标签及其对应的第一置信度；

利用BERT神经网络拼接双向LSTM神经网络并在输出前添加注意力构成的第二分类模型对待测网页的文本数据进行分类，得到第二分类标签及其对应的第二置信度；

S4、判断第一置信度是否超出第一置信度阈值；若是，则转至步骤S5；若否，则返回至步骤S1；

判断第二置信度是否超出第二置信度阈值；若是，则转至步骤S5；若否，则返回至步骤S1；

S5、输出网页存在恶意篡改告警。

作为优选方案，所述步骤S1中，待测网页的数据信息采用定时爬取的方式爬取。

作为优选方案，所述步骤S2中，若判断结果为否，还输出网页篡改预警。

作为优选方案，所述步骤S3中，VGG卷积神经网络为VGG16。

作为优选方案，所述第一分类模型的VGG16网络结构包括依次连接的六个部分：第一部分和第二部分均由两个卷积层和一个maxpool池化层构成，其中，每个卷积层的输出后都有一个ReLu激活函数；第三部分至第五部分均由四个卷积层和一个maxpool池化层构成；第六部分为展开后的全连接层，由三个全连接层组成；

第六部分的输出连接SVM分类器，以对图片进行分类，输出第一分类标签及其对应的第一置信度。

作为优选方案，所述第二分类模型包括依次连接的三个部分：第一部分为BERT神经网络，包括embedding层、双向的多个Transformer编码器以及输出部分，在finetune微调训练后去掉输出部分；第二部分为双向LSTM神经网络；第三部分为注意力，最后输出第二分类标签及其对应的第二置信度；

其中，第二分类模型的训练过程中，将finetune微调训练后的BERT神经网络的权重冻结。

作为优选方案，所述步骤S5之后，还包括以下步骤：

S6、利用DPI对待测网页进行URL封堵。

作为优选方案，网页恶意篡改识别方法，还包括：

设置网页维护时间段，在网页维护时间段内停止执行所述步骤S2至步骤S5。

本发明还提供网页恶意篡改识别***，应用如上任一项方案所述的网页恶意篡改识别方法，所述网页恶意篡改识别***包括：

爬取模块，用于爬取待测网页的数据信息；其中，数据信息包括图片数据和文本数据；

判断模块，用于判断待测网页的数据信息与预设网页的数据信息是否相同；

第一分类模型，用于对待测网页的图片数据进行分类，得到第一分类标签及其对应的第一置信度；

第二分类模型，用于对待测网页的文本数据进行分类，得到第二分类标签及其对应的第二置信度；

所述判断模块还用于判断第一置信度是否超出第一置信度阈值以及判断第二置信度是否超出第二置信度阈值；

输出模块，用于输出网页存在恶意篡改告警；

执行模块，用于根据判断模块的判断结构执行相应的后续操作。

本发明还提供一种可读存储介质，所述可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一项方案所述的网页恶意篡改识别方法。

本发明与现有技术相比，有益效果是：

本发明利用VGG卷积神经网络的全连接层的输出作为SVM分类器的输入构成的第一分类模型以及利用BERT神经网络拼接双向LSTM神经网络并在输出前添加注意力构成的第二分类模型对网页中的恶意篡改进行分类识别，可准确识别网络中的网站恶意篡改事件，同时分类模型可依据人工确认结果自动更新，动态处置策略可在线调整，较传统的安全设备检测和处置效率有进一步提升，有效解决当前网络安全应急响应过程中单一的安全设备检测准确率低，应急处置自动化程度低，安全研判过渡依赖专家等问题。

本发明首先进行页面比对，在页面比对不同时进行更高精度的网络分类，有效提升网页恶意篡改识别的效率和精度。

本发明的第二分类模型基于BERT的网络结构对于复杂文本的特征提取是非常有效的，但由于其提取出的特征信息量大，因此全连接层加Softmax的分类结果在精度与稳定性上存在不足，因此对其分类部分进行单独的模型设计，加入双向LSTM与注意力机制，对BERT提取出来的复杂特征进行进一步的特征提取，降维并提炼文本特征，也从时序角度增加了时序维度的信息，从而弥补了原来方式的精度与稳定性的不足，增加了模型的分类准确率和泛化能力。

附图说明

图1是本发明实施例1的网页恶意篡改识别方法的流程图；

图2是本发明实施例1的图片爬取流程；

图3是本发明实施例1的第二分类模型的模型结构图；

图4是本发明实施例1的网页恶意篡改识别***的构架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，本实施例的网页恶意篡改识别方法，包括以下步骤：

S1、爬取待测网页的数据信息；其中，数据信息包括图片数据和文本数据。

具体地，如图2所示，图片爬取流程为：梳理所需样本信息类型，选择图片来源网页（又称图片来源网站）并加入至爬取队列，开始请求页面，并携带伪装头（即伪装useragent），防止页面开启反爬机制导致403forbidden（即无权限访问的状态码）；通过解析爬取网页页面内容，寻找图片dom（即文档对象模型），采用图片文件识别规则进行匹配分类，匹配到后复制图片代码，并根据分类保存至对应分类目录，具体采用延时机制减轻服务器压力，实现信息的快速识别。本实施例的图片以及文本爬取技术可以参考现有技术，在此不赘述。

另外，本实施例的待测网页的数据信息采用定时爬取的方式爬取，实现智能爬取。

S2、判断待测网页的数据信息与预设网页的数据信息是否相同；若是，则返回至步骤S1；若否，则转至步骤S3。

本实施例的判断待测网页的数据信息与预设网页的数据信息是否相同，即进行页面比对，具体的页面比对技术可以参考现有页面比对技术，在此不赘述。

另外，若本步骤的判断结果为否，还输出网页篡改预警，以触发执行后续的步骤S3。

利用BERT神经网络拼接双向LSTM神经网络并在输出前添加注意力构成的第二分类模型对待测网页的文本数据进行分类，得到第二分类标签及其对应的第二置信度。

具体地，VGG卷积神经网络采用VGG16网络结构，由依次连接的六个部分组成：第一部分、第二部分由两个卷积层（默认每个卷积层的输出后都有一个ReLu激活函数）和一个maxpool池化层（即最大池化层）组成；第三部分至第五部分均由四个卷积层和一个maxpool池化层构成；其中，网络的输入为227×227大小的图片，将第一层卷积核的大小设为9×9，卷积核步长为1，其余所有卷积核大小均为3×3，步长为1；所有最大池化层的大小均为2×2，步长为2；第六部分为展开后的全连接层，由三个全连接层组成，节点个数分别为4096、4096、1000；最后连接一个SVM分类器构成第一分类模型，用来对图片数据进行分类，输出第一分类标签及其对应的第一置信度。

其中，本实施例的第一分类模型的训练以及分类的原理可以参考公开号为CN110321936A公开的基于VGG16及SVM实现图片二分类的方法，在此不赘述。

如图3所示，本实施例的第二分类模型的模型结构由三部分组成：第一部分为BERT神经网络，包括embedding层（即嵌入层）、双向的多个Transformer编码器以及输出部分，在finetune微调训练后去掉输出部分，保留前面的部分；第二部分为双向LSTM神经网络以及连接的FC（即全连接层）和Flatten（即扁平化层）；第三部分为注意力Attention，包括依次连接的Repeat（即重复化层）、Transpose（即转置层）和Multiply（即乘积层），最后通过FC（即全连接层）连接Softmax（即归一化指数函数）输出类别，得到第二分类标签及其对应的第二置信度。其中，第二分类模型的训练过程中，将finetune微调训练后的BERT神经网络的权重冻结。

具体地，本实施例的第二分类模型的训练过程包括以下步骤：

（1）样本收集：从互联网上爬取一定数量的正常文本和不良文本作为训练数据集；

（2）数据预处理：对文本数据进行清洗，对停顿符进行特殊标签化，然后用对文本语料进行编码，即对训练数据集的文本进行向量化；

（3）训练BERT网络：将预处理后的文本数据输入至BERT神经网络，通过其进行finetune微调训练；

具体地，训练BERT网络的流程，具体包括以下步骤：

（31）编码：使用embedding层进行输入的编码，确定词汇表的编码矩阵，预处理后的文本数据长度固定（不足的补pad空字符），进入embedding层时将获取对应字符的编码，得到shape（即shape函数，用于得到矩阵的形状）为[字符串长度，embedding维度]的矩阵；

（32）前向传播：由双向的多个Transformer编码器，提取特征，最终接上输出层，完成前向传播；输出层的激活函数采用Softmax来应对多分类问题。

（33）迭代与反向传播：前向传播输出的预测标签与真实标签比较，分类器使用cross entropy损失函数，经过多次迭代优化神经网络中的所有参数，来减少损失函数的值。

上述BERT网络的详细训练过程的其他细节可以参考现有技术，在此不赘述。

（4）网络整合：将BERT神经网络的输出层去掉，保留到Transformer编码器的输出特征图层，接入双向LSTM和注意力，将网络整合到一起。

具体地，将finetune训练好的BERT神经网络去掉其输出层，保留到特征图层，使用双向LSTM进行网络结构的拼接，最后输出前加入注意力Attention。

（5）训练最终分类网络：将BERT神经网络的权重冻结，即只进行前向，不进行反向的权值更新，双向LSTM和注意力部分保持正常，输入数据进行模型训练。

具体地，将训练好的BERT神经网络部分进行权重冻结，不进行更新这部分权重，其他部分保持正常，进行模型的正向传播和反向传播。

（6）模型预测：对测试数据集的文本经过步骤（2）后，进入最终分类网络模型（即第二分类模型）中，通过输出分类标签及其对应的置信度判断文本的种类。

S5、输出网页存在恶意篡改告警；

S6、利用DPI（即深度报文解析）对待测网页进行URL（即统一资源定位符）封堵，实现基于网页页面级的屏蔽，减少整个网站封堵带来的业务损失。

基于本实施例的网页恶意篡改识别方法，如图4所示，本实施例还提供对应的网页恶意篡改识别***，包括爬取模块、判断模块、第一分类模型、第二分类模型、输出模块和执行模块。

具体地，本实施例的爬取模块用于爬取待测网页的数据信息；其中，数据信息包括图片数据和文本数据。

本实施例的判断模块用于判断待测网页的数据信息与预设网页的数据信息是否相同。若是，则执行模块控制返回至由爬取模块执行数据爬取；若否，则执行模块控制执行后续过程。

其中，本实施例的判断待测网页的数据信息与预设网页的数据信息是否相同，即进行页面比对，具体的页面比对技术可以参考现有页面比对技术，在此不赘述。另外，若本次的判断结果为否，还输出网页篡改预警，以触发执行后续的步骤。

本实施例的第一分类模型，用于对待测网页的图片数据进行分类，得到第一分类标签及其对应的第一置信度。其中，第一分类模型利用VGG卷积神经网络的全连接层的输出作为SVM分类器的输入。具体地，VGG卷积神经网络采用VGG16网络结构，由依次连接的六个部分组成：第一部分、第二部分由两个卷积层（默认每个卷积层的输出后都有一个ReLu激活函数）和一个maxpool池化层组成；第三部分至第五部分均由四个卷积层和一个maxpool池化层构成；其中，网络的输入为227×227大小的图片，将第一层卷积核的大小设为9×9，卷积核步长为1，其余所有卷积核大小均为3×3，步长为1；所有最大池化层的大小均为2×2，步长为2；第六部分为展开后的全连接层，由三个全连接层组成，节点个数分别为4096、4096、1000；最后连接一个SVM分类器构成第一分类模型，用来对图片数据进行分类，输出第一分类标签及其对应的第一置信度。另外，本实施例的第一分类模型的训练以及分类的原理可以参考公开号为CN110321936A公开的基于VGG16及SVM实现图片二分类的方法，在此不赘述。

本实施例的第二分类模型对待测网页的文本数据进行分类，得到第二分类标签及其对应的第二置信度。如图3所示，本实施例的第二分类模型的模型结构由三部分组成：第一部分为BERT神经网络，包括embedding层（即嵌入层）、双向的多个Transformer编码器以及输出部分，在finetune微调训练后去掉输出部分，保留前面的部分；第二部分为双向LSTM神经网络以及连接的FC（即全连接层）和Flatten（即扁平化层）；第三部分为注意力Attention，包括依次连接的Repeat（即重复化层）、Transpose（即转置层）和Multiply（即乘积层），最后通过FC（即全连接层）连接Softmax（即归一化指数函数）输出类别，得到第二分类标签及其对应的第二置信度。其中，第二分类模型的训练过程中，将finetune微调训练后的BERT神经网络的权重冻结。

具体地，训练BERT网络的流程，具体包括以下步骤：

（32）前向传播：由双向的多个Transformer编码器，提取特征，最终接上输出层，完成前向传播；输出层的激活函数采用Softmax来应对多分类问题；

具体地，将finetune微调训练好的BERT神经网络去掉其输出层，保留到特征图层，使用双向LSTM进行网络结构的拼接，最后输出前加入注意力Attention。

本实施例的判断模块还用于判断第一置信度是否超出第一置信度阈值以及判断第二置信度是否超出第二置信度阈值；并在第一置信度超出第一置信度阈值或者第二置信度超出第二置信度阈值时，由执行模块控制本实施例的输出模块输出网页存在恶意篡改告警。

故本实施例的执行模块用于根据判断模块的判断结构执行相应的后续操作。具体地，在网页存在恶意篡改告警时，利用DPI（即深度报文解析）对待测网页进行URL（即统一资源定位符）封堵，实现基于网页页面级的屏蔽，减少整个网站封堵带来的业务损失。

本实施例还提供可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行本实施例上述的网页恶意篡改识别方法，实现智能化运行。

实施例2：

本实施例的网页恶意篡改识别方法与实施例1的不同之处在于：

本实施例的网页恶意篡改识别方法还包括：

设置网页维护时间段，在网页维护时间段内停止执行实施例1的所述步骤S2至步骤S6；

可通过设置前端维护智能插件，控制网站维护时间段，在维护时间段内进行的网页变动不构成告警信息，通过前后端联动方式精准识别网页篡改告警信息，降低告警误报率；

相应地，本实施例的网页恶意篡改识别***与实施例1的不同之处在于：

插件模块，用于设置前端维护智能插件，控制网站维护时间段，在维护时间段内进行的网页变动不构成告警信息，通过前后端联动方式精准识别网页篡改告警信息，降低告警误报率；

相应地，本实施例的可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行本实施例上述的网页恶意篡改识别方法，实现智能化运行。

实施例3：

本实施例的网页恶意篡改识别方法还包括：

在利用DPI对待测网页进行URL封堵之后，还验证恶意篡改的网页URL是否已经无法访问；保证封堵的可靠性。

验证模块，用于在利用DPI对待测网页进行URL封堵之后，还验证恶意篡改的网页URL是否已经无法访问；保证封堵的可靠性。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.网页恶意篡改识别方法，其特征在于，包括以下步骤：

S5、输出网页存在恶意篡改告警。

2.根据权利要求1所述的网页恶意篡改识别方法，其特征在于，所述步骤S1中，待测网页的数据信息采用定时爬取的方式爬取。

3.根据权利要求1所述的网页恶意篡改识别方法，其特征在于，所述步骤S2中，若判断结果为否，还输出网页篡改预警。

4.根据权利要求1所述的网页恶意篡改识别方法，其特征在于，所述步骤S3中，VGG卷积神经网络为VGG16。

5.根据权利要求4所述的网页恶意篡改识别方法，其特征在于，所述第一分类模型的VGG16网络结构包括依次连接的六个部分：第一部分和第二部分均由两个卷积层和一个maxpool池化层构成，其中，每个卷积层的输出后都有一个ReLu激活函数；第三部分至第五部分均由四个卷积层和一个maxpool池化层构成；第六部分为展开后的全连接层，由三个全连接层组成；

6.根据权利要求1所述的网页恶意篡改识别方法，其特征在于，所述第二分类模型包括依次连接的三个部分：第一部分为BERT神经网络，包括embedding层、双向的多个Transformer编码器以及输出部分，在finetune微调训练后去掉输出部分；第二部分为双向LSTM神经网络；第三部分为注意力，最后输出第二分类标签及其对应的第二置信度；

7.根据权利要求1所述的网页恶意篡改识别方法，其特征在于，所述步骤S5之后，还包括以下步骤：

S6、利用DPI对待测网页进行URL封堵。

8.根据权利要求1-7任一项所述的网页恶意篡改识别方法，其特征在于，还包括：

9.网页恶意篡改识别***，应用如权利要求1-8任一项所述的网页恶意篡改识别方法，其特征在于，所述网页恶意篡改识别***包括：

输出模块，用于输出网页存在恶意篡改告警；

10.一种可读存储介质，所述可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-8任一项所述的网页恶意篡改识别方法。