CN111198995B

CN111198995B - 一种恶意网页识别方法

Info

Publication number: CN111198995B
Application number: CN202010012212.7A
Authority: CN
Inventors: 廖永建; 王勇; 王栋; 吴宇; 梁艺宽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2023-03-24
Anticipated expiration: 2040-01-07
Also published as: CN111198995A

Abstract

本发明公开了一种恶意网页识别方法，包括如下步骤：步骤1，获取恶意网页数据集，并通过数据预处理得到恶意网页的训练集和测试集；步骤2，利用Char‑CNN模型获取训练集和测试集的字符级嵌入；步骤3，构建BiLSTM‑Attention神经网络模型；步骤4，利用训练集及其字符级嵌入，以及静态词嵌入训练步骤3构建的BiLSTM‑Attention神经网络模型；步骤5，利用测试集及其字符级嵌入，以及静态词嵌入验证步骤4训练好的BiLSTM‑Attention神经网络模型；步骤6，经过步骤5验证后，将训练好的BiLSTM‑Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。本发明采用基于attention机制的双向长短时记忆循环神经网络，同时还使用字符级嵌入与静态词嵌入相结合的方法，实现了恶意网页识别的目的。

Description

一种恶意网页识别方法

技术领域

本发明涉及互联网安全技术领域，尤其是一种恶意网页识别方法。

背景技术

近年来随着互联网行业不断发展，网络已经成为了人们生活中不可缺少的一部分。但与此同时，利用互联网的恶意犯罪活动也在不断的增长。利用恶意网页来进行钓鱼攻击，推广垃圾广告，引导下载恶意软件等操作是互联网犯罪的主要活动。根据<<全球中文钓鱼网站现状统计分析报告(2016年>>和中国反钓鱼联盟近年来的报告可知中国是受到恶意网页困扰比例最大的国家，并且恶意网页数量在逐年快速增长。如何快速有效的识别恶意网页，已经成为有待解决的网络空间安全问题之一。

传统的识别恶意网页方法通常为基于黑名单技术的识别方法。也是现在在工业界应用最多的方法。黑名单技术是维护一个恶意域名列表，如果访问的域名不在恶意域名列表内，那么浏览器将认为这是一个正常的域名，如果在列表内，那么则认为是一个恶意域名。这种方法的优点在于技术实现简单，而且可以准确识别已经确认的恶意网页。但缺点在于不能识别以前未出现过的恶意域名，而且需要技术人员一直维护恶意域名列表。

近年来随着机器学习技术的发展，有越来越多的人将机器学习技术应用于恶意网页检测。利用人工从url链接提取url长度，是否为https链接，域名长度等等特征，又或者利用蜜罐技术检测网页的内容，检测是否有恶意脚本，检测网站上的图片是否为违规图片等等，然后再基于机器学习算法如svm，随机森林等算法进行分类。但这种方法非常依赖于网络安全方面的专家，需要对恶意网页方面非常熟悉的人来对恶意网页数据集进行人工特征提取。人工提取的特征对于最后分类结果的好坏影响非常大。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种恶意网页识别方法，该方法利用字符级嵌入和双向长短时记忆循环神经网络(Bi LSTM)直接对URL链接进行分类，从而达到识别恶意网页的目的。

本发明采用的技术方案如下：

一种恶意网页识别方法，包括如下步骤：

步骤1，获取恶意网页数据集，并通过数据预处理得到恶意网页的训练集和测试集；

步骤2，利用Char-CNN模型获取训练集和测试集的字符级嵌入；

步骤3，构建BiLSTM-Attention神经网络模型；

步骤4，利用训练集及其字符级嵌入，以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型；

步骤5，利用测试集及其字符级嵌入，以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型；

步骤6，经过步骤5验证后，将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明采用基于attention机制的双向长短时记忆循环神经网络，同时还使用字符级嵌入与静态词嵌入相结合的方法，实现了恶意网页识别的目的，本发明的方法相比传统的恶意网页识别方法：

1.不需要人员维护域名黑名单；

2.不需要专业的网络安全人员设计特征；

3.对于新出现的恶意网页识别率高；

4.适用于识别移动端出现的恶意网页。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的恶意网页识别方法的流程框图。

图2为本发明构建的BiLSTM-Attention神经网络模型的结构示意图。

图3为本发明将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种恶意网页识别方法，包括如下步骤：

具体地：

步骤1.1，去除恶意网页数据集url链接缺失或者标签缺失的样本，然后进行分词处理；英文文本的分词是基于空格的，但url链接是特殊的英文文本，没有空格，本实施例采用python wordninia模块对恶意网页数据集中的url链接进行分词处理，保留url链接中所有的符号；

步骤1.2，url链接中包含了许多缩写词语，所以还需要进行词干提取和词形还原等预处理操作。本实施例采用python NLTK包中的PorterStemmer和WordNetLemmatizer模块对恶意网页数据集中的url链接进行词干提取和词形还原；

步骤1.3，为避免出现字母大写和小写混杂的情况，本实施例采用python lower()方法将恶意网页数据集中的url链接所有的字母转为小写或大写(优选小写)，完成归一化操作；

步骤1.4，将经过步骤1.1～步骤1.3处理后的恶意网页数据集按7:3或8:2(优选8:2)的比例分为训练集和测试集。

步骤2，利用Char-CNN模型获取训练集和测试集的字符级嵌入；

具体地：

步骤2.1，构建一张字符表：

将abcdefghijklmnopqrstuvwxyz0123456789-,；.！？:”’/\|_@#$％^&*～‘+-＝<>()[]{}这69个字符使用one-hot编码，再加一个全0向量用于处理不在该字符表中的字符，形成包括70个字符的字符表，并将该字符表表示为one-hot向量，例如a[1,0,0,0…0]，维度为50。

步骤2.2，将训练集或测试集采用字符表的one-hot向量表示，然后输入Char-CNN模型训练，得到相应的字符级嵌入，例如：a[0.2324124,0.2124244,0.5252411,…]。

其中，所述Char-CNN模型为一个6层卷积层的神经网络模型。

步骤3，构建BiLSTM-Attention神经网络模型；BiLSTM模型即是双向LSTM(双向长短时记忆循环神经网络)，Bi-LSTM模型使用向前和向后两个方向来对输入层的数据进行训练，故BiLSTM比LSTM能更好的捕获句子中上下文的信息，然后在BiLSTM模型上再加一层Attention层，即构成BiLSTM-Attention神经网络模型。

如图2所示，具体地：

步骤3.1，构建输入层，所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集；例如[www.dark moon.com]；

步骤3.2，构建嵌入层，所述嵌入层利用恶意网页数据集的字符级嵌入，以及静态词嵌入替换恶意网页数据集中的单词，得到恶意网页数据集中每条url链接的嵌入表示；

步骤3.3，构建LSTM层，所述LSTM层包括两层，其中一层为前向传播层，另一层为后向传播层；每层LSTM层包括遗忘门，输入门，输出门和细胞状态，其中，

(1)更新遗忘门输出：f_t＝σ(w_fh_t-1+U_fx_t+b_f)；h_t-1表示历史信息，x_t表示流入细胞中新的信息，b_f为偏置项；

(2)更新输入门两部分输出：

i_t＝σ(w_ih_t-1+U_ix_t+bi)；

a_t＝tanh(w_ah_t-1+U_ax_t+b_a)；

(3)更新细胞状态：

C_t＝C_t-1f_t+i_ta_t；

(4)更新输出门两部分输出：

o_t＝σ(w₀h_t-1+U₀x_t+b₀)；

h_t＝o_ttanh(C_t)；

(5)当前序列索引预测输出：

y_t＝σ(Vh_t+c)；

其中，w_f，U_f，b_f，w_i，U_i，w_a，U_a，w₀，U₀为所述BiLSTM-Attention神经网络模型需要训练得到的参数；σ为sigmoid函数；

步骤3.4，构建attention层，所述attention层用于计算所有时序的权重，然后将所有时序的加权作为特征向量输出；

步骤3.5，构建输出层，所述输出层为一层全连接层，将attention层的输出作为输出层的输入，使用softmax分类器处理attention层的输出得到分类结果

步骤4，利用训练集及其字符级嵌入，以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型；其中，静态词嵌入可以采用使用斯坦福大学已经训练好的Glove静态词向量，其维度为50。

具体地：

步骤4.1，将训练集中的url链接文本中的所有单词构建向量表示的文本词典；

步骤4.2，将构建好的文本词典一一与静态词嵌入进行对比，若该静态词嵌入中包含有文本词典中的单词向量，则用静态词嵌入中的该单词向量进行替换，若该静态词嵌入中没有文本词典中的单词向量，则用字符级嵌入进行替换，从而得到训练集中的每条url链接的向量表示；也就是说，将训练集url链接中的单词(包含词语和字符)S＝(W1,W2…,Wn)中的Wi映射为wi。S表示一条url链接，Wi表示url链接中的单词；wi为向量，即嵌入，维度为50。将整个训练集都进行替换。得到每个url链接的向量表示，即为一个二维矩阵，每一列表示一个词向量或者字符向量。

步骤4.3，将训练集中的每条url链接的向量表示输入到lstm层中的前向传播层和反向传播层；前向传播层和反向传播层一起提取输入的url链接的向量表示的语言信息；并将前向传播层和反向传播层同一时刻的结果相加，得到每条url链接中的语义特征向量，然后将语义特征向量传送给attention层；

步骤4.4，attention层接收每条url链接中的语义特征向量，先计算所有时序的权重，然后将所有时序的加权作为特征向量输出，采用如下计算公式进行计算：

U_t＝V tan h(w₁h+bw)；

a_t＝softmax(U_t)；

c^t＝∑a_th；

其中，h为每条url链接中的语义特征向量，w₁为参数向量，bw为偏置项；U_t为神经网络隐层表示；a_t是对U_t进行softmax函数归一化后得到权重矩阵；然后将权重矩阵a_t与语义特征向量h进行加权和，得到包含url链接中重要信息的文本向量c^t，最后将文本向量c^t传送给输出层；

步骤4.5，输出层采用softmax函数处理文本向量c^t，公式如下：

y＝softmax(w_jc^t+b_j)

其中，y为模型的输出，0表示正常的url链接，1表示恶意的url链接；w_j表示attention层到输出层的待训练权重系数矩阵；b_j表示待训练的相对应的偏置项。

由于恶意网页识别问题为二分类问题，所以输出层采用的损失函数为二元交叉熵损失函数，损失函数是衡量模型是否收敛的指标。损失函数的Loss稳定，模型收敛，则模型训练完成。公式如下：

log(yt|yp)＝-(yt*log(yp)+(1-yt)log(1-yp))

其中，y为训练集中x样本对应的标签，二分类问题取值集合为{0，1}，yt为某样本的真实标签，yp为该样本yt＝1时的概率；然后通过python matplotlib包来画出Loss曲线，看其是否平衡来判断损失函数的Loss是否稳定。

具体地：

步骤5.1，输入测试集及其字符级嵌入，以及静态词嵌入到训练好的BiLSTM-Attention神经网络模型，得到每条url链接的分类结果，0表示正常的url链接，1表示恶意的url链接；

步骤5.2，将每条url链接的分类结果与标注的标签(即数据集每条url链接标注的标签，为0或者1)对比，如果和标注的标签相符合，则pred+1，最后计算acc＝pred/测试集中url的数量，其中，acc为训练好的BiLSTM-Attention神经网络模型进行恶意网页识别的正确率，当正确率达到要求时验证通过。

步骤6，经过步骤5验证后，将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。如图3所示，具体地：将用户访问的网页数据集经过步骤1和步骤2的处理后，输入BiLSTM-Attention神经网络模型的输入层；经过嵌入层结合字符级嵌入和静态词嵌入进行替换后，依次经LSTM层、attention层和输出层输出分类结果，若为正常的url链接则允许访问，若为恶意的url链接则拒绝访问。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意网页识别方法，其特征在于，包括如下步骤：

步骤2，利用Char-CNN模型获取训练集和测试集的字符级嵌入；

步骤3，构建BiLSTM-Attention神经网络模型；

步骤6，经过步骤5验证后，将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别；

步骤3的方法为：

步骤3.1，构建输入层，所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集；

(2)更新输入门两部分输出：

i_t＝σ(w_ih_t-1+U_ix_t+bi)；

a_t＝tanh(w_ah_t-1+U_ax_t+b_a)；

(3)更新细胞状态：

C_t＝C_t-1f_t+i_ta_t；

(4)更新输出门两部分输出：

o_t＝σ(w₀h_t-1+U₀x_t+b₀)；

h_t＝o_ttanh(C_t)；

(5)当前序列索引预测输出：

y_t＝σ(Vh_t+c)；

步骤3.5，构建输出层，所述输出层为一层全连接层，将attention层的输出作为输出层的输入，使用softmax分类器处理attention层的输出得到分类结果。

2.根据权利要求1所述的恶意网页识别方法，其特征在于，步骤1的方法为：

步骤1.1，去除恶意网页数据集url链接缺失或者标签缺失的样本，并采用pythonwordninia模块对恶意网页数据集中的url链接进行分词处理，保留url链接中所有的符号；

步骤1.2，采用python NLTK包中的PorterStemmer和WordNetLemmatizer模块对恶意网页数据集中的url链接进行词干提取和词形还原；

步骤1.3，采用python lower()方法将恶意网页数据集中的url链接所有的字母转为小写或大写，完成归一化操作；

步骤1.4，将经过步骤1.1～步骤1.3处理后的恶意网页数据集按7：3或8：2的比例分为训练集和测试集。

3.根据权利要求1所述的恶意网页识别方法，其特征在于，步骤2的方法为：

步骤2.1，构建一张字符表：

将abcdefghijklmnopqrstuvwxyz0123456789-，；.！？：”’/\|_@#$％^&*～‘+-＝<>()[]{}这69个字符使用one-hot编码，再加一个全0向量用于处理不在该字符表中的字符，形成包括70个字符的字符表，并将该字符表表示为one-hot向量；

步骤2.2，将训练集或测试集采用字符表的one-hot向量表示，然后输入Char-CNN模型训练，得到相应的字符级嵌入。

4.根据权利要求1或3所述的恶意网页识别方法，其特征在于，所述Char-CNN模型为一个6层卷积层的神经网络模型。

5.根据权利要求4所述的恶意网页识别方法，其特征在于，步骤4的方法为：

步骤4.2，将构建好的文本词典一一与静态词嵌入进行对比，若该静态词嵌入中包含有文本词典中的单词向量，则用静态词嵌入中的该单词向量进行替换，若该静态词嵌入中没有文本词典中的单词向量，则用字符级嵌入进行替换，从而得到训练集中的每条url链接的向量表示；

步骤4.4，attention层接收每条url链接中的语义特征向量，采用如下计算公式进行计算：

U_t＝V tanh(w₁h+bw)；

a_t＝softmax(U_t)；

c^t＝∑a_th；

步骤4.5，输出层采用softmax函数处理文本向量c^t，公式如下：

y＝softmax(w_jc^t+b_j)

6.根据权利要求5所述的恶意网页识别方法，其特征在于，输出层采用的损失函数为二元交叉熵损失函数，公式如下：

log(yt|yp)＝-(yt*log(yp)+(1-yt)log(1-yp))

其中，y为训练集中x样本对应的标签，二分类问题取值集合为{0，1}，yt为某样本的真实标签，yp为该样本yt＝1时的概率；然后通过pythonmatplotlib包来画出Loss曲线，看其是否平衡来判断损失函数的Loss是否稳定。

7.根据权利要求5所述的恶意网页识别方法，其特征在于，步骤5的方法为：

步骤5.2，将每条url链接的分类结果与标注的标签对比，如果和标注的标签相符合，则pred+1，最后计算acc＝pred/测试集中url的数量，其中，acc为训练好的BiLSTM-Attention神经网络模型进行恶意网页识别的正确率，当正确率达到要求时验证通过。