CN112541476A

CN112541476A - 一种基于语义特征提取的恶意网页识别方法

Info

Publication number: CN112541476A
Application number: CN202011554458.3A
Authority: CN
Inventors: 李志雄; 林宜雄
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-23
Anticipated expiration: 2040-12-24
Also published as: CN112541476B

Abstract

本发明公开一种基于语义特征提取的恶意网页识别方法，包括如下步骤：S1，获取网页源码；S2，利用网页源码进行数据预处理，预处理包括如下步骤：S2‑1，提取网页中的文本和图像；S2‑2，识别S2‑1中该网页所提取图像中的文本；S3，通过BiLSTM‑CNN神经网络对S2‑1和S2‑2中提取的文本进行处理，实现对网页的进行识别，判断所识别的网页为合法网页还是恶意网页。本发明能够应用于网页安全领域，考虑了数种网页内容变形对抗的场景，在恶意网页自动化鉴定方面取得了比传统方法更好的识别效果，识别准确率更高。

Description

一种基于语义特征提取的恶意网页识别方法

技术领域

本发明涉及自然语言处理领域，涉及网络安全领域，具体涉及一种基于语义特征提取的恶意网页识别方法。

背景技术

随着互联网技术的进步，网络用户数量不断增长，各类公司、机构纷纷建立门户网站。用户通过搜索引擎可以足不出户接收到各种新潮信息。在众多的网页中，除了内容健康，站点安全的网页之外，也存在着相当一部分恶意网页。这些恶意网页的形式多种多样，有的网页利用色情文字或挑逗性图片向用户提供不良信息；有的网页钻法律漏洞在网络上开展非法***活动；有的网页发布虚假信息诱骗用户进行刷单等行为，使用户造成经济损失等等。根据互联网网络安全检测数据分析报告显示，互联网恶意程序中排名前三的主要是流氓行为类、内容违法类和信息窃取类。搜索引擎是用户获取信息的入口，如果搜索引擎不能有效识别恶意网页，那么将对用户的隐私安全、财产安全造成极大威胁。

发明内容

为解决现有技术中存在的问题，本发明的目的在于提供一种基于语义特征提取的恶意网页识别方法，本发明能够应用于网页安全领域，考虑了数种网页内容变形对抗的场景，在恶意网页自动化鉴定方面取得了比传统方法更好的识别效果，识别准确率更高。

为实现上述目的，本发明采用如下的技术方案：

一种基于语义特征提取的恶意网页识别方法，包括如下步骤：

S1，获取网页源码；

S2，利用网页源码进行数据预处理，预处理包括如下步骤：

S2-1，提取网页中的文本和图像；

S2-2，识别S2-1中该网页所提取图像中的文本；

S3，通过BiLSTM-CNN神经网络对S2-1和S2-2中提取的文本进行处理，实现对网页的进行识别，判断所识别的网页为合法网页还是恶意网页。

优选的，S2-1中，提取网页中的文本时，对Unicode字符进行转义处理，基于html解析器提取文本，基于beautifulsoup对网页Dom树进行重构。

优选的，基于beautifulsoup对网页Dom树进行重构时，对该Dom树进行深度优先遍历，扫过树中的每个非叶子节点，如果某个节点的属性是文本化标签，则利用soup.delete()方法该节点从Dom树中去除，对Dom树遍历完成后，得到新的Dom树，对新的Dom树进行二次序列化，生成一份新的html文本。

优选的，S2-2中，通过OCR方法识别出图像的文本，对所提取图像进行分割，使图像尺寸满足OCR接口的长宽限制。

优选的，基于PhantomJs对提取的图像进行分割，对于过长的图片，利用Canny算法进行图片分割；其中，所述过长的图片为base64编码后大小超过4M，或最长边超过4096px的图片。

优选的，利用Canny算法进行图片分割时，首先通过滤波消除噪声，然后计算梯度的幅值和方向，选择Sobel算子计算梯度的幅值和方向，公式如下：

对计算后的结果进行非最大值抑制，然后使用双阈值连接边缘，完成图像分割。

优选的，所述S2还包括S2-3，S2-3包括：基于word2vec词向量方法，将S2-1和2-2中得到的过长的文本进行截取，获取具有不良关键词的句子以及与该句子紧邻的句子，得到待检测文本；所述过长的文本为文本字符数超过800的文本；

S3中，通过BiLSTM-CNN神经网络对S2-3获取的待检测文本进行处理。

优选的，S2-3包括如下步骤：

S2-3-1，获取经过人工验证后的不良关键词集合E(w)；

S2-3-2，将待检测文本进行分词，得到待检测文本词汇集合D(w)；通过词-词向量对应模型，将E(w)和D(w)中的词汇进行向量映射，得到不良关键词词向量集合Ve(w)和待检测关键词词向量集合Vd(w)；

S2-3-3，根据欧式距离度量Ve(w)和Vd(w)之间的相似性，获取向量间阈值大于预设值的前预设数量的最近似关键词；

S2-3-4，对待检测文本中的句子进行统计，选择包含S2-3-3得到的最近似关键词的句子，并且将这些句子的上下紧邻的句子加入到句子集合中，经过去重后，得到最终的待检测文本。

优选的，S2-3-2中，当D(w)中存在不能在E(w)中找到对应词向量的词时，将这些词用预设符号表示，或者将这些词从D(w)中剥离。

优选的，BiLSTM-CNN神经网络中，CNN层选择三种卷积核，三种卷积核分别为3*3、4*4和5*5，三种卷积核数目都为128。

本发明具有如下有益效果：

本发明利用网页源码进行数据预处理，能够提取出网页中的文本以及图像中的文本，通过BiLSTM-CNN神经网络对提取出的文本进行识别，判断所识别的网页为合法网页还是恶意网页。因此本发明对网页上的内容检测更加全面，提高了对网页识别的准确率，解决了现有技术中只能对网页上的文字进行检测，而对图像中嵌入的文字并未识别、检测，导致对恶意网页的漏检的缺陷。

进一步的，提取网页中的文本时，对Unicode字符进行转义处理，能够充分挖掘潜在的敏感词汇。

进一步的，过长的文本进行截取，获取具有不良关键词的句子以及与该句子紧邻的句子，得到待检测文本，先经过这种初赛，能够减少BiLSTM-CNN神经网络的计算量，提高效率。

附图说明

图1为本发明的流程图；

图2为本发明实施例中经过Dom树重构后的网页展现形式；

图3为本发明实施例中经过Canny算法进行边缘处理后的图片；

图4为本发明实施例中经过OCR接口识别后的文本内容；

图5为本发明中采用的BiLSTM-CNN神经网络结构示意图。

具体实施方式

下面结合附图和实施例来对本发明做进一步的说明。

参照图1，本发明基于语义特征提取的恶意网页识别方法，包括以下步骤：

1)利用爬虫技术从PhishTank网站中爬取恶意网页数据，从Alexa排行榜中爬取合法中文网页数据。

2)对网页数据进行预处理，包括如下步骤：

2-1)对网页中的Unicode字符进行转义处理，基于谷歌开源的html解析器提取网页中的文本元素，基于beautifulsoup对网页Dom树进行重构。

2-2)基于PhantomJs对生成的图像进行分割，对于过长的图片(即base64编码后大小超过4M，或最长边超过4096px的图片)，利用Canny算法进行图片分割，通过OCR技术识别出图像的文本内容。

2-3)基于word2vec词向量技术，对步骤2-1)和步骤2-2)中得到的过长的文本进行截取，获取具有不良关键词的句子以及与该句子紧邻的句子，得到待检测文本。

3)对步骤2)所得待检测文本进行处理，对合法网页和恶意网页进行标签化处理，将处理后的数据集划分为8：1：1，分别用作训练数据集、测试数据集和验证数据集；

4)模型训练：选用BiLSTM-CNN神经网络作为模型，定义损失函数Loss(w)，使用步骤3)得到的训练数据集对预测模型进行训练。

5)模型评估：使用步骤3)得到的验证数据集对模型进行评估。

本发明的创新点

1)本发明的进一步的改进在于，基于网页中的富元素文本语义提取网页特征，能够处理网页内容篡改的情况。

2)本发明的进一步的改进在于，步骤2-1)中，对网页原始html中不良网页利用Unicode编码替代敏感字符的方式，做了转义处理，充分挖掘潜在的敏感词汇。

3)本发明进一步的改进在于，步骤2-2)中，考虑到OCR接口的识别效率，不直接对网页原始内容进行截图。先利用Python提供的开源库BeautifulSoup将网页源码在内存中生成一颗Dom树，通过对Dom树进行深度优先遍历，去除途经的所有包含<text>标签及其他文本标签的子节点，随后将该Dom树二次序列化得到html文档。此处理能够将网页中原始以标签形式存在的文本数据进行剔除，使得截图后的待识别文字数量降低，识别效率得到提升。

4)本发明进一步的改进在于，步骤2-2)中对尺寸过大的截图进行进一步分割，使其满足OCR接口的长宽限制。首先通过滤波消除噪声，然后计算梯度的幅值和方向，选择Sobel算子进行计算

对计算后的结果进行非最大值抑制，然后使用双阈值连接边缘。

5)本发明进一步的改进在于，在步骤2-3)中，对于过长的待检测文本进行关键段落截取，而非固定的截取方式。利用词向量间的距离衡量待检测文本与词库内单词的相似度，而非传统的基于字符的匹配。

本发明区别于传统的基于URL特征或者网页结构化特征的识别方法，本方法将网页内容语义作为特征进行判别，能够避免因为站点被黑，内容被篡改，或者部分通过了URL筛查但是本身还是存在不良内容的网页。针对一部分***色情网页以图片形式展现敏感文本的干扰方式，本方法在充分考虑文字识别接口效率的前提下，提出基于Dom树重构后进行网页截图和OCR识别的策略，来应对这种变形干扰。针对部分网页内容过长，而传统方式无法有选择性的截取关键段落的缺点，本方法基于词向量相似度来提取长文本中的关键性段落。在检测算法方面，本方法使用BiLSTM+CNN的网络结构，充分提取文本内容的局部特征和全局语义，相比原有的TextCNN和FastText网络，具备更高的识别精度。

本发明的目的是提供一种基于长短期记忆网络的恶意网页识别方法，来对网页内容进行有效的分类和识别。鉴于现存方法存在的问题，本发明基于Dom树重构和网页截图的方式，提取存在变形对抗的文本，利用OCR技术将图片化的文本内容提取；通过长短时记忆网络结合卷积神经网络对文本的全局语义和局部特征进行提取，鉴别网页内容的合法性，增强了识别效果的准确性和鲁棒性。同时对于超长的文本，基于词向量距离进行关键词定位，通过关键词来提取关键段落，提高了截取文本的质量，提高了识别的准确率。

实施例

本实施例基于语义特征提取的恶意网页识别方法，包括如下步骤：

1)数据的收集：

网页数据被分为两个类别，第一个类别是合法的网页，主要来源是Alexa网站流量综合排名中排位靠前的5000份中文网页数据；第二个类别是非法的网页，主要来源恶意网页统计***PhishTank的数据库以及2017中国网络安全对抗赛中的恶意样本数据共4632份。

2)数据的预处理：

2-1)利用python自带的正则表达式匹配模块，对网页中可能包含的Unicode编码进行转义，得到码点对应的中文字符。

2-2)基于谷歌开源的html解析器Gumbo提取网页中的中文文本。

2-3)利用开源库BeautifulSoup将静态的html文本生成内存中的结构化Dom树，这颗Dom树中包含有原html文本的全部信息。对该Dom树进行深度优先遍历，扫过树中的每个非叶子节点，如果某个节点的属性是文本化标签，如<text>，那么利用soup.delete()方法该节点从Dom树中去除，结果如图2所示。遍历完成后，当前的Dom树已不再存在文本形式的元素，对这颗Dom树进行二次序列化，生成一份新的html文本。当前得到的html文本已不再包含文本元素。

2-4)利用开源库PhantomJs对步骤2-3)中生成的静态html进行截图，生成.png形式的截图。计算得到的截图长度和图像存储大小，对于过长的截图进行图像分割。分割的算法选择Canny算法，分为四步：第一步，利用滤波消除噪声；第二步，计算梯度的幅值和方向，本实施例中选择Sobel算子，其计算公式如下：

第三步，进行非最大值抑制，确定合适的分割点；第四步，双阈值连接边缘，完成图像裁剪。利用开源的pyocr库对分割好的网页截图进行文字识别，并且输出相应的文本内容，结果如图4所示。经过Canny算法进行边缘处理后的图片如图3所示。

2-5)将步骤2-4)中输出的文本进行截取。首先将全量的恶意网页样本进行汇总，利用中文分词工具jieba对这些网页中提取的文本进行中文分词。将分词结果存放于一个列表中，对该列表中的词汇进行频率统计。取出现频率最高的前2500个词进行人工校验，得到包含***、色情、血腥、非法***方面的敏感词汇共计932个。此外通过人工查看500份恶意网页，辨别出其他的敏感词汇共计565个。至此，共得到全量敏感词汇总计1497个。

基于CBOW算法得到对应敏感词汇的词向量，CBOW的具体流程如下所示：

以Context(w)表示为词语w的上下文，在CBOW模型的输入层，将某个词语以及它上下相邻的词语对应的词向量输入进模型中；在投影层将这些向量相加，具体公式为：

由于去除了其他神经网络模型中间的隐藏层，CBOW模型根据输入层的上下文直接对目标词进行预测：

模型的优化目标公式为：

对于每个给定的训练样本(Context(w)，w)，Context(w)是输入，w是输出，当记w为正样本的时候，词库中其他的词就是负样本，于是词库中的每个词语均满足如下条件

由上述公式2.10可得，要优化模型，实际就是需要最大化

而

整体的优化目标可表示为

其中的σ表示sigmoid函数，是神经网络中常见的激活函数，

表示为CBOW将词语u预测为正样本的概率，而

表示为CBOW将词语u预测为负样本的概率。当u为正样本的时候，

越大说明模型预测效果越好，

越小说明模型的预测效果越好。利用随机梯度上升算法来执行对公式(6)的优化过程。最终可以获得语料库中各个词的词向量表达。

由于传统的关键词匹配是严格基于字符的，这种方式太过死板，无法辨析一些近义词的存在。例如同义词集合R[{“老师”，“教师”}，{“餐馆”，“饭店”}]，如果只是根据字符匹配去做关键词发现，那么将非常依赖关键词的词库。但是不良网页的信息更新极快，会使用各种隐晦的方式去表达敏感词汇，所以这种传统的字符匹配方式无法达到很好的效果。由于CBOW算法得到了恶意网页中词汇的词向量表达形式，那么本实施例中将采用词向量的距离来衡量两个词的相似程度，从而在一定的阈值内定位待检测文本中近似的关键词。具体步骤如下：

a)设经过人工验证后的不良关键词集合为E(w)。

b)将待检测文本通过中文分词工具jieba进行分词，得到待检测文本词汇集合D(w)。通过CBOW算法训练出来的词-词向量对应模型，将E(w)和D(w)中的词汇进行向量映射。需要注意的是受到语料库的素材限制，并不能保证D(w)中的所有词都能找到对应的词向量，这个时候统一用符号<UNK>表示，或者直接将这种无法映射的词剥离D(w)集合。

c)至此，得到不良关键词词向量集合Ve(w)，待检测关键词词向量集合Vd(w)

d)根据欧式距离度量Ve(w)和Vd(w)之间的相似性

其中x，y分别表示一个n维向量，x_i表示该向量在第i维度的值

e)取向量间阈值大于T的前k个最近似关键词

f)对原文中句子进行统计，选择那些包含步骤e)获取的前k个最近似关键词的句子，并且将这些句子的上下紧邻的句子也加入到句子集合Sen(s)中，经过去重后，得到最终的待检测文本Text-detect。

步骤3)，对步骤2)所得数据(最终的待检测文本Text-detect)进行处理，对合法网页和恶意网页进行标签化处理，将处理后的数据集划分为8：1：1，分别用作训练数据集，测试数据集，验证数据集；

步骤4)，模型训练：选用BiLSTM-CNN神经网络作为模型，定义损失函数Loss(w)，损失函数选择交叉熵损失函数，计算训练过程中预测分割结果与真实标签之间的损失值，计算公式为：

其中H(p,q)表示预测分割结果与真实标签之间的损失值，P(X)表示样本的真实分布，Q(X)表示模型所预测的分布；使用步骤3)得到的训练数据集对预测模型进行训练。模型结构图如图5所示：

经过word embedding后生成的词向量矩阵首先进入栈式LSTM，激活函数选用sigmoid，CNN层选择3种卷积核，分别是3*3、4*4和5*5，卷积核数目都为128，激活函数选择Relu，随后选择全局均值作为池化函数。Dropout的参数设置为0.5，最后输出层的激活函数选择Softmax，将向量映射为(0，1)之间的值来代表恶意网页的概率。

步骤5)，模型评估：使用步骤3)得到的验证数据集对模型进行评估。

本实验采用精确率(precision)、召回率(recall)和F1-score作为评估标准。精确率表示全部预测为正中正确预测为正的比例，精确率越高，代表模型对负样本的区分程度越高；召回率是正确预测为正的占全部实际为正的比例，召回率越高，代表模型对正样本的识别程度越好。

用精确率和召回率来评价模型质量，对照试验为

A.固定截取-无OCR-TextCNN

B.固定截取-无OCR-FastText

C.固定截取-OCR-BiLSTM-CNN

D.关键字截取-OCR-BiLSTM-CNN

实验结果如表1所示：

表1

由表1可以看出，基于FastText模型的检测精度和召回率都是最低，主要是因为FastText的网络结构较为简单，且对词向量只是进行了简单的求和及均值化处理。TextCNN模型的精度较FastText模型在本数据集上有了3个百分点的提升。BiLSTM-CNN由于提取了时序性的语义特征，比TextCNN的全局语义提取能力更强。本方法基于BiLSTM-CNN模型，对网页中的图片进行了OCR识别，抽取了更丰富的网页文本信息，并且对参数进行调整，较传统的检测模型取得了1个百分点的提升，识别精度达到92.28％，同时召回率达到84.68％，能够更加准确地识别恶意网页。

本发明根据从恶意网页数据库PhishTank以及排名网站Alexa中收集到的网页作为数据集。为了提取网页中的富文本信息，首先对网页文本进行Unicode转码处理，还原被编码的敏感信息。随后根据网页源码构建对应的Dom树，将Dom树重构以去除冗余的文本信息并且二次序列化。对序列化后的网页源码进行截图，并且基于Canny算法对截图进行分割，将得到的图片进行OCR处理得到用于变形对抗的敏感文本。对于过长的文本，本方法采取基于词向量距离的关键段落截取方式，对比原有的固定截取方式取得了更好的效果。本方法选用BiLSTM-CNN神经网络进行文本特征提取，充分学习了网页文本的语义特征及局部特征，相较原有的TextCNN以及FastText网络具备更高的识别准确率。而且基于网页语义特征的识别方法能够应对网页内容篡改的情况，这是传统的基于URL特征识别恶意网页无法应对的场景。本方法能够应用于网页安全领域，考虑了数种网页内容变形对抗的场景，在恶意网页自动化鉴定方面取得了比传统方法更好的识别效果。

Claims

1.一种基于语义特征提取的恶意网页识别方法，其特征在于，包括如下步骤：

S1，获取网页源码；

S2，利用网页源码进行数据预处理，预处理包括如下步骤：

S2-1，提取网页中的文本和图像；

S2-2，识别S2-1中该网页所提取图像中的文本；

2.根据权利要求1所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，S2-1中，提取网页中的文本时，对Unicode字符进行转义处理，基于html解析器提取文本，基于beautifulsoup对网页Dom树进行重构。

3.根据权利要求2所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，基于beautifulsoup对网页Dom树进行重构时，对该Dom树进行深度优先遍历，扫过树中的每个非叶子节点，如果某个节点的属性是文本化标签，则利用soup.delete()方法该节点从Dom树中去除，对Dom树遍历完成后，得到新的Dom树，对新的Dom树进行二次序列化，生成一份新的html文本。

4.根据权利要求1所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，S2-2中，通过OCR方法识别出图像的文本，对所提取图像进行分割，使图像尺寸满足OCR接口的长宽限制。

5.根据权利要4所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，基于PhantomJs对提取的图像进行分割，对于过长的图片，利用Canny算法进行图片分割。

6.根据权利要求5所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，利用Canny算法进行图片分割时，首先通过滤波消除噪声，然后计算梯度的幅值和方向，选择Sobel算子计算梯度的幅值和方向，公式如下：

7.根据权利要求1所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，所述S2还包括S2-3，S2-3包括：基于word2vec词向量方法，将S2-1和2-2中得到的过长的文本进行截取，获取具有不良关键词的句子以及与该句子紧邻的句子，得到待检测文本；

8.根据权利要求7所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，S2-3包括如下步骤：

S2-3-1，获取经过人工验证后的不良关键词集合E(w)；

9.根据权利要求8所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，S2-3-2中，当D(w)中存在不能在E(w)中找到对应词向量的词时，将这些词用预设符号表示，或者将这些词从D(w)中剥离。

10.根据权利要求1所述的一种基于语义特征提取的恶意网页识别方法，其特征在于，BiLSTM-CNN神经网络中，CNN层选择三种卷积核，三种卷积核分别为3*3、4*4和5*5，三种卷积核数目都为128。