CN108111478A

CN108111478A - 一种基于语义理解的网络钓鱼识别方法和装置

Info

Publication number: CN108111478A
Application number: CN201711085356.XA
Authority: CN
Inventors: 张茜; 曾宇; 李洪涛; 延志伟; 袁晓彤; 耿光刚
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2018-06-01

Abstract

本发明涉及一种基于语义理解的网络钓鱼识别方法和装置。该方法包括：提取网站中网页的HTML文本中的文字部分，得到网页的文本数据；利用所述网页的文本数据生成文本语义特征；将待检测网站的文本语义特征输入钓鱼检测模型，以判断待检测网站是否为钓鱼网站；所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。该方法将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量，利用词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征。本发明从网页文本语义分析的视角提取系列特征，能够构建更为鲁棒的钓鱼检测模型，并提升网络钓鱼识别的能力。

Description

一种基于语义理解的网络钓鱼识别方法和装置

技术领域

本发明属于网络技术领域，具体涉及一种基于语义理解的网络钓鱼识别方法和装置。

背景技术

网络钓鱼(Phishing)这一术语产生于1996年，它是由钓鱼(Fishing)一词演变而来。在网络钓鱼的过程中，攻击者使用诱饵(比如电子邮件、手机短信)发送给大量用户，期待少数用户“上钩”，进而达到“钓鱼”(如窃取用户的隐私信息)的目的。国际反网络钓鱼工作组(APWG)给网络钓鱼的定义是：网络钓鱼是一种利用社会工程学和技术手段来窃取消费者的个人身份数据和财务账户凭证的网络攻击方式。采用社会工程手段的网络钓鱼攻击往往是向用户发送貌似来自合法的企业或机构的欺骗性电子邮件、手机短信等，引诱用户回复个人敏感信息或者点击里面的链接访问伪造的网站，进而泄露凭证信息(例如用户名、密码)或下载恶意软件。网络钓鱼严重威胁网民的财产和隐私安全，已成为当前互联网最大的安全隐患之一。

网络钓鱼本质上属于品牌仿冒，为了达到以假乱真的效果，钓鱼网站在视觉和语义上高度相似于品牌站点。基于机器学习的钓鱼检测是当前的研究热点，统计特征的选择关乎模型的有效性。然而，现有统计特征的提取主要围绕视觉相似性、窃取和第三方特征等，忽略了对网页语义特征的挖掘。

近几年深度学习在图像识别、语音识别领域取得了重大进展，在自然语言理解中的多种任务也取得了非常良好的结果，特别是主题分类、情绪分析、问答和语言翻译。自然语言处理中一个很重要的任务就是对词语、文本进行向量表示，利用深度学习技术通过训练语言模型，可得到具有语义信息和句法信息的词向量，并且向量间的相对相似度和语义相似度是相关的。

发明内容

为了更好的刻画钓鱼网站的仿冒特性，本发明提出一种基于语义理解的网络钓鱼识别方法和装置，从网页文本语义分析的视角提取系列特征，以挖掘目前研究尚未覆盖的钓鱼特性，构建更为鲁棒的钓鱼检测模型，提升网络钓鱼识别的能力。

本发明采用的技术方案如下：

一种基于语义理解的网络钓鱼识别方法，包括以下步骤：

提取网站中网页的HTML文本中的文字部分，得到网页的文本数据；

利用所述网页的文本数据生成文本语义特征；

将待检测网站的文本语义特征输入钓鱼检测模型，以判断待检测网站是否为钓鱼网站；所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。

进一步地，所述生成文本语义特征的方法是：将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量；利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征。

进一步地，采用神经网络模型进行所述语言模型的学习，通过词向量的训练构建词语的词向量表，然后通过查询词向量表得到网页文本中所有词语的词向量，并利用词语的词向量进行文本语义特征表示。

进一步地，对于不在词向量表中的词语的处理方式为：a)对于不在词向量表中的词语，将事先定义的未命中向量作为该词语的词向量；b)构建一个高频词表，对于不在词向量表中但在高频词表中的词语，根据词频决定该词语的词向量，对于词向量表和高频词表中都不在的词语，将一个事先定义的向量作为该词语的词向量。

进一步地，利用词语的词向量，通过求均值的方式或求加权的方式生成文本语义特征。

进一步地，所述生成文本语义特征的方法是：利用doc2vec的方法直接生成文本语义特征。

一种基于语义理解的网络钓鱼识别装置，其包括：

文本数据提取模块，用于提取网站中网页的HTML文本中的文字部分，得到网页的文本数据；

文本语义特征生成模块，用于利用所述网页的文本数据生成文本语义特征；

钓鱼检测模型训练模块，用于利用所述文本语义特征，采用机器学习算法构建钓鱼检测模型；

钓鱼检测模块，用于调用所述文本数据提取模块和所述文本语义特征生成模块以提取待检测网站中网页的文本语义特征，并将其输入所述钓鱼检测模型以判断待检测网站是否为钓鱼网站。

进一步地，所述文本语义特征生成模块将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量，然后利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征；或者，所述文本语义特征生成模块利用doc2vec的方法直接生成文本语义特征。

与现有技术相比，本发明的有益效果如下：

1.从语义的角度挖掘目前研究尚未覆盖的钓鱼特性，弥补了现有基于机器学习的钓鱼识别技术的不足，提高了检测模型的鲁棒性。

2.利用词向量表示文本语义特征，网页文本语义特征表示方便快速。在根据语料库训练得到词向量表后，后续网页文本语义特征表示通过查表的方式加以简单的计算即可获得。

3.可处理钓鱼模板多品牌复用的问题。由于词向量具有功能上类似的词语在这个空间内至少沿某个方向相互靠近的特点，本发明对于处理类似的钓鱼模板用于不同品牌仿冒的问题很有优势。

4.可有效提升钓鱼检测的查准率和查全率，适用于实际互联网检测环境。

附图说明

图1.钓鱼检测模型训练流程图。

图2.钓鱼检测流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

为了骗取用户信任，钓鱼网站往往与合法站点看起来相似，这种相似性体现在URL、Logo、登录框、版权声明等多种视觉元素上。现有的主流研究通过挖掘视觉相似性、窃取特征和第三方特征等，实现网络钓鱼的检测。然而从本质上来说，钓鱼网站高度依赖于网页中的文本内容仿冒以进一步达到引诱用户输入敏感信息的目的，即语义仿冒是钓鱼网站的重要特性，现有研究缺乏相关分析。因此，本发明探索挖掘钓鱼网站的语义相似性，以提升钓鱼检测的性能。本发明将词向量表示引入钓鱼检测，以期待更好的刻画钓鱼网站的仿冒本质。

本发明提出的基于语义理解的钓鱼检测方法，利用词向量进行文本语义特征表示，实现网络钓鱼网站的检测。检测模型的训练过程及检测过程见图1、图2，主要包含以下步骤：

1.检测模型训练阶段

钓鱼检测模型的训练过程主要包括以下四个步骤：

a)分词：对于中文等词与词之间没有空格的语言，在提取网页的HTML文本中的文字部分之后，需要首先进行分词处理；对于英语等词与词之间以空格做分隔的语言，则不必进行分词，直接提取HTML文本中的文字部分即可。

b)训练语言模型，获得词语的词向量表示：利用合法网页文本数据作为语料库，选择神经网络模型进行语言模型的学习(即训练)，从而得到词语的词向量表示，形成词向量表。

c)利用词向量对HTML文本进行语义表示：利用b)获得的词向量表中的词语词向量，对合法数据、钓鱼数据的HTML文本进行向量表示，生成文本语义特征(即文本向量)。

d)使用机器学习算法利用文本语义特征构建钓鱼检测模型。

所述机器学习算法在此不做具体指定，包括但不限于支持向量机、随机森林、AdaBoost等常用的有监督机器学习算法。

所述利用文本语义特征构建钓鱼检测模型的过程与常见的利用机器学习算法训练模型的方式相似：将得到的文本语义特征作为样本特征，利用训练数据的特征和label(是否为钓鱼网站)，选择合适的机器学习算法实现钓鱼检测模型的训练。

2.网络钓鱼检测阶段

在对待检测网页进行检测的主要步骤是提取文本语义特征，然后将语义特征输入钓鱼检测模型以判断待检测网页是否为钓鱼。该阶段的文本语义特征提取的过程与模型训练阶段的文本语义特征提取的过程类似。

以上概括说明了本发明方法的两个阶段。本发明的这两个阶段中，重点在于网页文本语义特征表示。本发明不限定具体的实现方式，通过神经网络模型学习语言模型从而获取词语的词向量即可，不限定具体的神经网络模型；利用词语词向量进行文本语义特征表示可通过求均值、求加权等方式实现，以下将分别给出实施例。

1)获取词语词向量

词向量，又称为分布式词表示，其训练方式有很多，但都是利用神经网络模型(例如CBOW、Skip-gram、C&W、LBL等)学习语言模型，从而得到词语的词向量。本发明中词向量表的构建方式如下：构建合法网页文本的数据集，将其作为训练词向量的语料集，参照已有神经网络模型或自行构建神经网络进行词向量的训练，构建语料集中词语的词向量表。词向量表中每行包括一个词语及该词语对应的N维的词向量(维数N可根据需要进行设置)，该该向量的每个维度都代表着该词语潜在的语法或语义特征。可以利用word2vec等方法生成词语的词向量表。

词向量使功能上类似的词语在特征空间中至少沿某个方向相互靠近，因此，词语之间的相似性可以通过其词向量之间的距离(欧式距离、余弦相似度等)来衡量。可以通过计算得到与给定词语相似度最高的词语，如下面所示为与“建行”最相似的几个词语，其中，每个元组的第一项为词语，第二项为与“建行”一词的相似度。

(农行,0.708540976048)

(兴业银行,0.65518784523)

(建设银行,0.636544108391)

(交通银行,0.616162657738)

(华夏银行,0.608458161354)

(支行,0.608001768589)

(工行,0.59148645401)

2)文本语义特征表示

文本语义特征表示的方法如下：通过查询词向量表，得到网页文本中所有词语的词向量，并使用一定的计算方式得到文本向量。其中，对于不在词向量表中的词语，有两种处理方式：

一、将事先定义的未命中向量(例如全为0的向量)作为该词语的词向量。

二、构建一个高频词表。对于不在词向量表中但在高频词表中的词语，根据词频决定该词语的词向量；对于词向量表和高频词表都不在的词语，将一个事先定义的向量作为该词语的词向量。

利用词语的词向量表对一个文本进行向量表示的计算方式如下：

a)求均值

计算均值的方式认为文本中各词语的权重相同。利用求均值的方式进行文本向量表示时，为了避免停用词带来的噪声，首先对文本进行去停用词处理，随后使用公式(1)描述的方式计算文本向量。

其中，d_i表示第i个文本的向量表示；n_i表示第i个文本中词语的个数；w_ij表示第i个文本中第j个词语的词向量。

b)求加权

加权的计算方式认为文本中各词语的权重不同，权重的计算方式包括但不限于TF-IDF(Term Frequency-Inverse Document Frequency)，使用TF-IDF作为词语权重的文本向量计算公式如下：

其中，d_i、n_i、w_ij表示的含义与公式(1)相同；tfidf_ij表示第i个文本中第j个词语的TF-IDF值。

下面提供一个具体应用实例。

假设一个网页的文本内容为“中国工商银行手机银行”，分词结果为“中国工商银行/手机/银行”，这三个词在词向量表中的向量分别为(为方便说明，在此仅取前5维)：

表1.分词得到的三个词语的词向量(前五维)

由于这三个词语均不在停用词表中，因此使用求均值的方式得到的文本向量为这三个向量和的平均值，即：

使用加权方式计算文本向量：

d＝[2.7928238*(-0.037823,0.361873,0.033403,-0.252190,-0.015590)+

1.4973016*(-1.876170,0.183362,-0.304421,-0.512916,3.008589)+

1.7978696*(0.455634,-1.009433,-0.683979,-1.826192,1.280102)]

/(2.7928238+1.4973016+1.7978696)

＝(0.455634,-1.009433,-0.683979,-1.826192,1.280102)

提取常用的统计特征，与该发明提取的方法进行对比试验。分别使用均值词向量、加权词向量、统计特征(包括表2描述的窃取特征、版权仿冒特征、许可仿冒特征、域名时效特征和链接一致性特征的线性融合，即t1∪t2∪t3∪t4∪t5)及均值词向量与统计特征融合这四种特征选取方式，分别使用了AdaBoost、Bagging、Random Forest、SMO四个机器学习算法进行十折交叉验证，实验结果见表3。

表2.提取的用于对比的统计特征

表3.四种机器学习算法下使用不同特征进行分类的实验结果

表3中各指标的说明如下：

对于二分类问题，可将样例根据其真实类别与学习期预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN)，其构成的混淆矩阵如表4所示：

表4.分类结果混淆矩阵

根据混淆矩阵可定义以下评估指标：

P(准确率)：

R(召回率)：

F-measure：(本发明中β＝1)

FP Rate(误检率)：

Error Rate(错误率)：

AUC：ROC曲线是将FPR和TPR分别作为x轴和y轴构成的曲线，该曲线下的面积称之为AUC。其中

由表3可知，总体来说，仅使用词向量进行钓鱼检测的效果与使用统计特征的效果相当，而词向量与统计特征融合的效果则最为突出。

本发明另一实施例提供一种基于语义理解的网络钓鱼识别装置，其包括：

所述文本语义特征生成模块将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量，然后利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征。

以上实施例中利用word2vec等方法生成词语的词向量表，进而生成文本向量。在其它实施例中，也可以利用doc2vec的方法，通过训练，直接生成一个不定长文本的向量，即直接生成文本语义特征。然后利用文本语义特征，采用机器学习算法构建钓鱼检测模型。在网络钓鱼检测阶段，提取待检测网站中网页的文本语义特征，将其输入所述钓鱼检测模型以判断待检测网站是否为钓鱼网站。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于语义理解的网络钓鱼识别方法，其特征在于，包括以下步骤：

利用网页的文本数据生成文本语义特征；

2.如权利要求1所述的方法，其特征在于，所述生成文本语义特征的方法是：将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量；利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征。

3.如权利要求2所述的方法，其特征在于，采用神经网络模型进行所述语言模型的学习，通过词向量的训练构建词语的词向量表，然后通过查询词向量表得到网页文本中所有词语的词向量，并利用词语的词向量进行文本语义特征表示。

4.如权利要求3所述的方法，其特征在于，对于不在词向量表中的词语的处理方式为：a)对于不在词向量表中的词语，将事先定义的未命中向量作为该词语的词向量；b)构建一个高频词表，对于不在词向量表中但在高频词表中的词语，根据词频决定该词语的词向量，对于词向量表和高频词表中都不在的词语，将一个事先定义的向量作为该词语的词向量。

5.如权利要求2所述的方法，其特征在于，利用词语的词向量，通过求均值的方式或求加权的方式生成文本语义特征。

6.如权利要求5所述的方法，其特征在于，所述求均值的方式，首先对文本进行去停用词处理，然后采用以下公式计算文本向量：

<mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>i</mi> </msub> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> </mrow>

7.如权利要求5所述的方法，其特征在于，所述求加权的方式采用以下公式计算文本向量：

<mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>tfidf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msubsup> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>tfidf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，d_i表示第i个文本的向量表示；n_i表示第i个文本中词语的个数；w_ij表示第i个文本中第j个词语的词向量；tfidf_ij表示第i个文本中第j个词语的TF-IDF值。

8.如权利要求1所述的方法，其特征在于，所述生成文本语义特征的方法是：利用doc2vec的方法直接生成文本语义特征。

9.一种基于语义理解的网络钓鱼识别装置，其特征在于，包括：

文本语义特征生成模块，用于利用网页的文本数据生成文本语义特征；

钓鱼检测模型训练模块，用于利用文本语义特征，采用机器学习算法构建钓鱼检测模型；

10.如权利要求9所述的装置，其特征在于，所述文本语义特征生成模块将合法网页的文本数据作为语料库来训练语言模型，得到词语的词向量，然后利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示，生成文本语义特征；或者，所述文本语义特征生成模块利用doc2vec的方法直接生成文本语义特征。