CN108111478A - 一种基于语义理解的网络钓鱼识别方法和装置 - Google Patents
一种基于语义理解的网络钓鱼识别方法和装置 Download PDFInfo
- Publication number
- CN108111478A CN108111478A CN201711085356.XA CN201711085356A CN108111478A CN 108111478 A CN108111478 A CN 108111478A CN 201711085356 A CN201711085356 A CN 201711085356A CN 108111478 A CN108111478 A CN 108111478A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- term vector
- mrow
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 15
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于语义理解的网络钓鱼识别方法和装置。该方法包括:提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;利用所述网页的文本数据生成文本语义特征;将待检测网站的文本语义特征输入钓鱼检测模型,以判断待检测网站是否为钓鱼网站;所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。该方法将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量,利用词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征。本发明从网页文本语义分析的视角提取系列特征,能够构建更为鲁棒的钓鱼检测模型,并提升网络钓鱼识别的能力。
Description
技术领域
本发明属于网络技术领域,具体涉及一种基于语义理解的网络钓鱼识别方法和装置。
背景技术
网络钓鱼(Phishing)这一术语产生于1996年,它是由钓鱼(Fishing)一词演变而来。在网络钓鱼的过程中,攻击者使用诱饵(比如电子邮件、手机短信)发送给大量用户,期待少数用户“上钩”,进而达到“钓鱼”(如窃取用户的隐私信息)的目的。国际反网络钓鱼工作组(APWG)给网络钓鱼的定义是:网络钓鱼是一种利用社会工程学和技术手段来窃取消费者的个人身份数据和财务账户凭证的网络攻击方式。采用社会工程手段的网络钓鱼攻击往往是向用户发送貌似来自合法的企业或机构的欺骗性电子邮件、手机短信等,引诱用户回复个人敏感信息或者点击里面的链接访问伪造的网站,进而泄露凭证信息(例如用户名、密码)或下载恶意软件。网络钓鱼严重威胁网民的财产和隐私安全,已成为当前互联网最大的安全隐患之一。
网络钓鱼本质上属于品牌仿冒,为了达到以假乱真的效果,钓鱼网站在视觉和语义上高度相似于品牌站点。基于机器学习的钓鱼检测是当前的研究热点,统计特征的选择关乎模型的有效性。然而,现有统计特征的提取主要围绕视觉相似性、窃取和第三方特征等,忽略了对网页语义特征的挖掘。
近几年深度学习在图像识别、语音识别领域取得了重大进展,在自然语言理解中的多种任务也取得了非常良好的结果,特别是主题分类、情绪分析、问答和语言翻译。自然语言处理中一个很重要的任务就是对词语、文本进行向量表示,利用深度学习技术通过训练语言模型,可得到具有语义信息和句法信息的词向量,并且向量间的相对相似度和语义相似度是相关的。
发明内容
为了更好的刻画钓鱼网站的仿冒特性,本发明提出一种基于语义理解的网络钓鱼识别方法和装置,从网页文本语义分析的视角提取系列特征,以挖掘目前研究尚未覆盖的钓鱼特性,构建更为鲁棒的钓鱼检测模型,提升网络钓鱼识别的能力。
本发明采用的技术方案如下:
一种基于语义理解的网络钓鱼识别方法,包括以下步骤:
提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;
利用所述网页的文本数据生成文本语义特征;
将待检测网站的文本语义特征输入钓鱼检测模型,以判断待检测网站是否为钓鱼网站;所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。
进一步地,所述生成文本语义特征的方法是:将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量;利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征。
进一步地,采用神经网络模型进行所述语言模型的学习,通过词向量的训练构建词语的词向量表,然后通过查询词向量表得到网页文本中所有词语的词向量,并利用词语的词向量进行文本语义特征表示。
进一步地,对于不在词向量表中的词语的处理方式为:a)对于不在词向量表中的词语,将事先定义的未命中向量作为该词语的词向量;b)构建一个高频词表,对于不在词向量表中但在高频词表中的词语,根据词频决定该词语的词向量,对于词向量表和高频词表中都不在的词语,将一个事先定义的向量作为该词语的词向量。
进一步地,利用词语的词向量,通过求均值的方式或求加权的方式生成文本语义特征。
进一步地,所述生成文本语义特征的方法是:利用doc2vec的方法直接生成文本语义特征。
一种基于语义理解的网络钓鱼识别装置,其包括:
文本数据提取模块,用于提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;
文本语义特征生成模块,用于利用所述网页的文本数据生成文本语义特征;
钓鱼检测模型训练模块,用于利用所述文本语义特征,采用机器学习算法构建钓鱼检测模型;
钓鱼检测模块,用于调用所述文本数据提取模块和所述文本语义特征生成模块以提取待检测网站中网页的文本语义特征,并将其输入所述钓鱼检测模型以判断待检测网站是否为钓鱼网站。
进一步地,所述文本语义特征生成模块将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量,然后利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征;或者,所述文本语义特征生成模块利用doc2vec的方法直接生成文本语义特征。
与现有技术相比,本发明的有益效果如下:
1.从语义的角度挖掘目前研究尚未覆盖的钓鱼特性,弥补了现有基于机器学习的钓鱼识别技术的不足,提高了检测模型的鲁棒性。
2.利用词向量表示文本语义特征,网页文本语义特征表示方便快速。在根据语料库训练得到词向量表后,后续网页文本语义特征表示通过查表的方式加以简单的计算即可获得。
3.可处理钓鱼模板多品牌复用的问题。由于词向量具有功能上类似的词语在这个空间内至少沿某个方向相互靠近的特点,本发明对于处理类似的钓鱼模板用于不同品牌仿冒的问题很有优势。
4.可有效提升钓鱼检测的查准率和查全率,适用于实际互联网检测环境。
附图说明
图1.钓鱼检测模型训练流程图。
图2.钓鱼检测流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
为了骗取用户信任,钓鱼网站往往与合法站点看起来相似,这种相似性体现在URL、Logo、登录框、版权声明等多种视觉元素上。现有的主流研究通过挖掘视觉相似性、窃取特征和第三方特征等,实现网络钓鱼的检测。然而从本质上来说,钓鱼网站高度依赖于网页中的文本内容仿冒以进一步达到引诱用户输入敏感信息的目的,即语义仿冒是钓鱼网站的重要特性,现有研究缺乏相关分析。因此,本发明探索挖掘钓鱼网站的语义相似性,以提升钓鱼检测的性能。本发明将词向量表示引入钓鱼检测,以期待更好的刻画钓鱼网站的仿冒本质。
本发明提出的基于语义理解的钓鱼检测方法,利用词向量进行文本语义特征表示,实现网络钓鱼网站的检测。检测模型的训练过程及检测过程见图1、图2,主要包含以下步骤:
1.检测模型训练阶段
钓鱼检测模型的训练过程主要包括以下四个步骤:
a)分词:对于中文等词与词之间没有空格的语言,在提取网页的HTML文本中的文字部分之后,需要首先进行分词处理;对于英语等词与词之间以空格做分隔的语言,则不必进行分词,直接提取HTML文本中的文字部分即可。
b)训练语言模型,获得词语的词向量表示:利用合法网页文本数据作为语料库,选择神经网络模型进行语言模型的学习(即训练),从而得到词语的词向量表示,形成词向量表。
c)利用词向量对HTML文本进行语义表示:利用b)获得的词向量表中的词语词向量,对合法数据、钓鱼数据的HTML文本进行向量表示,生成文本语义特征(即文本向量)。
d)使用机器学习算法利用文本语义特征构建钓鱼检测模型。
所述机器学习算法在此不做具体指定,包括但不限于支持向量机、随机森林、AdaBoost等常用的有监督机器学习算法。
所述利用文本语义特征构建钓鱼检测模型的过程与常见的利用机器学习算法训练模型的方式相似:将得到的文本语义特征作为样本特征,利用训练数据的特征和label(是否为钓鱼网站),选择合适的机器学习算法实现钓鱼检测模型的训练。
2.网络钓鱼检测阶段
在对待检测网页进行检测的主要步骤是提取文本语义特征,然后将语义特征输入钓鱼检测模型以判断待检测网页是否为钓鱼。该阶段的文本语义特征提取的过程与模型训练阶段的文本语义特征提取的过程类似。
以上概括说明了本发明方法的两个阶段。本发明的这两个阶段中,重点在于网页文本语义特征表示。本发明不限定具体的实现方式,通过神经网络模型学习语言模型从而获取词语的词向量即可,不限定具体的神经网络模型;利用词语词向量进行文本语义特征表示可通过求均值、求加权等方式实现,以下将分别给出实施例。
1)获取词语词向量
词向量,又称为分布式词表示,其训练方式有很多,但都是利用神经网络模型(例如CBOW、Skip-gram、C&W、LBL等)学习语言模型,从而得到词语的词向量。本发明中词向量表的构建方式如下:构建合法网页文本的数据集,将其作为训练词向量的语料集,参照已有神经网络模型或自行构建神经网络进行词向量的训练,构建语料集中词语的词向量表。词向量表中每行包括一个词语及该词语对应的N维的词向量(维数N可根据需要进行设置),该该向量的每个维度都代表着该词语潜在的语法或语义特征。可以利用word2vec等方法生成词语的词向量表。
词向量使功能上类似的词语在特征空间中至少沿某个方向相互靠近,因此,词语之间的相似性可以通过其词向量之间的距离(欧式距离、余弦相似度等)来衡量。可以通过计算得到与给定词语相似度最高的词语,如下面所示为与“建行”最相似的几个词语,其中,每个元组的第一项为词语,第二项为与“建行”一词的相似度。
(农行,0.708540976048)
(兴业银行,0.65518784523)
(建设银行,0.636544108391)
(交通银行,0.616162657738)
(华夏银行,0.608458161354)
(支行,0.608001768589)
(工行,0.59148645401)
2)文本语义特征表示
文本语义特征表示的方法如下:通过查询词向量表,得到网页文本中所有词语的词向量,并使用一定的计算方式得到文本向量。其中,对于不在词向量表中的词语,有两种处理方式:
一、将事先定义的未命中向量(例如全为0的向量)作为该词语的词向量。
二、构建一个高频词表。对于不在词向量表中但在高频词表中的词语,根据词频决定该词语的词向量;对于词向量表和高频词表都不在的词语,将一个事先定义的向量作为该词语的词向量。
利用词语的词向量表对一个文本进行向量表示的计算方式如下:
a)求均值
计算均值的方式认为文本中各词语的权重相同。利用求均值的方式进行文本向量表示时,为了避免停用词带来的噪声,首先对文本进行去停用词处理,随后使用公式(1)描述的方式计算文本向量。
其中,di表示第i个文本的向量表示;ni表示第i个文本中词语的个数;wij表示第i个文本中第j个词语的词向量。
b)求加权
加权的计算方式认为文本中各词语的权重不同,权重的计算方式包括但不限于TF-IDF(Term Frequency-Inverse Document Frequency),使用TF-IDF作为词语权重的文本向量计算公式如下:
其中,di、ni、wij表示的含义与公式(1)相同;tfidfij表示第i个文本中第j个词语的TF-IDF值。
下面提供一个具体应用实例。
假设一个网页的文本内容为“中国工商银行手机银行”,分词结果为“中国工商银行/手机/银行”,这三个词在词向量表中的向量分别为(为方便说明,在此仅取前5维):
表1.分词得到的三个词语的词向量(前五维)
由于这三个词语均不在停用词表中,因此使用求均值的方式得到的文本向量为这三个向量和的平均值,即:
使用加权方式计算文本向量:
d=[2.7928238*(-0.037823,0.361873,0.033403,-0.252190,-0.015590)+
1.4973016*(-1.876170,0.183362,-0.304421,-0.512916,3.008589)+
1.7978696*(0.455634,-1.009433,-0.683979,-1.826192,1.280102)]
/(2.7928238+1.4973016+1.7978696)
=(0.455634,-1.009433,-0.683979,-1.826192,1.280102)
提取常用的统计特征,与该发明提取的方法进行对比试验。分别使用均值词向量、加权词向量、统计特征(包括表2描述的窃取特征、版权仿冒特征、许可仿冒特征、域名时效特征和链接一致性特征的线性融合,即t1∪t2∪t3∪t4∪t5)及均值词向量与统计特征融合这四种特征选取方式,分别使用了AdaBoost、Bagging、Random Forest、SMO四个机器学习算法进行十折交叉验证,实验结果见表3。
表2.提取的用于对比的统计特征
表3.四种机器学习算法下使用不同特征进行分类的实验结果
表3中各指标的说明如下:
对于二分类问题,可将样例根据其真实类别与学习期预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),其构成的混淆矩阵如表4所示:
表4.分类结果混淆矩阵
根据混淆矩阵可定义以下评估指标:
P(准确率):
R(召回率):
F-measure:(本发明中β=1)
FP Rate(误检率):
Error Rate(错误率):
AUC:ROC曲线是将FPR和TPR分别作为x轴和y轴构成的曲线,该曲线下的面积称之为AUC。其中
由表3可知,总体来说,仅使用词向量进行钓鱼检测的效果与使用统计特征的效果相当,而词向量与统计特征融合的效果则最为突出。
本发明另一实施例提供一种基于语义理解的网络钓鱼识别装置,其包括:
文本数据提取模块,用于提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;
文本语义特征生成模块,用于利用所述网页的文本数据生成文本语义特征;
钓鱼检测模型训练模块,用于利用所述文本语义特征,采用机器学习算法构建钓鱼检测模型;
钓鱼检测模块,用于调用所述文本数据提取模块和所述文本语义特征生成模块以提取待检测网站中网页的文本语义特征,并将其输入所述钓鱼检测模型以判断待检测网站是否为钓鱼网站。
所述文本语义特征生成模块将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量,然后利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征。
以上实施例中利用word2vec等方法生成词语的词向量表,进而生成文本向量。在其它实施例中,也可以利用doc2vec的方法,通过训练,直接生成一个不定长文本的向量,即直接生成文本语义特征。然后利用文本语义特征,采用机器学习算法构建钓鱼检测模型。在网络钓鱼检测阶段,提取待检测网站中网页的文本语义特征,将其输入所述钓鱼检测模型以判断待检测网站是否为钓鱼网站。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于语义理解的网络钓鱼识别方法,其特征在于,包括以下步骤:
提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;
利用网页的文本数据生成文本语义特征;
将待检测网站的文本语义特征输入钓鱼检测模型,以判断待检测网站是否为钓鱼网站;所述钓鱼检测模型是利用网站的文本语义特征采用机器学习算法构建的。
2.如权利要求1所述的方法,其特征在于,所述生成文本语义特征的方法是:将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量;利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征。
3.如权利要求2所述的方法,其特征在于,采用神经网络模型进行所述语言模型的学习,通过词向量的训练构建词语的词向量表,然后通过查询词向量表得到网页文本中所有词语的词向量,并利用词语的词向量进行文本语义特征表示。
4.如权利要求3所述的方法,其特征在于,对于不在词向量表中的词语的处理方式为:a)对于不在词向量表中的词语,将事先定义的未命中向量作为该词语的词向量;b)构建一个高频词表,对于不在词向量表中但在高频词表中的词语,根据词频决定该词语的词向量,对于词向量表和高频词表中都不在的词语,将一个事先定义的向量作为该词语的词向量。
5.如权利要求2所述的方法,其特征在于,利用词语的词向量,通过求均值的方式或求加权的方式生成文本语义特征。
6.如权利要求5所述的方法,其特征在于,所述求均值的方式,首先对文本进行去停用词处理,然后采用以下公式计算文本向量:
<mrow>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</msubsup>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
</mrow>
其中,di表示第i个文本的向量表示;ni表示第i个文本中词语的个数;wij表示第i个文本中第j个词语的词向量。
7.如权利要求5所述的方法,其特征在于,所述求加权的方式采用以下公式计算文本向量:
<mrow>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</msubsup>
<msub>
<mi>tfidf</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>n</mi>
<mi>i</mi>
</msub>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msub>
<mi>tfidf</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
其中,di表示第i个文本的向量表示;ni表示第i个文本中词语的个数;wij表示第i个文本中第j个词语的词向量;tfidfij表示第i个文本中第j个词语的TF-IDF值。
8.如权利要求1所述的方法,其特征在于,所述生成文本语义特征的方法是:利用doc2vec的方法直接生成文本语义特征。
9.一种基于语义理解的网络钓鱼识别装置,其特征在于,包括:
文本数据提取模块,用于提取网站中网页的HTML文本中的文字部分,得到网页的文本数据;
文本语义特征生成模块,用于利用网页的文本数据生成文本语义特征;
钓鱼检测模型训练模块,用于利用文本语义特征,采用机器学习算法构建钓鱼检测模型;
钓鱼检测模块,用于调用所述文本数据提取模块和所述文本语义特征生成模块以提取待检测网站中网页的文本语义特征,并将其输入所述钓鱼检测模型以判断待检测网站是否为钓鱼网站。
10.如权利要求9所述的装置,其特征在于,所述文本语义特征生成模块将合法网页的文本数据作为语料库来训练语言模型,得到词语的词向量,然后利用所述词语的词向量对合法网站和钓鱼网站中网页的HTML文本进行向量表示,生成文本语义特征;或者,所述文本语义特征生成模块利用doc2vec的方法直接生成文本语义特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711085356.XA CN108111478A (zh) | 2017-11-07 | 2017-11-07 | 一种基于语义理解的网络钓鱼识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711085356.XA CN108111478A (zh) | 2017-11-07 | 2017-11-07 | 一种基于语义理解的网络钓鱼识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108111478A true CN108111478A (zh) | 2018-06-01 |
Family
ID=62207455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711085356.XA Pending CN108111478A (zh) | 2017-11-07 | 2017-11-07 | 一种基于语义理解的网络钓鱼识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108111478A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN109413028A (zh) * | 2018-08-29 | 2019-03-01 | 集美大学 | 基于卷积神经网络算法的sql注入检测方法 |
CN109462582A (zh) * | 2018-10-30 | 2019-03-12 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、服务器及存储介质 |
CN109905359A (zh) * | 2018-12-24 | 2019-06-18 | 深圳市珍爱捷云信息技术有限公司 | 通信消息处理方法、装置、计算机设备及可读存取介质 |
CN110191096A (zh) * | 2019-04-30 | 2019-08-30 | 安徽工业大学 | 一种基于语义分析的词向量网页入侵检测方法 |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110572359A (zh) * | 2019-08-01 | 2019-12-13 | 杭州安恒信息技术股份有限公司 | 基于机器学习的钓鱼网页检测方法 |
CN110830489A (zh) * | 2019-11-14 | 2020-02-21 | 国网江苏省电力有限公司苏州供电分公司 | 基于内容抽象表示的对抗式欺诈网站检测方法及*** |
CN110825998A (zh) * | 2019-08-09 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种网站识别方法及可读存储介质 |
CN111091019A (zh) * | 2019-12-23 | 2020-05-01 | 支付宝(杭州)信息技术有限公司 | 一种信息提示方法、装置及设备 |
CN111324831A (zh) * | 2018-12-17 | 2020-06-23 | ***通信集团北京有限公司 | 一种欺诈网站的检测方法及装置 |
CN111488622A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种网页篡改行为的检测方法、装置及相关组件 |
CN112347244A (zh) * | 2019-08-08 | 2021-02-09 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
CN112541476A (zh) * | 2020-12-24 | 2021-03-23 | 西安交通大学 | 一种基于语义特征提取的恶意网页识别方法 |
US11303674B2 (en) * | 2019-05-14 | 2022-04-12 | International Business Machines Corporation | Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications |
CN115051817A (zh) * | 2022-01-05 | 2022-09-13 | 中国互联网络信息中心 | 一种基于多模态融合特征的网络钓鱼检测方法和*** |
CN116962817A (zh) * | 2023-09-21 | 2023-10-27 | 世优(北京)科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662959A (zh) * | 2012-03-07 | 2012-09-12 | 南京邮电大学 | 利用空间混合索引机制检测钓鱼网页的方法 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
CN105718577A (zh) * | 2016-01-22 | 2016-06-29 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与*** |
CN105786782A (zh) * | 2016-03-25 | 2016-07-20 | 北京搜狗科技发展有限公司 | 一种词向量的训练方法和装置 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和*** |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US20170223034A1 (en) * | 2016-01-29 | 2017-08-03 | Acalvio Technologies, Inc. | Classifying an email as malicious |
-
2017
- 2017-11-07 CN CN201711085356.XA patent/CN108111478A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662959A (zh) * | 2012-03-07 | 2012-09-12 | 南京邮电大学 | 利用空间混合索引机制检测钓鱼网页的方法 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
CN105718577A (zh) * | 2016-01-22 | 2016-06-29 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与*** |
US20170223034A1 (en) * | 2016-01-29 | 2017-08-03 | Acalvio Technologies, Inc. | Classifying an email as malicious |
CN105786782A (zh) * | 2016-03-25 | 2016-07-20 | 北京搜狗科技发展有限公司 | 一种词向量的训练方法和装置 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和*** |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN109413028A (zh) * | 2018-08-29 | 2019-03-01 | 集美大学 | 基于卷积神经网络算法的sql注入检测方法 |
CN109413028B (zh) * | 2018-08-29 | 2021-11-30 | 集美大学 | 基于卷积神经网络算法的sql注入检测方法 |
CN109462582A (zh) * | 2018-10-30 | 2019-03-12 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、服务器及存储介质 |
CN111324831A (zh) * | 2018-12-17 | 2020-06-23 | ***通信集团北京有限公司 | 一种欺诈网站的检测方法及装置 |
CN109905359A (zh) * | 2018-12-24 | 2019-06-18 | 深圳市珍爱捷云信息技术有限公司 | 通信消息处理方法、装置、计算机设备及可读存取介质 |
CN111488622A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种网页篡改行为的检测方法、装置及相关组件 |
CN110191096A (zh) * | 2019-04-30 | 2019-08-30 | 安徽工业大学 | 一种基于语义分析的词向量网页入侵检测方法 |
CN110191096B (zh) * | 2019-04-30 | 2023-05-09 | 安徽工业大学 | 一种基于语义分析的词向量网页入侵检测方法 |
US11818170B2 (en) | 2019-05-14 | 2023-11-14 | Crowdstrike, Inc. | Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications |
US11303674B2 (en) * | 2019-05-14 | 2022-04-12 | International Business Machines Corporation | Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications |
CN110572359A (zh) * | 2019-08-01 | 2019-12-13 | 杭州安恒信息技术股份有限公司 | 基于机器学习的钓鱼网页检测方法 |
CN110427627B (zh) * | 2019-08-02 | 2023-04-28 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN112347244B (zh) * | 2019-08-08 | 2023-07-25 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
CN112347244A (zh) * | 2019-08-08 | 2021-02-09 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
CN110825998A (zh) * | 2019-08-09 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种网站识别方法及可读存储介质 |
CN110830489A (zh) * | 2019-11-14 | 2020-02-21 | 国网江苏省电力有限公司苏州供电分公司 | 基于内容抽象表示的对抗式欺诈网站检测方法及*** |
CN111091019A (zh) * | 2019-12-23 | 2020-05-01 | 支付宝(杭州)信息技术有限公司 | 一种信息提示方法、装置及设备 |
CN111091019B (zh) * | 2019-12-23 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 一种信息提示方法、装置及设备 |
CN112541476B (zh) * | 2020-12-24 | 2023-09-29 | 西安交通大学 | 一种基于语义特征提取的恶意网页识别方法 |
CN112541476A (zh) * | 2020-12-24 | 2021-03-23 | 西安交通大学 | 一种基于语义特征提取的恶意网页识别方法 |
CN115051817A (zh) * | 2022-01-05 | 2022-09-13 | 中国互联网络信息中心 | 一种基于多模态融合特征的网络钓鱼检测方法和*** |
CN115051817B (zh) * | 2022-01-05 | 2023-11-24 | 中国互联网络信息中心 | 一种基于多模态融合特征的网络钓鱼检测方法和*** |
CN116962817A (zh) * | 2023-09-21 | 2023-10-27 | 世优(北京)科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN116962817B (zh) * | 2023-09-21 | 2023-12-08 | 世优(北京)科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108111478A (zh) | 一种基于语义理解的网络钓鱼识别方法和装置 | |
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
CN110414219B (zh) | 基于门控循环单元与注意力机制的注入攻击检测方法 | |
CN104217160B (zh) | 一种中文钓鱼网站检测方法及*** | |
CN108259494B (zh) | 一种网络攻击检测方法及装置 | |
WO2019085275A1 (zh) | 一种字符串分类方法、***及一种字符串分类设备 | |
CN103530367B (zh) | 一种钓鱼网站鉴别***和方法 | |
US11762990B2 (en) | Unstructured text classification | |
CN105718577B (zh) | 一种针对新增域名自动检测网络钓鱼的方法与*** | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测***及其方法 | |
CN104504335B (zh) | 基于页面特征和url特征的钓鱼app检测方法及*** | |
CN105824822A (zh) | 一种由钓鱼网页聚类定位目标网页的方法 | |
CN107992469A (zh) | 一种基于词序列的钓鱼url检测方法及*** | |
CN110727766A (zh) | 敏感词的检测方法 | |
CN109873810B (zh) | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 | |
CN110830489B (zh) | 基于内容抽象表示的对抗式欺诈网站检测方法及*** | |
Ramanathan et al. | Phishing Website detection using latent Dirichlet allocation and AdaBoost | |
CN115051817B (zh) | 一种基于多模态融合特征的网络钓鱼检测方法和*** | |
CN110197389A (zh) | 一种用户识别方法及装置 | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
CN111614616A (zh) | 一种xss攻击自动检测方法 | |
Opara et al. | Look before you leap: Detecting phishing web pages by exploiting raw URL and HTML characteristics | |
CN110855716B (zh) | 一种面向仿冒域名的自适应安全威胁分析方法及*** | |
Sahingoz et al. | Dephides: Deep learning based phishing detection system | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180601 |