CN109617864B - 一种网站识别方法及网站识别*** - Google Patents

一种网站识别方法及网站识别*** Download PDF

Info

Publication number
CN109617864B
CN109617864B CN201811427628.4A CN201811427628A CN109617864B CN 109617864 B CN109617864 B CN 109617864B CN 201811427628 A CN201811427628 A CN 201811427628A CN 109617864 B CN109617864 B CN 109617864B
Authority
CN
China
Prior art keywords
website
vector
classification
word
websites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811427628.4A
Other languages
English (en)
Other versions
CN109617864A (zh
Inventor
王海洋
王艳华
刘大伟
廖华明
李雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
Institute of Computing Technology of CAS
Original Assignee
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Branch Institute Of Computing Technology Chinese Academy Of Science, Institute of Computing Technology of CAS filed Critical Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
Priority to CN201811427628.4A priority Critical patent/CN109617864B/zh
Publication of CN109617864A publication Critical patent/CN109617864A/zh
Application granted granted Critical
Publication of CN109617864B publication Critical patent/CN109617864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种网站识别方法及网站识别***,其方法包括以下步骤:分别获取与多个第一网站一一对应的多个第一特征矩阵;基于原网络分类模型对所有第一特征矩阵进行深度学习训练,得到深度学习网站分类模型;获取第二特征矩阵;基于深度学习网站分类模型对第二特征矩阵进行分类概率计算,得到分类概率向量;根据分类概率向量中的分类概率值识别第二网站为仿冒网站或者正常网站。本发明提供的网站识别方法及***,减少了人工干预,降低了正常网站被误判为仿冒网站的概率,提高了仿冒网站识别的准确率。

Description

一种网站识别方法及网站识别***
技术领域
本发明涉及网络安全技术领域,尤其涉及一种网站识别方法及网站识别***。
背景技术
随着互联网的快速发展,网站已经成为各行各业展示***息的重要途径和不法分子攻击的重点目标,突出的攻击方式是仿冒网站(例如:钓鱼网站),大量仿冒网站不仅带来了用户访问网站不安全的问题,而且造成用户的经济损失。
为了提高用户访问网站的安全性和减少用户的经济损失,识别仿冒网站的常用方法是:通过访问网站获取网站数据,从网站数据中提取网站特征,对提取的网站特征与预设的正常网站特征进行匹配得到匹配结果,根据匹配结果判断网站属于仿冒网站;其中,网站数据可以是在相同分辨率下对网站截图得到的图像,或者,利用爬虫技术爬取网站图像和文本信息。
然而,网站特征往往依赖于人工提取方式才能保证具有一定的准确性,面对大量网站时,人工提取网站特征的工作量大和效率较低,根据提取的网站特征与正常网站特征的匹配结果判断仿冒网站,正常网站容易被误判为仿冒网站。
发明内容
本发明所要解决的技术问题是针对现有技术中网站特征依赖于人工提取且根据提取的网站特征与正常网站特征的匹配结果判断仿冒网站,人工提取网站特征的工作量大和效率较低,并且正常网站容易被误判为仿冒网站的不足,提供一种网站识别方法及***。
本发明解决上述技术问题的技术方案如下:
依据本发明的第一方面,提供了一种网站识别方法,包括以下步骤:
步骤100、分别获取与多个第一网站一一对应的多个第一特征矩阵;
步骤200、基于原网络分类模型对所有所述第一特征矩阵进行深度学习训练,得到深度学习网站分类模型;
步骤300、获取第二网站对应的第二特征矩阵;
步骤400、基于所述深度学习网站分类模型对所述第二特征矩阵进行分类概率计算,得到分类概率向量;
步骤500、根据所述分类概率向量中的分类概率值识别所述第二网站为仿冒网站或者正常网站。
依据本发明的第二方面,提供了一种网站识别***,包括:深度学习模块和网站识别模块;
所述深度学习模块,用于获取多个第一网站分别对应的第一特征矩阵和第二网站对应的第二特征矩阵,基于原网络分类模型对所有所述第一特征矩阵进行深度学习训练,得到深度学习网站分类模型,以及基于所述深度学习网站分类模型对所述第二特征矩阵进行分类概率计算,得到分类概率向量;
所述网站识别模块,用于根据所述分类概率向量中的分类概率值识别所述第二网站为仿冒网站或者正常网站。
本发明的一种网站识别方法及网站识别***的有益效果是:基于原网站分类模型对多个第一特征矩阵进行深度学习训练得到深度学习网站分类模型,使得原网站分类模型逐渐自动修正成为深度学习网站分类模型,提高了深度学习网站分类模型的准确性;基于深度学习网站分类模型对第二特征矩阵进行分类运算得到分类概率向量,减少了人工干预,实现智能化运算第二特征矩阵中的网站特征得到分类概率向量;通过分类概率向量中的分类概率值识别网站为仿冒网站或者正常网站,分类概率值更接近于网站所述类别的真实性,降低正常网站被误判为仿冒网站的概率,提高了仿冒网站识别的准确率。
附图说明
图1为本发明实施例提供的一种网站识别方法的流程示意图;
图2为本发明实施例提供的一个第一特征矩阵的示意图;
图3为本发明实施例提供的一个第一分类预测向量的计算公式的示意图;
图4为本发明实施例提供的原网站分类模型的示意图;
图5为本发明实施例提供的深度学习网站分类模型运算分类概率值的分类准确率的示意图;
图6为本发明的实施例提供的一种网站识别***的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例一
如图1所示,本发明实施例的一种网站识别方法流程示意图,包括以下步骤:
步骤100、分别获取与多个第一网站一一对应的多个第一特征矩阵;
步骤200、基于原网络分类模型对所有第一特征矩阵进行深度学习训练,得到深度学习网站分类模型;
步骤300、获取第二网站对应的第二特征矩阵;
步骤400、基于深度学习网站分类模型对第二特征矩阵进行分类运算,得到分类概率向量;
步骤500、根据分类概率向量中的分类概率值识别第二网站或者正常网站。
基于原网站分类模型对多个第一特征矩阵进行深度学习训练得到深度学习网站分类模型,使得原网站分类模型逐渐自动修正成为深度学习网站分类模型,提高了深度学习网站分类模型的准确性;基于深度学习网站分类模型对第二特征矩阵进行分类运算得到分类概率向量,减少了人工干预,实现智能化运算第二特征矩阵中的网站特征得到分类概率向量;通过分类概率向量中的分类概率值识别网站为仿冒网站或者正常网站,分类概率值更接近于网站所述类别的真实性,降低正常网站被误判为仿冒网站的概率,提高了仿冒网站识别的准确率。
优选地,步骤100具体包括:
步骤110、获取网站数据集,网站数据集包括所有第一网站的网站文本信息和第二网站的网站文本信息;
步骤120、根据所有网站文本信息确定索引标签集,索引标签集包含有与每个网站文本信息一一对应的多个索引标签向量;
步骤130、对所有索引标签向量进行分组,得到与所有第一网站对应的训练集和与第二网站对应的测试集;
步骤140、分别对训练集中的每个索引标签向量进行词向量训练,得到与每个索引标签向量一一对应的多个第一词向量集,其中,每个所述第一词向量集中均包括多个第一词向量;
步骤150、按照预设的词表矩阵分别对每个第一词向量集中的所有第一词向量进行组合,得到与每个第一网站一一对应的第一特征矩阵。
例如,采用爬虫软件从40个网站自动爬取网站文本信息,40个网站分为仿冒网站和正常网站两个类别,仿冒网站以1表示,正常网站以2表示;每个网站对应一个网站文本信息,40个网站文本信息组成网站数据集;每个网站文本信息对应一个特征矩阵,例如:一个7×50的第一特征矩阵包含了7个第一词向量,每个第一词向量的列维数为50,如图2所示。
按照预设分组比例将索引标签集中的所有索引标签向量分组为训练集合测试集,例如:预设比例为8:2,训练集有32个索引标签向量,测试集有8个索引标签向量;或者,预设比例为9:1,训练集包含36个索引标签向量,测试集包含4个索引标签向量。
通过建立网站文本信息与索引标签向量之间的映射关系,并且对每个索引标签向量进行词向量训练得到词向量,以词向量表示第一特征矩阵中的网站特征,提升了网站特征的差异化,实现网站特征的自动提取,相比于人工提取网站特征的方式,减少了网站特征提取的工作量。
优选地,所述步骤120具体包括:
步骤121、通过正则匹配式分别对每个网站文本信息进行过滤,得到与每个网站文本信息一一对应的多个待分词文本信息;
步骤122、分别对每个待分词文本信息进行分词,得到与每个待分词文本信息一一对应的多个关键词;
步骤123、分别确定与每个关键词一一对应的索引标签向量;
步骤124、组合所有索引标签向量,得到索引标签集。
具体地,每个网站文本信息包括转义符、网站链接和待分词文本信息,通过正则匹配式对每个网站文本信息中的转义符和网站链接进行过滤得到待分词文本信息。
例如,一个网站文本信息为“点击按钮免费领取百万好礼”,对“点击按钮免费领取百万好礼”进行分词得到6个关键词,为每个关键词分组一个用于唯一标识该关键词的索引标签,并添加一个用于唯一标识未知词的索引标签7;利用词训练工具(例如:wordvec工具)对索引标签向量[1,2,3,4,5,6,7]T进行神经网络训练得到7个第一词向量,建立一个网站对应的词映射表,如表1所示为一个词映射表,表1中,以0补充未知词,每个索引标签对应一个第一词向量,每个第一词向量为50维数的行向量。
表1
索引标签 关键词 第一词向量
1 点击 [0.12,0.31,……,0.58]
2 按钮 [0.15,0.91,……,0.11]
3 免费 [0.11,0.41,……,0.18]
4 领取 [0.32,0.51,……,0.23]
5 百万 [0.22,0.11,……,0.56]
6 好礼 [0.16,0.61,……,0.58]
7 0 [0.11,0.15,……,0.36]
通过正则匹配式从每个网站文本信息中过滤掉转义符和网站链接等信息得到待分词文本信息,提高了待分词文本信息的准确率,根据每个待分词文本信息确定每个索引标签向量,通过索引标签向量使得待分词文本信息中的关键词与关键词之间的前后顺序分布于第一特征矩阵,提高了第一特征矩阵的准确性。
优选地,在步骤300中,第二网站设有一个或多个。
当第二网站设有一个时,测试集中包含的索引标签向量的数量为一个,则步骤300具体包括:
步骤310a、对测试集中的索引标签向量进行词向量训练,得到第二词向量集,其中,第二词向量集中包括多个第二词向量;
步骤320a、按照词表矩阵对第二词向量集中的所有第二词向量进行组合,得到与第二网站对应的第二特征矩阵。
当第二网站设有多个时,测试集中包含的索引标签向量的数量为多个,则步骤300具体包括:
步骤310b、分别对测试集中的每个索引标签向量进行词向量训练,得到与每个索引标签向量一一对应的多个第二词向量集,其中,每个第二词向量集中均包括多个第二词向量;
步骤320b、按照词表矩阵分别对每个第二词向量集中的所有第二词向量进行组合,得到与每个第二网站一一对应的多个第二特征矩阵。
例如:测试集包含8个索引标签向量,每个索引标签向量为64维数的列向量,每个列向量经过词训练后得到64个第二词向量,每个第二词向量为256维数的行向量,按照64×256的词表矩阵组合64个第二词向量得到每个第二特征矩阵,每个第二特征矩阵的维数等于每个第一特征矩阵的维数。
优选地,原网络分类模型包含有卷积神经网络、分类概率归一化计算函数和交叉熵函数,步骤200具体包括:
步骤210、通过卷积神经网络对任一个第一特征矩阵进行深度学习训练得到对应的第一分类预测向量;
步骤220、通过分类概率归一化计算函数对第一分类预测向量进行归一化计算,得到对应的第二分类预测向量;
步骤230、通过交叉熵函数计算所述第二分类预测向量与真实标签向量之间的交叉熵值;
步骤240、根据交叉熵值对卷积神经网络中的权重参数进行修正后,返回步骤210循环执行,直至所有第一特征矩阵训练结束,得到深度学习网站分类模型。
具体地,以卷积神经网络中的权重参数构成权重矩阵WT,卷积神经网络从每个第一特征矩阵中提取出网站特征向量X,WTX得到第一分类预测向量L,如图3所示为第一分类预测向量L的计算公式,图3中,m表示一个第一特征矩阵所对应的网站特征个数,n表示网站分类总数,例如:仿冒网站分为8级,每一级为一个仿冒网站分类,正常网站分为2级,每一级为一个正常网站分类,网站分类总数为10。
优选地,卷积神经网络包括第一层卷积层、第二层卷积层和全连接层,第一层卷积层包括具有不同卷积核个数的第一卷积子层和第二卷积子层,第一卷积子层的卷积核个数等于第二层卷积层的卷积核个数,步骤210具体包括:
步骤211、通过在第一层卷积层中的第一卷积子层对任一个第一特征矩阵进行卷积运算,得到对应的第一输出矩阵,通过在第一层卷积层中的第二卷积子层对第一特征矩阵进行卷积运算,得到对应的第二输出矩阵;
步骤212、通过在第二层卷积层中的一个或多个第三卷积子层对第二输出矩阵进行卷积运算,得到对应的第三输出矩阵;
步骤213、通过全连接层对第一输出矩阵和第三输出矩阵进行分类学习训练,得到对应的一个网站分类预测向量。
如图4所示为本实施例的原网站分类模型,原网站分类模型包括输入层、嵌入层、第一层卷积层、第二层卷积层、全连接层、分类概率计算层和权重参数修正层;输入层输入每个索引标签向量至嵌入层,嵌入层存储有词表矩阵并按照词表矩阵对每个索引标签向量进行词向量训练后输出每个第一特征矩阵或者每个第二特征矩阵。
第一层嵌入层包括第一卷积子层A、第一卷积子层B、第二卷积子层A和第二卷积子层B,第二层卷积层包括第三卷积层A和第三卷积层B;第一卷积子层A的卷积核个数、第一卷积子层B的卷积核个数、第三卷积层A的卷积核个数和第三卷积层B的卷积核个数均相等,第二卷积子层A的卷积核个数等于第二卷积子层B的卷积核个数,第二卷积子层B的卷积核个数大于第三卷积层B的卷积核个数,例如:第二卷积子层B的卷积核个数为256且第三卷积层B的卷积核个数为128;第一卷积子层A、第一卷积子层B、第二卷积子层A和第二卷积子层B中的卷积核具有相同的步长,例如:步长为1。
对于任意一个第一特征矩阵,第一卷积子层A对该第一特征矩阵进行神经网络卷积处理得到第一输出矩阵A,第一卷积子层B对该第一特征矩阵进行神经网络卷积处理得到第一输出矩阵B;第二卷积子层A对该第一特征矩阵进行神经网络卷积处理得到第二输出矩阵A,并通过激化函数处理第二输出矩阵A后输入第三卷积层A,第三卷积层A对第二输出矩阵A进行神经网络卷积处理得到第三输出矩阵A;第二卷积子层B对该第一特征矩阵进行神经网络卷积处理得到第二输出矩阵B,并通过激化函数处理第二输出矩阵B后输入第三卷积层B,第三卷积层B对第二输出矩阵B进行神经网络卷积处理得到第三输出矩阵B;其中,第一输出矩阵A、第一输出矩阵B、第三输出矩阵A和第三输出矩阵B具有相同的维数,例如:第三输出矩阵B为1×64×128的矩阵。
全连接层对第一输出矩阵A、第一输出矩阵B、第三输出矩阵A和第三输出矩阵B进行神经网络训练得到每个网站分类预测向量,并且按照概率dropout每个神经元,以克服全连接层在神经网络训练过程中过拟合,例如:dropout概率为0.5,具有更好的防过拟合效果。
分类概率计算层存储有分类概率归一化计算函数,权重参数修正层存储有交叉熵函数。
通过多个尺寸的卷积层对每个第一特征矩阵进行神经网络学习得到多个输出矩阵,实现逐层训练网络特征,并从多个输出矩阵提取网站分类预测向量,加强了自动学习和抽象网站分类预测向量。
优选地,分类概率归一化计算函数以第一公式表示,第一公式为:
Figure BDA0001881997840000091
或者,
Figure BDA0001881997840000092
其中,p(y(i)=jL(i),Wj T)代表第i个第二分类预测向量,L(i)代表第i个第一分类预测向量,y(i)代表第i个第一分类预测向量所对应的第j个网站分类,Wj T代表第j个权重系数,pj代表第i个第二分类预测向量中的第j个分类标签值,1≤i≤n,n代表网站总数,
Figure BDA0001881997840000101
Wj T可以是权重系数向量或者权重系数矩阵。
p(y(i)=j|L(i),Wj T)和pj是第一公式的两种表达方式,其中,p(y(i)=j|L(i),Wj T)以向量表示第一公式,pj以该向量中的数值形式表示第一公式。
通过
Figure BDA0001881997840000102
Figure BDA0001881997840000103
对每个第二分类预测向量中的每个分类标签值进行归一化,既能够保证每个分类标签值在0-1之间,也使得每个权重系数Wj T和每个第一分类预测向量L(i)不会受限于取值范围,即每个权重系数Wj T和每个第一分类预测向量L(i)可以从无穷大到无穷小。
优选地,交叉熵函数以第二公式表示,第二公式为:
Figure BDA0001881997840000104
其中,loss代表第j个分类概率预测值所对应的交叉熵值,gk代表j维数的真实标签向量中的第k个真实标签值,pk代表第i个第二分类预测向量中的第k个分类概率预测值,k≤j。
例如:权重参数修正层计算交叉熵值与每个权重参数的和值,将和值更新为对应的权重参数,并通过求偏导方式对交叉熵函数降阶,如此按照时间顺序以每个交叉熵值更新权重参数,使得权重参数逐步接近于真实标签值,保证了深度学习网站分类模型的准确性,减小了分类概率值与真实标签值之间的差距,提高了分类概率值的准确率,如图5所示为深度学习网站分类模型运算分类概率值的分类准确率,图5中,深度学习网站分类模型在深度学习训练之前的分类准确率仅为17%且在50次深度学习训练之后的分类准确率提高到96.5%。
优选地,步骤500具体包括:
从分类概率向量中确定最大的分类概率值,根据最大的分类概率值是否识别第二网站为仿冒网站或者正常网站。
例如,若最大的分类概率值对应的网站分类为仿冒网站,则识别第二网站为仿冒网站,若最大的分类概率值对应的网站分类为正常网站,则识别第二网站为正常网站。
通过最大的分类概率值识别仿冒网站或者正常网站,可以简化识别方式,面对大量的仿冒网站,提高了仿冒网站的识别效率。
实施例二
本实施例中,如图6所示,一种网站识别***,深度学习模块和网站识别模块;深度学习模块,用于分别获取与多个第一网站一一对应的多个第一特征矩阵,基于原网络分类模型对所有第一特征矩阵进行深度学习训练,得到深度学习网站分类模型,以及基于深度学习网站分类模型对第二特征矩阵进行分类概率计算,得到分类概率向量;
网站识别模块,用于根据分类概率向量中的分类概率值识别第二网站为仿冒网站或者正常网站。
优选地,深度学习模块包括输入层、嵌入层、卷积神经网络、分类概率计算层和权重参数修正层。
输入层,用于获取网站数据集,网站数据集包括所有第一网站的网站文本信息和第二网站的网站文本信息;根据所有网站文本信息确定索引标签集,索引标签集包含有与每个网站文本信息一一对应的多个索引标签向量;对所有索引标签向量进行分组,得到与所有第一网站对应的训练集和与第二网站对应的测试集;
嵌入层,用于分别对训练集中的每个索引标签向量进行词向量训练,得到与每个索引标签向量一一对应的多个第一词向量集,其中,每个第一词向量集中均包括多个第一词向量,按照预设的词表矩阵分别对每个第一词向量集中的所有第一词向量进行组合,得到与每个第一网站一一对应的第一特征矩阵。
嵌入层,还用于当第二网站设有一个时,对测试集中包含的一个索引标签向量进行词向量训练,得到第二词向量集,其中,第二词向量集中包括多个第二词向量,按照词表矩阵对第二词向量集中的所有第二词向量进行组合,得到与第二网站对应的第二特征矩阵;当第二网站设有多个时,分别对测试集中的每个索引标签向量进行词向量训练,得到与每个索引标签向量一一对应的多个第二词向量集,其中,测试集中包含的索引标签向量的数量为多个,每个第二词向量集中均包括多个第二词向量,按照词表矩阵分别对每个第二词向量集中的所有第二词向量进行组合,得到与每个第二网站一一对应的多个第二特征矩阵。
卷积神经网络,用于对任一个第一特征矩阵进行深度学习训练,得到对应的每个第一分类预测向量;
分类概率计算层,用于通过分类概率归一化计算函数对第一分类预测向量进行归一化计算,得到对应的第二分类预测向量。
权重系数修正层,用于通过交叉熵函数计算第二分类预测向量与真实标签向量之间的交叉熵值,根据交叉熵值对卷积神经网络中的权重参数进行修正,直至所有第一特征矩阵训练结束时得到深度学习网站分类模型。
优选地,输入层,具体用于通过正则匹配式分别对每个网站文本信息进行过滤,得到与每个网站文本信息一一对应的多个待分词文本信息;分别对每个待分词文本信息进行分词,得到与每个待分词文本信息一一对应的多个关键词;分别确定与每个关键词一一对应的索引标签向量;组合所有索引标签向量,得到索引标签集。
优选地,卷积神经网络包括第一层卷积层、第二层卷积层和全连接层,所述第一层卷积层包括具有不同卷积核个数的第一卷积子层和第二卷积子层,第二层卷积层包括一个或多个第三卷积子层,第一卷积子层的卷积核个数等于第三卷积子层的卷积核个数。
第一层卷积层,用于通过第一卷积子层对任一个第一特征矩阵进行卷积运算,得到对应的第一输出矩阵,通过第二卷积子层对第一特征矩阵进行卷积运算,得到对应的第二输出矩阵。
第二层卷积子层,用于通过一个或多个第三卷积子层对第二输出矩阵进行卷积运算,得到对应的第三输出矩阵。
全连接层,用于对第一输出矩阵和第三输出矩阵进行分类学习训练,得到对应的一个第一分类预测向量。
优选地,分类概率归一化计算函数以第一公式表示,第一公式为:
Figure BDA0001881997840000131
或者,
Figure BDA0001881997840000132
其中,p(y(i)=j|L(i),Wj T)代表第i个第二分类预测向量,L(i)代表第i个第一分类预测向量,y(i)代表第i个第一分类预测向量所对应的第j个网站分类,Wj T代表第j个权重系数,pj代表第i个第二分类预测向量中的第j个分类标签值,1≤i≤n,n代表网站总数,
Figure BDA0001881997840000133
Wj T可以是向量或者矩阵。
优选地,交叉熵函数以第二公式表示,第二公式为:
Figure BDA0001881997840000134
其中,loss代表第j个分类概率预测值所对应的交叉熵值,gk代表j维数的真实标签向量中的第k个真实标签值,pk代表第i个第二分类预测向量中的第k个分类概率预测值,k≤j。
优选地,网站识别模块,具体用于从分类概率向量中确定最大的分类概率值,根据最大的分类概率值识别第二网站为仿冒网站或者正常网站。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网站识别方法,其特征在于,包括以下步骤:
步骤100、分别获取与多个第一网站一一对应的多个第一特征矩阵;
步骤200、基于原网络分类模型对所有所述第一特征矩阵进行深度学习训练,得到深度学习网站分类模型;
步骤300、获取第二网站对应的第二特征矩阵;
步骤400、基于所述深度学习网站分类模型对所述第二特征矩阵进行分类运算,得到分类概率向量;
步骤500、根据所述分类概率向量中的分类概率值识别所述第二网站为仿冒网站或者正常网站;
所述步骤100具体包括:
步骤110、获取网站数据集,所述网站数据集包括所有所述第一网站的网站文本信息和所述第二网站的网站文本信息;
步骤120、根据所有所述网站文本信息确定索引标签集,所述索引标签集包含有与每个所述网站文本信息一一对应的多个索引标签向量;
步骤130、对所有所述索引标签向量进行分组,得到与所有所述第一网站对应的训练集和与所述第二网站对应的测试集;
步骤140、分别对所述训练集中的每个所述索引标签向量进行词向量训练,得到与每个所述索引标签向量一一对应的多个第一词向量集,其中,每个所述第一词向量集中均包括多个第一词向量;
步骤150、按照预设的词表矩阵分别对每个所述第一词向量集中的所有所述第一词向量进行组合,得到与每个所述第一网站一一对应的多个所述第一特征矩阵。
2.根据权利要求1所述的一种网站识别方法,其特征在于,所述步骤120具体包括:
步骤121、通过正则匹配式分别对每个所述网站文本信息进行过滤,得到与每个所述网站文本信息一一对应的多个待分词文本信息;
步骤122、分别对每个所述待分词文本信息进行分词,得到与每个所述待分词文本信息一一对应的多个关键词;
步骤123、分别确定与每个所述关键词一一对应的索引标签向量;
步骤124、组合所有所述索引标签向量,得到所述索引标签集。
3.根据权利要求1所述的一种网站识别方法,其特征在于,在所述步骤300中,所述第二网站设有一个或多个,
当所述第二网站设有一个时,所述测试集中包含的索引标签向量的数量为一个,则所述步骤300具体包括:
步骤310a、对所述测试集中的所述索引标签向量进行词向量训练,得到第二词向量集,其中,所述第二词向量集中包括多个第二词向量;
步骤320a、按照所述词表矩阵对所述第二词向量集中的所有所述第二词向量进行组合,得到与所述第二网站对应的所述第二特征矩阵;
当所述第二网站设有多个时,所述测试集中包含的索引标签向量的数量为多个,则所述步骤300具体包括:
步骤310b、分别对所述测试集中的每个所述索引标签向量进行词向量训练,得到与每个所述索引标签向量一一对应的多个第二词向量集,其中,每个所述第二词向量集中均包括多个第二词向量;
步骤320b、按照所述词表矩阵分别对每个所述第二词向量集中的所有所述第二词向量进行组合,得到与每个所述第二网站一一对应的多个所述第二特征矩阵。
4.根据权利要求1所述的一种网站识别方法,其特征在于,所述原网络分类模型包含有卷积神经网络、分类概率归一化计算函数和交叉熵函数,所述步骤200具体包括:
步骤210、通过所述卷积神经网络对任一个所述第一特征矩阵进行深度学习训练,得到对应的第一分类预测向量;
步骤220、通过所述分类概率归一化计算函数对所述第一分类预测向量进行归一化计算,得到对应的第二分类预测向量;
步骤230、通过所述交叉熵函数计算所述第二分类预测向量与真实标签向量之间的交叉熵值;
步骤240、根据所述交叉熵值对所述卷积神经网路中的权重参数进行修正后,返回步骤210循环执行,直至所有所述第一特征矩阵训练结束,得到所述深度学习网站分类模型。
5.根据权利要求4所述的一种网站识别方法,其特征在于,所述卷积神经网络包括第一层卷积层、第二层卷积层和全连接层,所述第一层卷积层包括具有不同卷积核个数的第一卷积子层和第二卷积子层,所述第二层卷积层包括一个或多个第三卷积子层,所述第一卷积子层的卷积核个数等于所述第三卷积子层的卷积核个数,所述步骤210具体包括:
步骤211、通过在所述第一层卷积层中的所述第一卷积子层对任一个所述第一特征矩阵进行卷积运算,得到对应的第一输出矩阵,通过在所述第一层卷积层中的所述第二卷积子层对所述第一特征矩阵进行卷积运算,得到对应的第二输出矩阵;
步骤212、通过在所述第二层卷积层中的一个或多个所述第三卷积子层对所述第二输出矩阵进行卷积运算,得到对应的第三输出矩阵;
步骤213、通过所述全连接层对所述第一输出矩阵和所述第三输出矩阵进行分类学习训练,得到对应的一个所述第一分类预测向量。
6.根据权利要求4所述的一种网站识别方法,其特征在于,所述分类概率归一化计算函数以第一公式表示,所述第一公式为:
Figure FDA0002897942000000041
其中,p(y(i)=j|L(i),Wj T)代表第i个所述第二分类预测向量,L(i)代表第i个所述第一分类预测向量,y(i)代表第i个所述第一分类预测向量所对应的第j个网站分类,Wj T代表第j个权重系数,pj代表第i个所述第二分类预测向量中的第j个分类概率预测值,1≤i≤n,n代表网站总数。
7.根据权利要求6所述的一种网站识别方法,其特征在于,所述交叉熵函数以第二公式表示,所述第二公式为:
Figure FDA0002897942000000042
其中,loss代表第j个所述分类概率预测值所对应的交叉熵值,gk代表j维数的所述真实标签向量中的第k个真实标签值,pk代表第i个所述第二分类预测向量中的第k个分类概率预测值,k≤j。
8.根据权利要求1-7任一项所述的一种网站识别方法,其特征在于,所述步骤500具体包括:
从所述分类概率向量中确定最大的所述分类概率值;
根据最大的所述分类概率值识别所述第二网站为所述仿冒网站或者所述正常网站。
9.一种网站识别***,其特征在于,包括:深度学习模块、网站识别模块和输入层;
所述深度学习模块,用于获取多个第一网站对应的第一特征矩阵和第二网站对应的第二特征矩阵,基于原网络分类模型对所有所述第一特征矩阵进行深度学习训练得到深度学习网站分类模型,以及基于所述深度学习网站分类模型对所述第二特征矩阵进行分类概率计算得到分类概率向量;
所述网站识别模块,用于根据所述分类概率向量中的分类概率值识别所述第二网站为仿冒网站或者正常网站;
所述输入层,用于获取网站数据集,网站数据集包括所有第一网站的网站文本信息和第二网站的网站文本信息;根据所有网站文本信息确定索引标签集,索引标签集包含有与每个网站文本信息一一对应的多个索引标签向量;对所有索引标签向量进行分组,得到与所有第一网站对应的训练集和与第二网站对应的测试集。
CN201811427628.4A 2018-11-27 2018-11-27 一种网站识别方法及网站识别*** Active CN109617864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811427628.4A CN109617864B (zh) 2018-11-27 2018-11-27 一种网站识别方法及网站识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811427628.4A CN109617864B (zh) 2018-11-27 2018-11-27 一种网站识别方法及网站识别***

Publications (2)

Publication Number Publication Date
CN109617864A CN109617864A (zh) 2019-04-12
CN109617864B true CN109617864B (zh) 2021-04-16

Family

ID=66005321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811427628.4A Active CN109617864B (zh) 2018-11-27 2018-11-27 一种网站识别方法及网站识别***

Country Status (1)

Country Link
CN (1) CN109617864B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端
CN110807197A (zh) * 2019-10-31 2020-02-18 支付宝(杭州)信息技术有限公司 识别模型的训练方法及装置、风险网站识别方法及装置
CN111078869A (zh) * 2019-11-07 2020-04-28 国家计算机网络与信息安全管理中心 基于神经网络对金融网站进行分类的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218859B2 (en) * 2008-12-05 2012-07-10 Microsoft Corporation Transductive multi-label learning for video concept detection
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别***和方法
CN104239485A (zh) * 2014-09-05 2014-12-24 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2877956B1 (en) * 2012-07-24 2019-07-17 Webroot Inc. System and method to provide automatic classification of phishing sites

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218859B2 (en) * 2008-12-05 2012-07-10 Microsoft Corporation Transductive multi-label learning for video concept detection
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别***和方法
CN104239485A (zh) * 2014-09-05 2014-12-24 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置

Also Published As

Publication number Publication date
CN109617864A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及***
CN107835496B (zh) 一种垃圾短信的识别方法、装置和服务器
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN111915437B (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN109617864B (zh) 一种网站识别方法及网站识别***
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和***
CN109190698B (zh) 一种网络数字虚拟资产的分类识别***及方法
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN116629275A (zh) 一种基于大数据的智能决策支持***及方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN109299246B (zh) 一种文本分类方法及装置
CN111178364A (zh) 一种图像识别方法和装置
CN111079930B (zh) 数据集质量参数的确定方法、装置及电子设备
CN112085112A (zh) 一种图像类别检测方法、***、电子设备及存储介质
CN111767390A (zh) 技能词评估方法及装置、电子设备、计算机可读介质
CN116977834A (zh) 一种开放条件下分布内外图像识别方法
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
CN114842425B (zh) 用于石油化工工艺的异常行为识别方法及电子设备
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN115952438A (zh) 社交平台用户属性预测方法、***、移动设备及存储介质
CN112508625B (zh) 基于多分枝残差注意力网络的智能稽查建模方法
CN114139655A (zh) 一种蒸馏式竞争学习的目标分类***和方法
CN113590867A (zh) 基于分层度量学习的跨模态信息检索方法
CN112270322A (zh) 一种利用神经网络模型实现对钞票冠字号识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant