CN109597946B - 一种基于深度信念网络算法的不良网页智能检测方法 - Google Patents

一种基于深度信念网络算法的不良网页智能检测方法 Download PDF

Info

Publication number
CN109597946B
CN109597946B CN201811476539.9A CN201811476539A CN109597946B CN 109597946 B CN109597946 B CN 109597946B CN 201811476539 A CN201811476539 A CN 201811476539A CN 109597946 B CN109597946 B CN 109597946B
Authority
CN
China
Prior art keywords
bad
webpage
sample
samples
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811476539.9A
Other languages
English (en)
Other versions
CN109597946A (zh
Inventor
邱日轩
肖子洋
付晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201811476539.9A priority Critical patent/CN109597946B/zh
Publication of CN109597946A publication Critical patent/CN109597946A/zh
Application granted granted Critical
Publication of CN109597946B publication Critical patent/CN109597946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度信念网络算法的不良网页智能检测方法,包括以下步骤;构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;不良网页判别指标样本集;基于SMOTE算法的指标集平衡化处理;提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系,来对不良网页判别指标进行约简,先采用SMOTE技术对样本数据集进行平衡处理操作,使分类器的分类效果不受样本数据集中多数类样本的影响,提出采用DBN作为分类器,并将处理后的样本作为分类器的输入来得到检测结果,验证了该分类器的高效性。

Description

一种基于深度信念网络算法的不良网页智能检测方法
技术领域
本发明涉及到一种不良网页智能检测方法,特别涉及一种基于深度信念网络算法的不良网页智能检测方法。
背景技术
随着科技的发展,互联网也呈现飞速发展的趋势,而搜索引擎作为用户使用互联网的重要应用之一,已经成为用户进行信息查询所必不可少的重要组成部分。中国互联网络信息中心发布的报告指出,2017年6月,中国的互联网用户数量已经增加至7.51亿。而搜索引擎作为互联网的必不可少的组成部分是当前使用率较高的互联网应用之一,也逐渐成为用户获取和访问互联网资源的重要渠道。
用户通过浏览器可以发送查询请求,针对于用户的请求,搜索引擎可以对数据库服务器进行检索,并将检索的一系列相关结果反馈给用户。然而,研究表明,在这些搜索引擎返回的结果中,用户多数只查看前三页。也就是说,在返回结果中的排名越靠前,被搜索引擎用户查看的机会就会越大,伴随着带来更大的网络流量和商业利润。在利益的驱动下,越来越多的网站设计者在开发网页时针对搜索引擎对网页的检索方法,采取作弊手段将网页的搜索排名提高到与其实际水平和质量不相符合的位置,使网页尽可能多的被搜索引擎检索到,从而获得更高的商业利润的目的。这种采用了作弊手段而得到的网页通常被我们称为是不良网页。
不良网页使搜索引擎的用户体验大大降低,从而降低搜索引擎的信任度,而且还会给整个互联网的安全带来一系列的威胁,例如:一些携带有病毒的网站,当用户打开该网站对应的网页后就会引入病毒或被盗取个人的重要信息。所以,不良网页已经成为搜索引擎面临的重要挑战,必须采取一系列相关行动,来制止不良网页继续危害互联网环境,进而创造一个安全的互联网空间,提高搜索引擎的检索能力和质量。采用相应的技术将不良网页从大量的网页资源中有效的检测出来已成为所有搜索引擎公司和相关研究人员的一项重要工作,该项工作对于提高搜索引擎的性能和用户满意度、净化互联网环境,规范互联网安全秩序具有极其重要的现实意义。
发明内容
本发明的目的在于提供一种基于深度信念网络算法的不良网页智能检测方法,具有应对当前不良网页复杂多变的作弊技术,提高对不良网页的检测性能的优点,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于深度信念网络算法的不良网页智能检测方法,包括以下步骤;
S1:构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;
S2:不良网页判别指标样本集;
S3:基于SMOTE算法的指标集平衡化处理;
S31:过抽样技术中有一个重要的概念,称为过抽样倍率,在此我们用N来表示它,该概念是指从每个不良网页样本的最邻近的K个样本中任意挑选出N个样本;
S32:按照下列公式的方式,将上述选取的N个样例与少数类样本分进行结合生成N个新的少数类样本。
xnew=x+rand*(y[i]-x), (2-1)
其中,i=1,2,…,N;使用x表示少数类样本;用rand来表示0到1之间的任意一个数;用xnew代表增加的新样本;用y[i]表示x的第i个临近的样本;
S33:将通过上式计算得到的新样例加入到原始数据集中,从而得到新的数据集;
S4:提出采用DBN作为分类器,DBN的最重要的两个过程是预训练和调优,并将处理后的样本作为分类器的输入来得到检测结果;
S41:预训练的本质是参数初始化,需要初始化各层的神经元偏置及各层之间的连接权值,使用CD算法来初始化RBM层的相关参数,并使用有标记的数据样本作为输入;
S42:调优通过预训练过程,每一层RBM将会获得相应的初始参数,预训练过程结束后,就可以对由多层RBM构建的DBN进行调优,在调优过程中,借助有标签样本,并采用BP神经网络来对DBN进行整体微调,从而获得最优的网络;
S5:评估指标;精确度(Pre),召回率(Rec),F1测度(F1),Kappa值和曲线下面积(AUC);
S6:实验结果及分析;
S61:DBN的隐含层节点的数量,及其RBM的层数对不良网页的分类结果所能产生的影响;
S62:不同的预训练集样本的数量对不良网页分类结果所能产生的影响。
S63:预处理操作对分类结果所能产生的影响;
S64:基于DBN的分类方法与其他两种典型不良网页分类方法(支持向量机和随机森林)的比较;
S7:基于深度学习算法的不良网页检测***的设计;
S71:***的设计原则;
S72:***的功能结构;
S73:***的结构设计;
S74:***的数据库设计。
进一步地,针对S1中,内容、链接、质量和隐藏特征为分目标层又可分为一级指标,即内容指标的一级指标为网页中单词的个数、标题中单词的个数、平均单词长度、锚文本长度等,链接指标的一级指标为与度相关的指标、与PageRank有关的指标等,隐藏指标的一级指标为是否有重定向,特征指标的一级指标为权威性,可读性,及其时效性等,由一级指标可再具体细分,得到最底层的二级指标;确定了15种网页质量指标:可读性、信息质量、URL可读性、权威性、内容准确性、内容扩展性、原创性、层次结构;多媒体元素、响应速度、知名度、网页风格、安全性、时效性和交互性以及常用的隐藏指标共219种指标。
进一步地,针对S2中,采用“专家”调查法来对定性指标进行量化处理,并采用极差变换法对定量指标进行标准化处理。
对于效益型指标y,
Figure BDA0001892305310000041
对于成本型指标y,
Figure BDA0001892305310000042
此时,采用x来表示原始训练样本的值,使用max来代表同一指标的样本数据的最大值,与此同时,用min表示同一指标的样本数据的最小值。
进一步地,针对S3中,SMOTE是用来对数据集进行平衡的重要方法,广泛应用在对不平衡的数据集的分类问题中,该方法通过构造“人造”的样本,来弥补少数类和多数类的不平衡现象。
进一步地,针对S4中,DBN作为深度信念网络是由具有完整可视层和隐层的一个又一个的受限玻尔兹曼机(RBM)堆叠而成,验证了该分类器的高效性。
进一步地,针对S5中,使用Kappa,不平衡数据集中的好处是,在类不平衡的情况下,可以通过简单地将所有数据点标记为更常见的类,然而这些标准在类别的先验上表现出来的概率不太高;然而ROC曲线对先验概率并不敏感,从根本上克服了上述标准的缺点;为了比较不同的分类算法,曲线下面积通常计算为AUC。AUC的范围在0.5到1.0之间变化,ROC越接近左上角,则AUC的值就越大,相应的分类效果就越好。AUC可以直观的展示ROC曲线,并成功应用于评估各领域分类器的性能。
进一步地,针对S7中,基于B/S模型,采用JAVA语言设计并实现了包括用户登录、样本库、***训练和***检测四个模块在内的不良网页智能检测***,通过对***进行一系列的测试,验证了本***用于实际不良网页检测的可行性。
与现有技术相比,本发明的有益效果是:
本基于深度信念网络算法的不良网页智能检测方法,为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系,来对不良网页判别指标进行约简,先采用SMOTE技术对样本数据集进行平衡处理操作,使分类器的分类效果不受样本数据集中多数类样本的影响。提出采用DBN作为分类器,并将处理后的样本作为分类器的输入来得到检测结果,验证了该分类器的高效性,基于B/S模型,采用JAVA语言设计并实现了包括用户登录、样本库、***训练和***检测四个模块在内的不良网页智能检测***,通过对***进行一系列的测试,验证了本***用于实际不良网页检测的可行性。
附图说明
图1为本发明的RBM示意图;
图2是本发明的DBN分类器模型框架;
图3是本发明的步骤流程图;
图4为本发明的RBM层数及预训练集样本数的准确率图;
图5为本发明的隐含层节点数及预训练集的准确率图;
图6是本发明的***的结构图;
图7是本发明的应用运行环境结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚;完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,一种基于深度信念网络算法的不良网页智能检测方法,包括以下步骤;
步骤一:构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系。
内容、链接、质量和隐藏特征为分目标层又可分为一级指标,即内容指标的一级指标为网页中单词的个数、标题中单词的个数、平均单词长度、锚文本长度等,链接指标的一级指标为与度相关的指标、与PageRank有关的指标等,隐藏指标的一级指标为是否有重定向,特征指标的一级指标为权威性,可读性,及其时效性等,由一级指标可再具体细分,得到最底层的二级指标;确定了15种网页质量指标:可读性、信息质量、URL可读性、权威性、内容准确性、内容扩展性、原创性、层次结构;多媒体元素、响应速度、知名度、网页风格、安全性、时效性和交互性以及常用的隐藏指标共219种指标。
步骤二:不良网页判别指标样本集。
采用“专家”调查法来对定性指标进行量化处理,并采用极差变换法对定量指标进行标准化处理。
对于效益型指标y,
Figure BDA0001892305310000071
对于成本型指标y,
Figure BDA0001892305310000072
此时,采用x来表示原始训练样本的值,使用max来代表同一指标的样本数据的最大值,与此同时,用min表示同一指标的样本数据的最小值。
步骤三:基于SMOTE算法的指标集平衡化处理;在真实互联网环境中,不良网页和正常网页的比例是极不平衡的,不平衡数据用于分类时会严重影响分类器的效果,所以在对样本集进行分类前需要对其进行平衡处理,SMOTE是用来对数据集进行平衡的重要方法,广泛应用在对不平衡的数据集的分类问题中,该方法通过构造“人造”的样本,来弥补少数类和多数类的不平衡现象。
第一节:过抽样技术中有一个重要的概念,称为过抽样倍率,在此我们用N来表示它,该概念是指从每个不良网页样本的最邻近的K个样本中任意
挑选出N个样本;
第二节:按照下列公式的方式,将上述选取的N个样例与少数类样本分进行结合生成N个新的少数类样本。
xnew=x+rand*(y[i]-x), (2-1)
其中,i=1,2,…,N;使用x表示少数类样本;用rand来表示0到1之间的任意一个数;用xnew代表增加的新样本;用y[i]表示x的第i个临近的样本;
第三节:将通过上式计算得到的新样例加入到原始数据集中,从而得到新的数据集。
过前文所述预处理方法,我们对100条样本进行了预处理,并随机选取了其中一条模拟样本数据如表2-1所示。本文得到的模拟样本虽不能完全代表整个互联网中网页的特性,但对于后续的验证栈式自编码神经网络用于约简和重构的效果是可行的。
表2-1一条模拟样本数据
Figure BDA0001892305310000081
Figure BDA0001892305310000091
Figure BDA0001892305310000101
步骤四:提出采用DBN作为分类器,DBN的最重要的两个过程是预训练和调优,并将处理后的样本作为分类器的输入来得到检测结果;
第一节:预训练的本质是参数初始化,需要初始化各层的神经元偏置及各层之间的连接权值,使用CD算法来初始化RBM层的相关参数,并使用有标记的数据样本作为输入;
如图1所示;RBM包含隐层h和可视层v,相邻层的神经元之间都是全连接的,而同一层内的神经元之间是没有连接的,我们设定可视层v的单元的个数为n,设置隐层h的单元的个数为m。此时,我们可以定义每一层的RBM所含有的能量为:
Figure BDA0001892305310000102
式中:第j个隐单元的状态用hj来表示,第i个可见单元的状态可以用vi来表示,隐单元j的偏置用bj来表示,可见单元i的偏置用ai来表示,可见单元i与隐单元j之间的连接权重用wij来表示,RBM的参数用θ={wij,ai,bj}来表示。与此同时,(v,h)的联合概率分布可以用如下函数来表示。
Figure BDA0001892305310000103
式中,Z(θ)=∑v,he-E(v,h|θ)为归一化因子,即配分函数。则P(v,h|θ)的似然函数可以表示为
Figure BDA0001892305310000104
如果设定有一个样本,此时使用“data”来表示P(h|v(t),θ),使用“model”来表示p(v,h|θ),那么对数似然函数关于连接权重Wij的偏导数为
Figure BDA0001892305310000111
设置对数似然函数关于可见层单元的偏置ai
Figure BDA0001892305310000112
设置对数似然函数关于隐含层单元的偏置bj
Figure BDA0001892305310000113
式中:〈·〉data表示对数据集的期望;〈·〉model表示模型中定义的期望值。
为了解决训练时间长的问题,Hinton提出了一种名为比较发散(CD)的RBM快速学***均求和由借助条件分布获得的样本所取代;吉布斯抽样只进行一次,利用CD算法,可以快速得到其他参数的更新,从而完成RBM网络的预训练
第二节:调优通过预训练过程,每一层RBM将会获得相应的初始参数,预训练过程结束后,就可以对由多层RBM构建的DBN进行调优,在调优过程中,借助有标签样本,并采用BP神经网络来对DBN进行整体微调,从而获得最优的网络;
如图2-3所示;该模型由多个RBM层和一个分类层所组成,当使用DBN来解决分类问题时,在预训练过程中,使用CD算法来初始化RBM层的相关参数,并使用有标记的数据样本作为输入。在调优过程中则是借助有标记的样本数据来微调整个DBN,以获得更优的分类性能。
DBN作为深度信念网络是由具有完整可视层和隐层的一个又一个的受限玻尔兹曼机(RBM)堆叠而成,验证了该分类器的高效性。
步骤五:评估指标;精确度(Pre),召回率(Rec),F1测度(F1),Kappa值和曲线下面积(AUC);
使用Kappa,不平衡数据集中的好处是,在类不平衡的情况下,可以通过简单地将所有数据点标记为更常见的类,然而这些标准在类别的先验上表现出来的概率不太高;然而ROC曲线对先验概率并不敏感,从根本上克服了上述标准的缺点;为了比较不同的分类算法,曲线下面积通常计算为AUC。AUC的范围在0.5到1.0之间变化,ROC越接近左上角,则AUC的值就越大,相应的分类效果就越好。AUC可以直观的展示ROC曲线,并成功应用于评估各领域分类器的性能。
步骤六:实验结果及分析;进行一系列的实验来确定DBN的网络结构,此处,隐含层节点数被我们暂定为相同。隐含层节点的数目可以是集合{16,32,64,128,256}中的任意一个值。同理,RBM的层数也可以是集合{1,2,3,4,5,6}中的任何一个值。除此之外,我们设置预训练,及其微调的学习率都是0.05,用100表示mini-batch的大小。
第一节:DBN的隐含层节点的数量,及其RBM的层数对不良网页的分类结果所能产生的影响;
第二节:不同的预训练集样本的数量对不良网页分类结果所能产生的影响;
第三节:预处理操作对分类结果所能产生的影响;
第四节:基于DBN的分类方法与其他两种典型不良网页分类方法(支持向量机和随机森林)的比较;
RBM层数及预训练集样本数对分类结果的影响:
在本实验中,预训练集的样本数从100依次变到1500,RBM的层数从1依次变到6,我们设置64代表每个隐含层的节点数。通过进行实验,得到如下图4所示结果。
预训练集样本数及RBM层数对不良网页分类结果的影响;
由图4的变化趋势可以得出,当不断地增大RBM的层数时,不良网页的分类精度呈上升趋势。当RBM层数为3时,不良网页的分类精度达到最佳,随着RBM层数的继续增加,不良网页的分类精度呈下降趋势。同时,随着预训练集样本数的增加,不良网页的分类精度一直呈上升趋势。
基于上述分析,我们可以得出以下结论;
当RBM层数为3时,分类精度最高,不良网页的分类精度随着预训练集样本数的增加而增加。
随着RBM层数的增大,在一定程度上,DBN的建模性能得到了巩固和提升,进而提高分类的效果。然而,当DBN的层数过于多时,DBN的泛化能力可能会被限制,进而导致分类效果的严重下降。
隐含层节点数及预训练集样本数对分类结果的影响;
基于上一个实验,我们可以得出,当RBM的层数为3时,分类精度最高,所以将在这一结论的基础上,使预训练集的样本数从100到1500的范围内进行变化,并使每层的隐含层节点数从16到256的范围内进行变化。结果如图5所示。
从图5可以看出,不良网页的分类精度随隐含层节点数的增加而呈上升趋势。而且,隐含层节点的数目在64的附近时,不良网页的分类精度最高。但,当继续增大隐含层节点的数量时,不良网页的分类精度呈现下降趋势。同时,当继续增大样本的数量时,不良网页的分类精度呈上升趋势。
基于上述分析,我们可以得出以下结论:
不良网页的分类精度随着预训练集样本数的增加而增加,且分类精度最高时对应的隐含层节点的数量是64。
在隐含层的节点数较少时,就可能导致无法提取对分类至关重要的属性特征,而太多的神经元也可能导致过拟合现象,这可能降低对不良网页的分类精度。
步骤七:基于深度学习算法的不良网页检测***的设计;
第一节:***的设计原则;***设计的好坏直接决定软件***的质量,因此,在设计时,本***着重考虑了以下原则:
界面的友好性;本***提供了友好的用户界面,界面简单、清晰,能够使新用户很快捷方便的使用。
检测的实时性;针对当前流行的不良网页检测方法的检测速度慢的特点,本文将及时响应用户提交的检测请求为设计目标。
平台的开放性;本***设计时,在遵循开放策略的基础上,使用开放的平台,并支持同其他不良网页检测***进行数据交换与共享,***扩充性强。
第二节:***的功能结构;不良网页智能检测***主要有如下4个功能模块,如图6所述:
用户登录模块主要功能是根据用户输入的账号和密码,判断该用户是否有权限进入并使用本***,通过该功能实现对用户访问权限的控制。
样本库模块的主要功能是存储所有待使用的样本数据,其中包括正常网页和不良网页的相关特征信息,并进行不定时的更新操作。
***训练模块的主要功能是将样本库中的样本用于对DBN分类器进行训练,使其具备对未知网页的分类能力。
***检测模块的主要功能是对用户所输入的网页进行分析,提取网页的相关特征信息,并对这些信息进行预处理,并将处理后的特征信息进行降维操作,将降维后的特征用于DBN分类器的分类操作,判别网页是否为不良网页。
第三节:***的结构设计;本文提出的不良网页检测***采用B/S结构,该结构方便部署且扩展容易,只需将***软件部署到服务器当中即可完成,服务器有两种,包括Web服务器,以及数据库服务器,数据库服务器用来保存包括样本数据、用户的账户和密码、***的配置参数等在内的一系列信息,而Web服务器则用来完成对网页的检测功能,通过一定的算法判断网页是否是不良网页,之后将服务器所反馈的结果作为网页的标签与所属网页的其他特征信息一并送交到数据库服务器中进行保存,以备将来使用,如图7所示。
第四节:***的数据库设计;本文将设计数据库的原则用于指导不良网页检测***的数据库表的详细设计过程,表5-1为本***的表结构:
表5-1数据的表结构
Figure BDA0001892305310000151
Figure BDA0001892305310000161
基于B/S模型,采用JAVA语言设计并实现了包括用户登录、样本库、***训练和***检测四个模块在内的不良网页智能检测***,通过对***进行一系列的测试,验证了本***用于实际不良网页检测的可行性。
文首次采用了基于深度信念网络的不良网页检测方法,该方法首先综合提取了网页的内容、链接、隐藏,及其质量特征,之后使用SMOTE和SDAE等算法对网页特征样本进行一系列的预处理操作后,最后基于DBN算法来检测不良网页。
1.通过多方位的研究不良网页和正常网页的特征差异,本文构建了包括内容特征、链接特征、隐藏特征和质量特征在内的多维不良网页判别指标体系,并对指标体系中存在的定性和定量指标进行了一系列的标准化处理操作。
2.鉴于网络中正常网页和不良网页比例极不平衡的状况,为了降低本文所使用数据集的不平衡性,我们采用了SMOTE算法对数据集进行平衡处理,使不良网页和正常网页的比例达到基本平衡,来使其满足后续分类实验中对输入样本的平衡性要求。
3.本研究首次将深度学习算法-DBN用于对不良网页的分类识别,并将该算法同SMOTE和SDAE进行了有效结合,最后通过实验证明了本文提出的基于DBN的不良网页检测方法具有较高的检测性能。与此同时,本文在算法的基础上,基于B/S架构,采用JAVA语言开发并实现了与之对应的不良网页智能检测***,并获得了较好的检测性能。
综上所述,本基于深度信念网络算法的不良网页智能检测方法,为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系,来对不良网页判别指标进行约简,先采用SMOTE技术对样本数据集进行平衡处理操作,使分类器的分类效果不受样本数据集中多数类样本的影响。提出采用DBN作为分类器,并将处理后的样本作为分类器的输入来得到检测结果,验证了该分类器的高效性,基于B/S模型,采用JAVA语言设计并实现了包括用户登录、样本库、***训练和***检测四个模块在内的不良网页智能检测***,通过对***进行一系列的测试,验证了本***用于实际不良网页检测的可行性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种基于深度信念网络算法的不良网页智能检测方法,其特征在于,包括以下步骤;
S1:构建判别指标的层次结构模型:为丰富网页特征的种类,更加精确的识别不良网页,提取了网页的内容、链接、质量和隐藏特征并建立了相应的不良网页判别指标体系;
S2:生成不良网页判别指标样例集;
S3:基于SMOTE算法的指标集平衡化处理;
S31:过抽样技术中有一个重要的概念,称为过抽样倍率,在此用N来表示它,该概念是指从每个不良网页样例的最邻近的K个样例中任意挑选出N个样例;
S32:按照下列公式的方式,将上述选取的N个样例与少数类样例进行结合生成N个新的少数类样例;
xnew=x+rand*(y[i]-x),
其中,i=1,2,…,N;使用x表示少数类样例;用rand来表示0到1之间的任意一个数;用xnew代表增加的新样例;用y[i]表示x的第i个临近的样例;
S33:将通过上式计算得到的新样例加入到原始数据集中,从而得到新的数据集;
S4:提出采用DBN作为分类器,DBN的最重要的两个过程是预训练和调优,并将处理后的样例作为分类器的输入来得到检测结果;
S41:预训练过程:进行参数初始化,需要初始化各层的神经元偏置及各层之间的连接权值,使用CD算法来初始化RBM层的相关参数,并使用有标记的数据样例作为输入;
S42:调优过程:每一层RBM将会获得相应的初始参数,预训练过程结束后,对由多层RBM构建的DBN进行调优,在调优过程中,借助有标签样例,并采用BP神经网络来对DBN进行整体调整,从而获得最优的网络;
S5:评估指标,指标包括:精确度Pre、召回率Rec、测度F1、Kappa值和曲线下面积AUC;
S6:实验结果及分析;
S61:分析DBN的隐含层节点的数量,及其RBM的层数对不良网页的分类结果所能产生的影响;
S62:分析不同的预训练集样例的数量对不良网页分类结果所能产生的影响;
S63:分析预处理操作对分类结果所能产生的影响;
S64:基于DBN的分类方法与其他两种不良网页分类方法的比较进行分析;
S7:基于深度学习算法的不良网页检测***的设计;
S71:***的设计原则包括界面的友好性、检测的实时性、平台的开放性;
S72:***的功能结构;不良网页智能检测***包括下面4个模块,用户登录模块是根据用户输入的账号和密码,判断该用户是否有权限进入并使用本***,通过该模块实现对用户访问权限的控制;
样例库模块是存储所有待使用的样例数据,其中包括正常网页和不良网页的相关特征信息,并进行不定时的更新操作;
***训练模块是将样例库中的样例用于对DBN分类器进行训练,使其具备对未知网页的分类能力;
***检测模块是对用户所输入的网页进行分析,提取网页的相关特征信息,并对这些信息进行预处理,并将处理后的特征信息进行降维操作,将降维后的特征用于DBN分类器的分类操作,判别网页是否为不良网页;
S73:***的结构设计;不良网页检测***采用B/S结构,该结构方便部署且扩展容易,只需将***软件部署到服务器当中即可完成,服务器有两种,包括Web服务器,以及数据库服务器,数据库服务器用来保存包括样例数据、用户的账户和密码、***的配置参数在内的信息,而Web服务器则用来完成对网页的检测,通过算法判断网页是否是不良网页,之后将服务器所反馈的结果作为网页的标签与所属网页的其他特征信息一并传送到数据库服务器中进行保存;
S74:***的数据库设计;
针对S1中,内容、链接、质量和隐藏特征为分目标层,其又分为一级指标,内容指标的一级指标为网页中单词的个数、标题中单词的个数、平均单词长度、锚文本长度,链接指标的一级指标为与度相关的指标、与PageRank有关的指标,隐藏指标的一级指标为是否有重定向,由一级指标再具体细分,得到最底层的二级指标;确定了15种网页质量指标:可读性、信息质量、URL可读性、权威性、内容准确性、内容扩展性、原创性、层次结构、多媒体元素、响应速度、知名度、网页风格、安全性、时效性和交互性;
针对S2中,采用专家调查法来对定性指标效益型指标y进行量化处理,并采用极差变换法对定量指标成本型指标z进行标准化处理;
对于效益型指标y,
Figure FDA0003431756670000021
对于成本型指标z,
Figure FDA0003431756670000031
此时,采用x来表示原始训练样例的值,使用max来代表同一指标的样例数据的最大值,用min表示同一指标的样例数据的最小值;
针对S3中,SMOTE是用来对数据集进行平衡的方法,该SMOTE方法通过构造样例,来弥补少数类和多数类的不平衡;
针对S4中,DBN作为深度信念网络是由具有完整可视层和隐层的一个又一个的受限玻尔兹曼机RBM堆叠而成,验证了该分类器的高效性;
针对S7中,基于B/S模型,采用JAVA语言设计并实现了包括用户登录、样例库、***训练和***检测四个模块在内的不良网页智能检测***,通过对***进行一系列的测试,验证了本***用于实际不良网页检测的可行性;
所述不良网页智能检测方法还包括以下步骤:
RBM包含隐层h和可视层v,相邻层的神经元之间都是全连接的,而同一层内的神经元之间是没有连接的,设定可视层v的单元的个数为n,设置隐层h的单元的个数为m;此时,定义每一层的RBM所含有的能量为:
Figure FDA0003431756670000032
式中:第j个隐单元的状态用hj来表示,第i个可见单元的状态用vi来表示,隐单元j的偏置用bj来表示,可见单元i的偏置用ai来表示,可见单元i与隐单元j之间的连接权重用wij来表示,RBM的参数用θ={wij,ai,bj}来表示;(v,h)的联合概率分布用如下函数来表示;
Figure FDA0003431756670000033
式中,Z(θ)=∑v,he-E(v,h|θ)为归一化因子,即配分函数;则P(v,h|θ)的似然函数表示为
Figure FDA0003431756670000034
如果设定有一个样例,此时使用data来表示P(h|v(t),θ),使用model来表示p(v,h|θ),那么对数似然函数关于连接权重Wij的偏导数为
Figure FDA0003431756670000041
设置对数似然函数关于可见层单元的偏置ai
Figure FDA0003431756670000042
设置对数似然函数关于隐含层单元的偏置bj
Figure FDA0003431756670000043
式中:<·>data表示对数据集的期望;<·>model表示模型中定义的期望值;
该层次结构模型由多个RBM层和一个分类层所组成,当使用DBN来解决分类问题时,在预训练过程中,使用CD算法来初始化RBM层的相关参数,并使用有标记的数据样例作为输入;调优过程中则是借助有标记的样例数据来调整整个DBN,以获得更优的分类性能;
针对步骤S6,实验结果及分析进一步包括:
分析RBM层数及预训练集样本数对分类结果的影响:
预训练集的样例数从100依次变到1500,RBM的层数从1依次变到6,设置64代表每个隐含层的节点数;
由变化趋势得出,当不断地增大RBM的层数时,不良网页的分类精度呈上升趋势;当RBM层数为3时,不良网页的分类精度达到最佳,随着RBM层数的继续增加,不良网页的分类精度呈下降趋势;随着预训练集样例数的增加,不良网页的分类精度一直呈上升趋势;
分析隐含层节点数及预训练集样本数对分类结果的影响:
当RBM的层数为3时,分类精度最高,在这一结论的基础上,使预训练集的样例数从100到1500的范围内进行变化,并使每层的隐含层节点数从16到256的范围内进行变化;
不良网页的分类精度随隐含层节点数的增加而呈上升趋势;隐含层节点的数目在64时,不良网页的分类精度最高;当继续增大隐含层节点的数量时,不良网页的分类精度呈现下降趋势;继续增大样例的数量时,不良网页的分类精度呈上升趋势。
CN201811476539.9A 2018-12-05 2018-12-05 一种基于深度信念网络算法的不良网页智能检测方法 Active CN109597946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811476539.9A CN109597946B (zh) 2018-12-05 2018-12-05 一种基于深度信念网络算法的不良网页智能检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811476539.9A CN109597946B (zh) 2018-12-05 2018-12-05 一种基于深度信念网络算法的不良网页智能检测方法

Publications (2)

Publication Number Publication Date
CN109597946A CN109597946A (zh) 2019-04-09
CN109597946B true CN109597946B (zh) 2022-04-12

Family

ID=65961093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811476539.9A Active CN109597946B (zh) 2018-12-05 2018-12-05 一种基于深度信念网络算法的不良网页智能检测方法

Country Status (1)

Country Link
CN (1) CN109597946B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362772B (zh) * 2019-06-11 2022-04-01 北京邮电大学 基于深度神经网络的实时网页质量评估方法及***
CN110579709B (zh) * 2019-08-30 2021-04-13 西南交通大学 一种有轨电车用质子交换膜燃料电池故障诊断方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035996A (zh) * 2014-06-11 2014-09-10 华东师范大学 基于Deep Learning的领域概念抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2369504A1 (en) * 2010-03-26 2011-09-28 British Telecommunications public limited company System

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035996A (zh) * 2014-06-11 2014-09-10 华东师范大学 基于Deep Learning的领域概念抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的垃圾网页智能检测方法研究;聂祥谦;《中国优秀硕士学位论文全文数据库》;20180331;摘要,第1-5章 *

Also Published As

Publication number Publication date
CN109597946A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
Shen et al. An ensemble method based on selection using bat algorithm for intrusion detection
Tang et al. A deep learning-based framework for phishing website detection
Tong et al. A shilling attack detector based on convolutional neural network for collaborative recommender system in social aware network
CN109597946B (zh) 一种基于深度信念网络算法的不良网页智能检测方法
CN115422995A (zh) 一种改进社交网络和神经网络的入侵检测方法
Zhu et al. Pre-train and learn: Preserving global information for graph neural networks
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN113806564B (zh) 多模态信息性推文检测方法及***
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
Zou et al. DeepLTSC: Long-tail service classification via integrating category attentive deep neural network and feature augmentation
Ahraminezhad et al. An intelligent ensemble classification method for spam diagnosis in social networks
Verma et al. Phishing website detection using neural network and deep belief network
Hassan et al. Model for phishing websites classification using artificial neural network
Zhang et al. Clustering optimization algorithm for data mining based on artificial intelligence neural network
Deekshitha et al. URL Based Phishing Website Detection by Using Gradient and Catboost Algorithms
Ghareeb et al. Analysis of feature selection and phishing website classification using machine learning
Mishra et al. Two phase ensemble learning based extractive summarization for short documents
CN113312479A (zh) 跨领域虚假新闻检测方法
Kuchipudi et al. Android Malware Detection using Ensemble Learning
Xiong et al. L-RBF: A customer churn prediction model based on lasso+ RBF
CN111984762A (zh) 一种对抗攻击敏感的文本分类方法
Zhao et al. An universal perturbation generator for black-box attacks against object detectors
Huynh et al. Deep feature selection for machine learning based attack detection systems
Banal et al. A deep learning neural network for classifying good and bad photos
Liu et al. Malicious URL Detection via Pretrained Language Model Guided Multi-Level Feature Attention Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant