CN113657453A

CN113657453A - 基于生成对抗网络和深度学习的有害网站的检测方法

Info

Publication number: CN113657453A
Application number: CN202110830095.XA
Authority: CN
Inventors: 刘立峰; 李丽; 董华; 冯志峰; 鲍尚策
Original assignee: Zhuhai Comleader Information Technology Co Ltd
Current assignee: Zhuhai Comleader Information Technology Co Ltd; Henan Xinda Wangyu Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-11-16
Anticipated expiration: 2041-07-22
Also published as: CN113657453B

Abstract

本发明涉及一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及可读介质的技术方案，包括：通过爬虫获取若干包括有害网址的第一网站快照；将第一网站快照作为生成对抗网络的数据输入，得到多个模拟网站快照；将模拟网站快照与若干正常网站的第二网站快照进行组合，得到训练集；微调用于训练的卷积神经网络，将训练集通过卷积神经网络进行训练，得到用于有害网站的检测模型。本发明的有益效果为：所需的有标签的数据量大大减少，训练所需要的时间和计算资源也大大减少，且面对新的个性化小样本任务，本技术中提出的模型有更好的适应性，能在短时间内生成可靠的深度学习模型，提高了***的实用价值。

Description

基于生成对抗网络和深度学习的有害网站的检测方法

技术领域

本发明涉及计算机安全领域，具体涉及了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质。

背景技术

随着我国互联网技术的不断发展，目前广泛采用的针对互联网有害信息挖掘，通常需要结合通信网海量的控制面和用户面的上网日志数据进行分析判断，随着国内隐私保护要求越来越高，尤其对运营商保护客户隐私的要求下，基于大数据和AI、机器学习和深度学习技术，在不涉及用户隐私的情况线下，通过生成海量互联网网站快照数据，进行基于深度学习的分析检测越来越成为互联网有害信息检测迫切要求的手段。

现有的针对互联网有害信息识别模型往往需要大量的有标签数据进行训练，而在实际应用中，很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息，这就导致利用小样本数据训练出的模型往往无法达到理想的效果，此外，训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源，导致针对于新任务的训练成本大大提高。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质，节省了研发资源，以及将大数据机器学习成果转移到小数据、定制化应用等提供了一个便捷的渠道，具有广泛的应用前景以及巨大的实用价值。

本发明的技术方案包括一种基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，该方法包括：S100，通过爬虫获取若干包括有害网址的第一网站快照；S200，将所述第一网站快照作为生成对抗网络的数据输入，得到多个模拟网站快照；S300，将所述模拟网站快照与若干正常网站的第二网站快照进行组合，得到训练集；S400，微调用于训练的卷积神经网络，将所述训练集通过所述卷积神经网络进行训练，得到用于有害网站的检测模型。

根据所述的基于生成对抗网络和深度学习的有害网站的检测方法，其中S100包括：S110，从网址数据库中筛选出有害网址；S120，通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照；S130，为爬取的所述第一网站快照添加对应标签，所述标签用于标识网站为正常网站或有害网站；S140，从所述网址数据库中筛选出正常网站，并重复所述S120～S130直至得到设定数量的所述第一网站快照；S150，将带有所述标签的所述第一网站快照存储至数据库。

根据所述的基于生成对抗网络和深度学习的有害网站的检测方法，其中S200包括：S210，通过爬虫爬取已知有害网址的网站快照，从所述数据库中读取带有所述标签的所述第一网站快照，并按照设定比例将其随机划分为训练集和测试集；S220，将所述训练集输入所述生成对抗网络的模型进行训练，通过所述生成对抗网络自动学习不同网站快照的风格以及特征，具体地，保持正常网站的快照高级特征不变的情况下，将学习到的不同有害网站快照风格迁移到正常网站的快照上；S230，通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试，筛选出性能最优的模型；S240，通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照；S250，对所述模拟网站快照添加有害网站的所述标签，并与通过爬虫爬取的网站快照一起组合成新的数据集，并写入数据库。

根据所述的基于生成对抗网络和深度学习的有害网站的检测方法，其中S220包括：S221，实例化已训练的深度卷积神经网络模型，并移除深度卷积神经网络模型的最后一层；S222，加载除最后一层外的模型参数，保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征；S223，将网站快照输入至深度神经网络模型，由浅到深地提取输入图片更高层次的特征，最终返回输入网站快照的高级特征；S224，通过最小化源网站快照与目标网站快照的均方误差保持源网站快照与目标网站快照在高级特征上的一致性。

根据所述的基于生成对抗网络和深度学习的有害网站的检测方法，其中S400包括：S410，将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集；S420，加载已训练的深度卷积神经网络模型参数，同时冻结除最后一层外其余层的权重；S430，使用训练集训对深度卷积神经网络模型参数进行微调，通过深度卷积神经网络模型自动学习不同类别网站快照的特征，直至收敛；S440，通过在测试集上进行测试，筛选出性能最优的模型，并进行保存；S450，用上一步保存的训练好的深度卷积神经网络模型识别未知类别的网站快照，自动判断输入的网站快照类型。

根据所述的基于生成对抗网络和深度学习的有害网站的检测方法，其中生成对抗网络及所述深度卷积神经网络分别设置为CycleGAN和ResNet。

根据所述的基于生成对抗网络和深度学习的有害网站的检测方法，其中深度卷积神经网络模型及所述生成对抗网络所训练出的模型通过测试集进行测试，并通过准确率及损失对模型的性能进行评估。

本发明的技术方案还包括一种基于生成对抗网络和深度学习的有害网站的检测装置，该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现任一项所述的方法步骤。

本发明的技术方案还包括一种可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现任一所述的方法步骤。

本发明的有益效果为：所需的有标签的数据量大大减少，训练所需要的时间和计算资源也大大减少，且面对新的个性化小样本任务，本技术中提出的模型有更好的适应性，能在短时间内生成可靠的深度学习模型，提高了***的实用价值。

附图说明

下面结合附图和实施例对本发明进一步地说明；

图1所示为根据本发明实施方式的总体流程图。

图2所示为根据本发明实施方式的基于CycleGAN和深度学习的有害网站检测模型。

图3所示为根据本发明实施方式的网站快照流程图。

图4所示为根据本发明实施方式的基于生成对抗网络训练具体算法流程。

图5所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习算法流程。

图6所示为根据本发明实施方式的基于ResNet迁移学习算法流程。

图7所示为根据本发明实施方式的预训练-微调的深度迁移学习模型。

图8所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习模型训练示意图。

图9所示为根据本发明实施方式的基于生成对抗网络和深度学习的有害网站检测算法流程图。

图10所示为根据本发明实施方式的装置图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本发明的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参考图1，本发明的技术方案包括以下流程：S100，通过爬虫获取若干包括有害网址的第一网站快照；S200，将第一网站快照作为生成对抗网络的数据输入，得到多个模拟网站快照；S300，将模拟网站快照与若干正常网站的第二网站快照进行组合，得到训练集；S400，微调用于训练的卷积神经网络，将训练集通过卷积神经网络进行训练，得到用于有害网站的检测模型。

图2所示为根据本发明实施方式的基于CycleGAN和深度学习的有害网站检测模型。其包括以下流程：通过爬虫技术爬取有害网址的网站快照，作为训练样本输入CycleGAN。CycleGAN在训练过程中，通过最小化内容损失来尽可能保持模拟生成的图片特征(内容)与输入图片高级特征(内容)的一致性，同时通过最小化风格损失来确保模拟生成的图片风格与目标风格保持一致。CycleGAN训练完成后，其生成器部分可以模拟生成海量带有不同种有害网站快照风格的图片，起到扩充数据集的作用。之后基于微调ResNet的迁移学习技术，将CycleGAN模拟生成的图片与正常网站快照共同组合成训练集，初始化ResNet最后一层可学习的权重，并固定剩余层的权重，利用上述训练集训练微调后的网络，从而实现小样本数据下也能训练出良好表现的模型的目的。本实施例利用CycleGAN扩充训练数据集，并且引入迁移学习的思想微调已经训练好的深度神经网络，可以大大缩短模型训练时间，节省计算资源，同时确保模型在仅仅只有少量样本下训练的准确性和稳定性。

图3所示为根据本发明实施方式的网站快照流程图。该流程包括：S110，从网址数据库中筛选出有害网址，网址数据库存储已有的网址数据；S120，通过爬虫从有害网址爬取不同网页风格的第一网站快照；S130，为爬取的第一网站快照添加对应标签，标签用于标识网站为正常网站或有害网站，其中有害网站快照标签为“有害”，正常网站快照标签为“正常”；S140，从网址数据库中筛选出正常网站，并重复S120～S130直至得到设定数量的第一网站快照；S150，将带有标签的第一网站快照存储至数据库。

其流程如下：

S210，通过爬虫爬取已知有害网址的网站快照。从数据库中读取带标签的网站快照，并按照一定的比例将其随机划分为训练集和测试集；

S220，将划分好的训练集输入CycleGAN模型进行训练，通过对抗训练的方式来自动学习不同网站快照的风格以及特征，并在保持正常网站快照高级特征不变的情况下，将学习到的不同有害网站快照风格迁移到正常网站快照上；

S230，通过在测试集上进行测试，筛选出性能最好的模型，并保存；

S240，用上一步保存的训练好的CycleGAN模型生成带有不同有害网站快照风格的模拟网站快照；

S250，为模拟的有害网站快照打上“有害”标签，并与通过爬虫爬取的网站快照一起组合成新的数据集，存储至数据库。

图5所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习算法流程，包括：

S221，实例化一个已经在ImageNet上成功训练好的深度卷积神经网络模型(如ResNet)，并去掉网络最后一层(分类层)；

S222，加载除最后一层外的模型参数，保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征；

S223，将网站快照输入到深度神经网络模型，由浅到深地提取输入图片更高层次的特征，最终返回输入网站快照的高级特征；

S224，通过最小化源网站快照与目标网站快照的均方误差来保持源网站快照与目标网站快照在高级特征上的一致性。

图6所示为根据本发明实施方式的基于ResNet迁移学习算法流程。本实施例的流程包括：

S410，将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集；

S420，加载训练好的ResNet模型参数，同时冻结除最后一层外其余层的权重；

S430，使用训练集训对ResNet模型网络参数进行微调，让模型自动学习不同类别网站快照的特征，直至收敛；

S440，通过在测试集上进行测试，筛选出性能最好的模型，并保存；

S450，用上一步保存的训练好的ResNet模型去识别未知类别的网站快照，自动判断输入的网站快照类型。

图7所示为根据本发明实施方式的预训练-微调的深度迁移学习模型。本实施例通过伪代码实现方式，具体如下：

其中，Input表示输入，Repeat表示重复流程，Until为训练完成条件，Do为判定条件。

图8所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习模型训练示意图。本实施例通过伪代码对图8进行说明，伪代码具体如下：

图9所示为根据本发明实施方式的基于生成对抗网络和深度学习的有害网站检测算法流程图。结合图7及图8，其伪代码实施如下：

图10所示为根据本发明实施方式的装置图。装置包括存储器100及处理器200，其中处理器200存储有计算机程序，计算机程序用于执行：通过爬虫获取若干包括有害网址的第一网站快照；将第一网站快照作为生成对抗网络的数据输入，得到多个模拟网站快照；将模拟网站快照与若干正常网站的第二网站快照进行组合，得到训练集；微调用于训练的卷积神经网络，将训练集通过卷积神经网络进行训练，得到用于有害网站的检测模型。其中，存储器100用于存储数据。

应当认识到，本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，该方法包括：

S100，通过爬虫获取若干包括有害网址的第一网站快照；

S200，将所述第一网站快照作为生成对抗网络的数据输入，得到多个模拟网站快照；

S300，将所述模拟网站快照与若干正常网站的第二网站快照进行组合，得到训练集；

S400，微调用于训练的卷积神经网络，将所述训练集通过所述卷积神经网络进行训练，得到用于有害网站的检测模型。

2.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，所述S100包括：

S110，从网址数据库中筛选出有害网址；

S120，通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照；

S130，为爬取的所述第一网站快照添加对应标签，所述标签用于标识网站为正常网站或有害网站；

S140，从所述网址数据库中筛选出正常网站，并重复所述S120～S130直至得到设定数量的所述第一网站快照；

S150，将带有所述标签的所述第一网站快照存储至数据库。

3.根据权利要求2所述的基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，所述S200包括：

S210，通过爬虫爬取已知有害网址的网站快照，从所述数据库中读取带有所述标签的所述第一网站快照，并按照设定比例将其随机划分为训练集和测试集；

S220，将所述训练集输入所述生成对抗网络的模型进行训练，通过所述生成对抗网络自动学习不同网站快照的风格以及特征，具体地，保持正常网站的快照高级特征不变的情况下，将学习到的不同有害网站快照风格迁移到正常网站的快照上；

S230，通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试，筛选出性能最优的模型；

S240，通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照；

S250，对所述模拟网站快照添加有害网站的所述标签，并与通过爬虫爬取的网站快照一起组合成新的数据集，并写入数据库。

4.根据权利要求3所述的基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，所述S220包括：

S221，实例化已训练的深度卷积神经网络模型，并移除深度卷积神经网络模型的最后一层；

S223，将网站快照输入至深度神经网络模型，由浅到深地提取输入图片更高层次的特征，最终返回输入网站快照的高级特征；

S224，通过最小化源网站快照与目标网站快照的均方误差保持源网站快照与目标网站快照在高级特征上的一致性。

5.根据权利要求3所述的基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，所述S400包括：

S420，加载已训练的深度卷积神经网络模型参数，同时冻结除最后一层外其余层的权重；

S430，使用训练集训对深度卷积神经网络模型参数进行微调，通过深度卷积神经网络模型自动学习不同类别网站快照的特征，直至收敛；

S440，通过在测试集上进行测试，筛选出性能最优的模型，并进行保存；

S450，用上一步保存的训练好的深度卷积神经网络模型识别未知类别的网站快照，自动判断输入的网站快照类型。

6.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，所述生成对抗网络及所述深度卷积神经网络分别设置为CycleGAN和ResNet。

7.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法，其特征在于，所述深度卷积神经网络模型及所述生成对抗网络所训练出的模型通过测试集进行测试，并通过准确率及损失对模型的性能进行评估。

8.一种基于生成对抗网络和深度学习的有害网站的检测装置，该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法步骤。

9.一种可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一所述的方法步骤。