CN113657453A - 基于生成对抗网络和深度学习的有害网站的检测方法 - Google Patents

基于生成对抗网络和深度学习的有害网站的检测方法 Download PDF

Info

Publication number
CN113657453A
CN113657453A CN202110830095.XA CN202110830095A CN113657453A CN 113657453 A CN113657453 A CN 113657453A CN 202110830095 A CN202110830095 A CN 202110830095A CN 113657453 A CN113657453 A CN 113657453A
Authority
CN
China
Prior art keywords
website
snapshots
harmful
training
snapshot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110830095.XA
Other languages
English (en)
Other versions
CN113657453B (zh
Inventor
刘立峰
李丽
董华
冯志峰
鲍尚策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Comleader Information Technology Co Ltd
Henan Xinda Wangyu Technology Co Ltd
Original Assignee
Zhuhai Comleader Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Comleader Information Technology Co Ltd filed Critical Zhuhai Comleader Information Technology Co Ltd
Priority to CN202110830095.XA priority Critical patent/CN113657453B/zh
Publication of CN113657453A publication Critical patent/CN113657453A/zh
Application granted granted Critical
Publication of CN113657453B publication Critical patent/CN113657453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及可读介质的技术方案,包括:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了***的实用价值。

Description

基于生成对抗网络和深度学习的有害网站的检测方法
技术领域
本发明涉及计算机安全领域,具体涉及了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质。
背景技术
随着我国互联网技术的不断发展,目前广泛采用的针对互联网有害信息挖掘,通常需要结合通信网海量的控制面和用户面的上网日志数据进行分析判断,随着国内隐私保护要求越来越高,尤其对运营商保护客户隐私的要求下,基于大数据和AI、机器学习和深度学习技术,在不涉及用户隐私的情况线下,通过生成海量互联网网站快照数据,进行基于深度学习的分析检测越来越成为互联网有害信息检测迫切要求的手段。
现有的针对互联网有害信息识别模型往往需要大量的有标签数据进行训练,而在实际应用中,很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息,这就导致利用小样本数据训练出的模型往往无法达到理想的效果,此外,训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源,导致针对于新任务的训练成本大大提高。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种基于生成对抗网络和深度学习的有害网站的检测方法、装置及介质,节省了研发资源,以及将大数据机器学习成果转移到小数据、定制化应用等提供了一个便捷的渠道,具有广泛的应用前景以及巨大的实用价值。
本发明的技术方案包括一种基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,该方法包括:S100,通过爬虫获取若干包括有害网址的第一网站快照;S200,将所述第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;S300,将所述模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;S400,微调用于训练的卷积神经网络,将所述训练集通过所述卷积神经网络进行训练,得到用于有害网站的检测模型。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S100包括:S110,从网址数据库中筛选出有害网址;S120,通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照;S130,为爬取的所述第一网站快照添加对应标签,所述标签用于标识网站为正常网站或有害网站;S140,从所述网址数据库中筛选出正常网站,并重复所述S120~S130直至得到设定数量的所述第一网站快照;S150,将带有所述标签的所述第一网站快照存储至数据库。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S200包括:S210,通过爬虫爬取已知有害网址的网站快照,从所述数据库中读取带有所述标签的所述第一网站快照,并按照设定比例将其随机划分为训练集和测试集;S220,将所述训练集输入所述生成对抗网络的模型进行训练,通过所述生成对抗网络自动学习不同网站快照的风格以及特征,具体地,保持正常网站的快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站的快照上;S230,通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试,筛选出性能最优的模型;S240,通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照;S250,对所述模拟网站快照添加有害网站的所述标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,并写入数据库。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S220包括:S221,实例化已训练的深度卷积神经网络模型,并移除深度卷积神经网络模型的最后一层;S222,加载除最后一层外的模型参数,保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征;S223,将网站快照输入至深度神经网络模型,由浅到深地提取输入图片更高层次的特征,最终返回输入网站快照的高级特征;S224,通过最小化源网站快照与目标网站快照的均方误差保持源网站快照与目标网站快照在高级特征上的一致性。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中S400包括:S410,将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集;S420,加载已训练的深度卷积神经网络模型参数,同时冻结除最后一层外其余层的权重;S430,使用训练集训对深度卷积神经网络模型参数进行微调,通过深度卷积神经网络模型自动学习不同类别网站快照的特征,直至收敛;S440,通过在测试集上进行测试,筛选出性能最优的模型,并进行保存;S450,用上一步保存的训练好的深度卷积神经网络模型识别未知类别的网站快照,自动判断输入的网站快照类型。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中生成对抗网络及所述深度卷积神经网络分别设置为CycleGAN和ResNet。
根据所述的基于生成对抗网络和深度学习的有害网站的检测方法,其中深度卷积神经网络模型及所述生成对抗网络所训练出的模型通过测试集进行测试,并通过准确率及损失对模型的性能进行评估。
本发明的技术方案还包括一种基于生成对抗网络和深度学习的有害网站的检测装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现任一项所述的方法步骤。
本发明的技术方案还包括一种可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本发明的有益效果为:所需的有标签的数据量大大减少,训练所需要的时间和计算资源也大大减少,且面对新的个性化小样本任务,本技术中提出的模型有更好的适应性,能在短时间内生成可靠的深度学习模型,提高了***的实用价值。
附图说明
下面结合附图和实施例对本发明进一步地说明;
图1所示为根据本发明实施方式的总体流程图。
图2所示为根据本发明实施方式的基于CycleGAN和深度学习的有害网站检测模型。
图3所示为根据本发明实施方式的网站快照流程图。
图4所示为根据本发明实施方式的基于生成对抗网络训练具体算法流程。
图5所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习算法流程。
图6所示为根据本发明实施方式的基于ResNet迁移学习算法流程。
图7所示为根据本发明实施方式的预训练-微调的深度迁移学习模型。
图8所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习模型训练示意图。
图9所示为根据本发明实施方式的基于生成对抗网络和深度学习的有害网站检测算法流程图。
图10所示为根据本发明实施方式的装置图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本发明的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。
本发明的描述中,除非另有明确的限定,设置等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参考图1,本发明的技术方案包括以下流程:S100,通过爬虫获取若干包括有害网址的第一网站快照;S200,将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;S300,将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;S400,微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。
图2所示为根据本发明实施方式的基于CycleGAN和深度学习的有害网站检测模型。其包括以下流程:通过爬虫技术爬取有害网址的网站快照,作为训练样本输入CycleGAN。CycleGAN在训练过程中,通过最小化内容损失来尽可能保持模拟生成的图片特征(内容)与输入图片高级特征(内容)的一致性,同时通过最小化风格损失来确保模拟生成的图片风格与目标风格保持一致。CycleGAN训练完成后,其生成器部分可以模拟生成海量带有不同种有害网站快照风格的图片,起到扩充数据集的作用。之后基于微调ResNet的迁移学习技术,将CycleGAN模拟生成的图片与正常网站快照共同组合成训练集,初始化ResNet最后一层可学习的权重,并固定剩余层的权重,利用上述训练集训练微调后的网络,从而实现小样本数据下也能训练出良好表现的模型的目的。本实施例利用CycleGAN扩充训练数据集,并且引入迁移学习的思想微调已经训练好的深度神经网络,可以大大缩短模型训练时间,节省计算资源,同时确保模型在仅仅只有少量样本下训练的准确性和稳定性。
图3所示为根据本发明实施方式的网站快照流程图。该流程包括:S110,从网址数据库中筛选出有害网址,网址数据库存储已有的网址数据;S120,通过爬虫从有害网址爬取不同网页风格的第一网站快照;S130,为爬取的第一网站快照添加对应标签,标签用于标识网站为正常网站或有害网站,其中有害网站快照标签为“有害”,正常网站快照标签为“正常”;S140,从网址数据库中筛选出正常网站,并重复S120~S130直至得到设定数量的第一网站快照;S150,将带有标签的第一网站快照存储至数据库。
图4所示为根据本发明实施方式的基于生成对抗网络训练具体算法流程。
其流程如下:
S210,通过爬虫爬取已知有害网址的网站快照。从数据库中读取带标签的网站快照,并按照一定的比例将其随机划分为训练集和测试集;
S220,将划分好的训练集输入CycleGAN模型进行训练,通过对抗训练的方式来自动学习不同网站快照的风格以及特征,并在保持正常网站快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站快照上;
S230,通过在测试集上进行测试,筛选出性能最好的模型,并保存;
S240,用上一步保存的训练好的CycleGAN模型生成带有不同有害网站快照风格的模拟网站快照;
S250,为模拟的有害网站快照打上“有害”标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,存储至数据库。
图5所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习算法流程,包括:
S221,实例化一个已经在ImageNet上成功训练好的深度卷积神经网络模型(如ResNet),并去掉网络最后一层(分类层);
S222,加载除最后一层外的模型参数,保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征;
S223,将网站快照输入到深度神经网络模型,由浅到深地提取输入图片更高层次的特征,最终返回输入网站快照的高级特征;
S224,通过最小化源网站快照与目标网站快照的均方误差来保持源网站快照与目标网站快照在高级特征上的一致性。
图6所示为根据本发明实施方式的基于ResNet迁移学习算法流程。本实施例的流程包括:
S410,将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集;
S420,加载训练好的ResNet模型参数,同时冻结除最后一层外其余层的权重;
S430,使用训练集训对ResNet模型网络参数进行微调,让模型自动学习不同类别网站快照的特征,直至收敛;
S440,通过在测试集上进行测试,筛选出性能最好的模型,并保存;
S450,用上一步保存的训练好的ResNet模型去识别未知类别的网站快照,自动判断输入的网站快照类型。
图7所示为根据本发明实施方式的预训练-微调的深度迁移学习模型。本实施例通过伪代码实现方式,具体如下:
Figure BDA0003175156230000071
其中,Input表示输入,Repeat表示重复流程,Until为训练完成条件,Do为判定条件。
图8所示为根据本发明实施方式的基于深度卷积神经网络的高级特征学习模型训练示意图。本实施例通过伪代码对图8进行说明,伪代码具体如下:
Figure BDA0003175156230000081
Figure BDA0003175156230000091
Figure BDA0003175156230000101
图9所示为根据本发明实施方式的基于生成对抗网络和深度学习的有害网站检测算法流程图。结合图7及图8,其伪代码实施如下:
Figure BDA0003175156230000102
图10所示为根据本发明实施方式的装置图。装置包括存储器100及处理器200,其中处理器200存储有计算机程序,计算机程序用于执行:通过爬虫获取若干包括有害网址的第一网站快照;将第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;将模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;微调用于训练的卷积神经网络,将训练集通过卷积神经网络进行训练,得到用于有害网站的检测模型。其中,存储器100用于存储数据。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (9)

1.一种基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,该方法包括:
S100,通过爬虫获取若干包括有害网址的第一网站快照;
S200,将所述第一网站快照作为生成对抗网络的数据输入,得到多个模拟网站快照;
S300,将所述模拟网站快照与若干正常网站的第二网站快照进行组合,得到训练集;
S400,微调用于训练的卷积神经网络,将所述训练集通过所述卷积神经网络进行训练,得到用于有害网站的检测模型。
2.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述S100包括:
S110,从网址数据库中筛选出有害网址;
S120,通过爬虫从所述有害网址爬取不同网页风格的所述第一网站快照;
S130,为爬取的所述第一网站快照添加对应标签,所述标签用于标识网站为正常网站或有害网站;
S140,从所述网址数据库中筛选出正常网站,并重复所述S120~S130直至得到设定数量的所述第一网站快照;
S150,将带有所述标签的所述第一网站快照存储至数据库。
3.根据权利要求2所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述S200包括:
S210,通过爬虫爬取已知有害网址的网站快照,从所述数据库中读取带有所述标签的所述第一网站快照,并按照设定比例将其随机划分为训练集和测试集;
S220,将所述训练集输入所述生成对抗网络的模型进行训练,通过所述生成对抗网络自动学习不同网站快照的风格以及特征,具体地,保持正常网站的快照高级特征不变的情况下,将学习到的不同有害网站快照风格迁移到正常网站的快照上;
S230,通过所述测试集对若干经过所述生成对抗网络的模型所述生成对抗网络的模型进行测试,筛选出性能最优的模型;
S240,通过性能最优的所述生成对抗网络生成带有不同有害网站快照风格的所述模拟网站快照;
S250,对所述模拟网站快照添加有害网站的所述标签,并与通过爬虫爬取的网站快照一起组合成新的数据集,并写入数据库。
4.根据权利要求3所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述S220包括:
S221,实例化已训练的深度卷积神经网络模型,并移除深度卷积神经网络模型的最后一层;
S222,加载除最后一层外的模型参数,保留深度卷积神经网络模型捕捉到的已有图像类型的高级特征;
S223,将网站快照输入至深度神经网络模型,由浅到深地提取输入图片更高层次的特征,最终返回输入网站快照的高级特征;
S224,通过最小化源网站快照与目标网站快照的均方误差保持源网站快照与目标网站快照在高级特征上的一致性。
5.根据权利要求3所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述S400包括:
S410,将通过对抗训练获得的数据集打乱并按照一定的比例随机划分为训练集和测试集;
S420,加载已训练的深度卷积神经网络模型参数,同时冻结除最后一层外其余层的权重;
S430,使用训练集训对深度卷积神经网络模型参数进行微调,通过深度卷积神经网络模型自动学习不同类别网站快照的特征,直至收敛;
S440,通过在测试集上进行测试,筛选出性能最优的模型,并进行保存;
S450,用上一步保存的训练好的深度卷积神经网络模型识别未知类别的网站快照,自动判断输入的网站快照类型。
6.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述生成对抗网络及所述深度卷积神经网络分别设置为CycleGAN和ResNet。
7.根据权利要求1所述的基于生成对抗网络和深度学习的有害网站的检测方法,其特征在于,所述深度卷积神经网络模型及所述生成对抗网络所训练出的模型通过测试集进行测试,并通过准确率及损失对模型的性能进行评估。
8.一种基于生成对抗网络和深度学习的有害网站的检测装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法步骤。
9.一种可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的方法步骤。
CN202110830095.XA 2021-07-22 2021-07-22 基于生成对抗网络和深度学习的有害网站的检测方法 Active CN113657453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110830095.XA CN113657453B (zh) 2021-07-22 2021-07-22 基于生成对抗网络和深度学习的有害网站的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110830095.XA CN113657453B (zh) 2021-07-22 2021-07-22 基于生成对抗网络和深度学习的有害网站的检测方法

Publications (2)

Publication Number Publication Date
CN113657453A true CN113657453A (zh) 2021-11-16
CN113657453B CN113657453B (zh) 2023-08-01

Family

ID=78489720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110830095.XA Active CN113657453B (zh) 2021-07-22 2021-07-22 基于生成对抗网络和深度学习的有害网站的检测方法

Country Status (1)

Country Link
CN (1) CN113657453B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682574A (zh) * 2016-11-18 2017-05-17 哈尔滨工程大学 一维深度卷积网络的水下多目标识别方法
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测***及方法
US20180191777A1 (en) * 2016-12-29 2018-07-05 Trust Ltd. System and method for detecting phishing web pages
US20180288086A1 (en) * 2017-04-03 2018-10-04 Royal Bank Of Canada Systems and methods for cyberbot network detection
CN109710825A (zh) * 2018-11-02 2019-05-03 成都三零凯天通信实业有限公司 一种基于机器学习的网页有害信息识别方法
US20190251612A1 (en) * 2018-02-15 2019-08-15 Adobe Inc. Generating user-customized items using a visually-aware image generation network
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN110365691A (zh) * 2019-07-22 2019-10-22 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
CN111259219A (zh) * 2020-01-10 2020-06-09 北京金睛云华科技有限公司 恶意网页识别模型、识别模型建立方法、识别方法及***
CN111696066A (zh) * 2020-06-13 2020-09-22 中北大学 基于改进wgan-gp的多波段图像同步融合与增强方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682574A (zh) * 2016-11-18 2017-05-17 哈尔滨工程大学 一维深度卷积网络的水下多目标识别方法
US20180191777A1 (en) * 2016-12-29 2018-07-05 Trust Ltd. System and method for detecting phishing web pages
US20180288086A1 (en) * 2017-04-03 2018-10-04 Royal Bank Of Canada Systems and methods for cyberbot network detection
CN107862050A (zh) * 2017-11-08 2018-03-30 国网四川省电力公司信息通信公司 一种网站内容安全检测***及方法
US20190251612A1 (en) * 2018-02-15 2019-08-15 Adobe Inc. Generating user-customized items using a visually-aware image generation network
CN109710825A (zh) * 2018-11-02 2019-05-03 成都三零凯天通信实业有限公司 一种基于机器学习的网页有害信息识别方法
CN110189278A (zh) * 2019-06-06 2019-08-30 上海大学 一种基于生成对抗网络的双目场景图像修复方法
CN110365691A (zh) * 2019-07-22 2019-10-22 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
CN111259219A (zh) * 2020-01-10 2020-06-09 北京金睛云华科技有限公司 恶意网页识别模型、识别模型建立方法、识别方法及***
CN111696066A (zh) * 2020-06-13 2020-09-22 中北大学 基于改进wgan-gp的多波段图像同步融合与增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱世起;努尔布力;: "钓鱼网站检测研究现状与发展趋势的计量分析", 计算机工程与应用, vol. 56, no. 15, pages 92 - 100 *
贾志洋;夏幼明;高炜;王勇刚;: "搜索引擎垃圾网页检测模型研究", 重庆文理学院学报(自然科学版), no. 05, pages 55 - 60 *
贾志洋;李伟伟;张海燕;: "基于内容的搜索引擎垃圾网页检测", 计算机应用与软件, no. 11, pages 171 - 173 *

Also Published As

Publication number Publication date
CN113657453B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US8280830B2 (en) Systems and methods for using multiple in-line heuristics to reduce false positives
CN111767228B (zh) 基于人工智能的界面测试方法、装置、设备和介质
CN107273269B (zh) 日志解析方法及装置
CN108182515B (zh) 智能规则引擎规则输出方法、设备及计算机可读存储介质
CN111046679B (zh) 翻译模型的质量信息获取方法、装置及计算机设备
CN111931179B (zh) 基于深度学习的云端恶意程序检测***及方法
CN109933515B (zh) 一种回归测试用例集的优化方法和自动优化装置
CN108710576B (zh) 基于异构迁移的数据集扩充方法及软件缺陷预测方法
CN108491321A (zh) 测试用例范围确定方法、装置及存储介质
CN111198815B (zh) 用户界面的兼容性测试方法及装置
CN112527676A (zh) 模型自动化测试方法、装置及存储介质
CN112308069A (zh) 一种软件界面的点击测试方法、装置、设备及存储介质
Zhou et al. Divide, conquer, and combine: a new inference strategy for probabilistic programs with stochastic support
CN112035345A (zh) 一种基于代码片段分析的混合深度缺陷预测方法
CN110580171A (zh) App分类方法、相关装置及产品
CN114443483A (zh) 人工智能***的测试方法、装置、电子设备及介质
CN117574383A (zh) 一种基于特征融合和代码可视化技术的软件漏洞检测模型的方法
CN117134958A (zh) 用于网络技术服务的信息处理方法及***
CN113657453B (zh) 基于生成对抗网络和深度学习的有害网站的检测方法
CN114840856B (zh) 一种状态感知的物联网可信执行环境模糊测试方法和***
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
US11609936B2 (en) Graph data processing method, device, and computer program product
CN115601629A (zh) 模型训练方法、图像识别方法、介质、装置和计算设备
CN113935034A (zh) 基于图神经网络的恶意代码家族分类方法、装置和存储介质
CN105718801A (zh) 一种基于编程模式和模式匹配的漏洞聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231227

Address after: 519060 No.1, Pingdong 1st Road, Nanping Science and Technology Industrial Park, Zhuhai City, Guangdong Province

Patentee after: ZHUHAI COMLEADER INFORMATION TECHNOLOGY Co.,Ltd.

Patentee after: HENAN XINDA WANGYU TECHNOLOGY Co.,Ltd.

Address before: 519060 No.1, Pingdong 1st Road, Nanping Science and Technology Industrial Park, Zhuhai City, Guangdong Province

Patentee before: ZHUHAI COMLEADER INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right