CN117938545B - 一种基于加密流量的不良信息样本扩增方法和*** - Google Patents

一种基于加密流量的不良信息样本扩增方法和*** Download PDF

Info

Publication number
CN117938545B
CN117938545B CN202410324005.3A CN202410324005A CN117938545B CN 117938545 B CN117938545 B CN 117938545B CN 202410324005 A CN202410324005 A CN 202410324005A CN 117938545 B CN117938545 B CN 117938545B
Authority
CN
China
Prior art keywords
data
bad information
bad
sample
plaintext
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410324005.3A
Other languages
English (en)
Other versions
CN117938545A (zh
Inventor
魏亮
谢玮
魏薇
彭志艺
辛鑫
郑威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN202410324005.3A priority Critical patent/CN117938545B/zh
Publication of CN117938545A publication Critical patent/CN117938545A/zh
Application granted granted Critical
Publication of CN117938545B publication Critical patent/CN117938545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于加密流量的不良信息样本扩增方法和***。其中,方法包括:首先采用数据扩增技术对不良信息样本进行数量扩增;其次,通过模拟现网的数据传输场景,研究搭建模拟现网的通信环境;再次,使用自研的pcap包采集工具在模拟通信环境中抓取样本的传输流量;然后,将获取到样本流量数据包逐一进行指纹生成;最后,将生成指纹构建指纹库,并采用数据压缩方法规模化精简指纹库规模。本发明提出的方案对于整体样本扩增流程思路明确,可扩展至对加密通信领域其他样本数据集的扩增,为有效解决样本数据不足与指纹库构建问题提供思路,方法的普适性较好。

Description

一种基于加密流量的不良信息样本扩增方法和***
技术领域
本发明属于网络通信领域,尤其涉及一种基于加密流量的不良信息样本扩增方法和***。
背景技术
近年来,随着网络技术的快速发展,信息安全问题越来越受到人们的重视,因此加密技术得到深入研究并被广泛应用到各种软件和协议中。然而,一些用户利用加密技术来隐藏自己的恶意操作或非法行为,以达到逃避检测及监管的目的,为不良信息的传播制造了条件,加大了网络信息***的难度。
现网加密流量指的是在现实网络环境通信过程中,为了提升数据传输的安全性,将HTTPS,SSH,Thunder,eMule,Skype 等加密协议应用到具体应用或软件中,对传输的信息进行加密处理后得到的实际明文内容。
不良信息指的是具有色情、暴力、欺诈、诱导、误导、骚扰等特点,对公众传播不良价值观、不良人生观、有违社会道德等信息。该类信息在现网传播环境中,一旦受到加密流量的加持,将难以破解,而且不良信息网站即便被监管部门处置,相同的信息仍会以其他网站作为入口呈现,这样不但对网络安全带来巨大隐患,对网络治理带来巨大的挑战。
在检测样本方面,由于人为预先获取加密不良信息的途径有限且获取难度较大,现有的研究大多是基于有限的加密不良信息开展的,即便是获取到了某一场景下对应的明文信息,明文信息在不同网站平台、网络环境中传输或同一场景下的明文信息稍作调整,识别能力仍然存在较大局限。此外,样本数据集存在的数据不平衡的问题仍难避免,对于使用人工智能技术进行检测的识别模型来说,识别准确率不高,泛化性不足。因此基于此条件下的研究将会导致未来检测模型仅适用于固定且已知的不良信息检测有效,对不良信息样本的搜集数量、质量等多方面带来较大负担。
受网络环境的发展变化、应用场景的切换和应用需求的不断变化的影响,现网传输环境将变得更为新颖而复杂,对于研究者来说,需要获取丰富场景下不良信息样本数据的同时,解决现有识别技术对新型复杂的加密流量识别局限性的问题。
在检测过程中,构建样本特征库是非常重要的环节,通常在加密流量样本的识别过程中,需要对每一个样本进行特征提取并将该样本的特征存入特征库,随着网络流量信息样本量的增多,特征库的规模也将变大,对于未来的数据存储资源消耗和检测性能、效率将带来诸多问题。
发明内容
为解决上述技术问题,本发明提出一种基于加密流量的不良信息样本扩增方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种基于加密流量的不良信息样本扩增方法,所述方法包括:
步骤S1、应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;
步骤S2、构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;
步骤S3、对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;
步骤S4、使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。
根据本发明第一方面的方法,在所述步骤S1中,所述应用传统图像数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
对于单样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪和随机擦除进行数据增强;
对于多样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪、随机擦除、剪切、合成和拼接进行数据增强,生成带有通用型特征的数据样本。
根据本发明第一方面的方法,在所述步骤S1中,所述应用基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
以所述明文数据为标注样例,通过在现有AIGC大模型基础上,采用模型微调技术进行训练,使得模型既融合了通用生成能力又能够学习到不良信息特点;
提供不良问题集作为生成种子集,引导和指挥生成模型产生不良明文数据。
根据本发明第一方面的方法,在所述步骤S1中,所述种子集的获取方法包括:
首先设计M个不良问题集合,然后利用语言大模型生成能力,诱导所述语言大模型生成一系列与问题语义一致的同义句n条,如此来产生不良问题集M*n条,即种子集;
所述种子集的获取方法还包括:
通过关键词生成、连续问题生成和相似问题生成对不良问题集进行扩充,得到种子集。
根据本发明第一方面的方法,在所述步骤S2中,所述模拟网络使用场景指的是将明文数据在不同门户网站、不良信息平台、传输协议和应用终端的模拟环境下采用不同的传输协议进行数据通信的场景。
根据本发明第一方面的方法,在所述步骤S2中,所述构建模拟网络环境的方法包括:
要启用HTTPS,需要一个SSL证书;
选择一个Web 服务器,并配置所述Web 服务器使用所述SSL证书;同时将不良信息明文样本上传至所述Web 服务器;
启动所述Web 服务器,并确保Web 服务器监听HTTPS端口,确保防火墙允许流量通过HTTPS端口;
在实验室环境中打开浏览器,访问配置的实际域名,检测是否可正常打开,以及上传的不良信息明文样本是否存在,来测试Web 服务器。
根据本发明第一方面的方法,在所述步骤S2中,所述采集不同环境下的pcap格式的流量数据包的方法包括:
在模拟网络环境中,配置网络分析工具Wireshark捕获特定网卡上的流量,确保Wireshark已经安装且能正常工作;
使用自动化工具或手动点击浏览器,模拟用户在HTTPS网站上访问不良信息样本;触发数据通信,从而生成相应的流量;
根据对不良信息样本的模拟点击情况,调用网络分析工具Wireshark的起止操作,进而获取数据流量,然后将pcap格式文件分类存储至指定路径,捕获pcap包。
本发明第二方面公开了一种基于加密流量的不良信息样本扩增***,所述***包括:
第一处理模块,被配置为,应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;
第二处理模块,被配置为,构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;
第三处理模块,被配置为,对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;
第四处理模块,被配置为,使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种基于加密流量的不良信息样本扩增方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种基于加密流量的不良信息样本扩增方法中的步骤。
综上,本发明提出的方案首先采用数据扩增技术对不良信息样本进行数量扩增;其次,通过模拟现网的数据传输场景,研究搭建模拟现网的通信环境;再次,使用自研的pcap包采集工具在模拟通信环境中抓取样本的传输流量;然后,将获取到样本流量数据包逐一进行指纹生成;最后,将生成指纹构建指纹库,并采用数据压缩方法规模化精简指纹库规模。本发明提出的方案对于整体样本扩增流程思路明确,可扩展至对加密通信领域其他样本数据集的扩增,为有效解决样本数据不足与指纹库构建问题提供思路,方法的普适性较好。
本发明提出的方案能够得到的扩增样本标签与原样本相同:
1)旨在通过明文信息扩增样本数据量、丰富数据多样性、提高模型的泛化能力;
2)根据研究需求搭建不同网络条件的硬件环境,模拟不良信息在网络中的传输过程,通过数据抓包的方式获取不良信息在网络环境中传输的加密流量包(pcap包),对开展多种场景下的样本流量特征研究提供数据基础;
3)设置了样本特征库压缩环节;
4)初步构建的样本特征库存储占用资源较大,且调用效率较低,通过采用无监督降维方法和有监督降维方法,提高有效特征的利用率,从而降低无效特征的存储,提高模型对有效样本特征的识别效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于加密流量的不良信息样本扩增方法的流程图;
图2为根据本发明实施例的对于单样本数据增强处理流程图;
图3为根据本发明实施例的对于多样本数据增强处理流程图;
图4为根据本发明实施例的机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核流程图;
图5为根据本发明实施例的构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包流程图;
图6为根据本发明实施例的生成与加密pcap文件相对应的指纹流程图;
图7为根据本发明实施例的一种基于加密流量的不良信息样本扩增***的结构图;
图8为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种基于加密流量的不良信息样本扩增方法。图1为根据本发明实施例的一种基于加密流量的不良信息样本扩增方法的流程图,如图1所示,所述方法包括:
步骤S1、应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;
步骤S2、构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;
步骤S3、对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;
步骤S4、使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。
在步骤S1,应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库。
现阶段数据增强方法主要分为两种:传统数据增强方法和基于深度学习的图像增强方法。传统的图像数据增强方法主要包括几何变换、色彩变换和像素变换三大类。几何变换包括缩放、旋转、剪切等操作,可以改变图像的几何特征,从而增加数据的多样性。色彩变换通过对图像的色彩通道进行操作,例如调整亮度、对比度等,改变图像的颜色特征,增加数据多样性。像素变换则通过改变图像的像素值,例如进行模糊处理、锐化处理等,来改变图像的纹理特征,增加数据多样性;随着深度学习技术的发展,一些基于深度学习的数据增强方法也逐渐发展起来。例如,GAN(生成对抗网络)可以生成与真实数据类似的新样本,通过对抗训练的方式使得生成的数据样本尽可能地接近真实数据。常见的方法包括特征空间增强、对抗训练、基于GAN的增强和风格迁移等。
在一些实施例中,在所述步骤S1中,所述应用传统图像数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
如图2所示,对于单样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪和随机擦除进行数据增强;
如图3所示,对于多样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪、随机擦除、剪切、合成和拼接进行数据增强,生成带有通用型特征的数据样本。
所述应用基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
一般情况下现网不良信息数据规模化获取难度较大,能够采集到满足高质量要求的数据量较小。在上述步骤获取采集数据的基础上,进行数据清洗、人工标注,选取其作为生成模型训练样本。以所述明文数据为标注样例,通过在现有AIGC大模型基础上,采用模型微调技术进行训练,模型微调学习包括但不限于迁移学习、Lora、Adapter等,使得模型即融合了通用生成能力又能够学习到不良信息特点;
提供不良问题集作为生成种子集,引导和指挥生成模型产生不良明文数据。
所述种子集的获取方法包括:
首先设计M个不良问题集合,然后利用语言大模型生成能力,诱导所述语言大模型生成一系列与问题语义一致的同义句n条,如此来产生不良问题集M*n条,即种子集;
所述种子集的获取方法还包括:
通过关键词生成、连续问题生成和相似问题生成对不良问题集进行扩充,得到种子集。
具体地,如图4所示,对于增强的不良信息数据,采用机审与人工审核相结合的方式进行审核,查看生成后数据的标签是否与原始数据标签保持一致,若改变了数据标签,则从生成数据中剔除该类数据,形成扩增后的明文数据库。
在步骤S2,构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本。
在一些实施例中,在所述步骤S2中,所述模拟网络使用场景指的是将明文数据在不同门户网站、不良信息平台和应用终端的模拟环境下采用不同的传输协议进行数据通信的场景。
所述构建模拟网络环境的方法包括:
要启用HTTPS,需要一个SSL证书;实验室开发或测试环境的虚拟环境下使用自签名证书;
选择一个Web 服务器,并配置所述Web 服务器使用所述SSL证书;同时将不良信息明文样本上传至所述Web 服务器;
启动所述Web 服务器,并确保Web 服务器监听HTTPS端口,确保防火墙允许流量通过HTTPS端口;
在实验室环境中打开浏览器,访问配置的实际域名,检测是否可正常打开,以及上传的不良信息明文样本是否存在,来测试Web 服务器。
如图5所示,所述采集不同环境下的pcap格式的流量数据包的方法包括:
在模拟网络环境中,配置网络分析工具Wireshark捕获特定网卡上的流量,确保Wireshark已经安装且能正常工作;
使用自动化工具或手动点击浏览器,模拟用户在HTTPS网站上访问不良信息样本;触发数据通信,从而生成相应的流量;
根据对不良信息样本的模拟点击情况,调用网络分析工具Wireshark的起止操作,进而获取数据流量,然后将pcap格式文件分类存储至指定路径,捕获pcap包。
具体地,门户网站模拟:模拟主流门户网站,以及其他各类网站,包括社交平台、视频平台等,以捕获用户在浏览和交互过程中产生的流量数据。
不良信息平台模拟:模拟成人内容、诈骗等不良网站平台,以便捕获访问不良信息平台的流量数据,进而分析和识别这些潜在的网络安全风险。
传输协议模拟:支持多种传输协议的模拟,包括HLS和DASH用于流媒体传输,从而使机器学习模型能够在不同协议下进行训练和优化。
终端场景模拟:模拟各种终端场景,涵盖了Windows、Linux、Android和IOS 等操作***,以及不同的设备类型和配置,以便模型能够适应不同用户群体和使用环境。
通过构建这样一个多方面的网络模拟环境,能够更全面地了解和分析网络流量的特征和行为,从而为机器学习模型提供更多样化、更丰富的训练数据,进而提高模型的准确性和泛化能力。
搭建的网络环境模拟平台可适用于多种终端场景,包括Windows、Linux、Andriod以及IOS 等,数据传输的加密协议以HTTPS为例,搭建HTTPS网站。通过点击模拟搭建的HTTPS网站,获取相关文件在网络传输中的原始流量,并将pcap格式文件分类存储至指定路径。
在步骤S3,对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹。
具体地,如图6所示,将破碎的SSL分片进行整合,形成一个完整的SSL数据包;对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹。
在步骤S4,使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。
具体地,一般情况下,为了将加密流量所有特征进行指纹构建会存在一定的冗余,需要进行特征压缩。因此,可以通过一下两种方式进行:一是有监督的加密流量指纹压缩,可以采用包括但不限于主成分分析(PCA)、LDA等机器学习方法,其主旨是通过协方差矩阵技术,对样本特征空间进行重组,选择对类别判别最有效的特征。二是无监督加密流量指纹压缩,可以采用包括但不限于自编码器(AE)、多维缩放(MDS)等机器学习方法,与有监督的加密流量指纹压缩不同,无监督压缩方法由于对类别未知,主要通过无监督学习方法将特征映射到一个低维空间,相比有监督而言,其效率更高。有监督相较于无监督压缩方法,因训练数据带有标签,识别效果更好。
综上,本发明提出的方案能够基于采集的加密流量数据包进行数据扩增,可以保证在保留原始数据特征的基础上开展技术研究,在扩大了训练样本量的同时,丰富了数据集的种类,可有效解决现网不良信息样本获取难、数据量不足、种类少的问题,可用于提升模型的泛化性和准确率。此外,通过对明文数据的扩增、多种网络环境复杂情况的模拟,对于目前现网尚未出现过的不良数据,可以提前进行模型训练,提升模型可识别内容范围,防患于未然。在指纹样本特征库压缩环节,相较于原始构建的样本特征库存储占用资源较大,调用效率较低,从而导致效率较低。本申请通过采用无监督降维方法和有监督降维方法,在降低无效特征的存储的同时,提高样本特征的识别效率。本申请对于整体样本扩增流程思路明确,可扩展至对加密通信领域其他样本数据集的扩增,为有效解决样本数据不足与指纹库构建问题提供思路,方法的普适性较好。
本发明第二方面公开了一种基于加密流量的不良信息样本扩增***。图7为根据本发明实施例的一种基于加密流量的不良信息样本扩增***的结构图;如图7所示,所述***100包括:
第一处理模块101,被配置为,应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;
第二处理模块102,被配置为,构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;
第三处理模块103,被配置为,对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;
第四处理模块104,被配置为,使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。
根据本发明第二方面的***,所述第一处理模块101具体被配置为,现阶段数据增强方法主要分为两种:传统数据增强方法和基于深度学习的图像增强方法。传统的图像数据增强方法主要包括几何变换、色彩变换和像素变换三大类。几何变换包括缩放、旋转、剪切等操作,可以改变图像的几何特征,从而增加数据的多样性。色彩变换通过对图像的色彩通道进行操作,例如调整亮度、对比度等,改变图像的颜色特征,增加数据多样性。像素变换则通过改变图像的像素值,例如进行模糊处理、锐化处理等,来改变图像的纹理特征,增加数据多样性;随着深度学习技术的发展,一些基于深度学习的数据增强方法也逐渐发展起来。例如,GAN(生成对抗网络)可以生成与真实数据类似的新样本,通过对抗训练的方式使得生成的数据样本尽可能地接近真实数据。常见的方法包括特征空间增强、对抗训练、基于GAN的增强和风格迁移等。
在一些实施例中,在所述步骤S1中,所述应用传统图像数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
如图2所示,对于单样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪和随机擦除进行数据增强;
如图3所示,对于多样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪、随机擦除、剪切、合成和拼接进行数据增强,生成带有通用型特征的数据样本。
所述应用基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
一般情况下现网不良信息数据规模化获取难度较大,能够采集到满足高质量要求的数据量较小。在上述步骤获取采集数据的基础上,进行数据清洗、人工标注,选取其作为生成模型训练样本。以所述明文数据为标注样例,通过在现有AIGC大模型基础上,采用模型微调技术进行训练,模型微调学习包括但不限于迁移学习、Lora、Adapter等,使得模型既融合了通用生成能力又能够学习到不良信息特点;
提供不良问题集作为生成种子集,引导和指挥生成模型产生不良明文数据。
所述种子集的获取方法包括:
首先设计M个不良问题集合,然后利用语言大模型生成能力,诱导所述语言大模型生成一系列与问题语义一致的同义句n条,如此来产生不良问题集M*n条,即种子集;
所述种子集的获取方法还包括:
通过关键词生成、连续问题生成和相似问题生成对不良问题集进行扩充,得到种子集。
具体地,如图4所示,对于增强的不良信息数据,采用机审与人工审核相结合的方式进行审核,查看生成后数据的标签是否与原始数据标签保持一致,若改变了数据标签,则从生成数据中剔除该类数据,形成扩增后的明文数据库。
根据本发明第二方面的***,所述第二处理模块102具体被配置为,所述模拟网络使用场景指的是将明文数据在不同门户网站、不良信息平台和应用终端的模拟环境下采用不同的传输协议进行数据通信的场景。
所述构建模拟网络环境包括:
要启用HTTPS,需要一个SSL证书;实验室开发或测试环境的虚拟环境下使用自签名证书;
选择一个Web 服务器,并配置所述Web 服务器使用所述SSL证书;同时将不良信息明文样本上传至所述Web 服务器;
启动所述Web 服务器,并确保Web 服务器监听HTTPS端口,确保防火墙允许流量通过HTTPS端口;
在实验室环境中打开浏览器,访问配置的实际域名,检测是否可正常打开,以及上传的不良信息明文样本是否存在,来测试Web 服务器。
如图5所示,所述采集不同环境下的pcap格式的流量数据包的方法包括:
在模拟网络环境中,配置网络分析工具Wireshark捕获特定网卡上的流量,确保Wireshark已经安装且能正常工作;
使用自动化工具或手动点击浏览器,模拟用户在HTTPS网站上访问不良信息样本;触发数据通信,从而生成相应的流量;
根据对不良信息样本的模拟点击情况,调用网络分析工具Wireshark的起止操作,进而获取数据流量,然后将pcap格式文件分类存储至指定路径,捕获pcap包。
具体地,门户网站模拟:模拟主流门户网站,以及其他各类网站,包括社交平台、视频平台等,以捕获用户在浏览和交互过程中产生的流量数据。
不良信息平台模拟:模拟成人内容、诈骗等不良网站平台,以便捕获访问不良信息平台的流量数据,进而分析和识别这些潜在的网络安全风险。
传输协议模拟:支持多种传输协议的模拟,包括HLS和DASH用于流媒体传输,从而使机器学习模型能够在不同协议下进行训练和优化。
终端场景模拟:模拟各种终端场景,涵盖了Windows、Linux、Android和IOS 等操作***,以及不同的设备类型和配置,以便模型能够适应不同用户群体和使用环境。
通过构建这样一个多方面的网络模拟环境,能够更全面地了解和分析网络流量的特征和行为,从而为机器学习模型提供更多样化、更丰富的训练数据,进而提高模型的准确性和泛化能力。
搭建的网络环境模拟平台可适用于多种终端场景,包括Windows、Linux、Andriod、以及IOS 等,数据传输的加密协议以HTTPS为例,搭建HTTPS网站。通过点击模拟搭建的HTTPS网站,获取相关文件在网络传输中的原始流量,并将pcap格式文件分类存储至指定路径。
根据本发明第二方面的***,所述第三处理模块103具体被配置为,如图6所示,将破碎的SSL分片进行整合,形成一个完整的SSL数据包;对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹。
根据本发明第二方面的***,所述第四处理模块104具体被配置为,一般情况下,为了将加密流量所有特征进行指纹构建会存在一定的冗余,需要进行特征压缩。因此,可以通过一下两种方式进行:一是有监督的加密流量指纹压缩,可以采用包括但不限于主成分分析(PCA)、LDA等机器学习方法,其主旨是通过协方差矩阵技术,对样本特征空间进行重组,选择对类别判别最有效的特征。二是无监督加密流量指纹压缩,可以采用包括但不限于自编码器(AE)、多维缩放(MDS)等机器学习方法,与有监督的加密流量指纹压缩不同,无监督压缩方法由于对类别未知,主要通过无监督学习方法将特征映射到一个低维空间,相比有监督而言,其效率更高。有监督相较于无监督压缩方法,因训练数据带有标签,识别效果更好。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种基于加密流量的不良信息样本扩增方法中的步骤。
图8为根据本发明实施例的一种电子设备的结构图,如图8所示,电子设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种基于加密流量的不良信息样本扩增方法中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于加密流量的不良信息样本扩增方法,其特征在于,所述方法包括:
步骤S1、应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;
步骤S2、构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;
步骤S3、对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;
步骤S4、使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中;
在所述步骤S1中,所述应用传统图像数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
对于单样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪和随机擦除进行数据增强;
对于多样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪、随机擦除、剪切、合成和拼接进行数据增强,生成带有通用型特征的数据样本;
在所述步骤S1中,所述应用基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强的方法包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
以所述明文数据为标注样例,通过在现有AIGC大模型基础上,采用模型微调技术进行训练,使得模型既融合了通用生成能力又能够学习到不良信息特点;
提供不良问题集作为生成种子集,引导和指挥生成模型产生不良明文数据。
2.根据权利要求1所述的一种基于加密流量的不良信息样本扩增方法,其特征在于,在所述步骤S1中,所述种子集的获取方法包括:
首先设计M个不良问题集合,然后利用语言大模型生成能力,诱导所述语言大模型生成一系列与问题语义一致的同义句n条,如此来产生不良问题集M*n条,即种子集;
所述种子集的获取方法还包括:
通过关键词生成、连续问题生成和相似问题生成对不良问题集进行扩充,得到种子集。
3.根据权利要求1所述的一种基于加密流量的不良信息样本扩增方法,其特征在于,在所述步骤S2中,所述模拟网络使用场景指的是将明文数据在不同门户网站、不良信息平台和应用终端的模拟环境下采用不同的传输协议进行数据通信的场景。
4.根据权利要求1所述的一种基于加密流量的不良信息样本扩增方法,其特征在于,在所述步骤S2中,所述构建模拟网络环境的方法包括:
要启用HTTPS,需要一个SSL证书;
选择一个Web 服务器,并配置所述Web 服务器使用所述SSL证书;同时将不良信息明文样本上传至所述Web 服务器;
启动所述Web 服务器,并确保Web 服务器监听HTTPS端口,确保防火墙允许流量通过HTTPS端口;
在实验室环境中打开浏览器,访问配置的实际域名,检测是否可正常打开,以及上传的不良信息明文样本是否存在,来测试Web 服务器。
5.根据权利要求1所述的一种基于加密流量的不良信息样本扩增方法,其特征在于,在所述步骤S2中,所述采集不同环境下的pcap格式的流量数据包的方法包括:
在模拟网络环境中,配置网络分析工具Wireshark捕获特定网卡上的流量,确保Wireshark已经安装且能正常工作;
使用自动化工具或手动点击浏览器,模拟用户在HTTPS网站上访问不良信息样本;触发数据通信,从而生成相应的流量;
根据对不良信息样本的模拟点击情况,调用网络分析工具Wireshark的起止操作,进而获取数据流量,然后将pcap格式文件分类存储至指定路径,捕获pcap包。
6.一种用于基于加密流量的不良信息样本扩增***,其特征在于,所述***包括:
第一处理模块,被配置为,应用传统图像数据增强方法和基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强;采用机审与人工审核相结合的方式对增强后的不良信息明文数据进行审核,形成扩增后的明文数据库;
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
对于单样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪和随机擦除进行数据增强;
对于多样本的所述明文数据,采用翻转、平移、放大/缩小、旋转、扭曲、调整颜色、加噪、随机擦除、剪切、合成和拼接进行数据增强,生成带有通用型特征的数据样本;
所述应用基于深度学习的图像/视频数据增强方法对不良信息明文数据进行数据增强包括:
使用数据采集工具在网络环境中,根据不同平台、不同网络环境以及不同网络公害类型对不良信息分别进行数据采集,并分类保存不良信息的明文数据;
以所述明文数据为标注样例,通过在现有AIGC大模型基础上,采用模型微调技术进行训练,使得模型既融合了通用生成能力又能够学习到不良信息特点;
提供不良问题集作为生成种子集,引导和指挥生成模型产生不良明文数据;
第二处理模块,被配置为,构建模拟网络环境,模拟网络使用场景,采集不同环境下的pcap格式的流量数据包,进而扩展机器学习训练样本;
第三处理模块,被配置为,对所述pcap格式的流量数据包进行HTTPS协议解析;然后,通过对解析后的流量数据包进行特征提取,根据提取出来的特征,生成与加密pcap文件相对应的指纹;
第四处理模块,被配置为,使用DHash算法、PHash算法或哈希表进行指纹库的建立;采用有监督的加密流量指纹压缩或无监督加密流量指纹压缩对生成指纹的特征进行特征压缩;将特征压缩后的指纹保存到指纹库中。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至5中任一项所述的一种基于加密流量的不良信息样本扩增方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至5中任一项所述的一种基于加密流量的不良信息样本扩增方法中的步骤。
CN202410324005.3A 2024-03-21 2024-03-21 一种基于加密流量的不良信息样本扩增方法和*** Active CN117938545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410324005.3A CN117938545B (zh) 2024-03-21 2024-03-21 一种基于加密流量的不良信息样本扩增方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410324005.3A CN117938545B (zh) 2024-03-21 2024-03-21 一种基于加密流量的不良信息样本扩增方法和***

Publications (2)

Publication Number Publication Date
CN117938545A CN117938545A (zh) 2024-04-26
CN117938545B true CN117938545B (zh) 2024-06-11

Family

ID=90754162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410324005.3A Active CN117938545B (zh) 2024-03-21 2024-03-21 一种基于加密流量的不良信息样本扩增方法和***

Country Status (1)

Country Link
CN (1) CN117938545B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机***工程有限公司 在互联网上堵截色情图像与不良信息的***
WO2020119481A1 (zh) * 2018-12-11 2020-06-18 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、***及电子设备
CN114172688A (zh) * 2021-11-05 2022-03-11 四川大学 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN115733681A (zh) * 2022-11-14 2023-03-03 贵州商学院 一种防止数据丢失的数据安全管理平台
CN116668381A (zh) * 2023-06-27 2023-08-29 塔里木大学 一种虚拟分布式网络接口控制器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11716350B2 (en) * 2020-06-23 2023-08-01 IronNet Cybersecurity, Inc. Systems and methods of detecting anomalous websites

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761204A (zh) * 2005-11-18 2006-04-19 郑州金惠计算机***工程有限公司 在互联网上堵截色情图像与不良信息的***
WO2020119481A1 (zh) * 2018-12-11 2020-06-18 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、***及电子设备
CN114172688A (zh) * 2021-11-05 2022-03-11 四川大学 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN115733681A (zh) * 2022-11-14 2023-03-03 贵州商学院 一种防止数据丢失的数据安全管理平台
CN116668381A (zh) * 2023-06-27 2023-08-29 塔里木大学 一种虚拟分布式网络接口控制器

Also Published As

Publication number Publication date
CN117938545A (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Wang et al. Detecting android malware leveraging text semantics of network flows
CN107483500A (zh) 一种基于用户行为的风险识别方法、装置及存储介质
CN108985064B (zh) 一种识别恶意文档的方法及装置
CN108667855A (zh) 网络流量异常监测方法、装置、电子设备及存储介质
CN113407886A (zh) 网络犯罪平台识别方法、***、设备和计算机存储介质
Koutsouvelis et al. Detection of insider threats using artificial intelligence and visualisation
Khan et al. Digital forensics and cyber forensics investigation: security challenges, limitations, open issues, and future direction
Hejun et al. Encrypted network behaviors identification based on dynamic time warping and k-nearest neighbor
Wang et al. TextDroid: Semantics-based detection of mobile malware using network flows
Ren et al. App identification based on encrypted multi-smartphone sources traffic fingerprints
Wang et al. Identifying DApps and user behaviors on ethereum via encrypted traffic
CN112286815A (zh) 一种接口测试脚本的生成方法及其相关设备
CN111355628A (zh) 一种模型训练方法、业务识别方法、装置和电子装置
CN114510615A (zh) 一种基于图注意力池化网络的细粒度加密网站指纹分类方法和装置
CN117938545B (zh) 一种基于加密流量的不良信息样本扩增方法和***
CN111310796B (zh) 一种面向加密网络流的Web用户点击识别方法
CN111211948B (zh) 基于载荷特征和统计特征的Shodan流量识别方法
CN116248346A (zh) 面向智慧城市的cps网络安全态势感知建立方法和***
CN116401479A (zh) 一种基于加密流量双向突发序列的网站内容行为识别方法和***
Gazdag et al. CrySyS dataset of CAN traffic logs containing fabrication and masquerade attacks
Zhang et al. An uncertainty-based traffic training approach to efficiently identifying encrypted proxies
Li et al. Trustworthy AI-Generative Content in Intelligent 6G Network: Adversarial, Privacy, and Fairness
Liu et al. Automated behavior identification of home security camera traffic
CN111401067A (zh) 一种蜜罐仿真数据的生成方法及装置
CN115378741B (zh) 一种轻量级的加密应用细粒度行为流量早期识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant