CN110598774A - 加密流量检测方法及装置、计算机可读存储介质、电子设备 - Google Patents

加密流量检测方法及装置、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN110598774A
CN110598774A CN201910827194.5A CN201910827194A CN110598774A CN 110598774 A CN110598774 A CN 110598774A CN 201910827194 A CN201910827194 A CN 201910827194A CN 110598774 A CN110598774 A CN 110598774A
Authority
CN
China
Prior art keywords
data
encrypted
algorithm
training sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910827194.5A
Other languages
English (en)
Other versions
CN110598774B (zh
Inventor
罗赟骞
邬江
戴方岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Great Wall Internetworking Safety Technology Research Institute (beijing) Co Ltd
Original Assignee
China Power Great Wall Internetworking Safety Technology Research Institute (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Great Wall Internetworking Safety Technology Research Institute (beijing) Co Ltd filed Critical China Power Great Wall Internetworking Safety Technology Research Institute (beijing) Co Ltd
Priority to CN201910827194.5A priority Critical patent/CN110598774B/zh
Publication of CN110598774A publication Critical patent/CN110598774A/zh
Application granted granted Critical
Publication of CN110598774B publication Critical patent/CN110598774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供加密流量检测方法及装置、计算机可读存储介质、电子设备。所述方法包括:从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,所述训练样本中的数据包括至少两种数据类型的数据;将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征;采用所述预定算法构建加密流量检测模型;使用构建的加密流量检测模型对待测对象进行检测。所述装置用于执行所述加密流量检测方法。本发明构建了较全面的检测特征,节约计算资源,提高检测准确性。

Description

加密流量检测方法及装置、计算机可读存储介质、电子设备
技术领域
本发明涉及网络安全领域,具体地,涉及一种加密流量检测方法、一种执行该加密流量检测方法的加密流量检测装置、一种计算机可读存储介质和一种电子设备。
背景技术
随着物联网、大数据、云计算和高速移动通信网络的快速发展,信息的保密问题显得越来越重要,各种用于确保网络通信安全的安全协议得到了广泛的应用,越来越多的互联网流量被加密。加密技术保证了互联网用户的通信安全,确保信息不会被第三方截获和读取,但同时也使得传统安全检测机制面临失效。
人工智能技术的广泛应用,为发现恶意流量攻击威胁提供了重要手段。目前,恶意加密流量检测研究主要分为基于会话、基于会话统计和基于证书的检测研究。基于会话的检测主要针对网络流提取特征,采用随机森林等方法;基于会话统计的检测主要针对网络流的统计数据提取统计特征,采取极端梯度提升(eXtreme Gradient Boosting,Xgboost)、LightGBM(Light Gradient Boosting Machine)等方法;基于证书的检测针对证书提取特征,采用支持向量机(Support Vector Machine,SVM)等方法构建检测模型。
但是,现有的检测模型检测所用的特征不完善,占用内存空间大,检测准确性还有待进一步提高。
发明内容
为解决现有技术存在的上述问题的至少一个方面,本发明的目的在于提供一种加密流量检测方法、一种执行该加密流量检测方法的加密流量检测装置、一种计算机可读存储介质和一种电子设备。旨在减少加密流量检测模型占用的内存空间,进一步提高加密流量检测的准确性。
为实现上述目的,作为本发明的第一方面,提供一种加密流量检测方法,所述加密流量检测方法包括:
从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,其中,所述训练样本中的数据包括至少两种数据类型的数据;
对所述训练样本集中的训练样本进行预处理,以将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,其中,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征;
利用预处理后的训练样本集,采用所述预定算法构建加密流量检测模型;
使用构建的加密流量检测模型对待测对象进行检测。
可选地,所述训练样本中的数据包括数值型数据和分类数据,所述预定算法能够识别和处理所述数值型数据和分类数据。
可选地,所述预定算法包括LightGBM算法或者Catboost算法。
可选地,所述目标文件包括静态的数据包文件和/或实时的网络流量文件。
可选地,所述网络会话的特征包括会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征中的至少一者。
可选地,所述网络会话的TLS/SSL会话包含TLS/SSL握手和证书信息。
可选地,构建所述加密流量检测模型包括:
利用所述预处理后的训练样本集,寻找所述预定算法的最优超参数;
采用所述最优超参数,利用所述预处理后的训练样本集,使用所述预定算法进行训练,获取所述加密流量检测模型。
可选地,所述使用构建的加密流量检测模型对待测对象进行检测包括:
提取待测对象的特征;
对所述提取的待测对象的特征进行预处理,将提取前数据类型为预定算法能够识别的数据类型的所述提取的待测对象的特征的数据类型,设定为所述预定算法能够识别的数据类型;
将所述预处理的所述提取的待测对象的特征输入所述加密流量检测模型进行识别。
作为本发明的第二方面,提供一种加密流量检测装置,包括:
特征提取模块,所述特征提取模块用于从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,其中,所述训练样本中的数据包括至少两种数据类型的数据;
特征数据处理模块,所述特征数据处理模块用于对所述训练样本集中的训练样本进行预处理,以将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,其中,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征;
模型构建模块,所述模型构建模块用于利用预处理后的训练样本集,采用所述预定算法构建加密流量检测模型;
加密流量检测模块,所述加密流量检测模块用于使用构建的加密流量检测模型对待测对象进行检测。
可选地,所述训练样本中的数据包括数值型数据和分类数据,所述预定算法能够识别和处理所述数值型数据和分类数据。
可选地,所述预定算法包括LightGBM算法或者Catboost算法。
可选地,所述目标文件包括静态的数据包文件和/或实时的网络流量文件。
可选地,所述网络会话的特征包括会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征中的至少一者。
可选地,所述网络会话的TLS/SSL会话包含TLS/SSL握手和证书信息。
可选地,所述模型构建模块包括:
最优超参数选择模块,所述最优超参数选择模块用于利用所述预处理后的训练样本集,寻找所述预定算法的最优超参数;
模型训练模块,所述模型训练模块用于采用所述最优超参数,利用所述预处理后的训练样本集,使用所述预定算法进行训练,获取所述加密流量检测模型。
可选地,所述特征提取模块还用于,提取待测对象的特征。
所述特征数据处理模块还用于,对所述提取的待测对象的特征进行预处理,将提取前数据类型为预定算法能够识别的数据类型的所述提取的待测对象的特征的数据类型,设定为所述预定算法能够识别的数据类型。
所述加密流量检测模块还用于,将所述预处理的所述提取的待测对象的特征输入所述加密流量检测模型进行识别。
作为本发明的第三个方面,提供一种计算机可读存储介质,所述计算机可读存储介质用于存储可执行程序,所述可执行程序能够执行本发明上述的加密流量检测方法。
作为本发明的第四个方面,提供一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明上述的加密流量检测方法。
本发明根据恶意加密流量的特征,使用了可以直接识别和处理数值型和非数值型数据的算法构建加密流量检测模型,而不需要将非数值型数据转换成数值型数据,有利于减少模型所占用存储空间,提高检测的准确性;同时,提取了非数值型的特征数据,构建了比较完善的检测特征,可以较为全面地描述恶意加密流量,从而进一步提高检测准确性。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是检测加密流量的方法流程图;
图2是采用所述预定算法构建加密流量检测模型流程图;
图3是使用构建的加密流量检测模型对待测对象进行检测流程图;
图4是加密流量检测装置的模块示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
作为本发明的第一个方面,提供一种加密流量检测方法。图1是检测加密流量的方法流程图。如图1所示,本实施方式提供的加密流量检测方法包括:
在步骤S110中,从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,其中,所述训练样本中的数据包括至少两种数据类型的数据。
在步骤S120中,对所述训练样本集中的训练样本进行预处理,以将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,其中,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征。
在步骤S130中,利用预处理后的训练样本集,采用所述预定算法构建加密流量检测模型。
在步骤S140中,使用构建的加密流量检测模型对待测对象进行检测。
经本发明的发明人研究发现,现有模型均只能识别和处理数值型数据,因此在提取加密流量的特征数据时,或只提取数值类型的特征,会导致不能全面描述恶意加密流量,使得检测不够准确;或在提取非数值型的特征数据后,需要将非数值型的特征数据转换成数值型数据,会占用大量内存空间,检测时效性低,对检测的准确性也有进一步的限制。
有鉴于此,为了克服现有模型均只能识别和处理数值型数据的问题,为了能处理非数值型数据,本发明采用能够直接识别和处理至少两种数据类型的数据的算法,既能更加全面地描述恶意加密流量,也能避免将非数值型的特征数据转换成数值型数据造成的内存资源的浪费,从而有效提高了加密流量检测的准确性。
此外,研究发现,会话连接特征体现了恶意加密流量在连接流量上的特征表现;安全传输层协议(Transport Layer Security,TLS)/安全套接层(Secure Sockets Layer,SSL)会话特征和X509证书特征体现了恶意流量在加密属性上的特征表现;网域名称***(Domain Name System,DNS)特征体现了会话中使用的域名是否存在问题,如可能是域名生成算法(Domain Generate Algorithm,DGA)域名。而上述特征中包含非数值型的特征,所述非数值型的特征描述了恶意加密流量特定属性上的独特表现,对于全面描述恶意加密流量具有重要作用。本发明在提取网络会话的特征时,同时提取了至少两种数据类型的特征数据作为训练样本,构建了比较完善的检测特征,可以进一步提高加密流量检测的准确性。
需要解释的是,在本发明中,提取了至少两种数据类型的特征数据,而根据***对数据处理的不同,提取到的特征数据中,数据类型不是数值型的数据的数据类型可能会被***改变,为了使采用的预定算法能够识别上述特征数据,在步骤S120中,对上述特征数据的数据类型重新进行了设定,设定为提取前的数据类型。
可选地,训练样本中的数据包括数值型数据和分类数据,所述预定算法能够识别和处理所述数值型数据和分类数据。
如前所述,网络会话的特征中,非数值型特征对于全面描述恶意加密流量发挥着重要作用,所述非数值型特征数据主要为分类数据。
现有加密流量检测模型均无法直接识别和处理分类特征,要想对分类特征进行处理,需要对分类特征数据做独热编码(one-hot),将分类数据稀疏化。但是,如果类别过多,在one-hot处理后,数据会变得过于稀疏,大大增加了训练集的大小,浪费计算资源。为了避免上述计算资源的浪费,本发明采用了能够直接识别和处理分类特征和数值型特征的算法。同时,采用所述能够直接识别和处理分类特征和数值型特征的算法,使得在本发明中,可以同时选择数值型特征和分类特征作为训练样本,从而较为全面地描述恶意加密流量,提高检测的准确性。
可选地,所述预定算法包括LightGBM算法或者Catboost算法。
LightGBM算法和Catboost算法均可以对分类特征进行直接识别和处理,因此,可以使用上述算法构建加密流量检测模型。
LightGBM算法是一种新型的梯度提升树(Gradient Boost Decision Tree,GBDT)算法,目前已被广泛应用于分类、回归和培训等相关领域。主要有以下优点:1、包含基于梯度的单边采样和互斥的特征捆绑,在高维数、海量数据的情况下,满足了效率和可扩展性的要求;2、使用基于直方图的算法加快训练过程,减少内存消耗;3、采用按叶子节点生长的树生成策略,有利于提高算法的泛化性能;4、可以直接处理分类特征,避免one-hot处理后数据变得过于稀疏,浪费计算资源。
Catboost算法是一种Boosting集成学习算法,主要是解决分类特征的学习,可以直接对字符型分类特征进行处理和学习。主要有以下优点:1、支持图形处理器(GraphicsProcessing Unit,GPU),计算更高效;2、提供训练过程可视化功能;3、支持Python、R等多种语言建模。
经过本发明的发明人实验得出,用Catboost算法构建的加密流量检测模型在准确度、F1值(F-measure)、召回率以及曲线下面积(Area Under Curve,AUC)指标上,相比用LightGBM算法构建的加密流量检测模型,有0.05%左右的差距。
基于以上差距,本实施方式选用LightGBM算法构建所述加密流量检测模型。因为LightGBM算法能够直接识别和处理“category”类型的分类特征,而根据***对数据处理的不同,提取到的网络会话的特征中,原本为“category”类型的特征的数据类型可能变为字符类型或“object”类型,为使LightGBM算法能够识别上述特征数据,需要将提取到的网络会话的特征中,原本为“category”类型的特征的数据类型设定为“category”。
可选地,所述目标文件包括静态的数据包文件和/或实时的网络流量文件。
本发明的发明人研究发现,现有基于会话统计的加密流量检测模型不能实时的检测恶意加密流量。在本发明中,可以从PCAP包、实时的网络接口或其他网络流量文件中提取网络会话的特征数据,从而实现了对加密流量的实时检测。
在本实施方式中,将从静态的PCAP数据包和/或实时的网络流量中提取网络会话的特征数据,进一步,可以使用开源软件Zeek提取本发明所需要的网络会话的特征数据。
可选地,所述网络会话的特征包括会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征中的至少一者。
如前所述,会话连接特征体现了恶意加密流量在连接流量上的特征表现;TLS/SSL会话特征和X509证书特征体现了恶意流量在加密属性上的特征表现;DNS特征体现了会话中使用的域名是否存在问题,如可能是DGA域名。要想全面描述恶意加密流量,可根据恶意流量在不同属性中的特征表现,选取与构建加密流量检测模型相关的特征。也可以使用http特征,但是,本发明的发明人认为未来所述http特征会消亡,因此在本实施方式中将不体现该特征。
作为本发明的一种实施方式,可按照如下方式选取网络会话的特征构建加密流量检测特征:
从网络会话中提取与构建恶意加密流量检测模型相关的会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征,共62个。所提取的特征中,包含数值型特征和“category”类型的特征。具体包括:
会话连接特征,指与加密流量通信相关的通信会话特征。本实施方式选取了“会话持续时间”等5个特征,如表1所示。
表1
TLS/SSL会话特征,指在使用TLS/SSL协议进行加密通信过程中产生的TLS/SSL握手特征数据。本实施方式选取了其中的11个特征,如表2所示。
表2
X509证书特征,指在使用TLS/SSL协议进行加密通信过程中服务器端传送的证书数据。本实施方式选取了其中的33个特征,如表3所示。
表3
DNS特征,指在会话开始前请求的DNS所包含的特征,选取DNS特征主要是考虑到某些恶意加密流量使用的DNS域名与常用的正常域名区别很大。本实施方式选取了其中的13个特征,如表4所示。
表4
可选地,所述网络会话的TLS/SSL会话包含TLS/SSL握手和证书信息。
本实施方式针对的是网络会话,因为TLS/SSL会话首次建立且会话已经建立时,会话信息中将包含TLS/SSL握手和证书等重要特征,而利用以前的会话信息进行恢复的TLS/SSL会话则不包含上述信息,为了能从会话中提取到有效的检测特征,所述网络会话必须满足TLS/SSL会话包含TLS/SSL握手和证书等重要特征,即TLS/SSL会话首次建立且会话已经建立。
可选地,为了将提取的网络会话的特征用于模型训练,以获取所述加密流量检测模型,构建训练样本集还包括:按照网络会话的性质,将训练样本归类为“恶意”或“正常”,构建训练样本集xi表示特征数据,yi为对应的标签数据,在本实施方式中,用1表示恶意,用0表示正常,或按照自定义的方式进行表示。
可选地,作为一种防错处理,本实施方式中,对所述训练样本集中的训练样本进行预处理,可以包括:检查训练样本的特征数量,如不符合指定的特征数量(在本实施方式中,指定的特征数量为62个,其中:会话连接特征5个,TLS/SSL会话特征11个,X509证书特征33个,DNS特征13个),则作为问题样本丢弃。
可选地,图2是采用所述预定算法构建加密流量检测模型流程图。如图2所示,采用所述预定算法构建加密流量检测模型包括:
在步骤S131中,利用所述预处理后的训练样本集,寻找所述预定算法的最优超参数。
一般情况下,超参数对预测精度有重要影响。LightGBM算法中的超参数将决定模型准确性、模型构建速度以及模型是否会过拟合,因此,需要确定其超参数的个数和变化范围,进而获取模型的最优超参数,以构建最优的加密流量检测模型。在本实施方式中,LightGBM算法需要优化的参数如表5所示。
表5
参数名称 参数解释
num_leaves 每颗树的叶子数量,决定模型准确性
learning_rate 控制迭代的速度,决定模型准确性
max_depth 树的最大深度,决定模型是否过拟合
min_data_in_leaf 叶子可能含有的最小记录数量,决定模型是否过拟合
feature_fraction 构建树的每次迭代中随机选择的特征的比例,决定模型构建速度
bagging_fraction 每次迭代使用的数据的比例,通常用于加速训练和避免过度拟合
max_bin 将***特征值的最大bin数,决定模型构建速度
bagging_freq 装袋的频率,决定模型是否过拟合
n_estimators 提升迭代的数量,决定模型准确性
可选地在本实施方式中,采用步骤S120中经过预处理的训练样本集中的所有训练样本,寻找所述加密流量检测模型的最优超参数。
可选地,本实施方式中,采用网格搜索方法、随机搜索方法或启发方法中任意一种,寻找模型的最优超参数;寻找最优超参数时,采用N-折交叉验证的方法。
网格搜索法是指定参数值的一种穷举搜索方法,即将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优超参数。
随机搜索方法不穷举所有的参数值,而是按照指定的分布抽取固定数量的参数值,寻找最优超参数。
启发式方法通常采用如粒子群算法、差分算法等优化算法寻找最优超参数。
经本发明的发明人研究发现,理论上,网格搜索算法效率最低,随机搜索算法次之,启发式方法效率最高;实现上,网格搜索算法和随机搜索算法较为简单,启发式方法较为复杂。
交叉验证的基本思想是在某种意义下将原始数据进行分组,一部分做为训练集,另一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标。用交叉验证的目的是为了得到可靠稳定的模型。
在步骤S132中,采用所述最优超参数,利用所述预处理后的训练样本集,使用所述预定算法进行训练,获取所述加密流量检测模型。
在本实施方式中,采用在步骤S131中获取的最优超参数和在步骤S120中经过预处理的训练样本集中的所有训练样本,使用LightGBM算法进行训练,获取检测模型。
可选地,图3是使用构建的加密流量检测模型对待测对象进行检测流程图。如图3所示,使用构建的加密流量检测模型对待测对象进行检测包括:
在步骤S141中,提取待测对象的特征。
可选地,待测对象可以是静态的PCAP数据包文件或动态的实时网络流量文件。
可选地,在本实施方式中,所述提取的待测对象的特征包括待测网络会话的会话连接特征(如表1所示)、TLS/SSL会话特征(如表2所示)、X509证书特征(如表3所示)和DNS特征(如表4所示),共62个。
在步骤S142中,对所述提取的待测对象的特征进行预处理,以将提取前数据类型为预定算法能够识别的数据类型的所述提取的待测对象的特征的数据类型,设定为所述预定算法能够识别的数据类型。
可选地,在本实施方式中,因为LightGBM算法能够直接识别和处理“category”类型的特征,而根据***对数据处理的不同,所述提取的待测对象的特征中,原本为“category”类型的特征的数据类型可能变为字符类型或“object”类型,为使LightGBM算法能够识别上述特征数据,需要将所述提取的待测对象的特征中,原本为“category”类型的特征的数据类型设定为“category”。
在步骤S143中,将所述获取的待测对象的特征输入所述加密流量检测模型进行识别。
可选地,在本实施方式中,所述将所述获取的待测对象的特征输入所述加密流量检测模型进行识别,还包括:由所述加密检测模型得出待测对象的异常概率值p,并与设定的阈值ε比较,若p>ε,则判断待测对象是恶意流量,否则为正常流量。
因为算法的误报率会产生很多假阳性,使得安全分析人员无法得到有效的告警,算法的结果将失去意义。因此,可以采用动态设定所述阈值ε的方法,结合算法产生的误报率大小设定合适的阈值,以降低算法的误报率,提高加密流量检测的准确性。
可选地,在本实施方式中,选取训练时,使N-折交叉验证获取的误报率为万分之一时的阈值。
作为本发明的第二个方面,提供一种加密流量检测装置,图4是加密流量检测装置的模块示意图。如图4所示,包括特征提取模块110、特征数据处理模块120、加密流量检测模型构建模块130、加密流量检测模块140。
特征提取模块110,用于执行步骤S110,具体地,训练样本构件模块110用于从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,其中,所述训练样本中的数据包括至少两种数据类型的数据。
特征数据处理模块120,用于执行步骤S120,具体地,特征数据处理模块120用于对所述训练样本集中的训练样本进行预处理,以将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,其中,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征。
加密流量检测模型构建模块130,用于执行步骤S130,具体地,模型构建模块130用于利用预处理后的训练样本集,采用所述预定算法构建加密流量检测模型。
加密流量检测模块140,用于执行步骤S140,具体地,加密流量检测模块140用于使用构建的加密流量检测模型对待测对象进行检测。
可选地,所述训练样本中的数据包括数值型数据和分类数据,所述预定算法能够识别和处理所述数值型数据和分类数据。
可选地,所述预定算法包括LightGBM算法或者Catboost算法。
可选地,所述目标文件包括静态的数据包文件和/或实时的网络流量文件。
可选地,所述网络会话的特征包括会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征中的至少一者。
可选地,所述网络会话的TLS/SSL会话包含TLS/SSL握手和证书信息。
可选地,所述加密流量检测模型构建模130块包括最优超参数选择模块150、模型训练模块160。
最优超参数选择模块150,用于执行步骤S131,具体地,最优超参数选择模块150用于利用所述预处理后的训练样本集,寻找所述预定算法的最优超参数。
模型训练模块160,用于执行步骤S132,具体地,模型训练模块160用于采用所述最优超参数,利用所述预处理后的训练样本集,使用所述预定算法进行训练,获取所述加密流量检测模型。
可选地,所述特征提取模块110还用于执行步骤S141,即,根据模型建立时确定的网络会话的特征,提取待测对象的特征。
相应地,所述特征数据处理模块120还用于执行步骤S142,即,对所述提取的待测对象的特征进行预处理,将提取前数据类型为预定算法能够识别的数据类型的所述提取的待测对象的特征的数据类型,设定为所述预定算法能够识别的数据类型。
相应的,所述加密流量检测模块140还用于执行步骤S143,即,将所述预处理的所述提取的待测对象的特征输入所述加密流量检测模型进行识别。
上文中已经详细描述了所述加密流量检测方法的工作原理以及有益效果,这里不再赘述。
作为本发明的第三个方面,提供一种计算机可读存储介质,所述计算机可读存储介质用于存储可执行程序,所述可执行程序能够执行本发明上述的加密流量检测方法。
其中,计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储介质、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
作为本发明的第四个方面,提供一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明上述的加密流量检测方法。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (18)

1.一种加密流量检测方法,其特征在于,所述加密流量检测方法包括:
从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,其中,所述训练样本中的数据包括至少两种数据类型的数据;
对所述训练样本集中的训练样本进行预处理,以将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,其中,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征;
利用预处理后的训练样本集,采用所述预定算法构建加密流量检测模型;
使用构建的加密流量检测模型对待测对象进行检测。
2.根据权利要求1所述的加密流量检测方法,其特征在于,所述训练样本中的数据包括数值型数据和分类数据,所述预定算法能够识别和处理所述数值型数据和分类数据。
3.根据权利要求2所述的加密流量检测方法,其特征在于,所述预定算法包括LightGBM算法或者Catboost算法。
4.根据权利要求1所述的加密流量检测方法,其特征在于,所述目标文件包括静态的数据包文件和/或实时的网络流量文件。
5.根据权利要求1所述的加密流量检测方法,其特征在于,所述网络会话的特征包括会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征中的至少一者。
6.根据权利要求1所述的加密流量检测方法,其特征在于,所述网络会话的TLS/SSL会话包含TLS/SSL握手和证书信息。
7.根据权利要求1至6中任意一项所述的加密流量检测方法,其特征在于,构建所述加密流量检测模型包括:
利用所述预处理后的训练样本集,寻找所述预定算法的最优超参数;
采用所述最优超参数,利用所述预处理后的训练样本集,使用所述预定算法进行训练,获取所述加密流量检测模型。
8.根据权利要求1至6中任意一项所述的加密流量检测方法,其特征在于,所述使用构建的加密流量检测模型对所述待测对象进行检测包括:
提取待测对象的特征;
对所述提取的待测对象的特征进行预处理,将提取前数据类型为预定算法能够识别的数据类型的所述提取的待测对象的特征的数据类型,设定为所述预定算法能够识别的数据类型;
将所述预处理的所述提取的待测对象的特征输入所述加密流量检测模型进行识别。
9.一种加密流量检测装置,其特征在于,所述加密流量检测装置包括:
特征提取模块,所述特征提取模块用于从目标文件中提取网络会话的特征作为训练样本,构建训练样本集,其中,所述训练样本中的数据包括至少两种数据类型的数据;
特征数据处理模块,所述特征数据处理模块用于对所述训练样本集中的训练样本进行预处理,以将预定训练样本的数据类型设定为预定算法能够识别的数据类型,并获得预处理后的训练样本集,其中,所述预定训练样本包括从目标文件中提取出之前数据类型为预定算法能够识别的数据类型的网络会话的特征,所述预定算法能够识别至少两种数据类型的特征;
模型构建模块,所述模型构建模块用于利用预处理后的训练样本集,采用所述预定算法构建加密流量检测模型;
加密流量检测模块,所述加密流量检测模块用于使用构建的加密流量检测模型对待测对象进行检测。
10.根据权利要求9所述的加密流量检测装置,其特征在于,所述训练样本中的数据包括数值型数据和分类数据,所述预定算法能够识别和处理所述数值型数据和分类数据。
11.根据权利要求10所述的加密流量检测装置,其特征在于,所述预定算法包括LightGBM算法或者Catboost算法。
12.根据权利要求9所述的加密流量检测装置,其特征在于,所述目标文件包括静态的数据包文件和/或实时的网络流量文件。
13.根据权利要求9所述的加密流量检测装置,其特征在于,所述网络会话的特征包括会话连接特征、TLS/SSL会话特征、X509证书特征和DNS特征中的至少一者。
14.根据权利要求9所述的加密流量检测装置,其特征在于,所述网络会话的TLS/SSL会话包含TLS/SSL握手和证书信息。
15.根据权利要求9至14中任意一项所述的加密流量检测装置,其特征在于,所述模型构建模块包括:
最优超参数选择模块,所述最优超参数选择模块用于利用所述预处理后的训练样本集,寻找所述预定算法的最优超参数;
模型训练模块,所述模型训练模块用于采用所述最优超参数,利用所述预处理后的训练样本集,使用所述预定算法进行训练,获取所述加密流量检测模型。
16.根据权利要求9至14中任意一项所述的加密流量检测装置,其特征在于,
所述特征提取模块还用于,提取待测对象的特征;
所述特征数据处理模块还用于,对所述提取的待测对象的特征进行预处理,将提取前数据类型为预定算法能够识别的数据类型的所述提取的待测对象的特征的数据类型,设定为所述预定算法能够识别的数据类型;
所述加密流量检测模块还用于,将所述预处理的所述提取的待测对象的特征输入所述加密流量检测模型进行识别。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储可执行程序,所述可执行程序能够执行权利要求1至8中任意一项所述的加密流量检测方法。
18.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1至8中任意一项所述的加密流量检测方法。
CN201910827194.5A 2019-09-03 2019-09-03 加密流量检测方法及装置、计算机可读存储介质、电子设备 Active CN110598774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910827194.5A CN110598774B (zh) 2019-09-03 2019-09-03 加密流量检测方法及装置、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910827194.5A CN110598774B (zh) 2019-09-03 2019-09-03 加密流量检测方法及装置、计算机可读存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN110598774A true CN110598774A (zh) 2019-12-20
CN110598774B CN110598774B (zh) 2023-04-07

Family

ID=68857386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910827194.5A Active CN110598774B (zh) 2019-09-03 2019-09-03 加密流量检测方法及装置、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN110598774B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277578A (zh) * 2020-01-14 2020-06-12 西安电子科技大学 加密流量分析特征提取方法、***、存储介质、安全设备
CN112101485A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 目标设备识别方法、电子设备及介质
CN112165487A (zh) * 2020-09-27 2021-01-01 上海万向区块链股份公司 基于zeek的分布式网络安全、性能检测方法及***
CN112714079A (zh) * 2020-12-14 2021-04-27 成都安思科技有限公司 一种vpn环境下的目标服务识别方法
CN113364792A (zh) * 2021-06-11 2021-09-07 奇安信科技集团股份有限公司 流量检测模型的训练方法、流量检测方法、装置及设备
CN113595967A (zh) * 2020-04-30 2021-11-02 深信服科技股份有限公司 数据识别方法、设备、存储介质及装置
CN113676348A (zh) * 2021-08-04 2021-11-19 南京赋乐科技有限公司 一种网络通道破解方法、装置、服务器及存储介质
CN113765911A (zh) * 2021-09-02 2021-12-07 恒安嘉新(北京)科技股份公司 一种webshell加密流量的检测方法、装置、设备和存储介质
CN116346452A (zh) * 2023-03-17 2023-06-27 中国电子产业工程有限公司 一种基于stacking的多特征融合恶意加密流量识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106685962A (zh) * 2016-12-29 2017-05-17 广东睿江云计算股份有限公司 一种反射型ddos攻击流量的防御***及方法
CN106790019A (zh) * 2016-12-14 2017-05-31 北京天融信网络安全技术有限公司 基于特征自学习的加密流量识别方法及装置
CN107294993A (zh) * 2017-07-05 2017-10-24 重庆邮电大学 一种基于集成学习的web异常流量监测方法
CN109347872A (zh) * 2018-11-29 2019-02-15 电子科技大学 一种基于模糊度和集成学习的网络入侵检测方法
US20190164060A1 (en) * 2017-11-24 2019-05-30 Yandex Europe Ag Method of and server for converting a categorical feature value into a numeric representation thereof
CN110113349A (zh) * 2019-05-15 2019-08-09 北京工业大学 一种恶意加密流量特征分析方法
CN110177123A (zh) * 2019-06-20 2019-08-27 电子科技大学 基于dns映射关联图的僵尸网络检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790019A (zh) * 2016-12-14 2017-05-31 北京天融信网络安全技术有限公司 基于特征自学习的加密流量识别方法及装置
CN106685962A (zh) * 2016-12-29 2017-05-17 广东睿江云计算股份有限公司 一种反射型ddos攻击流量的防御***及方法
CN107294993A (zh) * 2017-07-05 2017-10-24 重庆邮电大学 一种基于集成学习的web异常流量监测方法
US20190164060A1 (en) * 2017-11-24 2019-05-30 Yandex Europe Ag Method of and server for converting a categorical feature value into a numeric representation thereof
CN109347872A (zh) * 2018-11-29 2019-02-15 电子科技大学 一种基于模糊度和集成学习的网络入侵检测方法
CN110113349A (zh) * 2019-05-15 2019-08-09 北京工业大学 一种恶意加密流量特征分析方法
CN110177123A (zh) * 2019-06-20 2019-08-27 电子科技大学 基于dns映射关联图的僵尸网络检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUOLIN KE.ET AL: ""LightGBM:A Highly Efficient Gradient Boosting Decision Tree"", 《ACM》 *
WEIXIN_42001089: ""LightGBM源码阅读+理论分析(处理特征类别,缺省值的实现细节)"", 《CSDN》 *
王华勇等: ""基于LightGBM改进的GBDT短期负荷预测研究"", 《自动化仪表》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277578B (zh) * 2020-01-14 2022-02-22 西安电子科技大学 加密流量分析特征提取方法、***、存储介质、安全设备
CN111277578A (zh) * 2020-01-14 2020-06-12 西安电子科技大学 加密流量分析特征提取方法、***、存储介质、安全设备
CN113595967A (zh) * 2020-04-30 2021-11-02 深信服科技股份有限公司 数据识别方法、设备、存储介质及装置
CN112165487A (zh) * 2020-09-27 2021-01-01 上海万向区块链股份公司 基于zeek的分布式网络安全、性能检测方法及***
CN112165487B (zh) * 2020-09-27 2022-07-15 上海万向区块链股份公司 基于zeek的分布式网络安全、性能检测方法及***
CN112101485A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 目标设备识别方法、电子设备及介质
CN112714079B (zh) * 2020-12-14 2022-07-12 成都安思科技有限公司 一种vpn环境下的目标服务识别方法
CN112714079A (zh) * 2020-12-14 2021-04-27 成都安思科技有限公司 一种vpn环境下的目标服务识别方法
CN113364792A (zh) * 2021-06-11 2021-09-07 奇安信科技集团股份有限公司 流量检测模型的训练方法、流量检测方法、装置及设备
CN113364792B (zh) * 2021-06-11 2022-07-12 奇安信科技集团股份有限公司 流量检测模型的训练方法、流量检测方法、装置及设备
CN113676348A (zh) * 2021-08-04 2021-11-19 南京赋乐科技有限公司 一种网络通道破解方法、装置、服务器及存储介质
CN113676348B (zh) * 2021-08-04 2023-12-29 南京赋乐科技有限公司 一种网络通道破解方法、装置、服务器及存储介质
CN113765911A (zh) * 2021-09-02 2021-12-07 恒安嘉新(北京)科技股份公司 一种webshell加密流量的检测方法、装置、设备和存储介质
CN116346452A (zh) * 2023-03-17 2023-06-27 中国电子产业工程有限公司 一种基于stacking的多特征融合恶意加密流量识别方法和装置
CN116346452B (zh) * 2023-03-17 2023-12-01 中国电子产业工程有限公司 一种基于stacking的多特征融合恶意加密流量识别方法和装置

Also Published As

Publication number Publication date
CN110598774B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110598774B (zh) 加密流量检测方法及装置、计算机可读存储介质、电子设备
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
Jha et al. Intrusion detection system using support vector machine
WO2019128529A1 (zh) Url攻击检测方法、装置以及电子设备
Jacobs et al. AI/ML for network security: The emperor has no clothes
CN111277578A (zh) 加密流量分析特征提取方法、***、存储介质、安全设备
Kohout et al. Learning communication patterns for malware discovery in HTTPs data
CN110557382A (zh) 一种利用域名共现关系的恶意域名检测方法及***
CN111368289B (zh) 一种恶意软件检测方法和装置
CN113469366A (zh) 一种加密流量的识别方法、装置及设备
CN106446124B (zh) 一种基于网络关系图的网站分类方法
CN110493262B (zh) 一种改进分类的网络攻击检测方法及***
Boukhalfa et al. Parallel processing using big data and machine learning techniques for intrusion detection
CN114024761B (zh) 网络威胁数据的检测方法、装置、存储介质及电子设备
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
CN110598794A (zh) 一种分类对抗的网络攻击检测方法及***
CN111444364B (zh) 一种图像检测方法和装置
CN117807245A (zh) 网络资产图谱中节点特征提取方法及相似节点搜索方法
Bui et al. A clustering-based shrink autoencoder for detecting anomalies in intrusion detection systems
CN111291078A (zh) 一种域名匹配检测方法及装置
Long et al. Deep encrypted traffic detection: An anomaly detection framework for encryption traffic based on parallel automatic feature extraction
Ghimeş et al. Neural network models in big data analytics and cyber security
Zhang et al. An uncertainty-based traffic training approach to efficiently identifying encrypted proxies
Darwish et al. Bio-inspired machine learning mechanism for detecting malicious URL through passive DNS in big data platform
Gayatri et al. A Two-Level Hybrid Intrusion Detection Learning Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant