CN112565179B - 一种针对加密代理通道内应用层协议的检测方法 - Google Patents
一种针对加密代理通道内应用层协议的检测方法 Download PDFInfo
- Publication number
- CN112565179B CN112565179B CN202011158388.XA CN202011158388A CN112565179B CN 112565179 B CN112565179 B CN 112565179B CN 202011158388 A CN202011158388 A CN 202011158388A CN 112565179 B CN112565179 B CN 112565179B
- Authority
- CN
- China
- Prior art keywords
- data
- length
- sequence
- feature vector
- application layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/16—Implementing security features at a particular protocol layer
- H04L63/168—Implementing security features at a particular protocol layer above the transport layer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/163—In-band adaptation of TCP data exchange; In-band control procedures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种针对加密代理通道内应用层协议的检测方法,生成训练样本数据;按照TCP五元组信息和时间信息对训练样本数据集进行分流处理和标记;利用DPI技术提取数据负载内容,再使用单比特频数检测的方法对负载数据进行随机性检测;针对通过随机性检测的TCP数据流,提取数据流中数据包的长度特征向量、数量特征向量、时间特征向量、标志特征向量,计算负载长度序列熵,组成训练样本特征向量,训练分类模型;生成检测样本特征向量,输入分类模型,识别检测样本不同应用层协议的流量。本发明采用TCP数据流的多特征检测,能够有效实现加密代理通道内应用层协议的检测,从而描绘出加密代理通道内用户的具体通信行为。
Description
技术领域
本发明涉及本发明涉及信息处理技术,尤其涉及一种加密代理通道内应用层协议的检测方法。
背景技术
互联网发展至今已具有非常庞大的规模,它渗透到了人们生活和工作的方方面面。但是在给使用者带来高效服务的同时,互联网也暴露出了越来越多的信息安全问题。例如,许多网络攻击者借助数据加密技术和代理服务技术隐藏传输信息,规避网络审查从事非法网络活动,给互联网治理带来巨大隐患。
目前加密代理技术一般采用Socks5协议作为传输基础,在代理服务客户端将用户数据进行加密、混淆,从而掩盖用户原始请求意图,转发给代理服务器进行解密、二级转发,以此实现恶意流量传输或者不合规资源访问。
由于加密的原因,现有的数据包流量分析等技术均无法实现对新型加密协议流量进行识别及代理通道内应用层协议的精细化检测,已经无法满足网络监管者的监管需求,因此急需研究新的甄别方法。
发明内容
本发明的目的在于提出一种密代理通道内应用层协议的检测方法,用以实现加密代理通道内应用层协议的有效检测。
实现本发明目的的技术解决方案为:一种针对加密代理通道内应用层协议的检测方法,包括如下步骤:
步骤1:捕获加密代理通道下不同应用层协议的流量数据包,生成训练样本数据Strain;
步骤2:按照TCP五元组信息和时间信息对训练样本数据集进行分流处理,标记应用层协议为SSH的TCP数据流为S-ssh,标记应用层协议为HTTP的TCP数据流为S-http,标记应用层协议为HTTPS的TCP数据流为S-https;
步骤3:针对训练样本中的每条TCP数据流,利用DPI技术提取其数据负载内容,再使用单比特频数检测的方法对负载数据进行随机性检测,确定其是否为加密随机流量;
步骤4:针对步骤3中的通过随机性检测的TCP数据流,分析不同应用层协议的通讯机制,提取数据流中数据包的长度特征向量Ltest、数量特征向量Ntest、时间特征向量Ttest、标志特征向量Ftest,计算负载长度序列熵Ltest,组成训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax];
步骤5:将训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax],输入SVM分类器,训练得到分类模型M;
步骤6:捕获网络流量数据包,生成检测样本数据集Stest,按照步骤2-4,生成检测样本特征向量Vtest=[Lsum,Csum,Smax,Emax];
步骤7:将产生检测样本特征向量Vtest=[Lsum,Csum,Smax,Emax]输入分类模型M,得到检测样本分类结果,从而识别出检测样本不同应用层协议的流量。
进一步的,步骤1中,在实验室网络环境下部署加密代理通道,分别模拟SSH、HTTP、HTTPS协议行为,生成经过加密代理通道后的网络流量数据包。
进一步的,步骤1中,采用wireshark软件捕获数据流,解析TCP数据流的源地址、目的地址、源端口、目的端口、协议种类TCP五元组以及时间信息。
进一步的,步骤2中,还过滤出传输层负载非空的数据包,并按不同应用层协议进行分类存储。
更进一步的,基于pthread构建生产者-消费者模型,将TCP分流信息数据缓存至队列,通过消费者线程逐一读取TCP数据流信息,TCP数据流信息通过链表结构存储,链表头节点存储TCP五元组等流信息。
进一步的,步骤3中,随机性检测用于检测一个二元序列中0和1的个数是否接近,并以此来判断一个序列是否具有较好的01平衡性,具体方法如下:
将数据负载内容转换为二进制比特流,对数据部分进行单比特频数计算,统计比特位为1的频次为S以及总比特数n,计算误差补偿函数在置信度为95%的情况下若误差补偿函数的结果大于0.05则其负载信息内容为随机,即加密数据,否则为非加密数据,需要过滤掉。
进一步的,步骤4中,提取数据流前25个数据包的长度特征向量Ltest、数量特征向量Ntest、时间特征向量Ttest、标志特征向量Ftest,计算负载长度序列熵Ltest,组成训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax],具体方法为:
提取TCP流初始25个数据包的各项统计特征,包括:提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、长度序列熵值作为长度特征向量Ltest,提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量Ntest,提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量Ttest,提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量Ftest;
计算长度序列熵值:根据TCP数据流长度序列,统计每个序列值li在长度序列中出现的频次Ci,构成频次序列C=[C1,C2,...,Cm'],其中m’为不同的li的个数;对频次序列每个序列值Ci除以n,得到频率序列P=[P1,P2,...,Pm'];对频率序列每个序列值Pi按照Pi×log10Pi进行运算处理,得到序列E=[E1,E2,...,Em'],对序列E求和得到负载长度序列熵Ltest;
组成训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax]。
一种针对加密代理通道内应用层协议的检测***,使用任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
本发明与现有技术相比,其显著优点为:本发明采集数据流特征时,充分考虑不同网络环境下MSS对数据包长度的影响,引入首包长度与MSS比值、MSS满载包数目等统计特征,增强模型的鲁棒性;同时采用多维度的特征向量:长度特征向量Ltest、数量特征向量Ntest、时间特征向量Ttest、标志特征向量Ftest,可有效克服单一特征带来的虚警率高的问题,得到可靠的检测结果。
附图说明
图1为本发明针对加密代理通道内应用层协议的检测方法的流程示意图。
图2为实施例中特征计算基于数据包个数与分类结果准确率关系图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为本发明针对加密代理通道内应用层协议的检测方法的流程示意图。如图1所示,该检测方法包括以下步骤:
步骤1:流量捕获器捕获训练样本数据Strain,作为一种具体实施方式,流量捕获器可以采用wireshark,过滤知名端口与常见协议类型。
步骤2:按照TCP五元组信息和时间信息对训练样本数据集进行分流处理,标记应用层协议为SSH的TCP数据流为S-ssh,标记应用层协议为HTTP的TCP数据流为S-http,标记应用层协议为HTTPS的TCP数据流为S-https。
步骤3:基于pthread构建生产者-消费者模型,将TCP分流信息数据缓存至队列,通过消费者线程逐一读取TCP数据流信息。TCP数据流信息通过链表结构存储,链表头节点存储TCP五元组等流信息。
步骤4:提取TCP数据流首个数据包的负载,将负载内容转换为二进制比特流,对数据部分进行单比特频数随机性检测,识别流量负载是否为随机性负载,随机性负载即为加密数据,否则为机密数据,需要滤除掉。
单比特频数随机性检测用于检测一个二元序列中0和1的个数是否接近,并以此来判断一个序列是否具有较好的01平衡性,具体方法如下:统计比特位为1的频次为S,统计总比特数为n,计算误差补偿函数在置信度为95%的情况下若误差补偿函数的结果大于0.05则通过随机性检测,即加密数据,进入到特征提取阶段,非加密随机性流量被滤除。
步骤5:对训练样本中每条TCP数据流提取统计学特征。由于不同应用层协议均会在TCP流开始阶段进行握手协商,因此TCP流开始阶段的数据包存在显著协议特征,本方案提取TCP流初始25个数据包的各项统计特征,具体包括:提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、长度序列熵值作为长度特征向量Ltest,提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度(Max SegmentSize)的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量Ntest,提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量Ttest,提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量Ftest;
步骤6:计算长度序列熵值,根据TCP数据流长度序列,统计每个序列值li在长度序列中出现的频次Ci,构成频次序列C=[C1,C2,...,Cm'],其中m’为不同的li的个数;对频次序列每个序列值Ci除以n,得到频率序列P=[P1,P2,...,Pm'];对频率序列每个序列值Pi按照Pi×log10Pi进行运算处理,得到序列E=[E1,E2,...,Em'],对序列E求和得到负载长度序列熵Ltest。
步骤7:对训练样本每条TCP数据流,按照步骤5-6提取特征,形成训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax]。
步骤8:训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax]输入SVM分类器,训练得分类模型M。
步骤9:捕获网络流量数据包,生成检测样本数据集Stest,将检测样本按照TCP五元组分流,对检测样本中每条TCP数据流,提取第一个数据包负载信息内容,按照步骤4对其进行随机性检测,若通过随机性检测则进入下一步特征提取阶段。
步骤10:对检测样本每条TCP数据流,按照步骤5到6提取特征,形成检测样本特征向量Vtest=[Lsum,Csum,Smax,Emax]。
步骤11:步骤10产生检测样本特征向量Vtest=[Lsum,Csum,Smax,Emax]输入步骤8产生分类模型M,得到检测样本分类结果,从而识别检测样本应用层协议类别。
本发明还提出一种针对加密代理通道内应用层协议的检测***,其特征在于:使用任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
实施例
为了验证本发明方案的有效性,进行如下仿真实验,检测样本类别已知的样本数据集,据此计算分类总体准确率,各类别查准率、查全率,评估分类有效性。
本实施例中针对加密代理通道内应用层协议的检测方法,首先捕获不同应用层协议的加密代理通道流量,再针对其TCP数据流的分组上下行包提取长度特征向量L、数量特征向量N、时间特征向量T、标志特征向量F,根据应用层协议输入到支持向量机进行训练、分类,具体流程如下:
步骤1:wireshark流量捕获器捕获训练样本数据Strain。
步骤2:按照TCP五元组信息和时间信息对训练样本数据集进行分流处理,标记应用层协议为SSH的TCP数据流为S-ssh,标记应用层协议为HTTP的TCP数据流为S-http,标记应用层协议为HTTPS的TCP数据流为S-https,分别取1000条S-http协议TCP数据流、1000条S-https协议TCP数据流和1000条非S-ssh协议TCP数据流用于分类模型训练。
步骤3:基于pthread构建生产者-消费者模型,将TCP分流信息数据缓存至队列,通过消费者线程逐一读取TCP数据流信息。TCP数据流信息通过链表结构存储,链表头节点存储TCP五元组等流信息。
步骤4:提取TCP数据流首个数据包的负载,将负载内容转换为二进制比特流,对数据部分进行单比特频数随机性检测,单比特频数随机性检测检测一个二元序列中0和1的个数是否接近,并以此来判断一个序列是否具有较好的01平衡性,具体方法如下:统计比特位为1的频次为S,统计总比特数为n,计算误差补偿函数在置信度为95%的情况下若误差补偿函数的结果大于0.05则通过随机性检测,即加密数据,进入到特征提取阶段,非加密随机性流量被滤除。
步骤5:对训练样本中每条TCP数据流提取统计学特征。由于不同应用层协议均会在TCP流开始阶段进行握手协商,因此TCP流开始阶段的数据包存在显著协议特征,本方案提取TCP流初始20个数据包的各项统计特征,具体包括:提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、长度序列熵值作为长度特征向量Ltest,提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度(MaxSegmentSize)的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量Ntest,提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量Ttest,提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量Ftest;
步骤6:计算长度序列熵值,根据TCP数据流长度序列,统计每个序列值li在长度序列中出现的频次Ci,构成频次序列C=[C1,C2,...,Cm'],其中m’为不同的li的个数;对频次序列每个序列值Ci除以n,得到频率序列P=[P1,P2,...,Pm'];对频率序列每个序列值Pi按照Pi×log10Pi进行运算处理,得到序列E=[E1,E2,...,Em'],对序列E求和得到负载长度序列熵Ltest。
步骤7:对训练样本每条TCP数据流,按照步骤5-6提取特征,形成一个3000行17列的训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax]。
步骤8:训练样本特征向量Vtrain=[Lsum,Csum,Smax,Emax]输入SVM分类器,训练得分类模型M。
步骤9:捕获网络流量数据包,生成检测样本数据集Stest,分别取500条S-http协议TCP数据流、500条S-https协议TCP数据流和500条S-ssh协议TCP数据流将检测样本按照TCP五元组分流,对检测样本中每条TCP数据流,提取第一个数据包负载信息内容,按照步骤4对其进行随机性检测,若通过随机性检测则进入下一步特征提取阶段。
步骤10:对检测样本每条TCP数据流,按照步骤5到6提取特征,形成1500行17列的检测样本特征向量Vtest=[Lsum,Csum,Smax,Emax]。
步骤11:将步骤10产生检测样本特征向量Vtest=[Lsum,Csum,Smax,Emax]输入步骤8产生分类模型M,得到检测样本分类结果,从而识别检测样本应用层协议类别。
本实施例中设定提取上行负载包长度序列包个数为n≥20,其检验效果如图2所示,纵轴上的数值代表分类准确率,在n从15到30的过程中,其负载长度周期规律性检验得到准确率的结果,可见本发明在检测加密代理通道内应用层协议时具有良好的效果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种针对加密代理通道内应用层协议的检测方法,其特征在于,包括如下步骤:
步骤1:捕获加密代理通道下不同应用层协议的流量数据包,生成训练样本数据集Strain;
步骤2:按照TCP五元组信息和时间信息对训练样本数据集进行分流处理,标记应用层协议为SSH的TCP数据流为S-ssh,标记应用层协议为HTTP的TCP数据流为S-http,标记应用层协议为HTTPS的TCP数据流为S-https;
步骤3:针对训练样本数据集中的每条TCP数据流,利用DPI技术提取其数据负载内容,再使用单比特频数检测的方法对数据负载内容进行随机性检测,确定其是否为加密随机流量;
步骤4:针对步骤3中的通过随机性检测的TCP数据流,分析不同应用层协议的通讯机制,提取数据流中数据包的长度特征向量Ltest、数量特征向量Ntest、时间特征向量Ttest、标志特征向量Ftest,计算负载长度序列熵ltest,组成训练样本特征向量Vtrain;
步骤5:将训练样本特征向量Vtrain,输入SVM分类器,训练得到分类模型M;
步骤6:捕获网络流量数据包,生成检测样本数据集Stest,按照步骤2-4,生成检测样本特征向量Vtest;
步骤7:将产生检测样本特征向量Vtest输入分类模型M,得到检测样本分类结果,从而识别出检测样本不同应用层协议的流量;
其中:
步骤2中,还过滤出传输层负载非空的数据包,并按不同应用层协议进行分类存储;
步骤3中,随机性检测用于检测一个二元序列中0和1的个数是否接近,并以此来判断一个序列是否具有较好的01平衡性,具体方法如下:
将数据负载内容转换为二进制比特流,对数据部分进行单比特频数计算,统计比特位为1的频次为S以及总比特数n,计算误差补偿函数在置信度为95%的情况下若误差补偿函数的结果大于0.05,则其数据负载内容为随机,即加密数据,否则为非加密数据,需要过滤掉;
步骤4中,提取数据流前25个数据包的长度特征向量Ltest、数量特征向量Ntest、时间特征向量Ttest、标志特征向量Ftest,计算负载长度序列熵ltest,组成训练样本特征向量Vtrain,具体方法为:
提取TCP数据流初始25个数据包的各项统计特征,包括:提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、负载长度序列熵值作为长度特征向量Ltest,提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量Ntest,提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量Ttest,提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量Ftest;
计算负载长度序列熵值:根据TCP数据流长度序列,统计每个序列值li在长度序列中出现的频次Ci,构成频次序列C=[C1,C2,...,Cm'],其中m’为不同的li的个数;对频次序列每个序列值Ci除以n,得到频率序列P=[P1,P2,...,Pm'];对频率序列每个序列值Pi按照Pi×log10Pi进行运算处理,得到序列E=[E1,E2,...,Em'],对序列E求和得到负载长度序列熵ltest;
组成训练样本特征向量Vtrain。
2.根据权利要求1所述的针对加密代理通道内应用层协议的检测方法,其特征在于:步骤1中,在实验室网络环境下部署加密代理通道,分别模拟SSH、HTTP、HTTPS协议行为,生成经过加密代理通道后的网络流量数据包。
3.根据权利要求1所述的针对加密代理通道内应用层协议的检测方法,其特征在于:步骤1中,采用wireshark软件捕获数据流,解析TCP数据流的源地址、目的地址、源端口、目的端口、协议种类TCP五元组以及时间信息。
4.根据权利要求3所述的针对加密代理通道内应用层协议的检测方法,其特征在于:基于pthread构建生产者-消费者模型,将TCP分流信息数据缓存至队列,通过消费者线程逐一读取TCP数据流信息,TCP数据流信息通过链表结构存储,链表头节点存储TCP五元组。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
6.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法,对加密代理通道内应用层协议进行检测分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011158388.XA CN112565179B (zh) | 2020-10-26 | 2020-10-26 | 一种针对加密代理通道内应用层协议的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011158388.XA CN112565179B (zh) | 2020-10-26 | 2020-10-26 | 一种针对加密代理通道内应用层协议的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112565179A CN112565179A (zh) | 2021-03-26 |
CN112565179B true CN112565179B (zh) | 2023-06-23 |
Family
ID=75042590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011158388.XA Active CN112565179B (zh) | 2020-10-26 | 2020-10-26 | 一种针对加密代理通道内应用层协议的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112565179B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547489A (zh) * | 2018-12-31 | 2019-03-29 | 南京理工大学 | 一种针对Obfuscated-Openssh协议流量的检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106657141A (zh) * | 2017-01-19 | 2017-05-10 | 西安电子科技大学 | 基于网络流量分析的安卓恶意软件实时检测方法 |
-
2020
- 2020-10-26 CN CN202011158388.XA patent/CN112565179B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547489A (zh) * | 2018-12-31 | 2019-03-29 | 南京理工大学 | 一种针对Obfuscated-Openssh协议流量的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112565179A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Seeing through network-protocol obfuscation | |
CN113705619B (zh) | 一种恶意流量检测方法、***、计算机及介质 | |
Chen et al. | Using rough set and support vector machine for network intrusion detection | |
Dorfinger et al. | Entropy estimation for real-time encrypted traffic identification (short paper) | |
Boukhamla et al. | CICIDS2017 dataset: performance improvements and validation as a robust intrusion detection system testbed | |
CN110611640A (zh) | 一种基于随机森林的dns协议隐蔽通道检测方法 | |
CN112769633B (zh) | 一种代理流量检测方法、装置、电子设备及可读存储介质 | |
Stergiopoulos et al. | Automatic detection of various malicious traffic using side channel features on TCP packets | |
JP2006279930A (ja) | 不正アクセス検出方法及び装置、並びに不正アクセス遮断方法及び装置 | |
CN111030941A (zh) | 一种基于决策树的https加密流量分类方法 | |
CN111447232A (zh) | 一种网络流量检测方法及装置 | |
US20170063892A1 (en) | Robust representation of network traffic for detecting malware variations | |
CN111224946A (zh) | 一种基于监督式学习的tls加密恶意流量检测方法及装置 | |
Liu et al. | Maldetect: A structure of encrypted malware traffic detection | |
CN112800424A (zh) | 一种基于随机森林的僵尸网络恶意流量监测方法 | |
Bachupally et al. | Network security analysis using Big Data technology | |
US20140344931A1 (en) | Systems and methods for extracting cryptographic keys from malware | |
Letteri et al. | MTA-KDD'19: A Dataset for Malware Traffic Detection. | |
CN115426137A (zh) | 恶意加密网络流量检测溯源方法及*** | |
Agrafiotis et al. | Image-based neural network models for malware traffic classification using pcap to picture conversion | |
WO2016201876A1 (zh) | 一种加密流量的业务识别方法、装置和计算机存储介质 | |
CN113872939A (zh) | 一种流量检测方法、装置及存储介质 | |
Wails et al. | On precisely detecting censorship circumvention in real-world networks | |
Moure-Garrido et al. | Detecting malicious use of DOH tunnels using statistical traffic analysis | |
CN112565179B (zh) | 一种针对加密代理通道内应用层协议的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Guangjie Inventor after: Liu Weiwei Inventor after: Chen Pengcheng Inventor before: Chen Pengcheng Inventor before: Liu Guangjie Inventor before: Liu Weiwei |
|
GR01 | Patent grant | ||
GR01 | Patent grant |