CN112565179B

CN112565179B - 一种针对加密代理通道内应用层协议的检测方法

Info

Publication number: CN112565179B
Application number: CN202011158388.XA
Authority: CN
Inventors: 刘光杰; 刘伟伟; 陈鹏程
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2023-06-23
Anticipated expiration: 2040-10-26
Also published as: CN112565179A

Abstract

本发明公开一种针对加密代理通道内应用层协议的检测方法，生成训练样本数据；按照TCP五元组信息和时间信息对训练样本数据集进行分流处理和标记；利用DPI技术提取数据负载内容，再使用单比特频数检测的方法对负载数据进行随机性检测；针对通过随机性检测的TCP数据流，提取数据流中数据包的长度特征向量、数量特征向量、时间特征向量、标志特征向量，计算负载长度序列熵，组成训练样本特征向量，训练分类模型；生成检测样本特征向量，输入分类模型，识别检测样本不同应用层协议的流量。本发明采用TCP数据流的多特征检测，能够有效实现加密代理通道内应用层协议的检测，从而描绘出加密代理通道内用户的具体通信行为。

Description

一种针对加密代理通道内应用层协议的检测方法

技术领域

本发明涉及本发明涉及信息处理技术，尤其涉及一种加密代理通道内应用层协议的检测方法。

背景技术

互联网发展至今已具有非常庞大的规模，它渗透到了人们生活和工作的方方面面。但是在给使用者带来高效服务的同时，互联网也暴露出了越来越多的信息安全问题。例如，许多网络攻击者借助数据加密技术和代理服务技术隐藏传输信息，规避网络审查从事非法网络活动，给互联网治理带来巨大隐患。

目前加密代理技术一般采用Socks5协议作为传输基础，在代理服务客户端将用户数据进行加密、混淆，从而掩盖用户原始请求意图，转发给代理服务器进行解密、二级转发，以此实现恶意流量传输或者不合规资源访问。

由于加密的原因，现有的数据包流量分析等技术均无法实现对新型加密协议流量进行识别及代理通道内应用层协议的精细化检测，已经无法满足网络监管者的监管需求，因此急需研究新的甄别方法。

发明内容

本发明的目的在于提出一种密代理通道内应用层协议的检测方法，用以实现加密代理通道内应用层协议的有效检测。

实现本发明目的的技术解决方案为：一种针对加密代理通道内应用层协议的检测方法，包括如下步骤：

步骤1：捕获加密代理通道下不同应用层协议的流量数据包，生成训练样本数据S_train；

步骤2：按照TCP五元组信息和时间信息对训练样本数据集进行分流处理，标记应用层协议为SSH的TCP数据流为S-ssh，标记应用层协议为HTTP的TCP数据流为S-http，标记应用层协议为HTTPS的TCP数据流为S-https；

步骤3：针对训练样本中的每条TCP数据流，利用DPI技术提取其数据负载内容，再使用单比特频数检测的方法对负载数据进行随机性检测，确定其是否为加密随机流量；

步骤4：针对步骤3中的通过随机性检测的TCP数据流，分析不同应用层协议的通讯机制，提取数据流中数据包的长度特征向量L_test、数量特征向量N_test、时间特征向量T_test、标志特征向量F_test，计算负载长度序列熵L_test，组成训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]；

步骤5：将训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]，输入SVM分类器，训练得到分类模型M；

步骤6：捕获网络流量数据包，生成检测样本数据集S_test，按照步骤2-4，生成检测样本特征向量V_test＝[L_sum,C_sum,S_max,E_max]；

步骤7：将产生检测样本特征向量V_test＝[L_sum,C_sum,S_max,E_max]输入分类模型M，得到检测样本分类结果，从而识别出检测样本不同应用层协议的流量。

进一步的，步骤1中，在实验室网络环境下部署加密代理通道，分别模拟SSH、HTTP、HTTPS协议行为，生成经过加密代理通道后的网络流量数据包。

进一步的，步骤1中，采用wireshark软件捕获数据流，解析TCP数据流的源地址、目的地址、源端口、目的端口、协议种类TCP五元组以及时间信息。

进一步的，步骤2中，还过滤出传输层负载非空的数据包，并按不同应用层协议进行分类存储。

更进一步的，基于pthread构建生产者-消费者模型，将TCP分流信息数据缓存至队列，通过消费者线程逐一读取TCP数据流信息，TCP数据流信息通过链表结构存储，链表头节点存储TCP五元组等流信息。

进一步的，步骤3中，随机性检测用于检测一个二元序列中0和1的个数是否接近，并以此来判断一个序列是否具有较好的01平衡性，具体方法如下：

将数据负载内容转换为二进制比特流，对数据部分进行单比特频数计算，统计比特位为1的频次为S以及总比特数n，计算误差补偿函数

在置信度为95％的情况下若误差补偿函数的结果大于0.05则其负载信息内容为随机，即加密数据，否则为非加密数据，需要过滤掉。

进一步的，步骤4中，提取数据流前25个数据包的长度特征向量L_test、数量特征向量N_test、时间特征向量T_test、标志特征向量F_test，计算负载长度序列熵L_test，组成训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]，具体方法为：

提取TCP流初始25个数据包的各项统计特征，包括：提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、长度序列熵值作为长度特征向量L_test，提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量N_test，提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量T_test，提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量F_test；

计算长度序列熵值：根据TCP数据流长度序列，统计每个序列值l_i在长度序列中出现的频次C_i，构成频次序列C＝[C₁,C₂,...,C_m']，其中m’为不同的l_i的个数；对频次序列每个序列值C_i除以n，得到频率序列P＝[P₁,P₂,...,P_m']；对频率序列每个序列值P_i按照P_i×log₁₀P_i进行运算处理，得到序列E＝[E₁,E₂,...,E_m']，对序列E求和得到负载长度序列熵L_test；

组成训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]。

一种针对加密代理通道内应用层协议的检测***，使用任一项所述的方法，对加密代理通道内应用层协议进行检测分类。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任一项所述的方法，对加密代理通道内应用层协议进行检测分类。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现任一项所述的方法，对加密代理通道内应用层协议进行检测分类。

本发明与现有技术相比，其显著优点为：本发明采集数据流特征时，充分考虑不同网络环境下MSS对数据包长度的影响，引入首包长度与MSS比值、MSS满载包数目等统计特征，增强模型的鲁棒性；同时采用多维度的特征向量：长度特征向量L_test、数量特征向量N_test、时间特征向量T_test、标志特征向量F_test，可有效克服单一特征带来的虚警率高的问题，得到可靠的检测结果。

附图说明

图1为本发明针对加密代理通道内应用层协议的检测方法的流程示意图。

图2为实施例中特征计算基于数据包个数与分类结果准确率关系图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为本发明针对加密代理通道内应用层协议的检测方法的流程示意图。如图1所示，该检测方法包括以下步骤：

步骤1：流量捕获器捕获训练样本数据S_train，作为一种具体实施方式，流量捕获器可以采用wireshark，过滤知名端口与常见协议类型。

步骤2：按照TCP五元组信息和时间信息对训练样本数据集进行分流处理，标记应用层协议为SSH的TCP数据流为S-ssh，标记应用层协议为HTTP的TCP数据流为S-http，标记应用层协议为HTTPS的TCP数据流为S-https。

步骤3：基于pthread构建生产者-消费者模型，将TCP分流信息数据缓存至队列，通过消费者线程逐一读取TCP数据流信息。TCP数据流信息通过链表结构存储，链表头节点存储TCP五元组等流信息。

步骤4：提取TCP数据流首个数据包的负载，将负载内容转换为二进制比特流，对数据部分进行单比特频数随机性检测，识别流量负载是否为随机性负载，随机性负载即为加密数据，否则为机密数据，需要滤除掉。

单比特频数随机性检测用于检测一个二元序列中0和1的个数是否接近，并以此来判断一个序列是否具有较好的01平衡性，具体方法如下：统计比特位为1的频次为S，统计总比特数为n，计算误差补偿函数

在置信度为95％的情况下若误差补偿函数的结果大于0.05则通过随机性检测，即加密数据，进入到特征提取阶段，非加密随机性流量被滤除。

步骤5：对训练样本中每条TCP数据流提取统计学特征。由于不同应用层协议均会在TCP流开始阶段进行握手协商，因此TCP流开始阶段的数据包存在显著协议特征，本方案提取TCP流初始25个数据包的各项统计特征，具体包括：提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、长度序列熵值作为长度特征向量L_test，提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度(Max SegmentSize)的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量N_test，提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量T_test，提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量F_test；

步骤6：计算长度序列熵值，根据TCP数据流长度序列，统计每个序列值l_i在长度序列中出现的频次C_i，构成频次序列C＝[C₁,C₂,...,C_m']，其中m’为不同的l_i的个数；对频次序列每个序列值C_i除以n，得到频率序列P＝[P₁,P₂,...,P_m']；对频率序列每个序列值P_i按照P_i×log₁₀P_i进行运算处理，得到序列E＝[E₁,E₂,...,E_m']，对序列E求和得到负载长度序列熵L_test。

步骤7：对训练样本每条TCP数据流，按照步骤5-6提取特征，形成训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]。

步骤8：训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]输入SVM分类器，训练得分类模型M。

步骤9：捕获网络流量数据包，生成检测样本数据集S_test，将检测样本按照TCP五元组分流，对检测样本中每条TCP数据流，提取第一个数据包负载信息内容，按照步骤4对其进行随机性检测，若通过随机性检测则进入下一步特征提取阶段。

步骤10：对检测样本每条TCP数据流，按照步骤5到6提取特征，形成检测样本特征向量V_test＝[L_sum,C_sum,S_max,E_max]。

步骤11：步骤10产生检测样本特征向量V_test＝[L_sum,C_sum,S_max,E_max]输入步骤8产生分类模型M，得到检测样本分类结果，从而识别检测样本应用层协议类别。

本发明还提出一种针对加密代理通道内应用层协议的检测***，其特征在于：使用任一项所述的方法，对加密代理通道内应用层协议进行检测分类。

实施例

为了验证本发明方案的有效性，进行如下仿真实验，检测样本类别已知的样本数据集，据此计算分类总体准确率，各类别查准率、查全率，评估分类有效性。

本实施例中针对加密代理通道内应用层协议的检测方法，首先捕获不同应用层协议的加密代理通道流量，再针对其TCP数据流的分组上下行包提取长度特征向量L、数量特征向量N、时间特征向量T、标志特征向量F，根据应用层协议输入到支持向量机进行训练、分类，具体流程如下：

步骤1：wireshark流量捕获器捕获训练样本数据S_train。

步骤2：按照TCP五元组信息和时间信息对训练样本数据集进行分流处理，标记应用层协议为SSH的TCP数据流为S-ssh，标记应用层协议为HTTP的TCP数据流为S-http，标记应用层协议为HTTPS的TCP数据流为S-https，分别取1000条S-http协议TCP数据流、1000条S-https协议TCP数据流和1000条非S-ssh协议TCP数据流用于分类模型训练。

步骤4：提取TCP数据流首个数据包的负载，将负载内容转换为二进制比特流，对数据部分进行单比特频数随机性检测，单比特频数随机性检测检测一个二元序列中0和1的个数是否接近，并以此来判断一个序列是否具有较好的01平衡性，具体方法如下：统计比特位为1的频次为S，统计总比特数为n，计算误差补偿函数

步骤5：对训练样本中每条TCP数据流提取统计学特征。由于不同应用层协议均会在TCP流开始阶段进行握手协商，因此TCP流开始阶段的数据包存在显著协议特征，本方案提取TCP流初始20个数据包的各项统计特征，具体包括：提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、长度序列熵值作为长度特征向量L_test，提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度(MaxSegmentSize)的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量N_test，提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量T_test，提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量F_test；

步骤7：对训练样本每条TCP数据流，按照步骤5-6提取特征，形成一个3000行17列的训练样本特征向量V_train＝[L_sum,C_sum,S_max,E_max]。

步骤9：捕获网络流量数据包，生成检测样本数据集S_test，分别取500条S-http协议TCP数据流、500条S-https协议TCP数据流和500条S-ssh协议TCP数据流将检测样本按照TCP五元组分流，对检测样本中每条TCP数据流，提取第一个数据包负载信息内容，按照步骤4对其进行随机性检测，若通过随机性检测则进入下一步特征提取阶段。

步骤10：对检测样本每条TCP数据流，按照步骤5到6提取特征，形成1500行17列的检测样本特征向量V_test＝[L_sum,C_sum,S_max,E_max]。

步骤11：将步骤10产生检测样本特征向量V_test＝[L_sum,C_sum,S_max,E_max]输入步骤8产生分类模型M，得到检测样本分类结果，从而识别检测样本应用层协议类别。

本实施例中设定提取上行负载包长度序列包个数为n≥20，其检验效果如图2所示，纵轴上的数值代表分类准确率，在n从15到30的过程中，其负载长度周期规律性检验得到准确率的结果，可见本发明在检测加密代理通道内应用层协议时具有良好的效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种针对加密代理通道内应用层协议的检测方法，其特征在于，包括如下步骤：

步骤1：捕获加密代理通道下不同应用层协议的流量数据包，生成训练样本数据集S_train；

步骤3：针对训练样本数据集中的每条TCP数据流，利用DPI技术提取其数据负载内容，再使用单比特频数检测的方法对数据负载内容进行随机性检测，确定其是否为加密随机流量；

步骤4：针对步骤3中的通过随机性检测的TCP数据流，分析不同应用层协议的通讯机制，提取数据流中数据包的长度特征向量L_test、数量特征向量N_test、时间特征向量T_test、标志特征向量F_test，计算负载长度序列熵l_test，组成训练样本特征向量V_train；

步骤5：将训练样本特征向量V_train，输入SVM分类器，训练得到分类模型M；

步骤6：捕获网络流量数据包，生成检测样本数据集S_test，按照步骤2-4，生成检测样本特征向量V_test；

步骤7：将产生检测样本特征向量V_test输入分类模型M，得到检测样本分类结果，从而识别出检测样本不同应用层协议的流量；

其中：

步骤2中，还过滤出传输层负载非空的数据包，并按不同应用层协议进行分类存储；

步骤3中，随机性检测用于检测一个二元序列中0和1的个数是否接近，并以此来判断一个序列是否具有较好的01平衡性，具体方法如下：

在置信度为95％的情况下若误差补偿函数的结果大于0.05，则其数据负载内容为随机，即加密数据，否则为非加密数据，需要过滤掉；

步骤4中，提取数据流前25个数据包的长度特征向量L_test、数量特征向量N_test、时间特征向量T_test、标志特征向量F_test，计算负载长度序列熵l_test，组成训练样本特征向量V_train，具体方法为：

提取TCP数据流初始25个数据包的各项统计特征，包括：提取上、下行带负载数据包各段长度序列的长度总和、长度平均值、长度标准差、长度众数、长度中位数、长度组距、相邻数据包长度差值及其绝对值、负载长度序列熵值作为长度特征向量L_test，提取上、下行带负载数据包各段长度序列中数据分组的个数、长度序列中长度等于最大报文段长度的连续数据分组数量之和、长度序列中不同长度的数目作为数量特征向量N_test，提取上、下行带负载数据包各段长度序列中首个数据分组的相对时间、长度序列中最末的数据分组的相对时间、长度序列的时间极差、长度序列的时间组距作为时间特征向量T_test，提取上、下行带负载数据包各段长度序列中首个数据分组与MSS值的比例值作为标志特征向量F_test；

计算负载长度序列熵值：根据TCP数据流长度序列，统计每个序列值l_i在长度序列中出现的频次C_i，构成频次序列C＝[C₁,C₂,...,C_m']，其中m’为不同的l_i的个数；对频次序列每个序列值C_i除以n，得到频率序列P＝[P₁,P₂,...,P_m']；对频率序列每个序列值P_i按照P_i×log₁₀P_i进行运算处理，得到序列E＝[E₁,E₂,...,E_m']，对序列E求和得到负载长度序列熵l_test；

组成训练样本特征向量V_train。

2.根据权利要求1所述的针对加密代理通道内应用层协议的检测方法，其特征在于：步骤1中，在实验室网络环境下部署加密代理通道，分别模拟SSH、HTTP、HTTPS协议行为，生成经过加密代理通道后的网络流量数据包。

3.根据权利要求1所述的针对加密代理通道内应用层协议的检测方法，其特征在于：步骤1中，采用wireshark软件捕获数据流，解析TCP数据流的源地址、目的地址、源端口、目的端口、协议种类TCP五元组以及时间信息。

4.根据权利要求3所述的针对加密代理通道内应用层协议的检测方法，其特征在于：基于pthread构建生产者-消费者模型，将TCP分流信息数据缓存至队列，通过消费者线程逐一读取TCP数据流信息，TCP数据流信息通过链表结构存储，链表头节点存储TCP五元组。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的方法，对加密代理通道内应用层协议进行检测分类。

6.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法，对加密代理通道内应用层协议进行检测分类。