CN111464485A

CN111464485A - 一种加密代理流量检测方法和装置

Info

Publication number: CN111464485A
Application number: CN201910059354.6A
Authority: CN
Inventors: 曲武; 石贺
Original assignee: Beijing Jinjingyunhua Technology Co ltd
Current assignee: Beijing Jinjingyunhua Technology Co ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2020-07-28

Abstract

本发明实施例公开了一种加密代理流量检测方法和装置，该方法包括：通过流量解析引擎对实时加密代理流量提取元数据；根据预设的黑数据规则和/或白数据规则对所述元数据进行过滤，获取需要检测的网络流量；对所述需要检测的网络流量提取步态指纹特征；利用所述步态指纹特征以及创建的机器学***台，有效进行加密代理检测，避免被反检测技术绕过。

Description

一种加密代理流量检测方法和装置

技术领域

本发明实施例涉及计算机安全技术领域和机器学习领域，尤指一种加密代理流量检测方法和装置。

背景技术

流量分类技术在信息安全领域有广泛应用，但互联网服务的快速发展和加密技术的广泛应用使其成为一个开放的挑战。近年来，各种增强隐私的工具都采用了加密技术，同时加密流量技术也被黑客所利用，用来进行僵尸网络中对于受控机的C&C传输。目前的互联网中的流量根据类型分有Browsing、Voip、Email、Chat、Streaming、File Transfer、P2P等常见七种，目前的互联网流量中加密流量普遍有Tor流量、Shadowsocks流量和VPN流量等，能准确检测出这些加密流量对网络安全中僵尸网络的识别有很大帮助。

VPN最初的设计是一个加密隧道，但是如今它如今已经融合了访问控制、传输管理、加密、路由选择、可用性管理等多种功能，并在全球的信息安全体系中发挥着重要的作用。隧道技术是vpn技术的基础，在创建隧道过程中，隧道的客户端和服务器双方必须使用相同的隧道协议。按照开放***互联参考模型(OSI)的划分，隧道技术可以分为第2层和第3层隧道协议。第2层隧道协议使用帧作为数据交换单位。

Tor网络由洋葱代理(Onion Proxy，OP)、目录服务器(Directory Server，DS)和洋葱路由器(Onion Router，OR)三部分组成。OP主要为Tor用户完成路由节点的选择、线路(Circuit)建立、数据包发送与接收等代理工作；DS主要负责汇总Tor网络的运行状态，并向OP发布最新的Tor路由节点列表；OR主要由Tor网络志愿者组成，用于对数据包进行重路由，从而实现匿名效果。在Tor网络建立连接的过程中，OP会随机选择3个可用的OR分别作为Tor网络的入口节点(Guard Node，GN)、中继节点(Relay Node，RN)和出口节点(Exit Node，EN)，在使用Diffie-Hellman依次进行密钥协商后，得到3个会话密钥，并用其依次对消息进行加密，最后OP将3次加密的数据包发送至GN。GN、RN和EN依次使用共享的会话密钥对数据包进行解密，并发往下一跳，使得数据包最终由EN以明文的形式发送至目标站点。数据包的返回，在依次经过EX、RN和GN时，被各节点使用共享会话密钥进行加密，最终GN将3次加密的数据包发送给OP，OP再通过3个共享会话密钥进行依次解密，最后将得到的明文传递给Tor用户。

Shadow socks的运行原理与其他代理工具基本相同，使用特定的中转服务器完成数据传输。在服务器端部署完成后，用户需要按照指定的密码、加密方式和端口，使用客户端软件与其连接。在成功连接到服务器后，客户端会在本机上构建一个本地Socks5代理(或VPN、透明代理)。浏览网络时，网络流量会被分到本地Socks5代理，客户端将其加密之后发送到服务器，服务器以同样的加密方式将流量回传给客户端，以此实现代理上网。由Shadowsocks客户端加密的数据包在传输过程中与正常TCP没有明显区别所以很难识别。

目前对加密代理检测技术的研究并不广泛，其中大部分使用传统的规则检测，如针对L2TP、PPTP的VPN加密代理流量，使用固定的目的端口进行检测，这样的规则检测引擎很容易被反检测技术绕过。

发明内容

本发明实施例提供了一种加密代理流量检测方法和装置，能够在不改变现有硬件设备架构的前提下，部署在各种网络安全大数据分析平台，有效进行加密代理检测，避免被反检测技术绕过。

为了达到本发明实施例目的，本发明实施例提供了一种加密代理流量检测方法，所述方法可以包括：

通过流量解析引擎对实时加密代理流量提取元数据；

根据预设的黑数据规则和/或白数据规则对所述元数据进行过滤，获取需要检测的网络流量；

对所述需要检测的网络流量提取步态指纹特征；

利用所述步态指纹特征以及创建的机器学习模型和深度学习模型对所述网络流量进行检测，采用预设的判断方法判断所述网络流量的加密代理类型；

其中，所述机器学习模型是关于各种加密代理类型的有监督机器学习子模型在所述机器学习模型的建模阶段，通过网络流量的步态指纹特征训练集进行多次迭代训练，以及通过与多种类型的有监督机器学习模型进行多次融合获得的优化有监督机器学习子模型集；

所述深度学习模型是关于各种加密代理类型的深度学习子模型在所述深度学习模型的建模阶段，通过网络流量的步态指纹特征训练集进行多次迭代训练获得的优化深度学习子模型集。

在本发明的示例性实施例中，所述对所述需要检测的网络流量提取步态指纹特征可以包括：

将加密代理流量的会话切分为不同的窗口，分别提取窗口内不同的会话数据包的统计特征，将所述统计特征进行预设处理后作为所述步态指纹特征；其中所述统计特征体现会话的状态信息和加密代理流量中不同的代理行为动作。

在本发明的示例性实施例中，所述会话切分的方法可以包括：按时间切分和/或按包数量切分；

所述统计特征可以包括：对所述会话数据包的时间特征和/或上下行负载的统计量和比率；

所述预设处理可以包括以下一种或多种：对得到的差异性统计特征进行标准化、统一所述统计特征的数据精度以及正态化分布处理。

在本发明的示例性实施例中，在利用所述步态指纹特征以及创建的机器学习模型和深度学习模型对所述网络流量进行检测之前，所述方法还可以包括：搭建不同类型的加密代理环境，在所述加密代理环境下基于不同类型的加密代理流量的多维元数据特征提取相应类型的步态指纹特征，并根据所述步态指纹特征创建所述机器学习模型和所述深度学习模型。

在本发明的示例性实施例中，所述搭建不同类型的加密代理环境，在所述加密代理环境下基于不同类型的加密代理流量的多维元数据特征提取相应类型的步态指纹特征，并根据所述步态指纹特征创建所述机器学习模型和所述深度学习模型可以包括：

网络收集不同的加密代理流量的类型，并搭建相应的不同类型的加密代理环境，在所述加密代理环境下捕获不同类型的通信流量，并从所述通信流量中捕获加密代理流量，对所述加密代理流量添加类型标注，将添加类型标注后的加密代理流量作为训练数据集；

使用流量解析引擎提取所述训练数据集中不同类型的加密代理流量的多维元数据特征，以根据所述多维元数据特征分别对不同类型的加密代理流量进行检测；

根据步态指纹特征工程方法，对每种类型的加密代理流量的所述多维元数据特征提取步态指纹特征，以通过所述步态指纹特征分别创建所述机器学习模型和所述深度学习模型。

在本发明的示例性实施例中，所述方法还可以包括：在使用所述流量解析引擎提取所述多维元数据特征时以会话为单位进行提取；其中，每个会话包括相同的多元组。

在本发明的示例性实施例中，所述多维元数据特征可以包括以下一种或多种：会话中的包抓取时间、包负载大小、包方向、包的生存时间TTL标志位以及包的互联网协议/标签IP/flag标志位；

所述多元组可以为五元组；所述五元组可以包括：源IP、源端口、目的IP、目的端口和协议。

在本发明的示例性实施例中，通过所述步态指纹特征创建所述机器学习模型可以包括：

根据所述训练数据集中不同类型的加密代理流量的类型数，构建相应数量的有监督机器学习子模型；

利用交叉验证方式，使用各种类型的加密代理流量的所述步态指纹特征组成的训练集分别训练各个相应的有监督机器学习子模型，并获取每个有监督机器学习子模型的优化模型结构和所述优化模型结构的超参数；

选择多种类型的有监督机器学习模型对各种类型的有监督机器学习子模型做模型融合；

通过多轮迭代对融合模型进行调节，以获取优化有监督机器学习子模型集，作为所述机器学习模型。

在本发明的示例性实施例中，通过所述步态指纹特征创建所述深度学习模型可以包括：

根据所述训练数据集中不同类型的加密代理流量的类型数，构建相应数量的深度学习子模型；

对每种类型的深度学习子模型对应的步态指纹特征，分别采用堆叠自编码神经网络进行特征降维；

利用降维后的每种类型的步态指纹特征训练集分别训练全连接神经网络模型和长短期记忆神经网络模型，以获取优化深度学习子模型集，作为所述深度学习模型。

在本发明的示例性实施例中，所述预设的判断方法可以包括以下一种或多种：投票法、均值法和金字塔堆叠法。

一种加密代理流量检测装置，可以包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现上述的任意一项所述的加密代理流量检测方法。

本发明实施例包括：通过流量解析引擎对实时加密代理流量提取元数据；根据预设的黑数据规则和/或白数据规则对所述元数据进行过滤，获取需要检测的网络流量；对所述需要检测的网络流量提取步态指纹特征；利用所述步态指纹特征以及创建的机器学***台，有效地进行加密代理检测，避免了被反检测技术绕过。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例的加密代理流量检测方法流程图；

图2为本发明实施例的创建机器学习模型和深度学习模型的方法流程图；

图3为本发明实施例的通过步态指纹特征创建机器学习模型的方法流程图；

图4为本发明实施例的通过所述步态指纹特征创建所述深度学习模型的方法流程图；

图5为本发明实施例的加密代理流量检测设备示意图；

图6为本发明实施例的加密代理流量检测装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了达到本发明实施例目的，本发明实施例提供了一种加密代理流量检测方法，如图1所示，所述方法可以包括S101-S104：

S101、通过流量解析引擎对实时加密代理流量提取元数据；

S102、据预设的黑数据规则和/或白数据规则对所述元数据进行过滤，获取需要检测的网络流量；

S103、对所述需要检测的网络流量提取步态指纹特征；

S104、利用所述步态指纹特征以及创建的机器学习模型和深度学习模型对所述网络流量进行检测，采用预设的判断方法判断所述网络流量的加密代理类型；

在本发明的示例性实施例中，针对提出的加密代理流量检测的困难性，提供了一种基于步态指纹的加密代理流量检测方法，可以经过白数据规则过滤可疑加密代理流量并分类不同加密类型，经过黑数据规则过滤已知加密代理流量，使用步态指纹特征工程生成多维步态指纹特征矩阵，再用有监督机器学习融合模型和深度学习模型进行加密代理流量检测。

在本发明的示例性实施例中，本发明以网络解析引擎抓取的全网流量为检测对象，重点研究了在高相似度、实时流量大的前提下准确识别加密代理流量，以构建实时的网络加密代理检测模型。

在本发明的示例性实施例中，步态指纹特指在加密代理流量检测的特征工程中采用最大时段、包数量等方式分割会话和会话窗口设置，提取会话一段时间的相关行为的统计信息(或称统计特征)，包括负载、持续时间、上下行流量比率等特征，该统计特征可以准确刻画加密代理流量的异常行为动作。

所述预设处理可以包括以下任意一种或多种：对得到的差异性统计特征进行标准化、统一所述统计特征的数据精度以及正态化分布处理。

在本发明的示例性实施例中，在对实时全网流量进行加密代理流量检测之前，可以先创建该机器学习模型和深度学习模型，下面将对该机器学习模型和深度学习模型的创建过程做详细介绍。

在本发明的示例性实施例中，如图2所示，所述搭建不同类型的加密代理环境，在所述加密代理环境下基于不同类型的加密代理流量的多维元数据特征提取相应类型的步态指纹特征，并根据所述步态指纹特征创建所述机器学习模型和所述深度学习模型可以包括S201-S203：

S201、网络收集不同的加密代理流量的类型，并搭建相应的不同类型的加密代理环境，在所述加密代理环境下捕获不同类型的通信流量，并从所述通信流量中捕获加密代理流量，对所述加密代理流量添加类型标注，将添加类型标注后的加密代理流量作为训练数据集。

在本发明的示例性实施例中，可以基于网络收集、利用常用代理工具搭建代理环境，捕获代理加密流量和非代理流量，并添加类型标注作为训练数据集。

在本发明的示例性实施例中，具体可以包括：A1.网络收集和搭建常见的不同类型的加密代理环境(例如，搭建加密代理环境可以包括：搭建代理隧道的客户端和服务器端，通过客户端对服务端进行不同类型的通信)，抓取加密代理流量；A2.抓取不同类型的通信流量(可以包括加密代理流量和正常流量)，该类型可以包括但不限于即时通信、视频、音乐、邮件、P2P、Web等类型。

S202、使用流量解析引擎提取所述训练数据集中不同类型的加密代理流量的多维元数据特征，以根据所述多维元数据特征分别对不同类型的加密代理流量进行检测。

在本发明的示例性实施例中，可以使用流量解析引擎提取加密代理流量的多维元数据特征，在检测中根据多维元数据特征对不同加密类型流量分类输入到相应类型的加密代理模型中进行检测。

在本发明的示例性实施例中，所述多维元数据特征可以包括以下任意一种或多种：会话中的包抓取时间、包负载大小、包方向、包的生存时间TTL标志位以及包的互联网协议/标签IP/flag标志位。这些元数据信息为后续的黑白规则过滤和步态指纹特征工程方法提供元数据。

在本发明的示例性实施例中，具体地可以包括以下步骤：B1.解析全网流量，获得多维元数据特征(包括但不限于会话中包抓取时间、包负载大小、包方向、包的TTL标志位、包的IP/flag标志位等元数据信息)；B2.根据包括但不限于应用层协议、目的端口元数据特征对不同加密类型流量分类输入到不同加密代理模型进行检测。

在本发明的示例性实施例中，所述方法还可以包括：在使用所述流量解

析引擎提取所述多维元数据特征时可以以会话为单位进行提取；其中，每个会话可以包括相同的多元组。

在本发明的示例性实施例中，所述多元组可以为五元组；所述五元组可以包括：源IP、源端口、目的IP、目的端口和协议。

S203、根据步态指纹特征工程方法，对每种类型的加密代理流量的所述多维元数据特征提取步态指纹特征，以通过所述步态指纹特征分别创建所述机器学习模型和所述深度学习模型。

在本发明的示例性实施例中，可以根据步态指纹特征工程方法，对各类型的加密流量元数据(对应各种类型的多维元数据特征)提取多维步态指纹特征向量。

在本发明的示例性实施例中，此处根据步态指纹特征工程方法，对每种类型的加密代理流量的所述多维元数据特征提取步态指纹特征的方法，与前述的对所述需要检测的网络流量提取步态指纹特征得方法相同，可以包括：

在本发明的示例性实施例中，提取步态指纹特征具体可以是指：对加密流量会话切分为不同的窗口，提取窗口内不同数据包的统计特征(如，利用步态指纹特征工程方法提取元数据的步态指纹特征，提取会话中包时间特征、上下行负载等的相关特征，进行统计量和比率特征提取)，以体现会话的状态信息和加密流量中不同的代理行为动作。其中会话切分方法可以包括但不限于：按时间切分或按包数量切分，窗口内数据包的统计特征可以包括但不限于对数据包的时间特征、上下行负载等计算统计量和比率。

在本发明的示例性实施例中，对会话进行切分，可以使用最大会话时间、包数量等条件，统一会话长度；并对得到的差异性特征标准化，统一特征数据精度，正态化分布处理。

在本发明的示例性实施例中，将加密代理流量的会话切分为不同的窗口，分别提取窗口内不同的会话数据包的统计特征，将所述统计特征进行预设处理后作为所述步态指纹特征可以包括C1-C4：

C1：对各类加密代理流量训练元数据和实时流量元数据进行数据预处理；该数据预处理可以包括缺省值填充、异常值删除、对长会话进行切分；其中，可以按包数量、会话时段等度量方式切分会话，并统一会话大小减小模型过拟合性。

C2：对数据预处理后的元数据(即上述的具有多维元数据特征的元数据)步态指纹特征提取可以包括：1)在对会话进行切分后，对每个流的持续时间以及每个子会话中上下行包的间隔时间、负载和个数分别提取出最大值、最小值、均值和方差等特征；2)对每个子会话中计算传输的每秒字节数特征，计算传输的每秒数据包个数等特征；3)对每个子会话中包的TTL和IP/flag，分别提取出熵值特征；4)步态指纹特征提取包括在构造会话状态特征时，如果本次包到达时间与前次包到达时间差小于所设秒数，则判定为Active，记录时间差作为Active值。如果本次包到达时间与前次包到达时间差大于所设秒数，则判定为idle，记录时间差作为idle值。分别可以计算状态持续时间的最大值、最小值、平均值、方差(共四维特征)。

C3：在经过以上步骤得到的步态指纹特征后进行正态分布化处理，处理方法可以包括以下一种或多种：对数法、平方根法、倒数法和平方根正弦变换法。

C4：在经过以上步骤得到的步态指纹特征后进行标准化处理，标准化处理可以包括：标准化和归一化。

在本发明的示例性实施例中，提取元数据的不太指纹特征以后，可以根据该步态指纹特征构建有监督机器学习模型(可以使用各类加密代理流量训练集分别训练各类子模型，调优模型结构和参数，利用模型融合泛化检测效果，保存最优子模型集)以及基于深度神经网络的检测模型，即深度学习模型(可以使用各类加密代理流量训练集分别训练各类子模型，调优训练参数与结构参数，保存最优深度学习子模型集)。

在本发明的示例性实施例中，构建有监督机器学习模型时可以根据各种加密代理类型个数构建相应个数的有监督机器学习模型，选择多种类型的有监督机器学习模型做模型融合，设置融合方案与各模型参数配置，利用前述步骤得到的步态指纹特征训练数据集分别训练各子模型，保存最优子模型集。

在本发明的示例性实施例中，具体地，如图3所示，通过所述步态指纹特征创建所述机器学习模型可以包括S301-S304：

S301、根据所述训练数据集中不同类型的加密代理流量的类型数，构建相应数量的有监督机器学习子模型。

在本发明的示例性实施例中，可以根据训练数据集的种类个数构建相应数量的有监督机器学习子模型，并设置模型结构参数。

S302、利用交叉验证方式，使用各种类型的加密代理流量的所述步态指纹特征组成的训练集分别训练各个相应的有监督机器学习子模型，并获取每个有监督机器学习子模型的优化模型结构和所述优化模型结构的超参数。

S303、选择多种类型的有监督机器学习模型对各种类型的有监督机器学习子模型做模型融合。

S304、通过多轮迭代对融合模型进行调节，以获取优化有监督机器学习子模型集，作为所述机器学习模型。

在本发明的示例性实施例中，可以选择多种类型的有监督机器学***均值法、Stacking法等，可以利用前述步骤得到的各类型加密代理流量的所述步态指纹特征训练各个子融合模型，通过交叉验证方式，迭代得到最优子融合模型集并保存。

在本发明的示例性实施例中，上述的投票法模型融合和Stacking法模型融合可以通过阈值设定调整加密代理流量检测的灵敏度和误报率。不同种类的加密代理检测模型(即各种有监督机器学***均值法指的是取所有融合子模型的平均值来判定。

在本发明的示例性实施例中，可以根据各种加密代理类型的个数构建相应个数的深度学习子模型，设置各深度学习子模型的网络结构和训练参数，利用前述步骤得到的步态指纹特征训练数据集对各个深度学习子模型迭代训练，保存最优的子模型结构，获得最终的深度学习模型。

在本发明的示例性实施例中，具体地，如图4所示，通过所述步态指纹特征创建所述深度学习模型可以包括S401-S403：

S401、根据所述训练数据集中不同类型的加密代理流量的类型数，构建相应数量的深度学习子模型。

S402、对每种类型的深度学习子模型对应的步态指纹特征，分别采用堆叠自编码神经网络进行特征降维。

在本发明的示例性实施例中，每种类型的深度学习子模型可以采用自编码神经网络降维(上述步骤得到的步态指纹特征可以通过自编码神经网络降维，提高泛化性)，并采用全连接神经网络和长短期记忆神经网络模型作为检测主模型，并设置网络结构参数和训练权重。

在本发明的示例性实施例中，所述的深度学习子模型可以使用堆叠自编码神经网络以及其他衍生神经网络对经过步态指纹特征数据做降维处理，具体可以包括：1)使用自编码神经网络将步态指纹特征进行压缩，然后把数据最小化损失地恢复出来，通过迭代训练优化模型结构最小化损失；2)堆叠自编码神经神经网络可以选择多个自编码器堆叠的方式，编码器可以选择非线性激活函数，提高提取特征效果；3)深度学习子模型经过多个隐藏层特征提取最终使用Softmax函数输出各维特征的概率大小。

S403、利用降维后的每种类型的步态指纹特征训练集分别训练全连接神经网络模型和长短期记忆神经网络模型，以获取优化深度学习子模型集，作为所述深度学习模型。

在本发明的示例性实施例中，所述的深度学习模型可以使用全连接神经网络以及其他衍生神经网络模型和长短期记忆神经网络模型作为主检测模型，分别对步态指纹特征数据指纹训练检测，调整训练权重和模型结构，迭代优化神经网络参数，输出并保存最优的深度学习子模型。

在本发明的示例性实施例中，全连接神经网络的主检测模型中，隐藏层激活函数可以选择非线性的Relu以更好地拟合数据。为防止过拟合，层间可以使用Dropout参数调节，输出层可以使用线性Softmax输出各类型加密代理流量的概率结果，输出各种类型加密代理的检测概率，各概率之和为1，在截断正态分布中抽取随机值作为全体参数的初始化数值。

在本发明的示例性实施例中，长短期记忆神经网络的主检测模型中，隐藏层激活函数可以选择非线性的Relu以更好地拟合数据，可以选择交叉熵损失函数用于模型通过随机梯度下降法更新模型参数，输出层可以使用线性Softmax输出各类型加密代理流量的概率结果，输出各种类型加密代理的检测概率，各概率之和为1，在截断正态分布中抽取随机值作为全体参数的初始化数值，通过迭代训练保存最优深度学习子模型集。

在本发明的示例性实施例中，通过上述方案获得机械学习模型和深度学习模型后，便可以根据训练得到的机器学习模型和深度学习模型对经过黑白规则过滤后的全网实时流量进行检测。

在本发明的示例性实施例中，具体检测步骤可以包括：1)对经过元数据提取和黑白规则过滤后的实时流量输入各机器学习子模型集检测，机器学习子模型集来自前述步骤训练得到的最优机器学习子模型集，并输出检测结果；2)对经过元数据提取和黑白规则过滤后的实时流量输入各全连接神经网络子模型和长短期记忆神经网络子模型集(即深度学习子模型集)检测，深度学习子模型集来自前述步骤训练得到的最优深度学习子模型集，并输出检测结果；3)综合利用机器学习模型、全连接神经网络模型和长短期记忆神经网络模型判定加密代理类型。有投票法、均值法和金字塔堆叠法。

在本发明的示例性实施例中，所述预设的判断方法(即综合判定的方法)可以包括以下一种或多种：投票法、均值法和金字塔堆叠法。

在本发明的示例性实施例中，1)投票法指：对机器学习融合模型、全连接神经网络模型和长短期记忆神经网络模型三个模型分别取阈值，通过阈值判定投票判断加密代理类型；2)均值法指：对机器学习融合模型、全连接神经网络模型和长短期记忆神经网络模型三个模型输出的概率先进行求均值，然后与阈值大小比较判断加密代理类型；3)金字塔堆叠法指：在三个模型中随机选择两个模型做检测，如果判定一致则进入第三个模型检测，最终判定加密代理类型。

在本发明的示例性实施例中，下面可以给出一个从创建机器学习模型和深度学习模型的建模，到全网实时加密代理流量检测的具体实现方式实施例，可有包括以下步骤：

第一步：选择虚拟专用网络VPN、洋葱路由器Tor、影梭ShadowSocks加密代理流量测试，网络流量解析引擎提取每个会话中packets_ts(包抓取时间)、packets_size(包负载大小)、packets_dir(包方向)、packets_ip_ttl(包的TTL标志位)、packets_ip_flags(包的ip Flag标志位)五维元数据；

网络流量解析引擎提取特征以会话为单位，即源IP、源端口、目的IP、目的端口、协议五元组相同的包为一个会话。

网络流量解析引擎将提取得到的五维元数据，线下训练时可以通过redis以pub/sub方式分发给各个流量加密代理检测模型进行检测，线上实时检测时可以用storm分布式消息发布***分发数据。

在实时的流量部署模型的情况下：

使用storm分布式流分发工具，将不同类型的流量分发给各个模块(根据流量类型的数量建立的相应数量的模型)，在实时的环境下代替redis工具。

第二步：通过元数据过滤需要检测的网络流量，黑数据规则可以包括：通过Tor公开的网络节点IP过滤相关黑数据，标记为Tor流量；通过VPN加密代理特定目的端口号及应用层协议类型，过滤现有特定VPN代理并标记；白数据规则及流量分类：应用层为安全套接层协议SSL且端口非常用端口和负载不为零的会话元数据输入到VPN、Tor加密代理流量检测流，传输层为传输控制协议TCP且无上层协议端口非常用端口和负载不为零的会话元数据，输入到Shadowsocks加密代理检测流。

第三步：对第二步两个流的元数据进行步态指纹特征工程方法处理，得到多维对目标有区分度的检测特征，具体可以包括如下内容：

对长会话进行分割，超过十五秒为下一个会话，特征(步态指纹特征)进入下一个样本，有利于形成有区分度的特征。

在对流进行切分后，每个流的持续时间分别提取出最大值、最小值、均值和方差四维特征；

每个流中，两个前向包的间隔时间，分别提取出最大值、最小值、均值和方差四维特征；

每个流中，两个反向包的间隔时间，分别提取出最大值、最小值、均值和方差四维特征；

每个流中，两个包的时间间隔，分别提取出最大值、最小值、均值和方差四维特征；

每个流中，计算传输的每秒字节数特征；每个流中，计算传输的每秒数据包个数特征。

构造会话状态特征时，如果本次包到达时间与前次包到达时间差小于5秒，则判定为Active，记录Active值为此次时间差。如果本次包到达时间与前次包到达时间差大于5秒，则判定为idle，记录时间差作为idle值。分别计算状态持续时间的最大值、最小值、平均值、方差(共四个特征)。

第四步：可以训练三种加密代理流量检测模型，搭建加密代理环境，构造训练数据。

可以分别使用数据链路层的点对点隧道协议PPTP、第二层隧道协议L2TP、网络层和传输层协议IPsec(互联网连接协议)，应用层协议SSTP(安全套接字隧道协议)和应用最广泛的openVPN协议代理工具搭建相关代理环境，通过虚拟机连接代理可以抓取Browsing(浏览)、Voip(网络电话)、Email(电子邮件)、Chat(聊天)、Streaming(流)、File Transfer(文件传输)、P2P(同行贷款平台)等7种类型的流量(包括但不限于这7种类型的流量)，再经过网络流量解析引擎及特征提取模块生成24维训练数据，目标列为7种流量类型，可以分别对应0-6。

搭建Tor加密代理环境，通过虚拟机连接代理抓取Browsing、Voip、Email、Chat、Streaming、File Transfer、P2P等七种类型的流量，再经过网络流量解析引擎及特征提取模块生成24维训练数据，目标列为7种流量类型，可以分别对应0-6。

搭建ShadowSocks加密代理环境，通过虚拟机连接代理抓取Browsing、Voip、Email、Chat、Streaming、File Transfer、P2P等七种类型的流量，再经过网络流量解析引擎及特征提取模块生成24维训练数据，目标列为7种流量类型，可以分别对应0-6。

第五步：构建机器学习的异常检测模型(即前述的机器学习模型)，可以分为三个模型，VPN、Tor、ShadowSocks；

其中VPN检测模型参数可以为：

n_estimators单树模型个数可以为200，oob_score选择采用袋外样本来评估模型的好坏，max_depth最大深度选择5，其余参数为默认值。

SVM(支持向量机)支持向量机模型可以选择sklearn的默认参数配置。

贝叶斯概率模型可以选择skearn中该模型的默认参数配置。

模型融合可以选择stacking技术，交叉验证可以选择3折，分别训练3个模型，最终检测泛化模型选择逻辑回归模型。

其中Tor检测模型参数可以为：

n_estimators单树模型个数为350，oob_score选择采用袋外样本来评估模型的好坏，max_depth最大深度选择4，叶子节点最少样本数min_samples_leaf为5，其余参数为默认值。

其中ShadowSocks检测模型参数可以为：

n_estimators单树模型个数为100，oob_score选择采用袋外样本来评估模型的好坏，叶子节点最少样本数min_samples_leaf为10，其余参数为默认值。

模型融合使用stacking模型融合方式，模型融合种类选择非相同原理模型SVM支持向量机默认配置和xgboost，模型种类数量为3种。

第六步：构建深度学习模型，可以使用堆叠自编码神经网络实现特征降维，优化训练数据，调整训练权重，优化模型结构。

其中自编码神经网络训练学习率可以设为0.01，训练周期可以设为10，每批次训练样本可以为256个，为了使检测速度满足实时要求，每层的激活函数可以选择Relu(线性整流函数)。

自编码神经网络可以选择两个自编码器堆叠的方式，第一个自编码器的隐藏层16个神经元，需要训练的矩阵参数(24*16)＝384个；第二个自编码器的隐藏层8个神经元，需要训练的矩阵参数(16*8)＝128个，在截断正态分布中抽取随机值作为全体参数的初始化数值，防止训练假死。

构建深度学习模型，可以使用全连接神经网络实现加密流量特征检测，调整训练权重和批次，迭代优化神经网络结构和神经网络参数。

其中全连接神经网络的学习率可以设为0.01，训练周期可以为5次，每批次训练样本可以为256个，每层的激活函数可以选择Relu。

全连接神经网络的输入数据来自自编码器，自编码器输出为8维，全连接神经网络的第一层隐藏层为32个神经元，需要训练的矩阵参数为(8*32)＝256个；为了防止过拟合，在第一层后使用Dropout，参数设为0.5；第二层隐藏层维64个神经元，需要训练的矩阵参数(32*0.5*64)＝1024个，最终使用Softmax输出各类型加密代理流量的概率结果，在截断正态分布中抽取随机值作为全体参数的初始化数值。

长短期记忆神经网络的输入数据来自自编码器，输入特征为8维，输入的一行样本为一个时序流量，所以设定时序长度为1，第一隐藏层为28个神经元，长短期记忆神经网络选择单层256维特征参数，第二层隐藏层维64个神经元，激活函数使用Sigmoid，最终使用Softmax输出各类型加密代理流量的概率结果，在截断正态分布中抽取随机值作为全体参数的初始化数值。

第七步：为三种加密代理流量检测的有监督机器学习模型设置合理的阈值，调整加密代理流量检测的灵敏度和误报率，具体可以包括：

三种检测模型输出检测会话的对应为加密代理流量的概率值，经过实际数据流量测试，设定VPN模型的阈值为70％，Tor模型阈值为56％，ShadowSocks模型阈值为63％，预测概率超过阈值则预测为加密代理流量。

第八步：使用投票法综合判定加密代理类型，在机器学***台日志记录，在线上部署时通过storm分布式数据分发***发布消息队列和报警日志。

本发明实施例还提供了一种基于步态指纹的加密代理流量检测设备1，如图5所示，可以包括：加密代理会话获取模块11、步态指纹特征工程模块12、训练模块13、白规则与黑规则过滤模块14和检测模块15。

加密代理会话获取模块11：可以用于得到各类常见加密代理类型流量和基于各类加密代理的各类流量类型。1)通过网络搜集加密代理流量，并打上各自标签；2)通过搭建各种加密代理服务器与客户端模仿加密代理通信环境，通过各类通信流量(如即时通讯类、视频、网页Web访问、P2P、邮件等类型流量)获取各类加密代理流量。

步态指纹特征工程模块12：可以用于生成机器学习和深度学习需要的训练数据：1)对会话进行统一切分，切分方法可以包括包个数和时间段，通过包负载、包时间、包个数等状态信息构建步态指纹特征；2)对得到的步态指纹特征进行正态分布化处理；3)对以上得到的步态指纹特征进行标准化或归一化处理，统一特征数据量级。

训练模块13，可以用于训练机器学习模型和深度学习模型。即构建机器学习的融合学习模型、深度学习的长短期记忆神经网络模型和全连接神经网络模型，并设置网络结构参数和训练权重。利用标注的训练数据训练机器学习模型和深度学习模型，并进行交叉验证保存最优的模型。

白规则与黑规则过滤模块14：可以用于减少模型的误报率。1)利用现有加密代理规则，优先检出已知的加密代理流量；2)利用白数据规则过滤非加密流量，并对不同加密类型进行标记，为后期不同类型模型检测提供数据。

检测模块15，可以用于利用训练好的机器学习模型和深度学习模型，对未知加密流量会话进行检测，检测数据先经过黑白数据规则进行简单过滤，然后送入检测模块输出检测结果。

本发明实施例还提供了一种加密代理流量检测装置2，如图6所示，可以包括处理器21和计算机可读存储介质22，所述计算机可读存储介质22中存储有指令，当所述指令被所述处理器21执行时，实现上述的任意一项所述的加密代理流量检测方法。

本发明实施例可以包括：通过流量解析引擎对实时加密代理流量提取元数据；根据预设的黑数据规则和/或白数据规则对所述元数据进行过滤，获取需要检测的网络流量；对所述需要检测的网络流量提取步态指纹特征；利用所述步态指纹特征以及创建的机器学***台，有效地进行加密代理检测，避免了被反检测技术绕过。

本发明实施例至少包括以下优点：

1、使用机器学习模型(有监督机器学习融合模型)和深度学习模型综合检测，通过大量的训练数据训练出可靠的加密代理流量检测模型，准确率要高于传统检测模型。

2、模型输出采用预测概率输出经过阈值控制的方式，增强了检测的灵活性，方便控制加密代理流量检测的检出。

3、通过提取多维步态指纹特征，能充分提取出加密代理流量会话与正常流量会话的特征差异性，提高模型效果。

4、由于使用流量解析引擎特征提取时只初步提取少量，所以引擎性能要优于普通流量检测引擎，减少丢包率，提高检测效果。

5、使用元数据来过滤并分类加密流量，即达到了除去干扰效果又能根据不同种类加密流量做有针对的模型训练。

6、在不改变现有硬件设备架构的前提下，适合在各种网络安全大数据分析平台部署。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种加密代理流量检测方法，其特征在于，所述方法包括：

通过流量解析引擎对实时加密代理流量提取元数据；

对所述需要检测的网络流量提取步态指纹特征；

利用所述步态指纹特征以及创建的机器学习模型和深度学习模型对所述网络流量进行检测，采用预设的判断方法判断所述网络流量的加密代理类型。

2.根据权利要求1所述的加密代理流量检测方法，其特征在于，所述对所述需要检测的网络流量提取步态指纹特征包括：

3.根据权利要求2所述的加密代理流量检测方法，其特征在于，所述会话切分的方法包括：按时间切分和/或按包数量切分；

所述统计特征包括：对所述会话数据包的时间特征和/或上下行负载的统计量和比率；

所述预设处理包括以下任意一种或多种：对得到的差异性统计特征进行标准化、统一所述统计特征的数据精度以及正态化分布处理。

4.根据权利要求1所述的加密代理流量检测方法，其特征在于，在利用所述步态指纹特征以及创建的机器学习模型和深度学习模型对所述网络流量进行检测之前，所述方法还包括：

搭建不同类型的加密代理环境，在所述加密代理环境下基于不同类型的加密代理流量的多维元数据特征提取相应类型的步态指纹特征，并根据所述步态指纹特征创建所述机器学习模型和所述深度学习模型。

5.根据权利要求4所述的加密代理流量检测方法，其特征在于，所述搭建不同类型的加密代理环境，在所述加密代理环境下基于不同类型的加密代理流量的多维元数据特征提取相应类型的步态指纹特征，并根据所述步态指纹特征创建所述机器学习模型和所述深度学习模型包括：

6.根据权利要求5所述的加密代理流量检测方法，其特征在于，所述方法还包括：在使用所述流量解析引擎提取所述多维元数据特征时以会话为单位进行提取；其中，每个会话包括相同的多元组。

7.根据权利要求6所述的加密代理流量检测方法，其特征在于，所述多维元数据特征包括以下任意一种或多种：会话中的包抓取时间、包负载大小、包方向、包的生存时间TTL标志位以及包的互联网协议/标签IP/flag标志位；

所述多元组为五元组；所述五元组包括：源IP、源端口、目的IP、目的端口和协议。

8.根据权利要求5所述的加密代理流量检测方法，其特征在于，通过所述步态指纹特征创建所述机器学习模型包括：

9.根据权利要求5所述的加密代理流量检测方法，其特征在于，通过所述步态指纹特征创建所述深度学习模型包括：

10.一种加密代理流量检测装置，其特征在于，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令被所述处理器执行时，实现如权利要求1-9任意一项所述的加密代理流量检测方法。