CN105406993A

CN105406993A - 一种加密流的识别方法及装置

Info

Publication number: CN105406993A
Application number: CN201510710376.6A
Authority: CN
Inventors: 张风雨; 白冰; 扈红超; 张传浩; 杜飞; 王鹏; 程国振; 朱珂; 王志明
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2015-10-28
Filing date: 2015-10-28
Publication date: 2016-03-16

Abstract

本发明提出了一种加密流的识别方法及装置，该方法包括：步骤1，基于窗口跃迁在数据流中选择待测数据报文；步骤2，根据待测数据报文计算评估值；步骤3，基于评估值判断所述数据流是否加密。该装置包括：选择模块、计算模块和判断模块。本发明能够快速、准确的识别出各种加密的数据流，解决了现有技术中对各种加密流量识别的普适性问题。

Description

一种加密流的识别方法及装置

技术领域

本发明涉及网络通信技术领域，尤其涉及一种加密流的识别方法及装置。

背景技术

网上非法活动和翻墙穿透行为普遍采用加密通信。为了加强网络管理，实现网络有序管控的目标，需要在线识别加密流量。加密流识别面临三个难题：1)加密流量的内容千差万别，不具备统一的内容特征，难以匹配；2)加密流量的报文长度、到达间隔和传输方向完全由其所承载的业务决定，与非加密流量具有类似的流量特征；3)加密协议的多样化使得通过分析协议连接过程完成识别的可扩展性较差。

现有加密流识别技术大多从加密协议的握手特征出发，利用协议在握手及密钥协商阶段的通信特性，结合机器学习算法进行识别。这些方法仅对特定加密协议的特定版本有效，不具有普适性。

发明内容

本发明要解决的技术问题是，提供一种加密流的识别方法及装置，以解决现有技术中对各种加密流量识别的普适性问题。

本发明采用的技术方案是，所述加密流的识别方法，包括：

步骤1，基于窗口跃迁在数据流中选择待测数据报文；

步骤2，根据待测数据报文计算评估值；

步骤3，基于评估值判断所述数据流是否加密。

进一步的，步骤1具体包括：

设置一读取数据报文的窗口，所述窗口的长度为相邻的两个待测数据报文之间间隔的数据报文数量；

针对接收到的数据流，选择所述数据流的首个数据报文作为第一个待测数据报文，然后利用所述窗口在数据流中的跃迁来依次选择后续的待测数据报文。

进一步的，每次选择待测数据报文时对应的跃迁的窗口长度均遵循设定的函数关系。

进一步的，所述设定的函数关系为等差数列时，设所述窗口的长度为d，满足如下条件：针对第I次选择的待测数据报文，所需跃迁的窗口的长度d＝D×(I-1)，D为设定的延迟常数，I为大于1的整数。

进一步的，步骤2具体包括：针对每个待测数据报文执行WARE(Weighting-basedAdaptiveRandomnessEstimation，基于加权累计的自适应随机性评估算法)，包括如下处理：

A1：将待测数据报文的二进制序列中的所有0替换为-1，生成变形序列η_i；

A2：针对变形序列η_i的前k项和1≤k≤n，计算变形序列η_i的最大偏移值z＝max[S₁,S₂,…,S_n]，n为待测数据报文的二进制序列的长度，则评估值为

I (z) = 1 - Σ_{j = (\frac{- n}{z} + 1) / 4}^{(\frac{n}{z} - 1) / 4} [Φ (\frac{(4 j + 1) z}{\sqrt{n}}) - Φ (\frac{(4 j - 1) z}{\sqrt{n}})] + Σ_{j = (\frac{- n}{z} - 3) / 4}^{(\frac{n}{z} - 1) / 4} [Φ (\frac{(4 j + 3) z}{\sqrt{n}}) - Φ (\frac{(4 j + 1) z}{\sqrt{n}})],

其中，Φ(x)为标准正态分布函数，

进一步的，步骤2还包括：

A3，将步骤A2得到的评估值与历史评估值进行加权综合，得到最终用于判断所述数据流是否加密的评估值；

所述历史评估值的获取过程包括：将执行完步骤A3时得到的评估值作为历史评估值进行保存，替换前一次保存的历史评估值。

进一步的，步骤3具体包括：

判断所述待测数据报文对应的评估值是否大于设定的评估阈值，若是，则判定所述数据流为加密流，否则判定所述数据流量为非加密流。

进一步的，步骤3具体包括：

B1，判断所述待测数据报文对应的评估值是否大于设定的评估阈值，若是，则判定所述数据流为加密流，否则执行步骤B2；

B2，判断窗口跃迁的次数是否达到设定的次数阈值，若是，则判定所述数据流量为非加密流，否则按照步骤1重新选择一待测数据报文执行所述方法。

本发明还提供一种加密流的识别装置，包括：

选择模块，用于基于窗口跃迁在数据流中选择待测数据报文；

计算模块，用于根据待测数据报文计算评估值；

判断模块，用于基于评估值判断所述数据流是否加密。

采用上述技术方案，本发明至少具有下列优点：

本发明所述加密流的识别方法及装置，能够快速、准确的识别出各种加密的数据流，解决了现有技术中对各种加密流量识别的普适性问题。

附图说明

图1为本发明第一实施例的加密流的识别方法流程图；

图2为本发明第二实施例的加密流的识别装置组成示意图；

图3为本发明第三实施例的基于窗口跃迁的协议不相关加密流识别方法流程图；

图4为本发明第三实施例的对理想识别点的数据报文实施WARE算法的具体流程图；

图5为本发明第三实施例的基于窗口跃迁的协议不相关加密流识别装置结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明第一实施例，一种加密流的识别方法，如图1所示，包括以下具体步骤：

步骤S101，基于窗口跃迁在数据流中选择待测数据报文。

具体的，步骤S101包括：

进一步的，每次选择待测数据报文时对应的跃迁的窗口长度均遵循设定的函数关系。比如，当该设定的函数关系为等差数列时，设所述窗口的长度为d，满足如下条件：针对第I次选择的待测数据报文，所需跃迁的窗口的长度d＝D×(I-1)，D为设定的延迟常数，I为大于1的整数。

步骤S102，根据待测数据报文计算评估值。

具体的，步骤S102包括：针对每个待测数据报文执行WARE算法，包括如下处理：

I (z) = 1 - Σ_{j = (\frac{- n}{z} + 1) / 4}^{(\frac{n}{z} - 1) / 4} [Φ (\frac{(4 j + 1) z}{\sqrt{n}}) - Φ (\frac{(4 j - 1) z}{\sqrt{n}})] + Σ_{j = (\frac{- n}{z} - 3) / 4}^{(\frac{n}{z} - 1) / 4} [Φ (\frac{(4 j + 3) z}{\sqrt{n}}) - Φ (\frac{(4 j + 1) z}{\sqrt{n}})],

其中，Φ(x)为标准正态分布函数，

优选的，为了进一步提高对加密数据流的判断准确度，本实施例的步骤S102还包括下述具体步骤：

步骤S103，基于评估值判断所述数据流是否加密。

具体的，步骤S103具体包括：

优选的，为了进一步提高对加密数据流的判断的效率，步骤S103还可以按照下述具体过程来实施：

本发明第二实施例，与第一实施例对应的提供一种加密流的识别装置，如图2所示，包括以下组成部分：

1)选择模块10，用于基于窗口跃迁在数据流中选择待测数据报文；

具体的，选择模块10用于：设置一读取数据报文的窗口，所述窗口的长度为相邻的两个待测数据报文之间间隔的数据报文数量；

2)计算模块20，用于根据待测数据报文计算评估值；

具体的，计算模块20用于：针对每个待测数据报文执行WARE算法，具体执行过程在第一实施例中已详细描述。

3)判断模块30，用于基于评估值判断所述数据流是否加密。

具体的，判断模块30用于：判断所述待测数据报文对应的评估值是否大于设定的评估阈值，若是，则判定所述数据流为加密流，否则判定所述数据流量为非加密流。

优选的，为了进一步提高对加密数据流的判断的效率，判断模块30用于：还可以用于：

首选判断所述待测数据报文对应的评估值是否大于设定的评估阈值，若大于设定的评估阈值，则判定所述数据流为加密流；若小于等于设定的评估阈值，则判断窗口跃迁的次数是否达到设定的次数阈值，若是，则判定所述数据流量为非加密流，否则调用选择模块10重新选择一待测数据报文进行处理。

本发明第三实施例，本实施例在上述实施例的基础上提供一个应用实例，介绍一种基于窗口跃迁的协议不相关加密流识别方法，为了使本技术领域的人员更好地理解本申请实施例中的技术方案，并使本实施例的目的、特征和优点能够更加明显易懂，下面结合附图3～5对本申请实施例中技术方案作进一步详细的说明。

在详细描述本实施例之前，首先对本实施例中可能涉及的符号进行如下说明：

WARE：基于加权累计的自适应随机性评估算法；

D：设定的延迟常数，即窗口大小

W：预设的用于判定是是否为加密流的评估阀值

N：窗口跃迁的次数阀值

参见图3，为本实施例的基于窗口跃迁的协议不相关加密流识别方法的流程如下：

步骤101：对接收到的数据报文进行基于窗口跃迁的理想识别点试选。

具体的，首个理想识别点试选为接收到的数据流的第一个数据报文，后续试选以窗口d为大小进行跃迁。

这里的理想识别点的试选类似于上述实施例中的待测数据报文的选择，

步骤102：在理想识别点对数据报文进行基于加权累计的随机性评估测试。

具体的，对理想识别点的数据报文实施WARE算法，得出评估测试结果，并缓存在数据暂存块中。

步骤103：对比评估测试结果与设定阀值。

具体的，如果评估测试结果大于预设的评估阀值W，则输出为阳性，并结束识别；如果评估结果小于等于预设的评估阀值W，则进一步判断是否到窗口d的跃迁次数是否达到窗口跃迁的次数阀值N，如果到达，则输出为阴性，并结束识别，否则继续进行窗口跃迁，试选下一个理想识别点执行上述步骤。

这里，阳性指的是判定为加密流，阴性指的是判定为非加密流。

步骤104：结束判定并输出判定结果。

具体的，只要有一次测试显示识别出加密数据，则完成数据流的识别，识别结果为阳性。若超过窗口跃迁的次数阀值N后仍未识别出加密数据，则识别结果为阴性。窗口跃迁的次数阀值N的设定由***处理能力决定。

参见图4，在步骤102中，对理想识别点的数据报文实施WARE算法，得出评估测试结果的具体流程，如下：

步骤201：接收待测数据报文。

步骤202：单数据包累积计数。

具体的，步骤202包括：

C1：将该待测数据报文的二进制序列中的所有0替换为-1，生成新的变形序列。

C2：计算变形序列的前k项和1≤k≤n，计算变形序列η_i的最大偏移值z＝max[S₁,S₂,…,S_n]，n为待测数据报文的二进制序列的长度，则初步评估值为

I (z) = 1 - Σ_{j = (\frac{- n}{z} + 1) / 4}^{(\frac{n}{z} - 1) / 4} [Φ (\frac{(4 j + 1) z}{\sqrt{n}}) - Φ (\frac{(4 j - 1) z}{\sqrt{n}})] + Σ_{j = (\frac{- n}{z} - 3) / 4}^{(\frac{n}{z} - 1) / 4} [Φ (\frac{(4 j + 3) z}{\sqrt{n}}) - Φ (\frac{(4 j + 1) z}{\sqrt{n}})],

其中，Φ(x)为标准正态分布函数，

步骤203：读取历史数据。

具体的，从数据暂存块中读取数据流的随机性评估结果历史，对于第一次操作，历史评估值为0。

步骤204：加权综合评估操作。

具体的，将初步评估值与历史评估值进行加权综合，得到最终用于判断所述数据流是否加密的评估值。

步骤205：更新历史数据。

具体的，将执行完步骤C3时得到的评估值作为历史评估值保存到数据暂存块中，替换前一次保存的历史评估值。

步骤205：输出最终用于判断所述数据流是否加密的评估值。

参见图5，本实施例的基于窗口跃迁的协议不相关加密流识别装置，包含：窗口跃迁模块301、随机性评估模块302和加密流判定模块303。

其中，窗口跃迁模块301，用于读取链路流量，以窗口d＝D×(I-1)独立地在链路流量上进行跃迁，D为设定的延迟常数，跃迁的次数I为大于1的整数。

随机性评估模块302，用于基于加权累计的自适应随机性评估算法，对链路流量进行随机性评估。

加密流判定模块303，用于判定流量是否为加密流，具体的，如果评估测试结果大于预设的评估阀值W，则输出为阳性，并结束识别；如果评估结果小于等于预设的评估阀值W，则进一步判断是否到窗口d的跃迁次数是否达到窗口跃迁的次数阀值N，如果到达，则输出为阴性，并结束识别，否则继续进行窗口跃迁和判定。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台网络设备(可以是服务器，路由器，路由主控等)执行本申请各个实施例或者实施例的某些部分所述的方法。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种加密流的识别方法，其特征在于，包括：

步骤1，基于窗口跃迁在数据流中选择待测数据报文；

步骤2，根据待测数据报文计算评估值；

步骤3，基于评估值判断所述数据流是否加密。

2.根据权利要求1所述的加密流的识别方法，其特征在于，步骤1具体包括：

3.根据权利要求2所述的加密流的识别方法，其特征在于，每次选择待测数据报文时对应的跃迁的窗口长度均遵循设定的函数关系。

4.根据权利要求3所述的加密流的识别方法，其特征在于，所述设定的函数关系为等差数列时，设所述窗口的长度为d，满足如下条件：针对第I次选择的待测数据报文，所需跃迁的窗口的长度d＝D×(I-1)，D为设定的延迟常数，I为大于1的整数。

5.根据权利要求1所述的加密流的识别方法，其特征在于，步骤2具体包括：针对每个待测数据报文执行基于加权累计的自适应随机性评估算法WARE，包括如下处理：

A2：针对变形序列η_i的前k项和1≤k≤n，计算变形序列η_i的最大偏移值z＝max[S₁,S₂,…,S_n]，n为待测数据报文的二进制序列的长度，则评估值为其中，Φ(x)为标准正态分布函数，

6.根据权利要求5所述的加密流的识别方法，其特征在于，步骤2还包括：

7.根据权利要求1～6中任一项所述的加密流的识别方法，其特征在于，步骤3具体包括：

8.根据权利要求1～6中任一项所述的加密流的识别方法，其特征在于，步骤3具体包括：

9.一种加密流的识别装置，其特征在于，包括：

计算模块，用于根据待测数据报文计算评估值；

判断模块，用于基于评估值判断所述数据流是否加密。