CN115378741B

CN115378741B - 一种轻量级的加密应用细粒度行为流量早期识别方法

Info

Publication number: CN115378741B
Application number: CN202211306174.1A
Authority: CN
Inventors: 吉庆兵; 罗杰; 胡晓艳; 倪绿林; 谈程; 康璐
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-03-21
Anticipated expiration: 2042-10-25
Also published as: CN115378741A

Abstract

本发明公开了一种轻量级的加密应用细粒度行为流量早期识别方法，属于网络安全领域，包括步骤：S1，对采集的加密应用细粒度行为标注流量以时间窗口

顺序划分为行为流量段；S2，对步骤S1中划分的时间窗口

内的行为流量段提取时间特征，并进行特征标准化处理以构建细粒度行为早期指纹，然后输入到深度神经网络中进行训练；所述深度神经网络包括1D‑CNN深度神经网络；S3，保存训练后的模型并用于识别加密应用细粒度行为的具体类别。本发明能够有效针对突发的加密应用细粒度行为流量进行高效识别。

Description

一种轻量级的加密应用细粒度行为流量早期识别方法

技术领域

本发明涉及网络安全领域，更为具体的，涉及一种轻量级的加密应用细粒度行为流量早期识别方法。

背景技术

随着网络空间安全形势的日益严峻，网络空间的安全威胁对任何一个现代国家的潜在破坏性已经不亚于核武器。在我国互联网应用高速发展的同时，也带来了应用程序滥用且难以被有效监管的问题。此外，伴随着网络流量的加密化已成为现今网络发展的必然趋势，加密技术在给网络使用者提供数据安全和隐私保护的同时，也为当前网络监管带来了更大的挑战。

对加密应用内部具体的细粒度行为流量识别是极具困难并且也是有必要的。与一般的加密应用识别方案相比（即检测软件是否加密或者检测加密应用类别），加密应用的细粒度行为更加具有识别混淆性。由于通常不同加密应用软件由不同服务提供厂商制作，因此不同加密软件之间的通信模式、功能等可能有着较大的区别。而加密应用内部的细粒度行为属于同一个加密应用，区分度相对较低。虽然加密协议SSL/TLS可以保护加密通信流量的报文内容本身***漏，但通信过程中网络流量行为依然会透露用户行为的敏感信息。加密流量分析是实现网络监管的重要技术支撑，已成为当前国际研究的热点问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种轻量级的加密应用细粒度行为流量早期识别方法，能够有效针对突发的加密应用细粒度行为流量进行高效识别等。

本发明的目的是通过以下方案实现的：

一种轻量级的加密应用细粒度行为流量早期识别方法，包括步骤：

S1，对采集的加密应用细粒度行为标注流量以时间窗口

顺序划分为行为流量段；

S2，对步骤S1中划分的时间窗口

内的行为流量段提取时间特征，并进行特征标准化处理以构建细粒度行为早期指纹，然后输入到深度神经网络中进行训练；所述深度神经网络包括1D-CNN深度神经网络；

S3，保存训练后的模型并用于识别加密应用细粒度行为的具体类别。

进一步地，步骤S1具体包括如下子步骤：

S1.1：从采集节点中收集加密应用细粒度行为流量，并进行标注；

S1.2：获取每个细粒度行为发生时的时间戳作为行为起点，并获取每个细粒度行为结束时的时间戳作为行为结束点，两者差值得到细粒度行为持续时间；

S1.3：为加密应用细粒度行为流量段设置合适的时间窗口

，将步骤S1.1中的完整行为流量划分为更细粒度的行为流量段；

S1.4：加密应用的所有行为重复执行S1.1~S1.3操作，存储时间窗口

划分的加密应用细粒度行为流量段作为行为样本。

进一步地，步骤S2具体包括如下子步骤：

S2.1：对每个行为流量段通过工具提取多个流量统计特征，从中选择多个时间相关特征；

S2.2：构建细粒度行为早期指纹并进行特征标准化处理操作，将数值为Inf和Nan的特征值置为0；

S2.3：将步骤S1得到的早期的加密应用行为流量段，经过步骤S2.1-步骤S2.2的时间特征提取和特征选择后，将构建的细粒度行为早期指纹输入到深度神经网络中进行训练。

进一步地，步骤S3具体包括如下子步骤：

S3.1：在深度神经网络的最后一层使用

激活函数输出每种加密应用细粒度行为流量的识别类别概率

；其中

激活函数的表达式为：

其中

表示加密应用细粒度行为样本

的预测概率；

S3.2：将预测概率值最大的类别作为最终识别的加密应用细粒度行为，识别过程表示为：

其中

表示为样本

预测为加密应用细粒度行为类别

的概率，

表示第

个加密应用细粒度行为，

表示加密应用细粒度行为类别总数，

用于计算预测概率最大值对应的加密应用行为类别下标。

进一步地，步骤S1.1具体包括如下子步骤：

S1.1.1：对加密应用细粒度行为流量采集，在UI组件触发时开始使用现有工具采集通信产生的加密流量；

S1.1.2：网络流趋近稳定时结束采集，标注该UI组件对应的用户行为。

进一步地，步骤S1.3具体包括如下子步骤：

S1.3.1：计算每个加密应用细粒度行为的持续时间；

S1.3.2：选取当前加密应用细粒度行为的时间窗口

，该窗口选取应远小于行为总持续时间。

进一步地，步骤S2.3中，早期的加密应用行为流量段表示为：

其中

表示加密应用细粒度行为

执行时的通信数据包，

表示细粒度行为类别；

表示细粒度行为

执行时的完整通信数据包序列，

表示数据包个数；将上述

按照时间窗口

分割后即获得细粒度时间窗口内的数据包序列：

其中

表示经第

个时间窗口

划分得到的数据包序列；对时间窗口

内的数据包序列提取流统计特征，即对加密应用细粒度行为早期样本构建的流特征向量表示为：

其中

为对第

个时间窗口的细粒度行为数据包提取的时间相关特征序列，

表示第

个经过标准化的特征值，

表示所选择特征的维度，

表示

的类别，深度神经网络训练过程如下：

其中

表示第

层神经网络的输入特征向量，

表示为流特征个数，

表示第

层神经网络的特征

权重值，

为第

层神经网络的偏重值，

表示神经网络的神经元处理函数。

进一步地，步骤S2.1中，所述工具为 CICflowmeter工具。

进一步地，步骤S2.1中，所述多个流量统计特征为84个流量统计特征，所述多个时间相关特征为23个时间相关特征。

进一步地，步骤S1.1.1中，所述现有工具为Wireshark工具。

本发明的有益效果是：

本发明提出的一种轻量级的加密应用细粒度行为流量早期识别方法，为网络管理员及时采取针对性措施提供了解决方案。

本发明特征工程较为简单，拥有快速部署在网络边缘的能力，有效针对突发的加密应用细粒度行为流量进行高效识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的轻量级的加密应用细粒度行为流量早期识别方法框架；

图2为利用本发明实施例方法，使用1D-CNN识别Bilibili（一种现有视频服务应用）细粒度用户行为流量的混淆矩阵；图中，BroweVideo为浏览视频，OpenAPP为打开APP，PublishVideo为发布视频，SearchVideo为搜索视频，SendDynamic为发布动态，ViewDynamic为查看动态，WatchVideo为观看视频；

图3为利用本发明实施例方法，使用1D-CNN识别Wechat（一种现有社交服务应用）细粒度用户行为流量的混淆矩阵；图中，Login为用户登录，Logout为用户登出，Moment为查看朋友圈，OpenAPP为打开APP，Payment为支付服务，SendMessage为发送短讯，SendVoice为发送语音；

图4为Bilibili和Wechat加密应用细粒度行为流量识别模型的训练时间；

图5为Bilibili和Wechat加密应用细粒度行为流量识别模型的测试时间。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

本发明的发明人在寻求解决背景中问题的过程中，发现国内外近年来针对加密应用的细粒度行为流量识别研究主要集中在针对特定应用进行细粒度行为识别或通过构建通用的加密应用细粒度行为流量识别研究方案，对每个细粒度行为的完整流量进行特征提取，输入到机器学习模型或深度学习模型中进行训练。上述方法可以对加密应用细粒度行为获得较为优异的识别效果。但现有的方法存在如下主要技术问题：（1）目前的方法大多考虑提取完整的行为段流量进行特征提取再加以识别，此时应用内的细粒度行为已发生完毕，难以对其进行早期有效监管；（2）现有加密应用细粒度行为识别方案对于特征工程进行了相当繁琐的研究，难以实时部署在网络边缘。

为了实现加密应用细粒度行为流量的早期识别研究，本发明的发明人经过创造性的思考后，提出了一种加密应用细粒度行为流量早期指纹构建方法，简单的进行特征工程后通过深度神经网络对加密应用细粒度行为进行识别。

本发明旨在实现加密应用细粒度行为流量的早期识别研究，同时解决传统加密应用细粒度行为流量特征工程需要冗余的特征工程的问题，进而对细粒度行为流量实现早期实时识别。在具体实施方式中，如图1所示，本发明实施例提出了一种轻量级的加密应用细粒度行为流量早期识别方法，发明构思之一在于对采样流量以时间窗口

顺序划分细粒度行为流量段；对小窗口内的流量段提取时间特征，并使用1D-CNN深度神经网络进行训练；使用训练后的分类模型对加密应用细粒度行为流量进行早期识别，最后输出加密应用执行的细粒度行为类别。

为了达到上述目的，本发明在具体实施过程中，还包括如下发明构思以及相应技术方案，详述如下：

步骤1：对采集的加密应用细粒度行为标注流量以时间窗口

顺序划分行为流量段；

步骤2：对步骤1中划分的小时间窗口

内的行为流量段提取时间特征，并进行特征标准化处理以构建细粒度行为早期指纹，输入到1D-CNN深度神经网络中进行训练；

步骤3：保存训练后的模型并识别加密应用细粒度行为的具体类别。

在具体实施过程中，步骤1具体包括如下子步骤：

步骤1.1：从采集节点中收集加密应用细粒度行为流量，并进行标注；

步骤1.2：获取每个细粒度行为发生时的时间戳作为行为起点，并获取每个细粒度行为结束时的时间戳作为行为结束点，两者差值得到细粒度行为持续时间；

步骤1.3：为加密应用细粒度行为流量段设置合适的小时间窗口窗口

，对步骤1.1 中的完整行为流量划分更细粒度的行为流量段；

步骤1.4：加密应用的所有行为重复执行步骤1.1~步骤1.3操作，存储时间窗口划分的加密应用细粒度行为流量段作为行为样本。

在具体实施过程中，步骤1.1具体包括如下子步骤：

步骤1.1.1：对加密应用细粒度行为流量采集，在UI组件触发时开始使用Wireshark工具采集通信产生的加密流量；

步骤1.1.2：网络流趋近稳定时结束采集，标注该UI组件对应的用户行为。

在具体实施过程中，步骤1.3具体包括如下子步骤：

步骤1.3.1：计算每个加密应用细粒度行为的持续时间；

步骤1.3.2：选取当前加密应用细粒度行为的时间窗口

，该窗口选取应远小于行为总持续时间。

在具体实施过程中，步骤2具体包括如下子步骤：

步骤2.1：对每个行为流量段通过CICflowmeter工具提取84个流量统计特征，从中选择23个时间相关特征；

步骤2.2：构建细粒度行为早期指纹并进行特征标准化处理操作，将数值为Inf和Nan的特征值置为0；

步骤2.3：将步骤1得到的加密应用行为早期流量段，经过步骤2.1-步骤2.2的时间特征提取和特征选择后，将构建的细粒度行为早期指纹输入到1D-CNN深度神经网络中进行训练。

在具体实施过程中，步骤2.3中所述的加密应用细粒度行为流量表示为：

其中

表示加密应用细粒度行为

执行时的通信数据包，

表示细粒度行为类别。

表示细粒度行为

执行时的完整通信数据包序列，

表示数据包个数。将上述

按照小时间窗口

分割后即获得细粒度时间窗口内的数据包序列：

其中

表示经第

个时间窗口

划分得到的数据包序列。对小时间窗口

其中

为对第

个时间窗口的细粒度行为数据包提取的时间相关特征序列，

表示第

个经过标准化的特征值，

表示所选择特征的维度，

表示

的类别，神经网络训练过程如下：

其中

表示第

层神经网络的输入特征向量，

表示为流特征个数，

表示第

层神经网络的特征

权重值，

为第

层神经网络的偏重值，

表示神经网络的神经元处理函数。

在具体实施过程中，步骤3具体包括如下子步骤：

步骤3.1：在1D-CNN深度神经网络的最后一层使用

激活函数输出每种加密应用细粒度行为流量的识别类别概率

。其中

激活函数的表达式为：

其中

表示加密应用细粒度行为样本

的预测概率；

步骤3.2：将预测概率值最大的类别作为最终识别的加密应用细粒度行为，识别过程表示为：

其中

表示为样本

预测为加密应用细粒度行为类别

的概率，

表示第

个加密应用细粒度行为，

表示加密应用细粒度行为类别总数，

用于计算预测概率最大值对应的加密应用行为类别下标。

图2为利用本发明实施例方法，使用1D-CNN识别Bilibili（一种现有视频服务应用）细粒度用户行为流量的混淆矩阵；

图3为利用本发明实施例方法，使用1D-CNN识别Wechat（一种现有社交服务应用）细粒度用户行为流量的混淆矩阵；

图4为Bilibili和Wechat加密应用细粒度行为流量识别模型的训练时间

从图2~图5可以看出，本发明实施例方法拥有能够快速部署在网络边缘的能力，可以有效针对突发的加密应用细粒度行为流量进行高效识别。图2针对Bilibili的七种加密应用细粒度行为识别的平均识别召回率超过93.27%，除SendDynamic（推送动态）行为容易与SearchVideo（搜索视频）混淆外，其余行为均能得以精准识别，有三种加密应用细粒度行为（BroweVideo、OpenAPP、WatchVideo）识别召回率超过99%；图3针对Wechat的七种加密应用细粒度行为识别的平均识别召回率为93.57%，除Payment（支付）、SendMessage（发送短讯）外，其余行为均能被精准识别，有三种加密应用细粒度行为（Login、Moment、SendVoice）识别召回率为100%。图4和图5显示1D-CNN神经网络模型对两种加密应用的多种行为部署和测试结果，其单轮训练时间为1.68s和1.40s，单个行为样本测试时间分别为0.083ms和0.074ms，具有较快的模型收敛性能。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。