CN109726735A

CN109726735A - 一种基于K-means聚类和随机森林算法的移动应用程序识别方法

Info

Publication number: CN109726735A
Application number: CN201811422296.0A
Authority: CN
Inventors: 陈丹伟; 朱迪
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-05-07

Abstract

一种基于K‑means聚类和随机森林算法的移动应用程序识别方法，首先将一个时间段的加密数据流根据TCP会话特点离散化为若干个数据流，每个数据流采用输入分组时间序列、输出分组时间序列和输入输出分组时间序列表示；再对每条数据流对应的三个时间序列进行数学统计，获取数据包的统计特征；之后通过K‑means聚类算法对加密数据流的统计特征聚类分析；并通过熵的计算方法对聚类分析所得到的每个聚类簇的纯度打分，过滤掉纯度较低的聚类簇中的样本；最后通过随机森立算法对过滤后的聚类簇作为数据集进行建模，实现对加密刘所述移动应用类型的识别。本方法将有监督学习和无监督学习相结合，实现了在应用类型种类繁多的加密流量中准确地识别出不同的移动应用类型。

Description

一种基于K-means聚类和随机森林算法的移动应用程序识别方法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于K-means聚类和随机森林算法的移动应用程序识别方法。

背景技术

近年来，随着智能移动设备的硬件性能大幅提升，软件功能日益丰富，智能移动设备的使用量也在持续增长。人们随时随身携带智能手机，通过手机来完成基本的语音通话和短信通信，以及电互联网相关的电子邮件、社交网络等日常的通信活动。这些便携设备也就保存了大量与用户隐私相关的敏感信息。现如今大多数的移动应用程序都采用SSL/TLS协议进行加密。即便如此，攻击者也可以通过对加密流量的分析间接推断出用户的敏感信息。

与此同时，信息安全领域中在识别智能设备上的应用程序和识别智能设备本身方面有很多相关研究。在加密环境下，仅利用数据流向、数据包长度以及一些与包长度相关的统计特性就能有效地实现加密流量中应用程序类型识别。有文献提出利用监督学习中的支持向量机和随机森林算法分别实现了Google Play中110种应用程序的识别。由于不同的应用程序可能会产生相似模式的数据流。那么这些不同应用程序中十分相似的数据流不足以用于区分应用程序，而这些有着不同标签却相似的数据流一定程度上会阻碍我们监督学习算法的学习。所以作者通过设置“预测概率阈值”将那些分类器判定预测概率较低的样本视为上述干扰样本，并不对这类样本进行学习和预测。但预测概率不高，除了表示分类器对这项决策没有足够的确定性之外，也可能意味着分类器还没有学习完善，因此可能造成干扰样本的误判问题。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于K-means聚类和随机森林算法的移动应用程序识别方法，将聚类算法和信息熵相结合的方式来过滤干扰样本，合理地避免了由于分类器没有学习完善而造成误判干扰样本的问题。

本发明提供一种基于K-means聚类和随机森林算法的移动应用程序识别方法，包括如下步骤：

步骤S1、将一个时间段的加密数据流根据TCP会话特点离散化为若干个数据流，每个数据流采用输入分组时间序列、输出分组时间序列和输入输出分组时间序列表示；

步骤S2、对每条数据流对应的三个时间序列进行数学统计，获取数据包的统计特征；

步骤S3、通过K-means聚类算法对加密数据流的统计特征聚类分析；

步骤S4、通过熵的计算方法对聚类分析所得到的每个聚类簇的纯度打分，并过滤掉纯度较低的聚类簇中的样本；

步骤S5、通过随机森立算法对过滤后的聚类簇作为数据集进行建模，实现对加密刘所述移动应用类型的识别。

作为本发明的进一步技术方案，步骤S1中离散化的具体步骤如下：

步骤S11、以突发为单位将连续的加密网络流量离散化，突发为时间间隔小于指定阈值的分组；

步骤S12、从每个突发中分离出多个加密数据流，加密数据流由在一个突发中与同一对四元祖相关的分组组成；

步骤S13、将每条数据流用用三哥分组时间序列表示，由数据流中流入的每个分组的包长度按时间顺序排列的序列，即为输入分组时间序列；由数据流中流出的每个分组的包长度按时间顺序排序的顺序，即为输出分组时间序列；由数据流中流入和流出的每个分组按时间顺序排列的序列，即为输入输出分组时间序列。

进一步的，步骤S2的具体步骤如下：

步骤S21、对每条数据流对应的每个分组时间序列进行统计特征提取，统计特征包括数据包长度最小值、数据包长度最大值、数据包长度平均值、数据包长度中位数绝对偏差、数据包长度标准偏差、数据包长度方差、数据包长度偏斜、数据包长度峰度、数据包长度百分位数(从10％到90％)以及该分组时间序列中的数据包数量共18个统计特征；

步骤S22、将上述每个分组时间序列对应的统计特征，按输入分组时间序列对应的统计特征、输出分组时间序列对应的统计特征以及输入输出分组时间序列对应的统计特征的顺序组合成长度为54的加密数据流特征向量；

步骤S23、对每条数据流按步骤22处理，直至所有数据流处理完毕。

进一步的，步骤S3的具体步骤如下：

步骤S31、通过线型搜索选取聚类簇数量常数k；

步骤S32、以常数k为参数通过K-means聚类算法建模；

步骤S33、获取聚类结果的Dunn指数和轮廓系数，评估聚类效果；

步骤S34、循环步骤S31-步骤S33直至聚类效果达到最佳。

进一步的，步骤S4的具体步骤如下：

步骤S41、通过信息熵计算公式计算每个聚类簇的信息熵；

步骤S42、设置熵阈值，过滤超过阈值的熵的聚类簇的样本；

步骤S43、通过随机森林算法建模；

步骤S44、循环上诉步骤、调整熵阈值直至随机森林算法模型的分类效果最佳。

进一步的，步骤S5的具体步骤如下：

步骤S51、将经过步骤三和步骤四数据预处理的数据集随机分为训练集、验证集和测试集三个部分；

步骤S52、应用随机森林算法以训练集为数据训练分类器；

步骤S53、用验证集来检测分类器对移动应用类型识别的效果；

步骤S54、调整随机森林中基学习器数量、基学习器中选取属性结点的衡量指标等参数；

步骤S55、循环步骤S52和步骤S53直至分类器对验证集的应用类型识别效果最佳，最终用测试集检测最终模型的识别效果。

本发明将机器学习中的无监督学习和有监督学习相结合，提出了一种结合信息熵聚类簇纯度打分思想的移动应用类型识别方法，并初步取得了较为理想的实验结果。K-means聚类算法将表征相似的加密数据流聚合到同一个簇中，对数据集进行了有效的初步分析。信息熵聚类簇纯度打分思想，实现了对不同应用所产生的相似加密数据流的过滤，避免了由于分类器学习不完善而造成误判干扰样本的问题，为后续分类算法的准确学习奠定了基础。

与现有方案对比，由于本发明提出的方法采用了K-means聚类算法和信息熵聚类簇纯度打分思想，减少了对干扰样本的误判，提高了移动应用识别的准确率。

附图说明

图1为本发明的流程示意图；

图2为本发明的加密流量离散化过程的示意图。

图3为本发明的数据集样本信息熵分布图。

具体实施方式

请参阅图1，本实施例提供一种基于K-means聚类和随机森林算法的移动应用程序识别方法，如图1所示，该方法包括以下步骤：

步骤一：用分组时间序列表示加密数据流

将加密数据流离散化并以三个分组时间序列的形式表示，具体步骤如下：

1.1、以突发为单位将连续的加密网络流量离散化。突发是指相临时间间隔小于某个阈值的一系列分组；

1.2、从每个突发中分离出多个加密数据流。在一个突发中，与同一对四元组相关的分组组成一条数据流；

1.3、将每条数据流用三个分组时间序列表示。三个时间序列分别为：(1)由数据流中流入的每个分组的包长度按时间顺序排列的序列；(2)由数据流中流出的每个分组的包长度按时间顺序排列的序列；(3)数据流中流入和流出的每个分组按时间顺序排列的序列。

如图2所示，在一段加密流量中，只要一个分组与前一个分组的时间间隔小于突发阈值，那么该分组就与前一个分组划分为同一个突发。若某个分组与它的前一个分组时间间隔大于突发阈值，则从该分组起的分组重新划分为下一个突发。在一个突发中，与同一对四元组相关的分组组成一个数据流。数据流与TCP会话的不同在于，一个TCP会话可能会跨越多个突发，而一个数据流是在某个突发中的部分TCP会话内容,一个突发也可能包含多个数据流。

步骤二：提取加密数据流的统计特征

针对多个数据集中的每个数据流样本进行统计特征提取，具体步骤如下：

2.1、对每条数据流对应的每一个分组时间序列进行统计特征提取。其中统计特征包括数据包长度最小值，数据包长度最大值，数据包长度平均值，数据包长度中位数绝对偏差，数据包长度标准偏差，数据包长度方差，数据包长度偏斜，数据包长度峰度，数据包长度百分位数(从10％到90％)以及该分组时间序列中的数据包数量共18个统计特征；

2.2、将上述每个分组时间序列对应的统计特征，按输入分组时间序列对应的统计特征、输出分组时间序列对应的统计特征以及输入输出分组时间序列对应的统计特征的顺序组合成长度为54的加密数据流特征向量；

2.3、对数据集中的每条数据流应用2.1和2.2步骤的处理，直至整个数据集处理完毕。

步骤三：对数据集进行K-means聚类

对经过步骤二处理的每条特征向量进行K-means聚类，调整聚类参数使得聚类效果最佳，具体步骤如下：

3.1、通过线性搜索选取聚类簇数量常数k；

3.2、以k为参数利用K-means聚类算法进行建模；

3.3、计算聚类结果的Dunn指数和轮廓系数，评估聚类效果；

3.4、重复以上步骤直至聚类效果最佳。

步骤四：聚类簇的信息熵打分与过滤

计算步骤三中产生的每个聚类簇的信息熵，设置信息熵阈值，过滤高于熵阈值的聚类簇，具体步骤如下：

4.1、利用信息熵计算公式计算每个聚类簇的信息熵；

4.2、设置熵阈值，过滤掉熵超过熵阈值的聚类簇的样本；

4.3、进行后续随机森林算法建模；

4.4、重复上述步骤，调整熵阈值直至使得后续随机森林分类器效果最佳。

设当前样本集合D中第k类样本所占的比例为p_k(k＝1,2,...,|Y|)，则D的信息熵定义为

Ent(D)的值越小，则D的纯度越高。利用上述公式计算每个聚类簇的信息熵，聚类簇信息熵条形分布图如图3所示。权衡数据集利用率和分类准确率可得，信息熵阈值取3.0效果最佳。

步骤五：训练随机森林分类器

将经过步骤四处理的数据集用于随机森林分类器的训练，最终生成移动应用类型识别模型，具体步骤如下：

5.1、将经过步骤三和步骤四数据预处理的数据集随机分为训练集、验证集和测试集三个部分；

5.2、应用随机森林算法以训练集为数据训练分类器；

5.3、用验证集来检测分类器对移动应用类型识别的效果；

5.4、调整随机森林中基学习器数量、基学习器中选取属性结点的衡量指标等参数；

5.5、重复5.2和5.3直至分类器对验证集的应用类型识别效果最佳，最终用测试集检测最终模型的识别效果。

综上所述，本发明提出了一种引入K-means聚类算法和信息熵聚类簇纯度打分思想的移动应用类型识别方法，通过聚类分析和聚类簇信息熵计算过滤干扰样本，从而降低了干扰样本的误判可能，提高了应用类型识别准确率。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.一种基于K-means聚类和随机森林算法的移动应用程序识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法，其特征在于，所述步骤S1中离散化的具体步骤如下：

3.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法，其特征在于，所述步骤S2的具体步骤如下：

步骤S21、对每条数据流对应的每个分组时间序列进行统计特征提取，统计特征包括数据包长度最小值、数据包长度最大值、数据包长度平均值、数据包长度中位数绝对偏差、数据包长度标准偏差、数据包长度方差、数据包长度偏斜、数据包长度峰度、数据包长度百分位数（从10％到90％）以及该分组时间序列中的数据包数量共18个统计特征；

4.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法，其特征在于，所述步骤S3的具体步骤如下：