CN115174961A

CN115174961A - 一种面向高速网络的多平台视频流量早期识别方法

Info

Publication number: CN115174961A
Application number: CN202210796253.9A
Authority: CN
Inventors: 吴桦; 乐鑫; 程光
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-11

Abstract

本发明公开了一种面向高速网络的多平台视频流量早期识别方法，首先从多个平台采集原始流量，然后根据流的握手或者请求信息对视频流和非视频流进行标记。接着基于协议无关原则构建用于分类视频和非视频流量的特征空间，并对已标记的流量提取特征向量构建数据集。最后，使用有监督机器学习方法，对包含视频和非视频流量的数据集离线构造分类模型。该分类模型结合前面提出的特征空间，可以在高速网络采样数据采集情景下准确地识别高速网络中的视频流量。本发明提出的特征空间可以从流的少量数据包中提取稳定的特征向量，可以在流传输的早期阶段识别视频流量。本发明可以在有限的内存和合理时间内实现对海量高速流量中视频流量的实时识别，能够用于网络流量分析和网络管理。

Description

一种面向高速网络的多平台视频流量早期识别方法

技术领域

本发明涉及一种面向高速网络的多平台视频流量早期识别方法，属于网络安全技术领域。

背景技术

随着的互联网的发展，视频流量越来越在全球网络中占据主导地位。到2022年，IP视频流量将占所有IP流量(包括企业和消费者)的82％，高于2017年的75％，复合年增长率为33％。及时识别高速网络中的视频流量有助于管理和分配网络资源，因此流量识别方法一直是互联网服务提供商(ISP)关注的重点。

然而，随着用户对视频流服务需求的增加，出现了大量使用不同传输协议的视频平台，这给视频流量的识别带来了一些挑战；此外，由于网络带宽的高速化，ISP在有限的资源下只能在流量采集节点获得视频流量的采样数据，这对视频流量识别方法也提出了新的要求。

目前，研究者们已经提出了一系列视频流量识别方法，其中基于阈值和基于机器学习的方法被广泛应用，但是这些方法仍存在一些局限性。

(1)基于阈值的识别方法

基于阈值的方法通过记录流的某些统计值，并与设定好的阈值进行比较，根据这些统计值是否超过阈值来判断是否为视频流。这类方法虽然可以快速、准确地识别视频流量，但是阈值的设定对协议本身有很强的依赖性，仅能识别某些特定应用的视频流量，视频传输协议的多样性导致这类方法无法做到对高速网络上的全平台视频流量的识别。

(2)基于机器学习的识别方法

基于机器学习的视频流量识别方法通过从流量的内容和模式中提取有效特征构建流量分类模型，其识别性能依赖于特征空间的构建。现有的特征空间构建方法主要分为两类。一类是从全流量中构建视频流的传输模式(如时序特征)，然而这种方法需要较长的时间对完整的长流提取特征，无法在合理的时间内识别高速网络中的视频流量。另一类方法从流的关键数据包(如握手阶段的数据包)中提取特征，从而减少特征提取所需的时间，提高识别的速度。这类方法的有效性依赖于能否在流建立的早期阶段获取关键数据包。然而在高速网络中，由于资源有限，ISP获得的采样流量中无法包含全部的关键数据包，因此这类方法在高速网络采样环境下的性能不佳。综上，现有的基于机器学习方法都无法用于识别高速网络中的视频流量。

发明内容

为了能够在有限的内存和合理的时间内识别高速网络中的视频流量，本发明公开了一种面向高速网络的多平台视频流量早期识别方法。具体来说，该方法首先采集不同平台的视频流量，然后根据未知流的握手或者请求信息对视频流和非视频流进行标记。接着基于协议无关原则构建用于分类视频和非视频流的特征空间，并对已标记的流量提取特征向量构建数据集。最后，使用有监督机器学习方法，对获得的数据集离线训练分类模型。该分类模型结合前面提出的特征空间，可以在高速网络采样数据采集情景下准确地识别高速网络中的视频流量。本发明提出的特征空间可以从流的少量数据包中提取稳定的特征向量，因此可以在流传输的早期阶段识别视频流量。

为了实现本发明的目的，本方案具体技术步骤如下：

步骤(1)通过数据采集设备对不同平台的视频播放流量进行采集；

步骤(2)将采集到的流量进行预处理，并标记视频和非视频流；

步骤(3)对步骤(2)中标记好的流量提取特征，基于规则构建特征空间，然后获得带有标签的样本集；

步骤(4)将步骤(3)中获得的样本集作为训练集，然后使用有监督机器学习方法训练得到可以区分视频流和非视频流的分类模型；

步骤(5)设置采样比，对高速网络中的流量按分组进行***采样，然后对采样后的分组组流，并提取特征；

步骤(6)应用步骤(4)得到的分类模型对未知流进行预测，识别视频流量。

进一步的，所述步骤(1)中，采集视频流量具体包含以下子步骤：

(1.1)在实验室主机和安卓设备上分别抓取流量。在主机端使用Wireshark直接抓取流量；安卓设备则连接主机上的热点，通过Wireshark抓取安卓设备视频播放进程的流量。抓取视频流量时，禁用其它应用的联网权限。

(1.2)选择国内外热门的视频网站，播放视频并按以下策略抓取流量：设定每个视频的最大抓取时间为5分钟，然后结束抓取并保存为pcap文件；

(1.3)编写自动化脚本实现步骤(1.2)，批量抓取视频流量。

进一步的，所述步骤(2)中，流量的预处理和标记具体包含以下子步骤：

(2.1)对步骤(1)中获取的不同平台的视频流量，将数据包按五元组(源IP、源端口、目的IP、目的端口和传输层协议)重组双向流，并丢弃分组数量少于N的流；

(2.2)判断双向流所采用的传输协议，若为非加密视频流，进行(2.3)；否则进行(2.4)；

(2.3)从双向流中提取包含传输的文件类型的URL请求信息，根据文件类型关键字判断该流是否为视频流并进行标记；

(2.4)从双向流中的握手信息中提取包含域名信息的SNI字段，根据SNI中包含的关键字，判断该流是否为视频流并进行标记；

进一步的，所述步骤(3)中，构建带标签的样本集具体包含以下子步骤：

(3.1)为步骤(2)中得到的带标签的流提取如表1所示的特征；

表1统计值及描述

统计值	统计值的描述
		f_pck	上行方向传输的数据包数量
b_pck	下行方向传输的数据包数量
		f_len	上行方向传输的字节数
b_len	下行方向传输的字节数
		f_d_p	上行方向传输的带载荷数据包数量
b_d_p	下行方向传输的带载荷数据包数量
		f_d_l	上行方向传输的带载荷的数据字节数
b_d_l	下行方向传输的带载荷的数据字节数
		p_len	双向流中每个数据包携带的载荷字节数
tmGap	双向流的有效传输时间

(3.2)对收集到的信息进一步处理，通过统计计算消除数据包采样对特征稳定性的影响；

(3.3)选择特征时尽量避免协议本身对特征的影响，从视频流量本身传输的三大特性(上下行流量传输的不对称性、高传输速率以及独特的有效载荷长度分布)出发，构建如表2所示的特征空间；

表2特征空间及其描述

(3.4)基于构建好的特征空间，对采集到的流量提取特征向量构建样本集。

进一步的，所述步骤(4)中，训练分类模型具体包括以下步骤：

(4.1)将样本集按3：1划分为训练集和测试集；

(4.2)使用随机森林算法对训练集进行训练，并通过测试集对特征向量进行降维处理，并确定算法的参数；

(4.3)获得用于视频流量识别的分类模型。

进一步的，所述步骤(5)中，采集高速网络流量并提取特征向量具体包含以下步骤：

(5.1)在高速网络中部署流量采集设备，并使用tcpdump持续抓取流量；

(5.2)设置采样比，对获取的数据进行***采样，并按五元组重组流；

(5.3)设置提取特征所需的数据包数量M，从采样后的流的前M个数据包中提取特征向量；

进一步的，所述步骤(6)中，将步骤(5)提取的高速网络流量的特征向量输入步骤(4)获得的分类模型，从中识别视频流量并输出结果。

与现有技术相比，本发明的技术方案具有以下优点：

(1)本发明提出了新的特征空间，该特征空间使用协议无关的特征，通过该特征寻来你的模型可以识别采用不同协议的多平台视频流量，在高速网络中更具实用性。

(2)本发明所提出的特征空间可以从每条流的前500个数据包中提取稳定的特征向量，因此可以在流传输的早期阶段快速识别视频，测试结果证明本发明可以用于视频流量的实时识别。

(3)本发明将采样技术与视频流识别方法结合，减少了高速网络中流量处理的资源消耗，实验证明，在采样率设置为1/32时，本发明可以识别10Gbps高速网络中98％以上的视频流量。

附图说明

图1为本发明的总体架构图；

图2为视频流与其它类型流的数据包有效载荷长度概率分布；

图3为本发明在高速网络流量中，设置不同采样率时的识别性能。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

具体实施例：本发明提供的一种面向高速网络的多平台视频流量早期识别方法，其总体架构如图1所示，包括如下步骤：

步骤(4)将步骤(3)中获得的样本集作为训练集，然后使用有监督机器学习方法进行训练并获得可以区分视频流和非视频流的分类模型；

本发明的一个实施例中，步骤(1)中，采集不同平台的视频流量的具体步骤如下：

(1.1)在实验室主机和安卓设备上分别抓取流量。在主机端使用Wireshark直接抓取流量；安卓设备则连接到主机上的热点，通过Wireshark抓取安卓设备特定进程的流量。抓取视频流量时，禁用其它应用的联网权限。

(1.3)编写自动化脚本，按步骤(1.2)的策略实现视频流量的抓取，抓取视频流量时，禁用其它联网设备。

(1.4)选择了部分国内外用户量最高的视频平台，采集它们的视频播放流量，并分析不同平台使用的传输协议，流量的具体描述如表1所示。

采集平台	采集的数据字节数	传输协议
			Facebook	378MB	HTTP+TLS1.3；
Youtube	13.85GB	HTTP+TLS1.3；GQUIC；
			Twitter	70MB	HTTP+TLS1.3；
Bilibili	2.87GB	HTTP+TCP；UDT；
			爱奇艺	5.3GB	HTTP+TCP；HTTP+TLS1.2；
优酷	1.29GB	HTTP+TCP；HTTP+TLS1.2；
			快手	3.07GB	HTTP+TLS1.2；HTTP+TLS1.3；
人人影视	1.18GB	HTTP+TLS1.2；
			搜狐影视	1.01GB	HTTP+TCP；HTTP+TLS1.3；GQUIC；
抖音	112MB	HTTP+TCP；HTTP+TLS1.2；
			火山小视频	334MB	HTTP+TCP；
其它平台	0.99GB	HTTP+TCP；HTTP+TLS1.2；

本发明的一个实施例中，步骤(2)中，预处理和标记流量的具体步骤如下：

(2.1)对于抓取的视频流量，将数据包按五元组(源IP、源端口、目的IP、目的端口和传输层协议)重组双向流，设置N为100，并丢弃数据包数目少于N的流；

(2.2)使用dpkt工具对流进行解包，并根据流所使用的传输协议来提取包含流量类型关键信息，具体步骤为：若流采用TLS或QUIC协议进行加密，则找到包含ClientHello信息的数据包，然后从中提取包含服务器域名信息的SNI字段，最后根据SNI字段中包含的关键字来判断流是否为视频流；若流采用未加密的HTTP协议传输，则从包含GET请求的数据包中获得URL，并根据URL中包含的请求数据类型关键字来判断流是否为视频流。

(2.3)编写程序实现SNI和URL的批量化提取，并根据正则表达式匹配，快速标记视频流和非视频流。

本发明的一个实施例中，步骤(3)中，对步骤(2)中得到的带标签的双向流收集如表2所示的统计值，然后对收集到的信息按所设置的采样率的倒数进行放大以消除采样对统计值稳定性的影响，接着根据视频流量传输的特性，具体从以下三个方向构建统计特征：

表2统计值及描述

(3.1)基于视频流上下行传输的不对称性，构建四个统计特征RAT＝{r_b_pck，r_b_len，r_b_dp，r_b_dl}。其中r_b_pck为下行方向与双向流发送的数据包数目之比、r_b_len为下行方向与双向流发送的字节数之比、r_b_dp为下行方向与双向流发送的带载荷数据包数目之比、r_b_dl为下行方向与双向流发送的载荷数据字节数之比。采用公式(1)进行计算这四个统计特征：

(3.2)基于视频流的高传输速率特性，构建四个统计特征SPD＝{b_spd_pck,f_spd_pck,b_spd_len,f_spd_len}。其中b_spd_pck和f_spd_pck分别为下行方向与上行方向中数据包数目的传输速率、b_spd_len与f_spd_len分别为下行方向与上行方向中的字节传输速率。这四个统计特征采用公式(2)进行计算：

(3.3)所附图2中展示了视频流区别于其它类型流的数据包有效载荷长度概率分布，故基于视频流的独特有效载荷长度分布，对载荷长度划分区间。根据网络链路中常见的MTU为1300字节，将数据包有效载荷按每100字节划分为13个区间，加上左右两个边界，一共划分15个区间，由于双向流包含两个方向，因此一共包含30个区间。将这些特征命名为PLD，并采用公式(3)进行计算：

其中Interval_i为第i个区间中包含的数据包个数。

(3.4)结合RAT，SPD和PLD三类特征构建特征空间，特征空间一共包含38个特征，并对步骤(2)中获得的带标签的流量提取特征向量构建数据集。

本发明的一个实施例中，步骤(4)中，训练分类模型具体包含以下步骤：

(4.1)将步骤(3)中获得数据集按3：1划分训练集和测试集，其中训练集包含7899个样本，测试集包含2633个样本；

(4.2)本实例使用随机森林算法对训练集进行训练，并在测试集上进行测试。首先基于平均不纯度减少(MDI)对特征重用性进行排序，取重要性最高的8个特征以实现对特征向量的降维操作，最终选取的特征如表3所示；然后基于网格搜索十折交叉验证确定随机森林算法的最佳参数；最后获得用于识别视频流量的分类模型。

表3流量特征及含义

特征名	含义
		per_b_(0)	下行方向中有效载荷长度为0字节的数据包数目占全部数据包的比率
per_b_(1-100)	下行方向中有效载荷长度为1～100字节的数据包数目占全部数据包的比率
		per_f_(>1300)	上行方向中有效载荷长度大于1300字节的数据包数目占全部数据包的比率
r_f_dp	上行方向与双向流中传输的带载荷数据包数目之间的比值
		r_f_dl	上行方向与双向流中传输的载荷字节数之间的比值
r_f_pck	上行方向与双向流中传输的数据包数目之间的比值
		r_f_len	上行方向与双向流中传输的字节数之间的比值
b_spd_len	下行方向的数据传输速率

本发明的一个实施例中，步骤(5)中，采集高速网络流量并提取特征向量的具体步骤如下：

(5.1)本实例于2021年11月8日上午在校园网端口处采集流量，采集时间为400s，所采集的端口带宽为10Gbps，最后获得流量大小为117GB，包含171485条流。所采集的流量包含来自不同平台的视频流量；

(5.2)本实例设置采样率为1/32，对采集到的数据进行分组***采样，然后将五元组相同的数据包重组至同一条双向流中；

(5.3)本实例根据测试结果，将提取流的特征向量所需数据包个数M设置为500，对采样后的流量提取特征，最终获得共计30766条含有特征的样本；

本发明的一个实施例中，步骤(6)中，应用视频流量识别器识别高速网络视频流量，包含以下具体步骤：

(6.1)本实例选择精确率precision和召回率recall作为评估指标，针对高速流量全部不包含标签这一情况，采取以下两种方法分别计算precision和recall：

采样验证法：应用分类模型获得带有标签分类结果，对部分结果进行人工校对，从而估算分类模型的precision；

标记重补法：将M条预先标记好的视频流样本混入被预测样本，应用分类模型获得带有标签分类结果，记这M条样本中被分类模型预测为视频流的样本数为m，可以估算分类模型的recall＝m/M。

(6.2)本实例在高速流量数据集上应用分类模型识别视频流量，该数据集包含多个平台的视频流量，附图3中展示了不同采样率下模型的precision和recall，证明了本发明可以识别高速网络中98％以上的多平台视频流量；

(6.3)本实例通过实验分析了在高速网络中，本发明识别视频流量所需的最短时间，以证明本发明具有较强的实用性。本发明实现在高速网络中识别视频流所需的时间包括特征提取时间和模型预测时间。其中对流提取特征所需的时间主要受带宽以及采样率的影响，对于10Gbp带宽的高速网络流量，在1/32的采样率下且忽略其它处理开销，本发明从一条双向流的前500个数据包中提取特征仅需2.24毫秒。对于本实例中所使用30766个样本，本发明最短仅需68915毫秒即可完成特征提取，且仅需322毫秒就可以完成模型预测。综上，在对于10Gbps的真实高速网络中的400秒数据，本发明最短仅需69.237秒即可完成对视频流量的识别，证实了本发明能够用于高速网络中不同平台视频流量的实时识别。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种面向高速网络的多平台视频流量早期识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法，其特征在于，所述步骤(1)中，采集视频流量的方法如下：

(1.1)在实验室主机和安卓设备上分别抓取流量，在主机端使用Wireshark直接抓取流量；安卓设备则连接主机上的热点，通过Wireshark抓取安卓设备视频播放进程的流量，抓取视频流量时，禁用其它应用的联网权限；

(1.3)编写自动化脚本实现步骤(1.2)，批量抓取视频流量。

3.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法，其特征在于，所述步骤(2)中，流量的预处理和标记具体包含以下步骤：

(2.1)对步骤(1)中获取的不同平台的视频流量，将五元组即源IP、源端口、目的IP、目的端口和传输层协议相同的数据包组成同一条双向流，并丢弃分组数量少于N的流；

(2.4)从双向流中的握手信息中提取包含域名信息的SNI字段，根据SNI中包含的关键字，判断该流是否为视频流并进行标记。

4.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法，其特征在于，所述步骤(3)中，构建带标签样本集的具体步骤如下：

(3.1)对已被标记的双向流记录如表1所示的统计值；

表1统计值及描述

统计值统计值的描述 f_pck 上行方向传输的数据包数量 b_pck 下行方向传输的数据包数量 f_len 上行方向传输的字节数 b_len 下行方向传输的字节数 f_d_p 上行方向传输的带载荷数据包数量 b_d_p 下行方向传输的带载荷数据包数量 f_d_l 上行方向传输的带载荷的数据字节数 b_d_l 下行方向传输的带载荷的数据字节数 p_len 双向流中每个数据包携带的载荷字节数 tmGap 双向流的有效传输时间

(3.3)选择特征时尽量避免协议本身对特征的影响，从视频流量本身传输的三大特性出发即上下行流量传输的不对称性、高传输速率以及独特的有效载荷长度分布，对双向流构建如表2所示的特征空间；

表2特征空间及其包含的特征的描述

5.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法，其特征在于，所述步骤(4)中，训练分类模型具体包括以下步骤：

(4.1)将样本集按3：1划分为训练集和测试集；

(4.3)获得用于视频流量识别的分类模型。

6.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法，其特征在于，所述步骤(5)中，采集高速网络流量并提取特征向量具体包含以下步骤：

(5.3)设置提取特征所需的数据包数量M，从采样后的流的前M个数据包中提取特征向量。

7.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法，其特征在于，所述步骤(6)中，将步骤(5)提取的高速网络流量的特征向量输入步骤(4)获得的分类模型，从中识别视频流量并输出结果。