CN115174961A - 一种面向高速网络的多平台视频流量早期识别方法 - Google Patents

一种面向高速网络的多平台视频流量早期识别方法 Download PDF

Info

Publication number
CN115174961A
CN115174961A CN202210796253.9A CN202210796253A CN115174961A CN 115174961 A CN115174961 A CN 115174961A CN 202210796253 A CN202210796253 A CN 202210796253A CN 115174961 A CN115174961 A CN 115174961A
Authority
CN
China
Prior art keywords
video
traffic
flow
stream
speed network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210796253.9A
Other languages
English (en)
Inventor
吴桦
乐鑫
程光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210796253.9A priority Critical patent/CN115174961A/zh
Publication of CN115174961A publication Critical patent/CN115174961A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种面向高速网络的多平台视频流量早期识别方法,首先从多个平台采集原始流量,然后根据流的握手或者请求信息对视频流和非视频流进行标记。接着基于协议无关原则构建用于分类视频和非视频流量的特征空间,并对已标记的流量提取特征向量构建数据集。最后,使用有监督机器学习方法,对包含视频和非视频流量的数据集离线构造分类模型。该分类模型结合前面提出的特征空间,可以在高速网络采样数据采集情景下准确地识别高速网络中的视频流量。本发明提出的特征空间可以从流的少量数据包中提取稳定的特征向量,可以在流传输的早期阶段识别视频流量。本发明可以在有限的内存和合理时间内实现对海量高速流量中视频流量的实时识别,能够用于网络流量分析和网络管理。

Description

一种面向高速网络的多平台视频流量早期识别方法
技术领域
本发明涉及一种面向高速网络的多平台视频流量早期识别方法,属于网络安全技术领域。
背景技术
随着的互联网的发展,视频流量越来越在全球网络中占据主导地位。到2022年,IP视频流量将占所有IP流量(包括企业和消费者)的82%,高于2017年的75%,复合年增长率为33%。及时识别高速网络中的视频流量有助于管理和分配网络资源,因此流量识别方法一直是互联网服务提供商(ISP)关注的重点。
然而,随着用户对视频流服务需求的增加,出现了大量使用不同传输协议的视频平台,这给视频流量的识别带来了一些挑战;此外,由于网络带宽的高速化,ISP在有限的资源下只能在流量采集节点获得视频流量的采样数据,这对视频流量识别方法也提出了新的要求。
目前,研究者们已经提出了一系列视频流量识别方法,其中基于阈值和基于机器学习的方法被广泛应用,但是这些方法仍存在一些局限性。
(1)基于阈值的识别方法
基于阈值的方法通过记录流的某些统计值,并与设定好的阈值进行比较,根据这些统计值是否超过阈值来判断是否为视频流。这类方法虽然可以快速、准确地识别视频流量,但是阈值的设定对协议本身有很强的依赖性,仅能识别某些特定应用的视频流量,视频传输协议的多样性导致这类方法无法做到对高速网络上的全平台视频流量的识别。
(2)基于机器学习的识别方法
基于机器学习的视频流量识别方法通过从流量的内容和模式中提取有效特征构建流量分类模型,其识别性能依赖于特征空间的构建。现有的特征空间构建方法主要分为两类。一类是从全流量中构建视频流的传输模式(如时序特征),然而这种方法需要较长的时间对完整的长流提取特征,无法在合理的时间内识别高速网络中的视频流量。另一类方法从流的关键数据包(如握手阶段的数据包)中提取特征,从而减少特征提取所需的时间,提高识别的速度。这类方法的有效性依赖于能否在流建立的早期阶段获取关键数据包。然而在高速网络中,由于资源有限,ISP获得的采样流量中无法包含全部的关键数据包,因此这类方法在高速网络采样环境下的性能不佳。综上,现有的基于机器学习方法都无法用于识别高速网络中的视频流量。
发明内容
为了能够在有限的内存和合理的时间内识别高速网络中的视频流量,本发明公开了一种面向高速网络的多平台视频流量早期识别方法。具体来说,该方法首先采集不同平台的视频流量,然后根据未知流的握手或者请求信息对视频流和非视频流进行标记。接着基于协议无关原则构建用于分类视频和非视频流的特征空间,并对已标记的流量提取特征向量构建数据集。最后,使用有监督机器学习方法,对获得的数据集离线训练分类模型。该分类模型结合前面提出的特征空间,可以在高速网络采样数据采集情景下准确地识别高速网络中的视频流量。本发明提出的特征空间可以从流的少量数据包中提取稳定的特征向量,因此可以在流传输的早期阶段识别视频流量。
为了实现本发明的目的,本方案具体技术步骤如下:
步骤(1)通过数据采集设备对不同平台的视频播放流量进行采集;
步骤(2)将采集到的流量进行预处理,并标记视频和非视频流;
步骤(3)对步骤(2)中标记好的流量提取特征,基于规则构建特征空间,然后获得带有标签的样本集;
步骤(4)将步骤(3)中获得的样本集作为训练集,然后使用有监督机器学习方法训练得到可以区分视频流和非视频流的分类模型;
步骤(5)设置采样比,对高速网络中的流量按分组进行***采样,然后对采样后的分组组流,并提取特征;
步骤(6)应用步骤(4)得到的分类模型对未知流进行预测,识别视频流量。
进一步的,所述步骤(1)中,采集视频流量具体包含以下子步骤:
(1.1)在实验室主机和安卓设备上分别抓取流量。在主机端使用Wireshark直接抓取流量;安卓设备则连接主机上的热点,通过Wireshark抓取安卓设备视频播放进程的流量。抓取视频流量时,禁用其它应用的联网权限。
(1.2)选择国内外热门的视频网站,播放视频并按以下策略抓取流量:设定每个视频的最大抓取时间为5分钟,然后结束抓取并保存为pcap文件;
(1.3)编写自动化脚本实现步骤(1.2),批量抓取视频流量。
进一步的,所述步骤(2)中,流量的预处理和标记具体包含以下子步骤:
(2.1)对步骤(1)中获取的不同平台的视频流量,将数据包按五元组(源IP、源端口、目的IP、目的端口和传输层协议)重组双向流,并丢弃分组数量少于N的流;
(2.2)判断双向流所采用的传输协议,若为非加密视频流,进行(2.3);否则进行(2.4);
(2.3)从双向流中提取包含传输的文件类型的URL请求信息,根据文件类型关键字判断该流是否为视频流并进行标记;
(2.4)从双向流中的握手信息中提取包含域名信息的SNI字段,根据SNI中包含的关键字,判断该流是否为视频流并进行标记;
进一步的,所述步骤(3)中,构建带标签的样本集具体包含以下子步骤:
(3.1)为步骤(2)中得到的带标签的流提取如表1所示的特征;
表1统计值及描述
统计值 统计值的描述
f_pck 上行方向传输的数据包数量
b_pck 下行方向传输的数据包数量
f_len 上行方向传输的字节数
b_len 下行方向传输的字节数
f_d_p 上行方向传输的带载荷数据包数量
b_d_p 下行方向传输的带载荷数据包数量
f_d_l 上行方向传输的带载荷的数据字节数
b_d_l 下行方向传输的带载荷的数据字节数
p_len 双向流中每个数据包携带的载荷字节数
tmGap 双向流的有效传输时间
(3.2)对收集到的信息进一步处理,通过统计计算消除数据包采样对特征稳定性的影响;
(3.3)选择特征时尽量避免协议本身对特征的影响,从视频流量本身传输的三大特性(上下行流量传输的不对称性、高传输速率以及独特的有效载荷长度分布)出发,构建如表2所示的特征空间;
表2特征空间及其描述
Figure BDA0003735964850000031
Figure BDA0003735964850000041
(3.4)基于构建好的特征空间,对采集到的流量提取特征向量构建样本集。
进一步的,所述步骤(4)中,训练分类模型具体包括以下步骤:
(4.1)将样本集按3:1划分为训练集和测试集;
(4.2)使用随机森林算法对训练集进行训练,并通过测试集对特征向量进行降维处理,并确定算法的参数;
(4.3)获得用于视频流量识别的分类模型。
进一步的,所述步骤(5)中,采集高速网络流量并提取特征向量具体包含以下步骤:
(5.1)在高速网络中部署流量采集设备,并使用tcpdump持续抓取流量;
(5.2)设置采样比,对获取的数据进行***采样,并按五元组重组流;
(5.3)设置提取特征所需的数据包数量M,从采样后的流的前M个数据包中提取特征向量;
进一步的,所述步骤(6)中,将步骤(5)提取的高速网络流量的特征向量输入步骤(4)获得的分类模型,从中识别视频流量并输出结果。
与现有技术相比,本发明的技术方案具有以下优点:
(1)本发明提出了新的特征空间,该特征空间使用协议无关的特征,通过该特征寻来你的模型可以识别采用不同协议的多平台视频流量,在高速网络中更具实用性。
(2)本发明所提出的特征空间可以从每条流的前500个数据包中提取稳定的特征向量,因此可以在流传输的早期阶段快速识别视频,测试结果证明本发明可以用于视频流量的实时识别。
(3)本发明将采样技术与视频流识别方法结合,减少了高速网络中流量处理的资源消耗,实验证明,在采样率设置为1/32时,本发明可以识别10Gbps高速网络中98%以上的视频流量。
附图说明
图1为本发明的总体架构图;
图2为视频流与其它类型流的数据包有效载荷长度概率分布;
图3为本发明在高速网络流量中,设置不同采样率时的识别性能。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
具体实施例:本发明提供的一种面向高速网络的多平台视频流量早期识别方法,其总体架构如图1所示,包括如下步骤:
步骤(1)通过数据采集设备对不同平台的视频播放流量进行采集;
步骤(2)将采集到的流量进行预处理,并标记视频和非视频流;
步骤(3)对步骤(2)中标记好的流量提取特征,基于规则构建特征空间,然后获得带有标签的样本集;
步骤(4)将步骤(3)中获得的样本集作为训练集,然后使用有监督机器学习方法进行训练并获得可以区分视频流和非视频流的分类模型;
步骤(5)设置采样比,对高速网络中的流量按分组进行***采样,然后对采样后的分组组流,并提取特征;
步骤(6)应用步骤(4)得到的分类模型对未知流进行预测,识别视频流量。
本发明的一个实施例中,步骤(1)中,采集不同平台的视频流量的具体步骤如下:
(1.1)在实验室主机和安卓设备上分别抓取流量。在主机端使用Wireshark直接抓取流量;安卓设备则连接到主机上的热点,通过Wireshark抓取安卓设备特定进程的流量。抓取视频流量时,禁用其它应用的联网权限。
(1.2)选择国内外热门的视频网站,播放视频并按以下策略抓取流量:设定每个视频的最大抓取时间为5分钟,然后结束抓取并保存为pcap文件;
(1.3)编写自动化脚本,按步骤(1.2)的策略实现视频流量的抓取,抓取视频流量时,禁用其它联网设备。
(1.4)选择了部分国内外用户量最高的视频平台,采集它们的视频播放流量,并分析不同平台使用的传输协议,流量的具体描述如表1所示。
采集平台 采集的数据字节数 传输协议
Facebook 378MB HTTP+TLS1.3;
Youtube 13.85GB HTTP+TLS1.3;GQUIC;
Twitter 70MB HTTP+TLS1.3;
Bilibili 2.87GB HTTP+TCP;UDT;
爱奇艺 5.3GB HTTP+TCP;HTTP+TLS1.2;
优酷 1.29GB HTTP+TCP;HTTP+TLS1.2;
快手 3.07GB HTTP+TLS1.2;HTTP+TLS1.3;
人人影视 1.18GB HTTP+TLS1.2;
搜狐影视 1.01GB HTTP+TCP;HTTP+TLS1.3;GQUIC;
抖音 112MB HTTP+TCP;HTTP+TLS1.2;
火山小视频 334MB HTTP+TCP;
其它平台 0.99GB HTTP+TCP;HTTP+TLS1.2;
本发明的一个实施例中,步骤(2)中,预处理和标记流量的具体步骤如下:
(2.1)对于抓取的视频流量,将数据包按五元组(源IP、源端口、目的IP、目的端口和传输层协议)重组双向流,设置N为100,并丢弃数据包数目少于N的流;
(2.2)使用dpkt工具对流进行解包,并根据流所使用的传输协议来提取包含流量类型关键信息,具体步骤为:若流采用TLS或QUIC协议进行加密,则找到包含ClientHello信息的数据包,然后从中提取包含服务器域名信息的SNI字段,最后根据SNI字段中包含的关键字来判断流是否为视频流;若流采用未加密的HTTP协议传输,则从包含GET请求的数据包中获得URL,并根据URL中包含的请求数据类型关键字来判断流是否为视频流。
(2.3)编写程序实现SNI和URL的批量化提取,并根据正则表达式匹配,快速标记视频流和非视频流。
本发明的一个实施例中,步骤(3)中,对步骤(2)中得到的带标签的双向流收集如表2所示的统计值,然后对收集到的信息按所设置的采样率的倒数进行放大以消除采样对统计值稳定性的影响,接着根据视频流量传输的特性,具体从以下三个方向构建统计特征:
表2统计值及描述
统计值 统计值的描述
f_pck 上行方向传输的数据包数量
b_pck 下行方向传输的数据包数量
f_len 上行方向传输的字节数
b_len 下行方向传输的字节数
f_d_p 上行方向传输的带载荷数据包数量
b_d_p 下行方向传输的带载荷数据包数量
f_d_l 上行方向传输的带载荷的数据字节数
b_d_l 下行方向传输的带载荷的数据字节数
p_len 双向流中每个数据包携带的载荷字节数
tmGap 双向流的有效传输时间
(3.1)基于视频流上下行传输的不对称性,构建四个统计特征RAT={r_b_pck,r_b_len,r_b_dp,r_b_dl}。其中r_b_pck为下行方向与双向流发送的数据包数目之比、r_b_len为下行方向与双向流发送的字节数之比、r_b_dp为下行方向与双向流发送的带载荷数据包数目之比、r_b_dl为下行方向与双向流发送的载荷数据字节数之比。采用公式(1)进行计算这四个统计特征:
Figure BDA0003735964850000071
(3.2)基于视频流的高传输速率特性,构建四个统计特征SPD={b_spd_pck,f_spd_pck,b_spd_len,f_spd_len}。其中b_spd_pck和f_spd_pck分别为下行方向与上行方向中数据包数目的传输速率、b_spd_len与f_spd_len分别为下行方向与上行方向中的字节传输速率。这四个统计特征采用公式(2)进行计算:
Figure BDA0003735964850000072
(3.3)所附图2中展示了视频流区别于其它类型流的数据包有效载荷长度概率分布,故基于视频流的独特有效载荷长度分布,对载荷长度划分区间。根据网络链路中常见的MTU为1300字节,将数据包有效载荷按每100字节划分为13个区间,加上左右两个边界,一共划分15个区间,由于双向流包含两个方向,因此一共包含30个区间。将这些特征命名为PLD,并采用公式(3)进行计算:
Figure BDA0003735964850000081
其中Intervali为第i个区间中包含的数据包个数。
(3.4)结合RAT,SPD和PLD三类特征构建特征空间,特征空间一共包含38个特征,并对步骤(2)中获得的带标签的流量提取特征向量构建数据集。
本发明的一个实施例中,步骤(4)中,训练分类模型具体包含以下步骤:
(4.1)将步骤(3)中获得数据集按3:1划分训练集和测试集,其中训练集包含7899个样本,测试集包含2633个样本;
(4.2)本实例使用随机森林算法对训练集进行训练,并在测试集上进行测试。首先基于平均不纯度减少(MDI)对特征重用性进行排序,取重要性最高的8个特征以实现对特征向量的降维操作,最终选取的特征如表3所示;然后基于网格搜索十折交叉验证确定随机森林算法的最佳参数;最后获得用于识别视频流量的分类模型。
表3流量特征及含义
特征名 含义
per_b_(0) 下行方向中有效载荷长度为0字节的数据包数目占全部数据包的比率
per_b_(1-100) 下行方向中有效载荷长度为1~100字节的数据包数目占全部数据包的比率
per_f_(>1300) 上行方向中有效载荷长度大于1300字节的数据包数目占全部数据包的比率
r_f_dp 上行方向与双向流中传输的带载荷数据包数目之间的比值
r_f_dl 上行方向与双向流中传输的载荷字节数之间的比值
r_f_pck 上行方向与双向流中传输的数据包数目之间的比值
r_f_len 上行方向与双向流中传输的字节数之间的比值
b_spd_len 下行方向的数据传输速率
本发明的一个实施例中,步骤(5)中,采集高速网络流量并提取特征向量的具体步骤如下:
(5.1)本实例于2021年11月8日上午在校园网端口处采集流量,采集时间为400s,所采集的端口带宽为10Gbps,最后获得流量大小为117GB,包含171485条流。所采集的流量包含来自不同平台的视频流量;
(5.2)本实例设置采样率为1/32,对采集到的数据进行分组***采样,然后将五元组相同的数据包重组至同一条双向流中;
(5.3)本实例根据测试结果,将提取流的特征向量所需数据包个数M设置为500,对采样后的流量提取特征,最终获得共计30766条含有特征的样本;
本发明的一个实施例中,步骤(6)中,应用视频流量识别器识别高速网络视频流量,包含以下具体步骤:
(6.1)本实例选择精确率precision和召回率recall作为评估指标,针对高速流量全部不包含标签这一情况,采取以下两种方法分别计算precision和recall:
采样验证法:应用分类模型获得带有标签分类结果,对部分结果进行人工校对,从而估算分类模型的precision;
标记重补法:将M条预先标记好的视频流样本混入被预测样本,应用分类模型获得带有标签分类结果,记这M条样本中被分类模型预测为视频流的样本数为m,可以估算分类模型的recall=m/M。
(6.2)本实例在高速流量数据集上应用分类模型识别视频流量,该数据集包含多个平台的视频流量,附图3中展示了不同采样率下模型的precision和recall,证明了本发明可以识别高速网络中98%以上的多平台视频流量;
(6.3)本实例通过实验分析了在高速网络中,本发明识别视频流量所需的最短时间,以证明本发明具有较强的实用性。本发明实现在高速网络中识别视频流所需的时间包括特征提取时间和模型预测时间。其中对流提取特征所需的时间主要受带宽以及采样率的影响,对于10Gbp带宽的高速网络流量,在1/32的采样率下且忽略其它处理开销,本发明从一条双向流的前500个数据包中提取特征仅需2.24毫秒。对于本实例中所使用30766个样本,本发明最短仅需68915毫秒即可完成特征提取,且仅需322毫秒就可以完成模型预测。综上,在对于10Gbps的真实高速网络中的400秒数据,本发明最短仅需69.237秒即可完成对视频流量的识别,证实了本发明能够用于高速网络中不同平台视频流量的实时识别。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种面向高速网络的多平台视频流量早期识别方法,其特征在于,该方法包括以下步骤:
步骤(1)通过数据采集设备对不同平台的视频播放流量进行采集;
步骤(2)将采集到的流量进行预处理,并标记视频和非视频流;
步骤(3)对步骤(2)中标记好的流量提取特征,基于规则构建特征空间,然后获得带有标签的样本集;
步骤(4)将步骤(3)中获得的样本集作为训练集,然后使用有监督机器学习方法训练得到可以区分视频流和非视频流的分类模型;
步骤(5)设置采样比,对高速网络中的流量按分组进行***采样,然后对采样后的分组组流,并提取特征;
步骤(6)应用步骤(4)得到的分类模型对未知流进行预测,识别视频流量。
2.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法,其特征在于,所述步骤(1)中,采集视频流量的方法如下:
(1.1)在实验室主机和安卓设备上分别抓取流量,在主机端使用Wireshark直接抓取流量;安卓设备则连接主机上的热点,通过Wireshark抓取安卓设备视频播放进程的流量,抓取视频流量时,禁用其它应用的联网权限;
(1.2)选择国内外热门的视频网站,播放视频并按以下策略抓取流量:设定每个视频的最大抓取时间为5分钟,然后结束抓取并保存为pcap文件;
(1.3)编写自动化脚本实现步骤(1.2),批量抓取视频流量。
3.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法,其特征在于,所述步骤(2)中,流量的预处理和标记具体包含以下步骤:
(2.1)对步骤(1)中获取的不同平台的视频流量,将五元组即源IP、源端口、目的IP、目的端口和传输层协议相同的数据包组成同一条双向流,并丢弃分组数量少于N的流;
(2.2)判断双向流所采用的传输协议,若为非加密视频流,进行(2.3);否则进行(2.4);
(2.3)从双向流中提取包含传输的文件类型的URL请求信息,根据文件类型关键字判断该流是否为视频流并进行标记;
(2.4)从双向流中的握手信息中提取包含域名信息的SNI字段,根据SNI中包含的关键字,判断该流是否为视频流并进行标记。
4.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法,其特征在于,所述步骤(3)中,构建带标签样本集的具体步骤如下:
(3.1)对已被标记的双向流记录如表1所示的统计值;
表1统计值及描述
统计值 统计值的描述 f_pck 上行方向传输的数据包数量 b_pck 下行方向传输的数据包数量 f_len 上行方向传输的字节数 b_len 下行方向传输的字节数 f_d_p 上行方向传输的带载荷数据包数量 b_d_p 下行方向传输的带载荷数据包数量 f_d_l 上行方向传输的带载荷的数据字节数 b_d_l 下行方向传输的带载荷的数据字节数 p_len 双向流中每个数据包携带的载荷字节数 tmGap 双向流的有效传输时间
(3.2)对收集到的信息进一步处理,通过统计计算消除数据包采样对特征稳定性的影响;
(3.3)选择特征时尽量避免协议本身对特征的影响,从视频流量本身传输的三大特性出发即上下行流量传输的不对称性、高传输速率以及独特的有效载荷长度分布,对双向流构建如表2所示的特征空间;
表2特征空间及其包含的特征的描述
Figure FDA0003735964840000021
Figure FDA0003735964840000031
(3.4)基于构建好的特征空间,对采集到的流量提取特征向量构建样本集。
5.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法,其特征在于,所述步骤(4)中,训练分类模型具体包括以下步骤:
(4.1)将样本集按3:1划分为训练集和测试集;
(4.2)使用随机森林算法对训练集进行训练,并通过测试集对特征向量进行降维处理,并确定算法的参数;
(4.3)获得用于视频流量识别的分类模型。
6.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法,其特征在于,所述步骤(5)中,采集高速网络流量并提取特征向量具体包含以下步骤:
(5.1)在高速网络中部署流量采集设备,并使用tcpdump持续抓取流量;
(5.2)设置采样比,对获取的数据进行***采样,并按五元组重组流;
(5.3)设置提取特征所需的数据包数量M,从采样后的流的前M个数据包中提取特征向量。
7.根据权利要求1所述的一种面向高速网络的多平台视频流量早期识别方法,其特征在于,所述步骤(6)中,将步骤(5)提取的高速网络流量的特征向量输入步骤(4)获得的分类模型,从中识别视频流量并输出结果。
CN202210796253.9A 2022-07-07 2022-07-07 一种面向高速网络的多平台视频流量早期识别方法 Pending CN115174961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210796253.9A CN115174961A (zh) 2022-07-07 2022-07-07 一种面向高速网络的多平台视频流量早期识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210796253.9A CN115174961A (zh) 2022-07-07 2022-07-07 一种面向高速网络的多平台视频流量早期识别方法

Publications (1)

Publication Number Publication Date
CN115174961A true CN115174961A (zh) 2022-10-11

Family

ID=83490736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210796253.9A Pending CN115174961A (zh) 2022-07-07 2022-07-07 一种面向高速网络的多平台视频流量早期识别方法

Country Status (1)

Country Link
CN (1) CN115174961A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077030A (zh) * 2023-10-16 2023-11-17 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685016A (zh) * 2012-06-06 2012-09-19 济南大学 互联网流量区分方法
CN106998322A (zh) * 2017-02-20 2017-08-01 南京邮电大学 一种使用视频业务的平均意见分均值特征的流分类方法
WO2019060949A1 (en) * 2017-09-27 2019-04-04 Newsouth Innovations Pty Limited METHOD AND APPARATUS FOR IDENTIFYING AND CLASSIFYING VIDEO DATA
CN113591950A (zh) * 2021-07-19 2021-11-02 中国海洋大学 一种随机森林网络流量分类方法、***、存储介质
CN114513685A (zh) * 2022-01-28 2022-05-17 武汉绿色网络信息服务有限责任公司 一种基于流特征识别https加密视频流的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685016A (zh) * 2012-06-06 2012-09-19 济南大学 互联网流量区分方法
CN106998322A (zh) * 2017-02-20 2017-08-01 南京邮电大学 一种使用视频业务的平均意见分均值特征的流分类方法
WO2019060949A1 (en) * 2017-09-27 2019-04-04 Newsouth Innovations Pty Limited METHOD AND APPARATUS FOR IDENTIFYING AND CLASSIFYING VIDEO DATA
CN113591950A (zh) * 2021-07-19 2021-11-02 中国海洋大学 一种随机森林网络流量分类方法、***、存储介质
CN114513685A (zh) * 2022-01-28 2022-05-17 武汉绿色网络信息服务有限责任公司 一种基于流特征识别https加密视频流的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁梦娇, 董育宁: "基于特征融合和机器学习的网络视频流分类", 南京邮电大学学报(自然科学版), 28 February 2021 (2021-02-28), pages 1 - 4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077030A (zh) * 2023-10-16 2023-11-17 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及***
CN117077030B (zh) * 2023-10-16 2024-01-26 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及***

Similar Documents

Publication Publication Date Title
Dubin et al. I know what you saw last minute—encrypted http adaptive video streaming title classification
KR100523486B1 (ko) 트래픽 측정 시스템 및 그의 트래픽 분석 방법
Bujlow et al. A method for classification of network traffic based on C5. 0 Machine Learning Algorithm
CN112714045B (zh) 一种基于设备指纹和端口的快速协议识别方法
Callado et al. A survey on internet traffic identification
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN101714952B (zh) 一种接入网的流量识别方法和装置
Tsilimantos et al. Classifying flows and buffer state for YouTube's HTTP adaptive streaming service in mobile networks
US20070076606A1 (en) Statistical trace-based methods for real-time traffic classification
Areström et al. Early online classification of encrypted traffic streams using multi-fractal features
Bujlow et al. Classification of HTTP traffic based on C5. 0 Machine Learning Algorithm
CN111611280A (zh) 一种基于cnn和sae的加密流量识别方法
US11743195B2 (en) System and method for monitoring and managing video stream content
Manzoor et al. How HTTP/2 is changing web traffic and how to detect it
Gutterman et al. Requet: Real-time QoE metric detection for encrypted YouTube traffic
CN113283498A (zh) 一种面向高速网络的vpn流量快速识别方法
Wang et al. Benchmark data for mobile app traffic research
CN115174961A (zh) 一种面向高速网络的多平台视频流量早期识别方法
KR101344398B1 (ko) 애플리케이션 인지와 트래픽 제어를 위한 라우터 장치 및 그 방법
Dubin et al. Video quality representation classification of Safari encrypted DASH streams
CN101854366A (zh) 一种对等网络流量识别的方法及装置
Bentaleb et al. Inferring quality of experience for adaptive video streaming over HTTPS and QUIC
Wu et al. Inferring adu combinations from encrypted quic stream
CN116723313A (zh) 基于机器学习评测quic视频体验质量的方法、***及介质
CN114679318B (zh) 一种高速网络中轻量级的物联网设备识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination