CN114338437B

CN114338437B - 网络流量分类方法、装置、电子设备及存储介质

Info

Publication number: CN114338437B
Application number: CN202210039374.9A
Authority: CN
Inventors: 杨杨; 高志鹏; 严雨; 吕睿; 高博文; 赵斌男; 李昱廷; 郭义豪; 龚兴乐; 胡皓; 刘澳伦; 龙雨寒
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2023-12-29
Anticipated expiration: 2042-01-13
Also published as: CN114338437A

Abstract

本发明提供一种网络流量分类方法、装置、电子设备及存储介质，将捕获的pcap文件切分为流序列，流序列由多个流量数据包组成；从流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。本发明为字节序列中的每个字节分别进行位置编码，可以有效提取字节序列中各字节的关键位置信息，提高流量分类网络模型识别的准确率。

Description

网络流量分类方法、装置、电子设备及存储介质

技术领域

本发明涉及网络流量管理技术领域，尤其涉及一种网络流量分类方法、装置、电子设备及存储介质。

背景技术

流量分类是现代通信网络中的一项重要任务。由于高吞吐量流量需求的快速增长，正确管理网络资源、识别使用网络资源不同类型的应用程序变得至关重要。

目前，互联网上新应用程序的出现以及各种组件之间的交互极大地增加了网络的复杂性和多样性，使得流量分类本身成为一个难题，网络流量分类面对着越来越多的挑战。为了应对这些挑战，现有技术将深度学习方法应用在流量分类领域以实现高性能的分类器。

然而，这种深度学习网络流量分类方法一方面在提取流量特征的过程中依赖于大量的专家经验，特征提取结果存在一定的偏差。另一方面在提取到流量特征序列后，并没有充分挖掘特征序列中各字节所包含的上下文关键信息，导致基于深度学习的流量分类模型最终输出的流量分类结果准确度不高。

发明内容

本发明提供一种网络流量分类方法、装置、电子设备及存储介质，用以解决现有技术中网络流量分类结果精确度不高的缺陷，实现有效提取字节序列各字节的关键位置信息，提高深度学习流量分类模型的分类准确率。

本发明提供一种网络流量分类方法，包括：

将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；

从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；

对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

根据本发明提供的一种网络流量分类方法，所述将捕获的pcap文件切分为流序列，包括：

基于五元组对所述pcap文件中的数据包流进行切分，得到流序列；所述五元组包括：源IP地址、源端口、目的IP地址、目的端口和协议号。

根据本发明提供的一种网络流量分类方法，从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列，包括：

基于预设规则从所述流序列中提取各个流量数据包预设数量的字节特征，得到以流为单位的字节序列。

根据本发明提供的一种网络流量分类方法，所述对所述字节序列中的各个字节进行位置编码，包括：

基于下述公式对所述字节序列中的各个字节进行位置编码，将每个字节在数据包中的位置转化为d维的特征向量P_pos，所述公式为：

P(pos,2i)＝sin(pos/m^2i/d)

P(pos,2i+1)＝cos(pos/m²ⁱ)

其中，2i,2i+1∈[0,d-1]，表示生成的位置编码的每个通道，m为常数，用于使每个字节的位置对应唯一的位置编码。

根据本发明提供的一种网络流量分类方法，所述流量分类网络模型由N个自动编码器层构成，N≥2，所述流量分类网络模型的损失函数为：

其中，h_i-1为第i个自动编码器的输入层，N为以流为单位的样本数量。

本发明还提供一种网络流量分类装置，包括：

第一处理模块，用于将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；

第二处理模块，用于从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；

第三处理模块，用于对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

根据本发明提供的一种网络流量分类装置，所述第三处理模块，具体用于：

P(pos,2i)＝sin(pos/m^2i/d)

P(pos,2i+1)＝cos(pos/m²ⁱ)

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述网络流量分类方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述网络流量分类方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述网络流量分类方法的步骤。

本发明提供的网络流量分类方法、装置、电子设备及存储介质，通过将捕获的pcap文件切分为流序列，从流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列。然后对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。本发明从原始流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列作为流量分类网络模型的输入，相比于现有的手工提取流的统计特征，既减少了模型输入数据的规模，又充分挖掘了流量数据的时序特征。此外，本发明为字节序列中的每个字节分别进行位置编码，可以有效提取字节序列中各字节的关键位置信息，提高流量分类网络模型识别的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的网络流量分类方法的流程示意图之一；

图2是本发明提供的网络流量分类方法的流程示意图之二；

图3是本发明提供的网络流量分类装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供的网络流量分类方法，包括：

步骤101：将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；

在本步骤中，首先在链路连接中捕获应用程序的pcap文件，并按照五元组切分pcap文件中的数据包流，得到由多个数据包组成的流序列。

步骤102：从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；

在本步骤中，可选的，选择初始值M＝40作为每个数据包采用的字节数(因为报头位于数据包的包头，而TCP的公共报头长度大于UDP的报头长度，为40字节)。另外，考虑到常用的随机端口分配和网络地址转换技术可能会对分类结果产生混淆，本发明用零来替代IP地址和端口号来避免这种影响。因此，单个数据包的字节处理结果为D＝{d₁,…,d_i,…,d_M}，其中d_i为数据包的第i(i<M)个字节，取值范围为[0,255]，归一化处理，使取值范围为[0,1]。对于每个以流为单位的序列样本f_i，字节序列F_packet如下述所示，N的大小等于数据包的数量。

F_packet＝{D₁,D₂,D₃…D_N},N＝packet length of f_i

步骤103：对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

在本步骤中，需要说明的是，数据包包含IP报头、传输层报头和有效负载。不同位置的字节往往代表着不同的含义，且相互影响。例如，IP头中的“版本”决定了“源IP地址”的长度是4字节(IPv4)或16字节(IPv6)。因此，当应用程序通过格式良好的头交换信息时，其位置因素的信息时非常重要，不可忽视的。因此，本发明在采用流量分类网络模型对数据包特征进行分析时，首先对数据包的各字节进行位置编码，以提高后续流量识别的准确性。

在本步骤中，在完成各个字节的位置编码后，将编码后的字节序列输入至流量分类网络模型中，输出流量分类结果。其中，流量分类网路模型由N个自动编码器层构成，N≥2，其可以自动提取潜在特征。自动编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。在流量分类网络模型的最后一层连接softmax分类器层，用以生成流量分类结果。

本发明提供的网络流量分类方法，通过将捕获的pcap文件切分为流序列，从流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列。然后对字节序列中的各个字节进行位置编码，并将编码后的字节序列输入至流量分类网络模型中，输出流量分类结果。本发明从原始流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列作为流量分类网络模型的输入，相比于现有的手工提取流的统计特征，既减少了模型输入数据的规模，又充分挖掘了流量数据的时序特征。此外，本发明为字节序列中的每个字节分别进行位置编码，可以有效提取字节序列中各字节的关键位置信息，提高流量分类网络模型识别的准确率。

基于上述实施例的内容，在本实施例中，所述将捕获的pcap文件切分为流序列，包括：

在本实施例中，将流序列作为唯一的原始流量分类单位，以此将加密流量分类到特定的应用程序中。原始流可以表示为具有相同流长度和不同类型(例如消息类型序列和分组长度序列)的多个序列。本发明中，将pcap文件中的原始流量集合P分割成多个子集的集合F＝{f¹,…,fⁱ,…,f^m}，m为原始流量划分的子集个数，fⁱ表示将原始流量划分为多个子集中的任一子流。子流fⁱ＝(xⁱ,dⁱ,tⁱ)中的数据包以时间顺序排列，其中xⁱ表示包括源IP地址、源端口、目的IP地址、目的端口和协议号的五元组；dⁱ是子流fⁱ传输的总时长；tⁱ则是子流fⁱ中的数据包流的第一个数据包开始传输的时间。

基于上述实施例的内容，在本实施例中，从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列，包括：

在本实施例中，可选的，选择初始值M＝40作为每个数据包采用的字节数(因为报头位于数据包的包头，而TCP的公共报头长度大于UDP的报头长度，为40字节)。另外，考虑到常用的随机端口分配和网络地址转换技术可能会对分类结果产生混淆，本发明用零来替代IP地址和端口号来避免这种影响。因此，单个数据包的字节处理结果为D＝{d₁,…,d_i,…,d_M}，其中d_i为数据包的第i(i<M)个字节，取值范围为[0,255]，归一化处理，使取值范围为[0,1]。对于每个以流为单位的序列样本f_i，字节序列F_packet如下述所示，N的大小等于数据包的数量。

F_packet＝{D₁,D₂,D₃…D_N},N＝packet length of f_i

由此可见，本发明截取流数据包字节序列前40字节，包括包头的一部分作为代表性的特征，既减少了流量分类网络模型输入数据的规模，又充分挖掘了流量数据的时序特征。

基于上述实施例的内容，在本实施例中，所述对所述字节序列中的各个字节进行位置编码，包括：

P(pos,2i)＝sin(pos/m^2i/d)

P(pos,2i+1)＝cos(pos/m²ⁱ)

在本实施例中，可选的，采用三角函数对位置进行编码，将每个字节的位置position转化为d维的向量P_pos：

P(pos,2i)＝sin(pos/10000^2i/d)

P(pos,2i+1)＝cos(pos/10000²ⁱ)

其中，2i,2i+1∈[0,d-1]，表示生成的位置编码的每个通道，而设置常数10000保证了每个位置都能对应唯一的位置编码。

由此可见，本发明将字节序列中的各个字节进行位置编码，以充分挖掘数据包字节序列中各字节所包含的上下文关键信息，本发明通过三角函数编码方式，使得流量分类网络模型可以更容易地学习关注字节相对位置，同时它能为每个字节输出一个独一无二的编码。位置编码使流量分类网络模型知道每个字节在字节序列中的相对和绝对的位置信息。

基于上述实施例的内容，在本实施例中，所述流量分类网络模型由N个自动编码器层构成，N≥2，所述流量分类网络模型的损失函数为：

在本实施例中，在完成各个字节的位置编码后，将编码后的字节序列输入至流量分类网络模型中，输出流量分类结果。其中，流量分类网路模型由N个自动编码器层构成，N≥2，其可以自动提取潜在特征。自动编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。在流量分类网络模型的最后一层连接softmax分类器层，用以生成流量分类结果。本发明通过多层编码器充分提取更高层次的信息，进一步提高分类器性能。

具体的，对于单个编码器，输入层为其中d_i-1是输入层h_i-1的维度，隐藏层为/>其中d_i是隐藏层的维度。根据下述公式，编码过程为：输入层h_i-1被映射到隐藏层h_i，解码过程为：隐藏层h_i被映射到输出层/>

h_i＝f(W_i,1h_i-1+b_i,1)

其中W_i,1(d_i×d_i-1)和W_i,2(d_i-1×d_i)是编码器和解码器的权重矩阵，和是偏置向量，激活函数f(·)和/>通常用sigmoid函数。

通常意义上，第i个自动编码器试图重建输入h_i-1，使尽可能与h_i-1相似。因此流量分类网络模型的目标是使重建误差尽可能小，损失函数如下式：

对于堆叠自动编码器，假设样本作为原始数据输入到单个的编码器中，得到的编码特征重新作为下一个编码器的输入。堆叠式编码器按损失函数进行训练，最终生成更为抽象的特征。对于应用程序识别任务，在所提出的流量分类网络模型SAE(Stacked AutoEncoder)的最后一层，连接softmax分类器层，生成流量分类结果。

由此可见，本发明针对现代互联网环境下网络加密流量分类问题，设计了一种基于改进位置编码的网络流量数据包特征分类方法，从流序列中截取各个数据包部分字节序列，并对处理后的字节序列进行三角函数位置编码，以流量分类网络模型SAE提取流量数据代表性特征，提高分类模型的准确率。本发明通过对字节序列进行位置编码，可以有效提取字节序列各字节的关键位置信息，并显著提高深度学习流量分类模型的准确率。

下面通过具体实施例进行说明：

实施例一：

在本实施例中，需要说明的是，准确的流量分类已成为高级网络管理任务的先决条件之一，例如提供适当的服务质量QoS(Quality of Service)、异常检测、流量定价等。同时，用户隐私和数据加密的日益增长需求极大地增加了当今互联网中的加密流量。加密程序将原始数据转换为类似伪随机的格式，目的是使其难以解密。结果导致加密数据几乎不包含任何用于识别网络流量的判别模式。因此，加密流量的准确分类已成为现代网络中的真正挑战。另外，现有的网络流量分类方法，例如有效载荷检查以及基于机器学习和基于统计的方法，都需要专家提取模式或特征，此过程容易出错、耗时且成本高昂。最后，许多互联网服务提供商由于其高带宽消耗和版权问题而阻止文件共享应用程序。为了规避这个问题，这些应用程序使用协议嵌入和混淆技术来绕过流量控制***，因此，识别此类应用程序是网络流量分类中最具挑战性的任务之一。

上述现有的网络流量分类方法缺陷如下：

(1)基于负载数据报文的字节流的字节分布特征进行应用程序流量分类，生成字节分布特征的过程依赖大量的专家经验，可能会产生偏差导致分类结果的差异。

(2)将数据包荷载数据转化成字节序列，字节序列后续再输入到一维神经网络进行训练提取特征，并基于此进行流量分类。这种方法没有采用包头中的信息，事实上包头中包含了大量有用信息。同时现有技术是基于数据包进行分类的，分类单位的尺度较小，不适用于流级别的流量分类。

随着网络技术和加密技术的飞速发展，网络安全问题越来越受到大众的关注，网络加密流量的规模不断增加，给网络流量分类带来了巨大挑战。将机器学习算法与人工设计相结合已经成为解决这一问题的主流方法，但它需要大量的人力来提取和处理特征，这在很大程度上依赖于专业经验。然而，机器学习方法的成功诉诸于手工设计的特征的质量。当网络流量环境向快节奏的移动流量演变时，这样的过程是不切实际的，因为它既不能自动化也不能实现高度专业化。近年来深度学习方法被应用在加密流量分类领域以实现高性能的分类器，深度学习流量分类方法允许通过自动提取结构化和复杂的特征表示直接从输入数据训练分类器，这相对于传统机器学习方法有极大的优势，但深度学习方法仍有一些问题，如何从原始流量数据中提取特征，用深度学习模型进行精确的应用程序分类是相关领域研究者面临的一大问题。

在本发明中，将基于原始流作为基本分类单位，提取流的数据包特征，并利用位置编码转化数据包字节序列，以在提取数据包特征的过程中同时保留字节的位置信息。本发明采用堆叠式自动编码器SAE作为分类模型，提取更高层次的流包特征，使应用程序的分类更为准确。

如图2所示，本发明提供的一种网络流量分类方法，包括：

步骤201：从流序列中提取各个流量数据包具有代表性的字节序列；

在本步骤中，首先使用网络流量监控软件实时、连续地将应用程序使用期间产生的一系列流量数据包捕捉并实时存储到内部或外部存储器上。然后将原始流量转化为流序列后按照源IP地址、源端口、目的IP地址、目的端口和协议号切分原始数据包流，从流序列中提取各个数据包前40个字节进行归一化处理。

步骤202：对字节序列中的各个字节进行位置编码，并采用堆叠式自动编码器SAE对字节序列进行分析；

在本步骤中，建立基于位置编码和SAE的流量分类网络模型，首先对数据包的各字节进行位置编码，再将编码后的字节序列输入到SAE编码器中进行分析。本发明采用的SAE架构由三个完全连接的层组成，彼此堆叠在一起，分别由64、32、16个神经元组成。为了防止过拟合问题，在每一层之后采用了0.05的随机失活率。

步骤203：通过训练后的SAE模型输出流量应用分类结果。

在本步骤中，训练堆叠式编码器SAE，模型最后接softmax层输出分类结果。部分流分类结果如下表1所示。

表1

下面对本发明提供的流量分类装置进行描述，下文描述的流量分类装置与上文描述的流量分类方法可相互对应参照。

如图3所示，本发明提供的网络流量分类装置，包括：

第一处理模块1，用于将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；

第二处理模块2，用于从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；

第三处理模块3，用于对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

在本实施例中，首先在链路连接中捕获应用程序的pcap文件，并按照五元组切分pcap文件中的数据包流，得到由多个数据包组成的流序列。

F_packet＝{D₁,D₂,D₃…D_N},N＝packet length of f_i

在本实施例中，需要说明的是，数据包包含IP报头、传输层报头和有效负载。不同位置的字节往往代表着不同的含义，且相互影响。例如，IP头中的“版本”决定了“源IP地址”的长度是4字节(IPv4)或16字节(IPv6)。因此，当应用程序通过格式良好的头交换信息时，其位置因素的信息时非常重要，不可忽视的。因此，本发明在采用流量分类网络模型对数据包特征进行分析时，首先对数据包的各字节进行位置编码，以提高后续流量识别的准确性。

在本实施例中，在完成各个字节的位置编码后，将编码后的字节序列输入至流量分类网络模型中，输出流量分类结果。其中，流量分类网路模型由N个自动编码器层构成，N≥2，其可以自动提取潜在特征。自动编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。在流量分类网络模型的最后一层连接softmax分类器层，用以生成流量分类结果。

本发明提供的网络流量分类装置，通过将捕获的pcap文件切分为流序列，从流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列。然后对字节序列中的各个字节进行位置编码，并将编码后的字节序列输入至流量分类网络模型中，输出流量分类结果。本发明从原始流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列作为流量分类网络模型的输入，相比于现有的手工提取流的统计特征，既减少了模型输入数据的规模，又充分挖掘了流量数据的时序特征。此外，本发明为字节序列中的每个字节分别进行位置编码，可以有效提取字节序列中各字节的关键位置信息，提高流量分类网络模型识别的准确率。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行网络流量分类方法，该方法包括：将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的网络流量分类方法，该方法包括：将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的网络流量分类方法，该方法包括：将捕获的pcap文件切分为流序列，所述流序列由多个流量数据包组成；从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列；对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络流量分类方法，其特征在于，包括：

在链路连接中捕获应用程序的pcap文件，并按照五元组切分pcap文件中的数据包流，将基于原始流作为基本分类单位，得到由多个数据包组成的流序列，所述流序列由多个流量数据包组成；

对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的；

所述对所述字节序列中的各个字节进行位置编码，包括：

P(pos，2i)＝sin(pos/m^2i/d)

P(pos，2i+1)＝cos(pos/m²ⁱ)

其中，2i，2i+1∈[0，d-1]，表示生成的位置编码的每个通道，m为常数，用于使每个字节的位置对应唯一的位置编码。

2.根据权利要求1所述的网络流量分类方法，其特征在于，

所述五元组包括：源IP地址、源端口、目的IP地址、目的端口和协议号。

3.根据权利要求1所述的网络流量分类方法，其特征在于，从所述流序列中提取各个流量数据包的字节特征，得到以流为单位的字节序列，包括：

4.根据权利要求1所述的网络流量分类方法，其特征在于，所述流量分类网络模型由N个自动编码器层构成，N≥2，所述流量分类网络模型的损失函数为：

5.一种网络流量分类装置，其特征在于，包括：

第一处理模块，用于在链路连接中捕获应用程序的pcap文件，并按照五元组切分pcap文件中的数据包流，将基于原始流作为基本分类单位，得到由多个数据包组成的流序列，所述流序列由多个流量数据包组成；

第三处理模块，用于对所述字节序列中的各个字节进行位置编码，并将编码后的所述字节序列输入至流量分类网络模型中，得到所述流量分类网络模型输出的流量分类结果；其中，所述流量分类网络模型是基于以流为单位的样本和样本对应的流量分类结果训练后得到的；所述第三处理模块，具体用于：基于下述公式对所述字节序列中的各个字节进行位置编码，将每个字节在数据包中的位置转化为d维的特征向量P_pos，所述公式为：

P(pos，2i)＝sin(pos/m^2i/d)

P(pos，2i+1)＝cos(pos/m²ⁱ)

其中，2i，2i+1∈[0，d一1]，表示生成的位置编码的每个通道，m为常数，用于使每个字节的位置对应唯一的位置编码。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述网络流量分类方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述网络流量分类方法的步骤。