CN115914146B

CN115914146B - 网络会话数据TopK上卷方法及***

Info

Publication number: CN115914146B
Application number: CN202211633304.2A
Authority: CN
Inventors: 周奕庆; 付海波; 蔡晓华; 杨光辉
Original assignee: Shanghai Netis Technologies Co ltd
Current assignee: Shanghai Netis Technologies Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2024-05-14
Anticipated expiration: 2042-12-19
Also published as: CN115914146A

Abstract

本发明提供了一种网络会话数据TopK上卷方法及***，包括：分片拆分步骤：对上卷计算过程按时间进行分片拆分，得到多个时间分片；预处理步骤：对每个时间分片进行分片预处理，筛选提取网络会话的五元组；后处理步骤：在所有时间分片分片预处理完成后，对每个时间分片进行上卷后处理，提取存在于筛选出来的高流量网络会话的五元组中的会话数据；聚合步骤：将提取的会话数据按五元组进行聚合，存档于上卷数据表中。本发明只针对用户定义匹配规则并打上标签的网络会话进行上卷，避免全量上卷大量无用会话数据。

Description

网络会话数据TopK上卷方法及***

技术领域

本发明涉及数据处理领域，具体地，涉及一种网络会话数据TopK上卷方法及***。

背景技术

在网络性能管理***(NPM)中，除了要对网络会话数据进行实时分析并存储，还需要定期对历史数据按时间进行上卷，一方面是为了减少磁盘占用空间，另一方面是为了减少查询数据量以缩短查询响应时间。

通常的上卷做法是，在秒级网络会话历史数据中，将一分钟网络会话开始时间从秒规整到分钟，然后对同一分钟的相同会话进行统计汇总，最后存储为分钟级数据。随着网络应用的普及，对网络性能管理***的性能要求变得越来越高。从10Gbps、40Gbps，上升到100Gbps、1000Gbps，存储的历史数据规模越来越大，导致上卷处理耗时越来越长，无法达到查询的实时性要求，甚至出现内存不够上卷程序崩溃的现象。综上所述，现有技术存在的问题主要有两点：上卷数据量大，单一步骤处理耗费内存峰值高，需要寻找一种分片处理的途径。用户在高时间颗粒度范围内通常只关心部分流量较高的会话，全量上卷会包含大量用户不关心的小流量会话，浪费计算和存储资源。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种网络会话数据TopK上卷方法及***。

根据本发明提供的一种网络会话数据TopK上卷方法，包括：

分片拆分步骤：对上卷计算过程按时间进行分片拆分，得到多个时间分片；

预处理步骤：对每个时间分片进行分片预处理，筛选提取网络会话的五元组；

后处理步骤：在所有时间分片分片预处理完成后，对每个时间分片进行上卷后处理，提取存在于筛选出来的高流量网络会话的五元组中的会话数据；

聚合步骤：将提取的会话数据按五元组进行聚合，存档于上卷数据表中。

优选地，所述分片预处理包括：

遍历标签列表，针对每一个标签，进行预处理单标签，在当前分片时间范围内打上该标签的会话数据。

优选地，所述预处理单标签包括：

步骤S11：根据剩余会话配额数M，剩余标签数量n，计算每个标签的会话数量配额m＝M/n；

步骤S12：从原始级历史数据中查询打上标签Tag X的所有会话数据；

步骤S13：将步骤2所得会话数据按流量大小进行降序排列，流量大小以处理分片时间段内总数据包长来衡量；

步骤S14：将步骤3所得会话数据最多保留前m个，得到的会话数量x；

步骤S15：将步骤4所得会话数据的所有五元组保存到上卷临时表；

步骤S16：将剩余会话数量配额数M自减x，将剩余标签数量n自减1。

优选地，所述上卷后处理包括：

步骤S21：将上卷临时表中的五元组按五元组维度进行聚合；

步骤S22：针对每个时间分片进行分片后处理；

步骤S23：将上卷临时表中的会话数据开始时间规整到目标级开始时间；

步骤S24：将上卷临时表中的会话数据按五元组维度聚合；

步骤S25：将上卷临时表中的会话数据转存入目标级历史数据。

优选地，所述分片后处理包括：

步骤S31：从原始级历史数据中提取预设时间范围内五元组存在于上卷临时表中的会话数据；

步骤S32：将步骤S31得到的所述会话数据复制添加到上卷临时表。

根据本发明提供的一种网络会话数据TopK上卷***，包括：

分片拆分模块：对上卷计算过程按时间进行分片拆分，得到多个时间分片；

预处理模块：对每个时间分片进行分片预处理，筛选提取网络会话的五元组；

后处理模块：在所有时间分片分片预处理完成后，对每个时间分片进行上卷后处理，提取存在于筛选出来的高流量网络会话的五元组中的会话数据；

聚合模块：将提取的会话数据按五元组进行聚合，存档于上卷数据表中。

优选地，所述分片预处理包括：

优选地，所述预处理单标签包括：

模块M11：根据剩余会话配额数M，剩余标签数量n，计算每个标签的会话数量配额m＝M/n；

模块M12：从原始级历史数据中查询打上标签Tag X的所有会话数据；

模块M13：将模块2所得会话数据按流量大小进行降序排列，流量大小以处理分片时间段内总数据包长来衡量；

模块M14：将模块3所得会话数据最多保留前m个，得到的会话数量x；

模块M15：将模块4所得会话数据的所有五元组保存到上卷临时表；

模块M16：将剩余会话数量配额数M自减x，将剩余标签数量n自减1。

优选地，所述上卷后处理包括：

模块M21：将上卷临时表中的五元组按五元组维度进行聚合；

模块M22：针对每个时间分片进行分片后处理；

模块M23：将上卷临时表中的会话数据开始时间规整到目标级开始时间；

模块M24：将上卷临时表中的会话数据按五元组维度聚合；

模块M25：将上卷临时表中的会话数据转存入目标级历史数据。

优选地，所述分片后处理包括：

模块M31：从原始级历史数据中提取预设时间范围内五元组存在于上卷临时表中的会话数据；

模块M32：将模块M31得到的所述会话数据复制添加到上卷临时表。

与现有技术相比，本发明具有如下的有益效果：

1、本发明只针对用户定义匹配规则并打上标签的网络会话进行上卷，避免全量上卷大量无用会话数据。

2、本发明对需上卷的会话数据按流量大小降序排序，丢弃较小流量的会话数据，进一步缩小上卷数据规模。

3、本发明将上卷步骤拆分为多个子步骤，每个子步骤仅处理上卷时间跨度中的一部分数据，降低每次处理对内存的消耗。以1分钟按10秒分片来算，峰值内存理论上能降低到单一步骤的1/6。

4、本发明虽然在每个时间分片取TopK会话，但最终获得的上卷会话不会因某几个分片没有排入前TopK而少数据。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为上卷总体流程图；

图2为分片预处理流程图；

图3为预处理单标签流程图；

图4为上卷后处理流程图；

图5为分片后处理流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明通过对上卷计算过程按时间进行分片拆分，先对每个时间分片进行预处理，筛选提取打上标签的高流量网络会话五元组。所有分片会话五元组筛选完成后，再对每个时间分片进行后处理，提取存在于筛选五元组中的会话数据。最后将提取的会话数据按五元组进行聚合，最终存档于上卷数据表中。

本发明依赖待上卷历史会话数据已打上标签。标签是由用户根据会话的网络属性匹配规则定义，包括五元组、IP Protocol、Vlan等。网络流量实时处理***需要对会话打上匹配对应规则的标签后一起存入历史数据。

本发明依赖下列配置项：

1.上卷会话数据量配额M，相当于通常TopK算法中的K值。

2.标签列表。

本发明的一种网络会话数据TopK上卷方法，包括：

参考图1：以上卷0-60秒秒级数据到分钟级数据为例，本方法总体包含下列步骤：

步骤1：在数据时间每一个10秒到达后，对最后的10秒分片进行分片预处理。

步骤2：在数据时间到达60秒后，进行上卷后处理。

参考图2：分片预处理每一个时间分片包含下列步骤：

步骤21：遍历标签列表，针对每一个标签，进行预处理单标签，即预处理当前分片时间范围内打上该标签的会话数据。

参考图3：假设当前处理标签为Tag X，当前剩余会话数量配额数为M，当前剩余标签数量为n，预处理单标签包含下列步骤：

步骤31：根据剩余会话配额数M，剩余标签数量n，计算每标签会话数量配额m＝M/n。

步骤32：从秒级历史数据中查询打上标签Tag X的所有会话。

步骤33：将步骤32所得会话数据按流量大小进行降序排列。流量大小以处理分片时间段内总数据包长来衡量。

步骤34：将步骤33所得会话数据最多保留前m个，得到保留的会话数量x。由于步骤33所得的会话数据可能大于m个，也可能小于m个，所以实际保留的会话数量x≤m。

步骤35：将步骤34所得会话数据的所有五元组保存到上卷临时表Session Table。

步骤36：将剩余会话数量配额数M自减x，将剩余标签数量n自减1。

当数据时间到达60秒，即下一分钟开始时，即可进行上卷后处理。如图4，其包含下列步骤：

步骤41：将上卷临时表Session Table中的五元组数据按五元组维度进行聚合。这是由于不同时间分片预处理可能筛选出相同的五元组，需要使用维度聚合来去重。

步骤42：针对每个时间分片进行分片后处理，保存分片后处理的会话数据至上卷临时表Aggregate Table。

步骤43：将上卷临时表Aggregate Table中的会话数据开始时间规整到分钟开始时间。

步骤44：将上卷临时表Aggregate Table中的会话数据按五元组维度聚合。这也是由于不同时间分片后处理可能提取出相同五元组的会话数据。

步骤45：将上卷临时表Aggregate Table中的会话数据转存入分钟级历史数据。

如图5，以处理0–10秒分片数据为例，分片后处理包含下列步骤：

步骤51：从秒级历史数据中提取0-10秒内五元组存在于上卷临时表Table_Session中的会话数据。

步骤52：将步骤51所得会话数据复制添加到上卷临时表Aggregate Table。

本发明还提供的一种网络会话数据TopK上卷***，所述***可以通过执行所述网络会话数据TopK上卷方法的流程步骤予以实现，即本领域技术人员可以将所述XX方法理解为所述XX***的优选实施方式。具体的，所述***包括：

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种网络会话数据TopK上卷方法，其特征在于，包括：

聚合步骤：将提取的会话数据按五元组进行聚合，存档于上卷数据表中；

所述分片预处理包括：

遍历标签列表，针对每一个标签，进行预处理单标签，在当前分片时间范围内打上该标签的会话数据；

所述预处理单标签包括：

步骤S11：根据剩余会话配额数 M ，剩余标签数量n，计算每个标签的会话数量配额m =M / n；

2.根据权利要求1所述的网络会话数据TopK上卷方法，其特征在于，所述上卷后处理包括：

步骤S21：将上卷临时表中的五元组按五元组维度进行聚合；

步骤S22：针对每个时间分片进行分片后处理；

步骤S24：将上卷临时表中的会话数据按五元组维度聚合；

3.根据权利要求2所述的网络会话数据TopK上卷方法，其特征在于，所述分片后处理包括：

4.一种网络会话数据TopK上卷***，其特征在于，包括：

聚合模块：将提取的会话数据按五元组进行聚合，存档于上卷数据表中；

所述分片预处理包括：

所述预处理单标签包括：

模块M11：根据剩余会话配额数 M ，剩余标签数量n，计算每个标签的会话数量配额m =M / n；

模块M13：将模块M12所得会话数据按流量大小进行降序排列，流量大小以处理分片时间段内总数据包长来衡量；

模块M14：将模块M13所得会话数据最多保留前m个，得到的会话数量x；

模块M15：将模块M14所得会话数据的所有五元组保存到上卷临时表；

5.根据权利要求4所述的网络会话数据TopK上卷***，其特征在于，所述上卷后处理包括：

模块M21：将上卷临时表中的五元组按五元组维度进行聚合；

模块M22：针对每个时间分片进行分片后处理；

模块M24：将上卷临时表中的会话数据按五元组维度聚合；

6.根据权利要求5所述的网络会话数据TopK上卷***，其特征在于，所述分片后处理包括：