CN115914146B - 网络会话数据TopK上卷方法及*** - Google Patents
网络会话数据TopK上卷方法及*** Download PDFInfo
- Publication number
- CN115914146B CN115914146B CN202211633304.2A CN202211633304A CN115914146B CN 115914146 B CN115914146 B CN 115914146B CN 202211633304 A CN202211633304 A CN 202211633304A CN 115914146 B CN115914146 B CN 115914146B
- Authority
- CN
- China
- Prior art keywords
- session data
- session
- module
- data
- slicing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000005096 rolling process Methods 0.000 title claims abstract description 26
- 101100481876 Danio rerio pbk gene Proteins 0.000 title claims abstract description 19
- 101100481878 Mus musculus Pbk gene Proteins 0.000 title claims abstract description 19
- 238000011282 treatment Methods 0.000 claims abstract description 19
- 238000004804 winding Methods 0.000 claims abstract description 17
- 230000004931 aggregating effect Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 8
- 239000012634 fragment Substances 0.000 claims abstract description 4
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000012805 post-processing Methods 0.000 claims description 8
- 238000013467 fragmentation Methods 0.000 claims description 7
- 238000006062 fragmentation reaction Methods 0.000 claims description 7
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000000379 polymerizing effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种网络会话数据TopK上卷方法及***,包括:分片拆分步骤:对上卷计算过程按时间进行分片拆分,得到多个时间分片;预处理步骤:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;后处理步骤:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;聚合步骤:将提取的会话数据按五元组进行聚合,存档于上卷数据表中。本发明只针对用户定义匹配规则并打上标签的网络会话进行上卷,避免全量上卷大量无用会话数据。
Description
技术领域
本发明涉及数据处理领域,具体地,涉及一种网络会话数据TopK上卷方法及***。
背景技术
在网络性能管理***(NPM)中,除了要对网络会话数据进行实时分析并存储,还需要定期对历史数据按时间进行上卷,一方面是为了减少磁盘占用空间,另一方面是为了减少查询数据量以缩短查询响应时间。
通常的上卷做法是,在秒级网络会话历史数据中,将一分钟网络会话开始时间从秒规整到分钟,然后对同一分钟的相同会话进行统计汇总,最后存储为分钟级数据。随着网络应用的普及,对网络性能管理***的性能要求变得越来越高。从10Gbps、40Gbps,上升到100Gbps、1000Gbps,存储的历史数据规模越来越大,导致上卷处理耗时越来越长,无法达到查询的实时性要求,甚至出现内存不够上卷程序崩溃的现象。综上所述,现有技术存在的问题主要有两点:上卷数据量大,单一步骤处理耗费内存峰值高,需要寻找一种分片处理的途径。用户在高时间颗粒度范围内通常只关心部分流量较高的会话,全量上卷会包含大量用户不关心的小流量会话,浪费计算和存储资源。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种网络会话数据TopK上卷方法及***。
根据本发明提供的一种网络会话数据TopK上卷方法,包括:
分片拆分步骤:对上卷计算过程按时间进行分片拆分,得到多个时间分片;
预处理步骤:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;
后处理步骤:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;
聚合步骤:将提取的会话数据按五元组进行聚合,存档于上卷数据表中。
优选地,所述分片预处理包括:
遍历标签列表,针对每一个标签,进行预处理单标签,在当前分片时间范围内打上该标签的会话数据。
优选地,所述预处理单标签包括:
步骤S11:根据剩余会话配额数M,剩余标签数量n,计算每个标签的会话数量配额m=M/n;
步骤S12:从原始级历史数据中查询打上标签Tag X的所有会话数据;
步骤S13:将步骤2所得会话数据按流量大小进行降序排列,流量大小以处理分片时间段内总数据包长来衡量;
步骤S14:将步骤3所得会话数据最多保留前m个,得到的会话数量x;
步骤S15:将步骤4所得会话数据的所有五元组保存到上卷临时表;
步骤S16:将剩余会话数量配额数M自减x,将剩余标签数量n自减1。
优选地,所述上卷后处理包括:
步骤S21:将上卷临时表中的五元组按五元组维度进行聚合;
步骤S22:针对每个时间分片进行分片后处理;
步骤S23:将上卷临时表中的会话数据开始时间规整到目标级开始时间;
步骤S24:将上卷临时表中的会话数据按五元组维度聚合;
步骤S25:将上卷临时表中的会话数据转存入目标级历史数据。
优选地,所述分片后处理包括:
步骤S31:从原始级历史数据中提取预设时间范围内五元组存在于上卷临时表中的会话数据;
步骤S32:将步骤S31得到的所述会话数据复制添加到上卷临时表。
根据本发明提供的一种网络会话数据TopK上卷***,包括:
分片拆分模块:对上卷计算过程按时间进行分片拆分,得到多个时间分片;
预处理模块:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;
后处理模块:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;
聚合模块:将提取的会话数据按五元组进行聚合,存档于上卷数据表中。
优选地,所述分片预处理包括:
遍历标签列表,针对每一个标签,进行预处理单标签,在当前分片时间范围内打上该标签的会话数据。
优选地,所述预处理单标签包括:
模块M11:根据剩余会话配额数M,剩余标签数量n,计算每个标签的会话数量配额m=M/n;
模块M12:从原始级历史数据中查询打上标签Tag X的所有会话数据;
模块M13:将模块2所得会话数据按流量大小进行降序排列,流量大小以处理分片时间段内总数据包长来衡量;
模块M14:将模块3所得会话数据最多保留前m个,得到的会话数量x;
模块M15:将模块4所得会话数据的所有五元组保存到上卷临时表;
模块M16:将剩余会话数量配额数M自减x,将剩余标签数量n自减1。
优选地,所述上卷后处理包括:
模块M21:将上卷临时表中的五元组按五元组维度进行聚合;
模块M22:针对每个时间分片进行分片后处理;
模块M23:将上卷临时表中的会话数据开始时间规整到目标级开始时间;
模块M24:将上卷临时表中的会话数据按五元组维度聚合;
模块M25:将上卷临时表中的会话数据转存入目标级历史数据。
优选地,所述分片后处理包括:
模块M31:从原始级历史数据中提取预设时间范围内五元组存在于上卷临时表中的会话数据;
模块M32:将模块M31得到的所述会话数据复制添加到上卷临时表。
与现有技术相比,本发明具有如下的有益效果:
1、本发明只针对用户定义匹配规则并打上标签的网络会话进行上卷,避免全量上卷大量无用会话数据。
2、本发明对需上卷的会话数据按流量大小降序排序,丢弃较小流量的会话数据,进一步缩小上卷数据规模。
3、本发明将上卷步骤拆分为多个子步骤,每个子步骤仅处理上卷时间跨度中的一部分数据,降低每次处理对内存的消耗。以1分钟按10秒分片来算,峰值内存理论上能降低到单一步骤的1/6。
4、本发明虽然在每个时间分片取TopK会话,但最终获得的上卷会话不会因某几个分片没有排入前TopK而少数据。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为上卷总体流程图;
图2为分片预处理流程图;
图3为预处理单标签流程图;
图4为上卷后处理流程图;
图5为分片后处理流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明通过对上卷计算过程按时间进行分片拆分,先对每个时间分片进行预处理,筛选提取打上标签的高流量网络会话五元组。所有分片会话五元组筛选完成后,再对每个时间分片进行后处理,提取存在于筛选五元组中的会话数据。最后将提取的会话数据按五元组进行聚合,最终存档于上卷数据表中。
本发明依赖待上卷历史会话数据已打上标签。标签是由用户根据会话的网络属性匹配规则定义,包括五元组、IP Protocol、Vlan等。网络流量实时处理***需要对会话打上匹配对应规则的标签后一起存入历史数据。
本发明依赖下列配置项:
1.上卷会话数据量配额M,相当于通常TopK算法中的K值。
2.标签列表。
本发明的一种网络会话数据TopK上卷方法,包括:
分片拆分步骤:对上卷计算过程按时间进行分片拆分,得到多个时间分片;
预处理步骤:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;
后处理步骤:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;
聚合步骤:将提取的会话数据按五元组进行聚合,存档于上卷数据表中。
参考图1:以上卷0-60秒秒级数据到分钟级数据为例,本方法总体包含下列步骤:
步骤1:在数据时间每一个10秒到达后,对最后的10秒分片进行分片预处理。
步骤2:在数据时间到达60秒后,进行上卷后处理。
参考图2:分片预处理每一个时间分片包含下列步骤:
步骤21:遍历标签列表,针对每一个标签,进行预处理单标签,即预处理当前分片时间范围内打上该标签的会话数据。
参考图3:假设当前处理标签为Tag X,当前剩余会话数量配额数为M,当前剩余标签数量为n,预处理单标签包含下列步骤:
步骤31:根据剩余会话配额数M,剩余标签数量n,计算每标签会话数量配额m=M/n。
步骤32:从秒级历史数据中查询打上标签Tag X的所有会话。
步骤33:将步骤32所得会话数据按流量大小进行降序排列。流量大小以处理分片时间段内总数据包长来衡量。
步骤34:将步骤33所得会话数据最多保留前m个,得到保留的会话数量x。由于步骤33所得的会话数据可能大于m个,也可能小于m个,所以实际保留的会话数量x≤m。
步骤35:将步骤34所得会话数据的所有五元组保存到上卷临时表Session Table。
步骤36:将剩余会话数量配额数M自减x,将剩余标签数量n自减1。
当数据时间到达60秒,即下一分钟开始时,即可进行上卷后处理。如图4,其包含下列步骤:
步骤41:将上卷临时表Session Table中的五元组数据按五元组维度进行聚合。这是由于不同时间分片预处理可能筛选出相同的五元组,需要使用维度聚合来去重。
步骤42:针对每个时间分片进行分片后处理,保存分片后处理的会话数据至上卷临时表Aggregate Table。
步骤43:将上卷临时表Aggregate Table中的会话数据开始时间规整到分钟开始时间。
步骤44:将上卷临时表Aggregate Table中的会话数据按五元组维度聚合。这也是由于不同时间分片后处理可能提取出相同五元组的会话数据。
步骤45:将上卷临时表Aggregate Table中的会话数据转存入分钟级历史数据。
如图5,以处理0–10秒分片数据为例,分片后处理包含下列步骤:
步骤51:从秒级历史数据中提取0-10秒内五元组存在于上卷临时表Table_Session中的会话数据。
步骤52:将步骤51所得会话数据复制添加到上卷临时表Aggregate Table。
本发明还提供的一种网络会话数据TopK上卷***,所述***可以通过执行所述网络会话数据TopK上卷方法的流程步骤予以实现,即本领域技术人员可以将所述XX方法理解为所述XX***的优选实施方式。具体的,所述***包括:
分片拆分模块:对上卷计算过程按时间进行分片拆分,得到多个时间分片;
预处理模块:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;
后处理模块:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;
聚合模块:将提取的会话数据按五元组进行聚合,存档于上卷数据表中。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (6)
1.一种网络会话数据TopK上卷方法,其特征在于,包括:
分片拆分步骤:对上卷计算过程按时间进行分片拆分,得到多个时间分片;
预处理步骤:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;
后处理步骤:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;
聚合步骤:将提取的会话数据按五元组进行聚合,存档于上卷数据表中;
所述分片预处理包括:
遍历标签列表,针对每一个标签,进行预处理单标签,在当前分片时间范围内打上该标签的会话数据;
所述预处理单标签包括:
步骤S11:根据剩余会话配额数 M ,剩余标签数量n,计算每个标签的会话数量配额m =M / n;
步骤S12:从原始级历史数据中查询打上标签Tag X的所有会话数据;
步骤S13:将步骤2所得会话数据按流量大小进行降序排列,流量大小以处理分片时间段内总数据包长来衡量;
步骤S14:将步骤3所得会话数据最多保留前m个,得到的会话数量x;
步骤S15:将步骤4所得会话数据的所有五元组保存到上卷临时表;
步骤S16:将剩余会话数量配额数M自减x,将剩余标签数量n自减1。
2.根据权利要求1所述的网络会话数据TopK上卷方法,其特征在于,所述上卷后处理包括:
步骤S21:将上卷临时表中的五元组按五元组维度进行聚合;
步骤S22:针对每个时间分片进行分片后处理;
步骤S23:将上卷临时表中的会话数据开始时间规整到目标级开始时间;
步骤S24:将上卷临时表中的会话数据按五元组维度聚合;
步骤S25:将上卷临时表中的会话数据转存入目标级历史数据。
3.根据权利要求2所述的网络会话数据TopK上卷方法,其特征在于,所述分片后处理包括:
步骤S31:从原始级历史数据中提取预设时间范围内五元组存在于上卷临时表中的会话数据;
步骤S32:将步骤S31得到的所述会话数据复制添加到上卷临时表。
4.一种网络会话数据TopK上卷***,其特征在于,包括:
分片拆分模块:对上卷计算过程按时间进行分片拆分,得到多个时间分片;
预处理模块:对每个时间分片进行分片预处理,筛选提取网络会话的五元组;
后处理模块:在所有时间分片分片预处理完成后,对每个时间分片进行上卷后处理,提取存在于筛选出来的高流量网络会话的五元组中的会话数据;
聚合模块:将提取的会话数据按五元组进行聚合,存档于上卷数据表中;
所述分片预处理包括:
遍历标签列表,针对每一个标签,进行预处理单标签,在当前分片时间范围内打上该标签的会话数据;
所述预处理单标签包括:
模块M11:根据剩余会话配额数 M ,剩余标签数量n,计算每个标签的会话数量配额m =M / n;
模块M12:从原始级历史数据中查询打上标签Tag X的所有会话数据;
模块M13:将模块M12所得会话数据按流量大小进行降序排列,流量大小以处理分片时间段内总数据包长来衡量;
模块M14:将模块M13所得会话数据最多保留前m个,得到的会话数量x;
模块M15:将模块M14所得会话数据的所有五元组保存到上卷临时表;
模块M16:将剩余会话数量配额数M自减x,将剩余标签数量n自减1。
5.根据权利要求4所述的网络会话数据TopK上卷***,其特征在于,所述上卷后处理包括:
模块M21:将上卷临时表中的五元组按五元组维度进行聚合;
模块M22:针对每个时间分片进行分片后处理;
模块M23:将上卷临时表中的会话数据开始时间规整到目标级开始时间;
模块M24:将上卷临时表中的会话数据按五元组维度聚合;
模块M25:将上卷临时表中的会话数据转存入目标级历史数据。
6.根据权利要求5所述的网络会话数据TopK上卷***,其特征在于,所述分片后处理包括:
模块M31:从原始级历史数据中提取预设时间范围内五元组存在于上卷临时表中的会话数据;
模块M32:将模块M31得到的所述会话数据复制添加到上卷临时表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211633304.2A CN115914146B (zh) | 2022-12-19 | 2022-12-19 | 网络会话数据TopK上卷方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211633304.2A CN115914146B (zh) | 2022-12-19 | 2022-12-19 | 网络会话数据TopK上卷方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115914146A CN115914146A (zh) | 2023-04-04 |
CN115914146B true CN115914146B (zh) | 2024-05-14 |
Family
ID=86489833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211633304.2A Active CN115914146B (zh) | 2022-12-19 | 2022-12-19 | 网络会话数据TopK上卷方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115914146B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017062288A1 (en) * | 2015-10-07 | 2017-04-13 | Oracle International Corporation | Relational database organization for sharding |
CN106933920A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 会话的筛选方法和装置 |
WO2020001518A1 (zh) * | 2018-06-27 | 2020-01-02 | 华为技术有限公司 | 一种通信方法及其装置 |
CN112311656A (zh) * | 2020-02-14 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 消息聚合、展示方法、装置、电子设备和计算机可读介质 |
CN113242151A (zh) * | 2021-06-04 | 2021-08-10 | 上海天旦网络科技发展有限公司 | 基于海量网络数据的特定数据提取方法和*** |
-
2022
- 2022-12-19 CN CN202211633304.2A patent/CN115914146B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017062288A1 (en) * | 2015-10-07 | 2017-04-13 | Oracle International Corporation | Relational database organization for sharding |
CN106933920A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 会话的筛选方法和装置 |
WO2020001518A1 (zh) * | 2018-06-27 | 2020-01-02 | 华为技术有限公司 | 一种通信方法及其装置 |
CN112311656A (zh) * | 2020-02-14 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 消息聚合、展示方法、装置、电子设备和计算机可读介质 |
CN113242151A (zh) * | 2021-06-04 | 2021-08-10 | 上海天旦网络科技发展有限公司 | 基于海量网络数据的特定数据提取方法和*** |
Non-Patent Citations (1)
Title |
---|
基于多策略的短文本信息流会话抽取;李天彩;王波;席耀一;;计算机应用研究;20161231(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115914146A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113297183B (zh) | 一种时间窗口的告警分析方法及装置 | |
CN106407190A (zh) | 一种事件记录查询方法及装置 | |
US20170046447A1 (en) | Information Category Obtaining Method and Apparatus | |
CN111143158B (zh) | 一种监控数据实时存储方法、***、电子设备及存储介质 | |
CN106909554B (zh) | 一种数据库文本表数据的加载方法及装置 | |
CN106202280B (zh) | 一种信息处理方法及服务器 | |
CN109710612A (zh) | 向量索引的召回方法、装置、电子设备和存储介质 | |
CN111984433A (zh) | 业务数据处理方法、展示方法、装置、电子设备及介质 | |
CN114223189B (zh) | 时长统计方法、装置、电子设备和计算机可读介质 | |
CN112131005B (zh) | 一种资源调整策略确定方法和装置 | |
CN104102646B (zh) | 数据处理的方法、装置及*** | |
CN115858180B (zh) | 一种时间切片方法、装置及电子设备 | |
CN115914146B (zh) | 网络会话数据TopK上卷方法及*** | |
CN108874930A (zh) | 文件属性信息统计方法、装置、***、设备及存储介质 | |
CN115291806A (zh) | 一种处理方法、装置、电子设备及存储介质 | |
CN113472858B (zh) | 埋点数据处理方法、装置及电子设备 | |
CN107632926B (zh) | 业务数量统计方法、装置、设备及计算机可读存储介质 | |
CN114064204A (zh) | 一种微服务环境下基于业务预测动态扩容的方法 | |
CN109150819B (zh) | 一种攻击识别方法及其识别*** | |
CN110928636A (zh) | 虚拟机热迁移方法、装置和设备 | |
CN117076195A (zh) | 参数的调整方法、装置、存储介质及电子装置 | |
CN112256734A (zh) | 一种大数据处理方法、装置、***、设备和存储介质 | |
CN108664322A (zh) | 数据处理方法及*** | |
CN110019054B (zh) | 日志去重方法和***、内容分发网络*** | |
EP3651464A1 (en) | Data encoding method and apparatus, terminal device and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |