CN111046323A - 一种基于emd的网络流量数据预处理方法 - Google Patents

一种基于emd的网络流量数据预处理方法 Download PDF

Info

Publication number
CN111046323A
CN111046323A CN201911343753.1A CN201911343753A CN111046323A CN 111046323 A CN111046323 A CN 111046323A CN 201911343753 A CN201911343753 A CN 201911343753A CN 111046323 A CN111046323 A CN 111046323A
Authority
CN
China
Prior art keywords
sequence
data
emd
imf
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911343753.1A
Other languages
English (en)
Inventor
尚立
赵炜
杨会峰
李井泉
徐珊
刘芳
董正坤
李英敏
郭少勇
徐思雅
杨杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing University of Posts and Telecommunications, Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911343753.1A priority Critical patent/CN111046323A/zh
Publication of CN111046323A publication Critical patent/CN111046323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于EMD的网络流量数据预处理方法,涉及信息通信技术领域;其采用EMD分解网络流量序列并得到EMD分解子序列,从而降低时序数据的复杂度;其通过采用EMD分解网络流量序列并得到EMD分解子序列等,实现了提升网络流量数据预处理的适用性、保持数据完整性、丰富数据特征信息。

Description

一种基于EMD的网络流量数据预处理方法
技术领域
本发明涉及信息通信技术领域,尤其涉及一种基于EMD的网络流量数据预处理方法。
背景技术
电力数据通信网中的网络流量数据反映了当前电力数据通信网中的数据流通情况,也能作为判断电力数据通信网的运行情况的一个信息基础。对单一网络流量数据进行预处理能够让其为之后的网络流量数据分析、预测、故障诊断等提供更加丰富可靠的信息,因此网络流量数据预处理具有重要的研究价值和应用前景。
网络流量数据本质上是一种时序数据,近年来,已有很多学者在时序数据预处理方面做出研究,提出了许多时序数据预处理方法。目前,用于时序数据预处理的方法包括多元时序数据互补、聚类算法等。但是由于网络流量数据序列受着多种不确定因素的影响,影响因素难以表达,网络流量序列具有的高度非线性和非平稳性的复杂特性,采用传统预处理方法容易出现处理后的数据不具有适用性、数据信息丢失等问题。
因此,如何提升网络流量数据预处理的适用性、保持数据完整性、丰富数据特征信息等是本领域技术人员需要解决的问题。
为了解现有技术的发展状况,对已有的专利和文献进行了检索、比较和分析,筛选出如下与本发明相关度比较高的技术信息:
专利方案1:201610818702.X一种多源时序数据的预处理方法和装置
该发明提供了一种多源时序数据的预处理方法和装置。所述方法包括以下步骤:多源时序数据的采集和解析步骤,分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据转换为具有统一结构的多个时序数据;数据清洗步骤,对所述具有统一结构的多个时序数据进行清洗;针对时序数据特性的预处理步骤,根据时序数据特有的属性,利用描述同一对象的多个时序数据进行相互校验和补充。本发明解决了现有技术中多源时序数据无法被彻底预处理的问题,从而能够获得更完整、可信度更高的结构化时序数据,有利于后续数据分析与预测。
专利方案2:201710158447.5基于分布式聚类的网络流量时间序列预测方法
该发明提供了一种基于分布式聚类的网络流量时间序列预测方法,其中包括了分布式聚类算法的网络流量数据预处理。所述方法包括以下步骤:通过对时序数据进行分片处理获得时间片元组,并将时间片元组使用分布式K-means聚类算法进行分布式聚类预处理,将聚类结果进行正态拟合得到正态分布,为之后进行分布式的预测时间序列做数据准备,提高网络流量时序预测的准确度。
专利方案3:201810174986.2一种时序数据预测方法、装置及设备
该发明提供了一种时序数据预测方法、装置及设备,其中包括了对时序数据的预处理方法,该方法包括:获取历史时序数据,并对所述历史时序数据进行数据清洗及数据切片,得到对应的时序数据序列;对所述时序数据序列进行平稳化操作,并采用免疫遗传特征重构算法对进行平稳化操作后的时序数据序列进行特征重构,得到对应的特征序列。该发明不同于现有技术中通过抽样方法实现数据集特征的采集,而是通过上述数据预处理、平稳化操作及特征重构等步骤保证了获取的时序数据特征的有效性,进而使得深度学习模型能够学习到时序数据的时序特征,保证了深度学习模型的预测准确性。
现有技术的缺陷:
上述专利方案1的缺陷:该方案从不同的数据源中获取多个时序数据进行处理,将原始的数据转换为相同结构的多个时序数据,再对其进行数据清洗,最后根据时序数据特有的属性进行时序数据预处理,补足时序数据的特征。此方案中,主要是采集了不同的数据源来进行处理,利用多源的时序数据来进行互补补足时序数据的特征,但是实际情况下很多时候数据难以采集,采集多源的数据更难,因此该方案的普适性不高。
上述专利方案2的缺陷:该方案提出一种基于分布式聚类的网络流量时序预处理方法。将时序数据划分为定长的时间片,并以多元组的形式进行保存,将每个时间片元组对应的下一个时间点的值同时间片多元组进行组合记为二元组,再对其进行分布式聚类,使用k-means聚类算法对时间片元组进行聚类,从而完成数据预处理为后续的预测做好数据准备。此方案中,主要采用分布式聚类算法进行数据预处理,是为了后续的正态拟合和预测修正提供数据,所以其数据预处理后的数据基本上只针对该方案,不能够推广为更普遍的网络流量数据预处理。
上述专利方案3的缺陷:该方案提供了可后续用于预测的时序数据预处理方法,首先获取历史时序数据进行数据清洗和数据切片,再对时序数据序列进行平稳化操作,并采用免疫遗传特征重构算法对进行平稳化操作后的时序数据序列进行特征重构,得到对应的特征序列。此方案中主要采用了平稳化和免疫遗传特征重构算法进行时序数据预处理,预处理方法较为复杂,并且采用了平稳化和重构的操作,在预处理过程中实际上清除了一部分的数据信息,在数据特征中并没有保留全部完整的信息。
现有技术问题及思考:
如何解决提升网络流量数据预处理的适用性、保持数据完整性、丰富数据特征信息等是本申请需要解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于EMD的网络流量数据预处理方法,其通过采用EMD分解网络流量序列并得到EMD分解子序列等,实现了提升网络流量数据预处理的适用性、保持数据完整性、丰富数据特征信息。
为解决上述技术问题,本发明所采取的技术方案是:一种基于EMD的网络流量数据预处理方法为采用EMD分解网络流量序列并得到EMD分解子序列,从而降低时序数据的复杂度。
进一步的技术方案在于:具体包括如下步骤:
S1、获取历史网络流量数据;
S2、镜像延拓网络流量数据序列,延拓后的时间序列作为EMD的原始时间序列;
S3、初始化原始时间序列,i=1;
S4、求得第i个IMF;
S5、从原序列中减去新得到的IMF分量;
S6、如果剩余序列中得的极值点数仍多于2个,则计算i=i+1,转到S4步骤,否则转到S7步骤;
S7、分解结束,剩余序列是残余分量。
进一步的技术方案在于:所述S2步骤具体包括:
S21、找出网络流量数据序列x(t)={x(t1),x(t2),…,x(tn)}的所有极大值点和极小值点,设极大值点为xM(i),i∈{1,2,…,M},对应的时间点为TM(i),i∈{1,2,…,M},设极小值点为xN(i),i∈{1,2,…,N},对应的时间为:TN(i),i∈{1,2,…,N};
S22、对序列x(t)的左端进行延拓,有以下两种情况:
(1)TM(1)<TN(1),延拓对称轴为经过TM(1)的纵轴:
TM(-i+2)=TM(i)-2TM(1),xM(-i+2)=xM(i),其中i>1;
TN(-i+1)=TN(i)-2TM(1),xN(-i+1)=xN(i);
(2)TN(1)<TM(1),延拓对称轴为经过TN(1)的纵轴:
TM(-i+1)=TM(i)-2TN(1),xM(-i+1)=xM(i);
TN(-i+2)=TM(i)-2TM(1),xN(-i+2)=xN(i),其中i>1;
S23、对序列x(t)的右端进行延拓,有以下两种情况:
(1)TM(M)<TN(N),延拓对称轴为经过TM(M)的纵轴:
TM(M+i)=2TM(M)-TM(M-i),xM(M+i)=xM(M-i);
TN(N+i)=2TM(M)-TN(N-i+1),xN(N+i)=xN(N-i+1);
(2)TN(N)<TM(M),延拓对称轴为经过TN(N)的纵轴:
TM(M+i)=2TN(N)-TM(M-i+1),xM(M+i)=xM(M-i+1);
TN(N+i)=2TN(N)-TN(N-i),xN(N+i)=xN(N-i)。
进一步的技术方案在于:所述S3步骤具体包括:初始化时间序列,r0=x(t),i=1。
进一步的技术方案在于:所述S4步骤具体包括:
S41、初始化:h0=ri-1(t),j=1;
S42、找出hj-1(t)的所有局部极大值点和局部极小值点;
S43、对hj-1(t)的全部极大和极小值点分别进行三次样条函数插值,形成上线包络线;
S44、计算上下包络线的平均值,构成平均包络线mi-1(t);
S45、用原序列减去平均包络线,得到新的一个序列:
hj(t)=hj-1(t)-mi-1(t)
S46、判断hj(t)是否满足IMF函数条件,如果满足,则hj(t)是IMF函数,imfi(t)=hj(t),否则,j=j+1,转到S42步骤。
进一步的技术方案在于:所述S5步骤具体包括:ri(t)=ri-1(t)-imfi(t)。
进一步的技术方案在于:所述S7步骤算法结束最后可验证得到:
Figure BDA0002332789460000051
即所有得IMF序列和残余分量之和为原序列。
进一步的技术方案在于:基于服务器运行该方法。
进一步的技术方案在于:服务器通过与其连接的显示器显示EMD分解子序列。
进一步的技术方案在于:服务器通过与其连接的打印机打印EMD分解子序列。
采用上述技术方案所产生的有益效果在于:
一种基于EMD的网络流量数据预处理方法为采用EMD分解网络流量序列并得到EMD分解子序列,从而降低时序数据的复杂度。其通过采用EMD分解网络流量序列并得到EMD分解子序列等,实现了提升网络流量数据预处理的适用性、保持数据完整性、丰富数据特征信息。
详见具体实施方式部分描述。
附图说明
图1是本发明的流程图;
图2是本发明中EMD分解子序列图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
在本申请的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本申请保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述做出相应解释。
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本申请保护范围的限制。
如图1所示,本发明公开了一种基于EMD的网络流量数据预处理方法为采用EMD分解网络流量序列并得到EMD分解子序列,从而降低时序数据的复杂度。
具体包括如下步骤:
S1、获取历史网络流量数据。
S2、镜像延拓网络流量数据序列,延拓后的时间序列作为EMD的原始时间序列。具体包括:
S21、找出网络流量数据序列x(t)={x(t1),x(t2),…,x(tn)}的所有极大值点和极小值点,设极大值点为xM(i),i∈{1,2,…,M},对应的时间点为TM(i),i∈{1,2,…,M},设极小值点为xN(i),i∈{1,2,…,N},对应的时间为:TN(i),i∈{1,2,…,N}。
S22、对序列x(t)的左端进行延拓,有以下两种情况:
(1)TM(1)<TN(1),延拓对称轴为经过TM(1)的纵轴:
TM(-i+2)=TM(i)-2TM(1),xM(-i+2)=xM(i),其中i>1。
TN(-i+1)=TN(i)-2TM(1),xN(-i+1)=xN(i)。
(2)TN(1)<TM(1),延拓对称轴为经过TN(1)的纵轴:
TM(-i+1)=TM(i)-2TN(1),xM(-i+1)=xM(i)。
TN(-i+2)=TM(i)-2TM(1),xN(-i+2)=xN(i),其中i>1。
S23、对序列x(t)的右端进行延拓,有以下两种情况:
(1)TM(M)<TN(N),延拓对称轴为经过TM(M)的纵轴:
TM(M+i)=2TM(M)-TM(M-i),xM(M+i)=xM(M-i)。
TN(N+i)=2TM(M)-TN(N-i+1),xN(N+i)=xN(N-i+1)。
(2)TN(N)<TM(M),延拓对称轴为经过TN(N)的纵轴:
TM(M+i)=2TN(N)-TM(M-i+1),xM(M+i)=xM(M-i+1)。
TN(N+i)=2TN(N)-TN(N-i),xN(N+i)=xN(N-i)。
S3、初始化原始时间序列,i=1。具体包括:初始化时间序列,r0=x(t),i=1。
S4、求得第i个IMF。具体包括:
S41、初始化:h0=ri-1(t),j=1。
S42、找出hj-1(t)的所有局部极大值点和局部极小值点。
S43、对hj-1(t)的全部极大和极小值点分别进行三次样条函数插值,形成上线包络线。
S44、计算上下包络线的平均值,构成平均包络线mi-1(t)。
S45、用原序列减去平均包络线,得到新的一个序列:
hj(t)=hj-1(t)-mi-1(t)
S46、判断hj(t)是否满足IMF函数条件,如果满足,则hj(t)是IMF函数,imfi(t)=hj(t),否则,j=j+1,转到S42步骤。
S5、从原序列中减去新得到的IMF分量。具体包括:ri(t)=ri-1(t)-imfi(t)。
S6、如果剩余序列中得的极值点数仍多于2个,则计算i=i+1,转到S4步骤,否则转到S7步骤。
S7、分解结束,剩余序列是残余分量。
最后可验证得到:
Figure BDA0002332789460000081
即所有得IMF序列和残余分量之和为原序列。
其中,EMD的算法、具体骤中的公式和参数本身为现有技术在此不再赘述。
本发明的目的:
网络流量数据预处理,旨在为网络规划和维护提供可靠数据,为数据分析和数据预测提供更多特征的信息。大多已有的网络流量数据预处理方法,根据网络流量数据本质上是一种时序数据的特征,采用数据补足、聚类算法、数据特征重构等方法进行数据预处理,但存在着适用性不高、步骤复杂、数据信息丢失等问题。本专利针对上述问题,提出了一种基于EMD的网络流量数据预处理方法。该方法通过对单一网络流量数据序列进行EMD分解来降低数据复杂度,丰富数据信息,具有较高的适用性。对于通常情况下的网络流量数据,其变化受着多种难以表达的因素影响,其序列具有高度非线性和非平稳性的复杂特性。为了提升网络流量数据在数据分析、数据预测等应用中的效果,本发明将信号分析领域中的EMD方法融入到网络流量数据预处理中来。本发明基于EMD的网络流量数据预处理方法,利用EMD分解将复杂多变的非线性网络流量数据分解为更为平滑的序列,在不丢失数据信息的前提下,有效降低了数据序列的复杂度,丰富了数据序列的特征信息,为之后的可能进行的分析或预测操作降低了难度。本发明旨在当前技术的基础上,克服当前技术中存在的缺陷,提升数据预处理的适用性,降低数据复杂度,丰富数据特征信息。
本发明的技术贡献:
首先,本发明需要对基于EMD的网络流量数据预处理方法中使用的变量做出说明。使用的变量如下:
r0:原始的时间序列;
hj(t):第j个子序列;
imfi(t):第i个imf序列;
ri(t):原始序列除去i个imf序列后的残余分量。
基于EMD的网络流量数据预处理方法利用EMD分解网络流量序列,降低时序数据的复杂度,丰富特征信息。依据上述定义的变量,下面结合图1详细阐述本发明的方案。
如图1所示,各步骤描述如下:
S1、获取历史网络流量数据;
S2、镜像延拓网络流量数据序列,延拓后的时间序列作为EMD的原始时间序列;
S3、初始化原始时间序列,i=1;
S4、求得第i个IMF;
S5、从原序列中减去新得到的IMF分量;
S6、如果剩余序列中得的极值点数仍多于2个,则计算i=i+1,转到S4步骤,否则转到S7步骤;
S7、分解结束,剩余序列是残余分量。
其中,定义1:本征模态函数Intrinsic Mode Function,简称IMF。IMF为满足以下要求的函数:
(1)一个本征模态函数极值点的数量必须等于与过零点的数量,或者两者的数量只相差一个。
(2)在所有的时间点上,由局部最大值定义的上包络线和由局部最小值定义的下包络线的平均值为零。
其中,步骤S2具体包括:
S21、找出网络流量数据序列x(t)={x(t1),x(t2),…,x(tn)}的所有极大值点和极小值点,设极大值点为xM(i),i∈{1,2,…,M},对应的时间点为TM(i),i∈{1,2,…,M},设极小值点为xN(i),i∈{1,2,…,N},对应的时间为:TN(i),i∈{1,2,…,N}。
S22、对序列x(t)的左端进行延拓,有以下两种情况:
(1)TM(1)<TN(1),延拓对称轴为经过TM(1)的纵轴:
TM(-i+2)=TM(i)-2TM(1),xM(-i+2)=xM(i),其中i>1;
TN(-i+1)=TN(i)-2TM(1),xN(-i+1)=xN(i)。
(2)TN(1)<TM(1),延拓对称轴为经过TN(1)的纵轴:
TM(-i+1)=TM(i)-2TN(1),xM(-i+1)=xM(i);
TN(-i+2)=TM(i)-2TM(1),xN(-i+2)=xN(i),其中i>1。
S23、对序列x(t)的右端进行延拓,有以下两种情况:
(1)TM(M)<TN(N),延拓对称轴为经过TM(M)的纵轴:
TM(M+i)=2TM(M)-TM(M-i),xM(M+i)=xM(M-i);
TN(N+i)=2TM(M)-TN(N-i+1),xN(N+i)=xN(N-i+1)。
(2)TN(N)<TM(M),延拓对称轴为经过TN(N)的纵轴:
TM(M+i)=2TN(N)-TM(M-i+1),xM(M+i)=xM(M-i+1);
TN(N+i)=2TN(N)-TN(N-i),xN(N+i)=xN(N-i)。
其中,步骤S3具体包括:初始化时间序列,r0=x(t),i=1;
其中,步骤S4具体包括:
S41、初始化:h0=ri-1(t),j=1;
S42、找出hj-1(t)的所有局部极大值点和局部极小值点;
S43、对hj-1(t)的全部极大和极小值点分别进行三次样条函数插值,形成上线包络线;
S44、计算上下包络线的平均值,构成平均包络线mi-1(t);
S45、用原序列减去平均包络线,得到新的一个序列:
hj(t)=hj-1(t)-mi-1(t)
S46、判断hj(t)是否满足IMF函数条件,如果满足,则hj(t)是IMF函数,imfi(t)=hj(t),否则,j=j+1,转到S42步骤;
其中,步骤S5具体包括:
ri(t)=ri-1(t)-imfi(t)
其中,S7算法结束最后可验证得到:
Figure BDA0002332789460000111
即所有得IMF序列和残余分量之和为原序列。
本发明的关键点:
网络流量数据预处理广泛应用于网络的各个领域,其网络流量数据序列本质上是一种非线性时间序列,但由于受着多种不确定因素的影响,具有高度不稳定性的特性,这种特性使得网络流量数据难以表达和运用,进而对未来网络的规划和维护变得困难。为此,网络流量数据预处理显得极为重要。本发明提供一种基于EMD的网络流量数据预处理方法。与已有工作相比,本发明的主要贡献在于以下几个方面:
(1)不同于以往的方法,本发明提供的网络流量预测方法结合信号分析领域中的EMD分解,目的在于将高度非线性和不稳定的网络流量序列分解为几个较为平稳的序列,降低网络流量预测的难度,使后续模型表达更为简单。
(2)本发明在数据预处理中保留了完整的网络流量数据信息,同时丰富了数据特征。
本申请保密运行一段时间后,现场技术人员反馈的有益之处在于:
本发明利用EMD分解将高度不平稳的网络流量序列分解为更为平稳的子序列,同时保证了数据信息不丢失。通过EMD分解,可以将复杂多变的网络流量数据分解为更加平稳易于表达的子序列,为后续能将处理后的数据广泛应用于数据分析、数据预测等方面提供完整、丰富、可靠的信息。
本发明实例说明:
如图2所示,本发明的实例中,收集了14776条的网络流量序列数据作为数据集,将网络流量数据的集signal(t)进行EMD分解,得到13个子序列imf1(t)、imf2(t)……imf12(t)、res(t)。

Claims (10)

1.一种基于EMD的网络流量数据预处理方法,其特征在于:采用EMD分解网络流量序列并得到EMD分解子序列,从而降低时序数据的复杂度。
2.根据权利要求1所述的一种基于EMD的网络流量数据预处理方法,其特征在于:具体包括如下步骤:
S1、获取历史网络流量数据;
S2、镜像延拓网络流量数据序列,延拓后的时间序列作为EMD的原始时间序列;
S3、初始化原始时间序列,i=1;
S4、求得第i个IMF;
S5、从原序列中减去新得到的IMF分量;
S6、如果剩余序列中得的极值点数仍多于2个,则计算i=i+1,转到S4步骤,否则转到S7步骤;
S7、分解结束,剩余序列是残余分量。
3.根据权利要求2所述的一种基于EMD的网络流量数据预处理方法,其特征在于:所述S2步骤具体包括:
S21、找出网络流量数据序列x(t)={x(t1),x(t2),…,x(tn)}的所有极大值点和极小值点,设极大值点为xM(i),i∈{1,2,…,M},对应的时间点为TM(i),i∈{1,2,…,M},设极小值点为xN(i),i∈{1,2,…,N},对应的时间为:TN(i),i∈{1,2,…,N};
S22、对序列x(t)的左端进行延拓,有以下两种情况:
(1)TM(1)<TN(1),延拓对称轴为经过TM(1)的纵轴:
TM(-i+2)=TM(i)-2TM(1),xM(-i+2)=xM(i),其中i>1;
TN(-i+1)=TN(i)-2TM(1),xN(-i+1)=xN(i);
(2)TN(1)<TM(1),延拓对称轴为经过TN(1)的纵轴:
TM(-i+1)=TM(i)-2TN(1),xM(-i+1)=xM(i);
TN(-i+2)=TM(i)-2TM(1),xN(-i+2)=xN(i),其中i>1;
S23、对序列x(t)的右端进行延拓,有以下两种情况:
(1)TM(M)<TN(N),延拓对称轴为经过TM(M)的纵轴:
TM(M+i)=2TM(M)-TM(M-i),xM(M+i)=xM(M-i);
TN(N+i)=2TM(M)-TN(N-i+1),xN(N+i)=xN(N-i+1);
(2)TN(N)<TM(M),延拓对称轴为经过TN(N)的纵轴:
TM(M+i)=2TN(N)-TM(M-i+1),xM(M+i)=xM(M-i+1);
TN(N+i)=2TN(N)-TN(N-i),xN(N+i)=xN(N-i)。
4.根据权利要求2所述的一种基于EMD的网络流量数据预处理方法,其特征在于:所述S3步骤具体包括:初始化时间序列,r0=x(t),i=1。
5.根据权利要求2所述的一种基于EMD的网络流量数据预处理方法,其特征在于:所述S4步骤具体包括:
S41、初始化:h0=ri-1(t),j=1;
S42、找出hj-1(t)的所有局部极大值点和局部极小值点;
S43、对hj-1(t)的全部极大和极小值点分别进行三次样条函数插值,形成上线包络线;
S44、计算上下包络线的平均值,构成平均包络线mi-1(t);
S45、用原序列减去平均包络线,得到新的一个序列:
hj(t)=hj-1(t)-mi-1(t)
S46、判断hj(t)是否满足IMF函数条件,如果满足,则hj(t)是IMF函数,imfi(t)=hj(t),否则,j=j+1,转到S42步骤。
6.根据权利要求2所述的一种基于EMD的网络流量数据预处理方法,其特征在于:所述S5步骤具体包括:ri(t)=ri-1(t)-imfi(t)。
7.根据权利要求2所述的一种基于EMD的网络流量数据预处理方法,其特征在于:所述S7步骤算法结束最后可验证得到:
Figure FDA0002332789450000021
即所有得IMF序列和残余分量之和为原序列。
8.根据权利要求1~7中任意一项所述的一种基于EMD的网络流量数据预处理方法,其特征在于:基于服务器运行该方法。
9.根据权利要求8所述的一种基于EMD的网络流量数据预处理方法,其特征在于:服务器通过与其连接的显示器显示EMD分解子序列。
10.根据权利要求8所述的一种基于EMD的网络流量数据预处理方法,其特征在于:服务器通过与其连接的打印机打印EMD分解子序列。
CN201911343753.1A 2019-12-24 2019-12-24 一种基于emd的网络流量数据预处理方法 Pending CN111046323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911343753.1A CN111046323A (zh) 2019-12-24 2019-12-24 一种基于emd的网络流量数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911343753.1A CN111046323A (zh) 2019-12-24 2019-12-24 一种基于emd的网络流量数据预处理方法

Publications (1)

Publication Number Publication Date
CN111046323A true CN111046323A (zh) 2020-04-21

Family

ID=70238654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911343753.1A Pending CN111046323A (zh) 2019-12-24 2019-12-24 一种基于emd的网络流量数据预处理方法

Country Status (1)

Country Link
CN (1) CN111046323A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103941091A (zh) * 2014-04-25 2014-07-23 福州大学 基于改进emd端点效应的电力***hht谐波检测方法
WO2017144007A1 (zh) * 2016-02-25 2017-08-31 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及***
CN107908863A (zh) * 2017-11-14 2018-04-13 哈尔滨理工大学 一种基于emd理论与hht变换的水轮机运转状态判定方法
CN109802862A (zh) * 2019-03-26 2019-05-24 重庆邮电大学 一种基于集合经验模态分解的组合型网络流量预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103941091A (zh) * 2014-04-25 2014-07-23 福州大学 基于改进emd端点效应的电力***hht谐波检测方法
WO2017144007A1 (zh) * 2016-02-25 2017-08-31 深圳创维数字技术有限公司 一种基于经验模态分解的音频识别方法及***
CN107908863A (zh) * 2017-11-14 2018-04-13 哈尔滨理工大学 一种基于emd理论与hht变换的水轮机运转状态判定方法
CN109802862A (zh) * 2019-03-26 2019-05-24 重庆邮电大学 一种基于集合经验模态分解的组合型网络流量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢萍: "EMD端点问题的研究及HHT理论的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 05, pages 2 - 3 *

Similar Documents

Publication Publication Date Title
Kruiger et al. Graph Layouts by t‐SNE
Adel et al. Discovering interpretable representations for both deep generative and discriminative models
Wang et al. ProgFed: Effective, communication, and computation efficient federated learning by progressive training
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及***
DE102022201746A1 (de) Verwaltung von rechenzentren mit maschinellem lernen
Bhamidi et al. Change point detection in network models: Preferential attachment and long range dependence
Berkolaiko et al. No quantum ergodicity for star graphs
Wang et al. An encrypted traffic classification framework based on convolutional neural networks and stacked autoencoders
CN111914166B (zh) 应用于社区矫正人员的矫正策略个性化推荐***
CN108121962A (zh) 基于非负自适应特征提取的人脸识别方法、装置及设备
CN114418129A (zh) 一种深度学习模型训练方法及相关装置
Lin et al. Fedcluster: A federated learning framework for cross-device private ecg classification
Lu et al. Soft-orthogonal constrained dual-stream encoder with self-supervised clustering network for brain functional connectivity data
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111046323A (zh) 一种基于emd的网络流量数据预处理方法
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
Elidan Bagged structure learning of bayesian network
CN112905845B (zh) 离散智能制造应用的多源非结构化数据清洗方法
Wang et al. GTC forest: an ensemble method for network structured data classification
CN115392302A (zh) 一种基于融合图卷积网络的脑电情绪识别方法
CN114692867A (zh) 一种结合高阶结构和注意力机制的网络表示学习算法
CN114169433A (zh) 一种基于联邦学习+图学习+cnn的工业故障预测方法
Zhang et al. Improved graph convolutional neural networks based on Granger causality analysis for EEG emotion recognition
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
Bachem Sampling for large-scale clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421