CN113010500A - 用于dpi数据的处理方法和处理*** - Google Patents
用于dpi数据的处理方法和处理*** Download PDFInfo
- Publication number
- CN113010500A CN113010500A CN201911305426.7A CN201911305426A CN113010500A CN 113010500 A CN113010500 A CN 113010500A CN 201911305426 A CN201911305426 A CN 201911305426A CN 113010500 A CN113010500 A CN 113010500A
- Authority
- CN
- China
- Prior art keywords
- data
- dpi
- time period
- dpi data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 68
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000015654 memory Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Complex Calculations (AREA)
Abstract
本公开提供了一种用于DPI数据的处理方法和处理***,涉及数据处理领域。该处理方法包括:检测得到缺失DPI数据的第一时间段;获取与第一时间段相邻的第二时间段的DPI数据;将第二时间段的DPI数据输入到DPI数据补全模型单元;以及DPI数据补全模型单元基于第二时间段的DPI数据生成第一时间段的缺失的DPI数据。本公开实现了对缺失的DPI数据的补全,减少用户使用数据时所受到的数据缺失的影响。
Description
技术领域
本公开涉及数据处理领域,特别涉及一种用于DPI数据的处理方法和处理***。
背景技术
随着互联网技术和数据技术的蓬勃发展,目前各大互联网公司已经拥有PB(petabyte,拍字节)级数据存量,百TB(terabyte,太字节)级数据日增量。数据作为数据服务产品的原材料,是各大公司的重要资产。因此,保障数据稳定性及可用性是数据运营的一项核心工作。DPI(Deep Packet Inspection,深度包检测)数据是量级非常大的一种数据。在进行数据传输的过程中,可能会由于网络波动、资源负载或源数据异常等不可控因素,导致DPI数据缺失的问题,为后续使用带来难度。
发明内容
本公开解决的一个技术问题是:提供一种用于DPI数据的处理方法,以对缺失的DPI数据实现补全。
根据本公开的一个方面,提供了一种用于深度包检测DPI数据的处理方法,包括:检测得到缺失DPI数据的第一时间段;获取与所述第一时间段相邻的第二时间段的DPI数据;将所述第二时间段的DPI数据输入到DPI数据补全模型单元;以及所述DPI数据补全模型单元基于所述第二时间段的DPI数据生成所述第一时间段的缺失的DPI数据。
在一些实施例中,在检测得到缺失DPI数据的第一时间段之前,所述处理方法还包括:获取样本时间段的样本DPI数据;以及将所述样本DPI数据输入到所述DPI数据补全模型单元以对所述DPI数据补全模型单元进行训练。
在一些实施例中,对所述DPI数据补全模型单元进行训练的步骤包括:对所述样本DPI数据进行预处理,并将经过所述预处理后的样本DPI数据依次输入到卷积层、修正线性单元层、池化层和全连接层进行处理,以得到所述样本DPI数据的特征数据;将所述样本DPI数据的特征数据输入到生成式对抗网络GAN的判别器中;将随机值输入到所述GAN的生成器中;所述生成器对所述随机值进行计算以生成随机特征数据,将所述随机特征数据输入到所述判别器中;以及所述判别器对所述样本DPI数据的特征数据和所述随机特征数据进行对比并判定以获得判定结果;当所述判定结果没有在预定范围内时,所述判别器确定当前的DPI数据补全模型单元没有达到最优状态,并将所述判定结果返回给所述生成器,使得所述生成器生成下一个随机特征数据;当所述判定结果在所述预定范围内时,所述判别器确定当前的DPI数据补全模型单元达到最优状态。
在一些实施例中,所述预定范围为0.45至0.55。
在一些实施例中,所述生成器生成随机特征数据的步骤包括:所述生成器基于所述随机值生成初始时间段的数据序列,并以预设时间段作为递增时间段,相应地逐渐增加所述数据序列,直到增加到具有与所述样本时间段的长度相等的时间段的数据序列,即为所述随机特征数据,并利用遗忘门获取随机特征数据的时间信息。
在一些实施例中,所述预处理包括:去除缺失值处理、降维处理、归一化处理和向量编码处理中的至少一个。
根据本公开的另一个方面,提供了一种用于DPI数据的处理***,包括:获取单元,用于检测得到缺失DPI数据的第一时间段,获取与所述第一时间段相邻的第二时间段的DPI数据,并将所述第二时间段的DPI数据输入到DPI数据补全模型单元;以及所述DPI数据补全模型单元,用于基于所述第二时间段的DPI数据生成所述第一时间段的缺失的DPI数据。
在一些实施例中,所述获取单元还用于获取样本时间段的样本DPI数据,并将所述样本DPI数据输入到所述DPI数据补全模型单元;所述DPI数据补全模型单元还用于基于样本DPI数据进行训练。
在一些实施例中,所述DPI数据补全模型单元包括:数据处理模块,用于对所述样本DPI数据进行预处理,并将经过所述预处理后的样本DPI数据依次输入到卷积层、修正线性单元层、池化层和全连接层进行处理,以得到所述样本DPI数据的特征数据;并将所述样本DPI数据的特征数据输入到生成式对抗网络GAN的判别器中;以及所述GAN,包括生成器和判别器;其中,所述生成器用于接收随机值,对所述随机值进行计算以生成随机特征数据,并将所述随机特征数据输入到所述判别器中;所述判别器用于对所述样本DPI数据的特征数据和所述随机特征数据进行对比并判定以获得判定结果;当所述判定结果没有在预定范围内时,确定当前的DPI数据补全模型单元没有达到最优状态,并将所述判定结果返回给所述生成器,使得所述生成器生成下一个随机特征数据;当所述判定结果在所述预定范围内时,确定当前的DPI数据补全模型单元达到最优状态。
在一些实施例中,所述预定范围为0.45至0.55。
在一些实施例中,所述生成器用于基于所述随机值生成初始时间段的数据序列,并以预设时间段作为递增时间段,相应地逐渐增加所述数据序列,直到增加到具有与所述样本时间段的长度相等的时间段的数据序列,即为所述随机特征数据,并利用遗忘门获取随机特征数据的时间信息。
在一些实施例中,所述预处理包括:去除缺失值处理、降维处理、归一化处理和向量编码处理中的至少一个。
根据本公开的另一个方面,提供了一种用于DPI数据的处理***,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如前所述的方法。
根据本公开的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如前所述的方法的步骤。
在处理方法中,检测得到缺失DPI数据的第一时间段;获取与该第一时间段相邻的第二时间段的DPI数据;将第二时间段的DPI数据输入到DPI数据补全模型单元;以及DPI数据补全模型单元基于第二时间段的DPI数据生成第一时间段的缺失的DPI数据。该处理方法实现了对缺失的DPI数据的补全,减少用户使用数据时所受到的数据缺失的影响。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是示出根据本公开一些实施例的用于DPI数据的处理方法的流程图;
图2是示出根据本公开一些实施例的缺失DPI数据的示意图;
图3是示出根据本公开一些实施例的对DPI数据补全模型单元进行训练的方法的流程图;
图4是示出根据本公开一些实施例的用于DPI数据的处理***的结构示意图;
图5是示出根据本公开另一些实施例的用于DPI数据的处理***的结构示意图;
图6是示出根据本公开另一些实施例的用于DPI数据的处理***的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1是示出根据本公开一些实施例的用于DPI数据的处理方法的流程图。如图1所示,该处理方法可以包括步骤S102至S108。
在步骤S102,检测得到缺失DPI数据的第一时间段。
图2是示出根据本公开一些实施例的缺失DPI数据的示意图。例如,如图2所示,在一段时间的DPI数据中,缺失第一时间段的DPI数据,可以检测获得该缺失DPI数据的第一时间段。
回到图1,在步骤S104,获取与第一时间段相邻的第二时间段的DPI数据。
例如,如图2所示,具有DPI数据的第二时间段与第一时间段相邻。在一些实施例中,如图2所示,该第二时间段可以在该第一时间段之前。在另一些实施例中,该第二时间段可以在该第一时间段之后。在另一些实施例中,该第二时间段可以在该第一时间段两侧,即,第二时间段可以分成两部分:一部分在该第一时间段之前,另一部分在该第一时间段之后。不管哪种情况,该第二时间段都与第一时间段相邻。在该步骤中,可以获取该第二时间段的DPI数据。
在步骤S106,将第二时间段的DPI数据输入到DPI数据补全模型单元。该DPI数据补全模型单元为已经利用样本数据经过训练的模型。
在步骤S108,DPI数据补全模型单元基于第二时间段的DPI数据生成第一时间段的缺失的DPI数据。
例如,第一时间段为某一天,第二时间段为该某一天的前30天,则DPI数据补全模型单元可以基于前30天的DPI数据生成该某一天的缺失的DPI数据。
至此,提供了根据本公开一些实施例的用于DPI数据的处理方法。该处理方法包括:检测得到缺失DPI数据的第一时间段;获取与该第一时间段相邻的第二时间段的DPI数据;将第二时间段的DPI数据输入到DPI数据补全模型单元;以及DPI数据补全模型单元基于第二时间段的DPI数据生成第一时间段的缺失的DPI数据。该处理方法实现了对缺失的DPI数据的补全,减少用户使用数据时所受到的数据缺失的影响。
上述处理方法有利于DPI数据的抗波动,为后端用户提供技术数据。该方法基于电信访问类大量数据进行挖掘分析,多维度进行数据补全,减少用户使用数据时所受到的数据缺失的影响。
在一些实施例中,在步骤S102之前,所述处理方法还可以包括:获取样本时间段的样本DPI数据;以及将该样本DPI数据输入到DPI数据补全模型单元以对DPI数据补全模型单元进行训练。通过训练,可以得到达到最优状态的DPI数据补全模型单元,从而有利于实现对缺失的DPI数据的补全。
图3是示出根据本公开一些实施例的对DPI数据补全模型单元进行训练的方法的流程图。下面结合图3详细描述对DPI数据补全模型单元进行训练的过程。如图3所示,该方法可以包括步骤S302至S314。
在步骤S302,对样本DPI数据进行预处理,并将经过预处理后的样本DPI数据依次输入到卷积层、修正线性单元(Rectified Linear Unit,简称为ReLU)层、池化层和全连接层进行处理,以得到样本DPI数据的特征数据。例如,该样本DPI数据可以是30天(作为样本时间段)的DPI数据。在一些实施例中,样本DPI数据可以以数据矩阵的形式体现。
在一些实施例中,上述预处理可以包括:去除缺失值处理、降维处理、归一化处理和向量编码处理中的至少一个。这些预处理方式可以采用本领域技术人员已知的方式执行,因此这里不再详细描述。
下面分别介绍卷积层、ReLU层、池化层和全连接层。
卷积层:卷积神经网络的参数是由一些可学习的滤波器集合构成的,每个滤波器在空间上(例如,宽度和高度)都比较小,但是深度和输入数据的深度保持一致。
Relu层:Relu层是一个激活函数,可以增加网络的非线性分割能力。
池化层:通常会在卷积层之间周期性地***池化层,其作用是逐渐降低数据体的空间尺寸,这样能够减少网络中参数的数量,减少计算资源耗费,同时也能够有效地控制过拟合。
全连接层:全连接层的每个神经元与前一层所有的神经元全部连接,而卷积神经网络(Convolutional Neural Networks,简称为CNN)只和输入数据中的一个局部区域连接,并且输出的神经元每个深度切片共享参数。
上述卷积层、ReLU层、池化层和全连接层均可以为本领域技术人员已知的卷积层、ReLU层、池化层和全连接层,因此它们的具体功能或操作这里不再详细描述。
经过该步骤S302,可以得到样本DPI数据的特征数据。该特征数据可以表示样本DPI数据的主要信息。例如该特征数据可以以数据矩阵的形式体现。
在步骤S304,将样本DPI数据的特征数据输入到GAN(Generative AdversarialNetworks,生成式对抗网络)的判别器中。
GAN可以包括判别器D和生成器G。例如,生成器G和判别器D可以由LSTM(LongShort-Term Memory,长短期记忆网络)单元组成的网络实现。在该步骤中,将样本DPI数据的特征数据输入到判别器D中。
在步骤S306,将随机值输入到GAN的生成器中。
例如,可以采用已知的算法生成随机值z,并将随机值z输入到GAN的生成器G中。
在步骤S308,生成器生成随机特征数据,将该随机特征数据输入到判别器中。
例如,生成器G可以对随机值z进行计算以生成随机特征数据,将该随机特征数据输入到判别器D中。
在一些实施例中,生成器生成随机特征数据的步骤可以包括:生成器基于随机值生成初始时间段的数据序列,并以预设时间段作为递增时间段,相应地逐渐增加数据序列,直到增加到具有与样本时间段的长度相等的时间段的数据序列,即为随机特征数据,并利用遗忘门获取随机特征数据的时间信息。
例如,生成器G首先生成第1天的数据序列,以1天作为预设时间段,在第1天的基础上以1天作为递增时间段逐渐增加,相应地,数据序列也逐渐增加,例如,可以采用已知的算法逐渐增加为2天、3天……的数据序列,直到增加到30天(作为样本时间段)的数据序列,该30天的数据序列即为随机特征数据,并利用已知的遗忘门技术获取随机特征数据的时间信息。
在步骤S310,判别器对样本DPI数据的特征数据和随机特征数据进行对比并判定以获得判定结果,判断该判定结果是否在预定范围内。
例如,判别器可以对样本DPI数据的特征数据和随机特征数据进行对比,并可以采用已知的判定方法进行判定,从而获得判定结果,判断该判定结果是否在预定范围内。如果是,则过程进入步骤S314;否则过程进入步骤S312。
在一些实施例中,预定范围可以为0.45至0.55。
在步骤S312,当判定结果没有在预定范围内时,判别器确定当前的DPI数据补全模型单元没有达到最优状态,并将判定结果返回给生成器。这样可以使得生成器生成下一个随机特征数据(例如可以基于其他随机值生成随机特征数据)。该生成器将该下一个随机特征数据输入到判别器中;判别器继续对样本DPI数据的特征数据和该下一个随机特征数据进行对比并判定以获得下一个判定结果,直到判定结果在预定范围内。
在步骤S314,当判定结果在预定范围内时,判别器确定当前的DPI数据补全模型单元达到最优状态。
这里,最优状态是指该DPI数据补全模型单元能够用于对缺失的DPI数据实施补全操作且补全的DPI数据与缺失的真实DPI数据非常接近(即差别在可接受的范围内)。
至此,提供了根据本公开一些实施例的对DPI数据补全模型单元进行训练的方法。该方法包括:对样本DPI数据进行预处理,并将经过预处理后的样本DPI数据依次输入到卷积层、修正线性单元层、池化层和全连接层进行处理,以得到样本DPI数据的特征数据;将样本DPI数据的特征数据输入到GAN的判别器中;将随机值输入到GAN的生成器中;生成器对随机值进行计算以生成随机特征数据,将随机特征数据输入到判别器中;以及判别器对样本DPI数据的特征数据和随机特征数据进行对比并判定以获得判定结果;当判定结果没有在预定范围内时,判别器确定当前的DPI数据补全模型单元没有达到最优状态,并将判定结果返回给生成器,使得生成器生成下一个随机特征数据;当判定结果在预定范围内时,判别器确定当前的DPI数据补全模型单元达到最优状态。
例如,判别器D对经过处理后的样本DPI数据的特征数据,与生成器G生成的随机特征数据进行对比,当判定结果D(G(z))=0.5左右时,模型达到最优状态,即生成器生成的数据和真实数据相差不大。这样,可以利用生成器生成某个时间段的缺失DPI数据来进行数据补全,达到数据抗波动的功能。
经过上述对DPI数据补全模型单元进行训练,从而使得DPI数据补全模型单元能够实现对缺失的DPI数据实施补全操作。
上述DPI数据补全模型单元不同于已有的一些算法模型,比如K-means聚类算法。本公开实施例的上述模型更贴近于实际的应用场景,增加了智能提取隐藏特征、获取长序列依赖的时间序列信息、智能对抗生成缺失数据,应用于大数据的多路流式处理清洗清洗平台,是清洗平台的核心算法模型,为平台***提供了数据抗波动的功能。
在一些实施例中,上述DPI数据补全模型单元可以不停地采用当天之前的样本时间段(例如30天)的样本DPI数据进行训练,从而可以保持DPI数据补全模型单元的计算结果尽量接近于真实数据。
图4是示出根据本公开一些实施例的用于DPI数据的处理***的结构示意图。如图4所示,处理***可以包括获取单元410和DPI数据补全模型单元420。
获取单元410用于检测得到缺失DPI数据的第一时间段,获取与该第一时间段相邻的第二时间段的DPI数据,并将该第二时间段的DPI数据输入到DPI数据补全模型单元420。
DPI数据补全模型单元420用于基于第二时间段的DPI数据生成第一时间段的缺失的DPI数据。
至此,提供了根据本公开一些实施例的用于DPI数据的处理***。在该处理***中,获取单元用于检测得到缺失DPI数据的第一时间段,获取与第一时间段相邻的第二时间段的DPI数据,并将第二时间段的DPI数据输入到DPI数据补全模型单元;DPI数据补全模型单元用于基于第二时间段的DPI数据生成第一时间段的缺失的DPI数据。该处理***实现了对缺失的DPI数据的补全,减少用户使用数据时所受到的数据缺失的影响。
在一些实施例中,获取单元410还可以用于获取样本时间段的样本DPI数据,并将样本DPI数据输入到DPI数据补全模型单元420。DPI数据补全模型单元420还可以用于基于样本DPI数据进行训练。
在一些实施例中,如图4所示,DPI数据补全模型单元420可以包括数据处理模块421和GAN 422。
数据处理模块421用于对样本DPI数据进行预处理,并将经过预处理后的样本DPI数据依次输入到卷积层、修正线性单元层、池化层和全连接层进行处理,以得到样本DPI数据的特征数据;并将该样本DPI数据的特征数据输入到GAN 422的判别器4222中。例如,该预处理可以包括:去除缺失值处理、降维处理、归一化处理和向量编码处理中的至少一个。
GAN 422可以包括生成器4221和判别器4222。
生成器4221用于接收随机值,对随机值进行计算以生成随机特征数据,并将随机特征数据输入到判别器4222中。
判别器4222用于对样本DPI数据的特征数据和随机特征数据进行对比并判定以获得判定结果;当该判定结果没有在预定范围内时,确定当前的DPI数据补全模型单元420没有达到最优状态,并将判定结果返回给生成器4221,使得该生成器4221生成下一个随机特征数据;当判定结果在预定范围内时,确定当前的DPI数据补全模型单元420达到最优状态。
在一些实施例中,所述预定范围可以为0.45至0.55。
在一些实施例中,生成器4221可以用于基于随机值生成初始时间段的数据序列,并以预设时间段作为递增时间段,相应地逐渐增加数据序列,直到增加到具有与样本时间段的长度相等的时间段的数据序列,即为随机特征数据,并利用遗忘门获取随机特征数据的时间信息。
图5是示出根据本公开另一些实施例的用于DPI数据的处理***的结构示意图。该处理***包括存储器510和处理器520。其中:
存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1和/或图3所对应实施例中的指令。
处理器520耦接至存储器510,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令,实现了对缺失的DPI数据的补全,减少用户使用数据时所受到的数据缺失的影响。
在一些实施例中,还可以如图6所示,该处理***600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该处理***600还可以通过存储接口640连接至外部存储装置650以便调用外部数据,还可以通过网络接口660连接至网络或者另外一台计算机***(未标出),此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,实现了对缺失的DPI数据的补全,减少用户使用数据时所受到的数据缺失的影响。
在另一些实施例中,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1和/或图3所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (14)
1.一种用于深度包检测DPI数据的处理方法,包括:
检测得到缺失DPI数据的第一时间段;
获取与所述第一时间段相邻的第二时间段的DPI数据;
将所述第二时间段的DPI数据输入到DPI数据补全模型单元;以及
所述DPI数据补全模型单元基于所述第二时间段的DPI数据生成所述第一时间段的缺失的DPI数据。
2.根据权利要求1所述的处理方法,其中,在检测得到缺失DPI数据的第一时间段之前,所述处理方法还包括:
获取样本时间段的样本DPI数据;以及
将所述样本DPI数据输入到所述DPI数据补全模型单元以对所述DPI数据补全模型单元进行训练。
3.根据权利要求2所述的处理方法,其中,对所述DPI数据补全模型单元进行训练的步骤包括:
对所述样本DPI数据进行预处理,并将经过所述预处理后的样本DPI数据依次输入到卷积层、修正线性单元层、池化层和全连接层进行处理,以得到所述样本DPI数据的特征数据;
将所述样本DPI数据的特征数据输入到生成式对抗网络GAN的判别器中;
将随机值输入到所述GAN的生成器中;
所述生成器对所述随机值进行计算以生成随机特征数据,将所述随机特征数据输入到所述判别器中;以及
所述判别器对所述样本DPI数据的特征数据和所述随机特征数据进行对比并判定以获得判定结果;
当所述判定结果没有在预定范围内时,所述判别器确定当前的DPI数据补全模型单元没有达到最优状态,并将所述判定结果返回给所述生成器,使得所述生成器生成下一个随机特征数据;
当所述判定结果在所述预定范围内时,所述判别器确定当前的DPI数据补全模型单元达到最优状态。
4.根据权利要求3所述的处理方法,其中,
所述预定范围为0.45至0.55。
5.根据权利要求3所述的处理方法,其中,所述生成器生成随机特征数据的步骤包括:
所述生成器基于所述随机值生成初始时间段的数据序列,并以预设时间段作为递增时间段,相应地逐渐增加所述数据序列,直到增加到具有与所述样本时间段的长度相等的时间段的数据序列,即为所述随机特征数据,并利用遗忘门获取随机特征数据的时间信息。
6.根据权利要求3所述的处理方法,其中,
所述预处理包括:去除缺失值处理、降维处理、归一化处理和向量编码处理中的至少一个。
7.一种用于DPI数据的处理***,包括:
获取单元,用于检测得到缺失DPI数据的第一时间段,获取与所述第一时间段相邻的第二时间段的DPI数据,并将所述第二时间段的DPI数据输入到DPI数据补全模型单元;以及
所述DPI数据补全模型单元,用于基于所述第二时间段的DPI数据生成所述第一时间段的缺失的DPI数据。
8.根据权利要求7所述的处理***,其中,
所述获取单元还用于获取样本时间段的样本DPI数据,并将所述样本DPI数据输入到所述DPI数据补全模型单元;
所述DPI数据补全模型单元还用于基于所述样本DPI数据进行训练。
9.根据权利要求8所述的处理***,其中,所述DPI数据补全模型单元包括:
数据处理模块,用于对所述样本DPI数据进行预处理,并将经过所述预处理后的样本DPI数据依次输入到卷积层、修正线性单元层、池化层和全连接层进行处理,以得到所述样本DPI数据的特征数据,并将所述样本DPI数据的特征数据输入到生成式对抗网络GAN的判别器中;以及
所述GAN,包括生成器和判别器;其中,
所述生成器用于接收随机值,对所述随机值进行计算以生成随机特征数据,并将所述随机特征数据输入到所述判别器中;
所述判别器用于对所述样本DPI数据的特征数据和所述随机特征数据进行对比并判定以获得判定结果;当所述判定结果没有在预定范围内时,确定当前的DPI数据补全模型单元没有达到最优状态,并将所述判定结果返回给所述生成器,使得所述生成器生成下一个随机特征数据;当所述判定结果在所述预定范围内时,确定当前的DPI数据补全模型单元达到最优状态。
10.根据权利要求9所述的处理***,其中,
所述预定范围为0.45至0.55。
11.根据权利要求9所述的处理***,其中,
所述生成器用于基于所述随机值生成初始时间段的数据序列,并以预设时间段作为递增时间段,相应地逐渐增加所述数据序列,直到增加到具有与所述样本时间段的长度相等的时间段的数据序列,即为所述随机特征数据,并利用遗忘门获取随机特征数据的时间信息。
12.根据权利要求9所述的处理***,其中,
所述预处理包括:去除缺失值处理、降维处理、归一化处理和向量编码处理中的至少一个。
13.一种用于DPI数据的处理***,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任意一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至6任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305426.7A CN113010500B (zh) | 2019-12-18 | 2019-12-18 | 用于dpi数据的处理方法和处理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305426.7A CN113010500B (zh) | 2019-12-18 | 2019-12-18 | 用于dpi数据的处理方法和处理*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010500A true CN113010500A (zh) | 2021-06-22 |
CN113010500B CN113010500B (zh) | 2024-06-14 |
Family
ID=76381114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911305426.7A Active CN113010500B (zh) | 2019-12-18 | 2019-12-18 | 用于dpi数据的处理方法和处理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010500B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301825A (zh) * | 2015-05-18 | 2017-01-04 | 中兴通讯股份有限公司 | Dpi规则的生成方法及装置 |
CN106971348A (zh) * | 2016-01-14 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 一种基于时间序列的数据预测方法和装置 |
CN107133190A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种机器学习***的训练方法和训练*** |
CN107169520A (zh) * | 2017-05-19 | 2017-09-15 | 济南浪潮高新科技投资发展有限公司 | 一种大数据缺失属性补全方法 |
WO2017215565A1 (zh) * | 2016-06-12 | 2017-12-21 | 中兴通讯股份有限公司 | Dpi规则的下发方法及装置 |
CN109063433A (zh) * | 2018-07-09 | 2018-12-21 | 中国联合网络通信集团有限公司 | 虚假用户的识别方法、装置及可读存储介质 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
-
2019
- 2019-12-18 CN CN201911305426.7A patent/CN113010500B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301825A (zh) * | 2015-05-18 | 2017-01-04 | 中兴通讯股份有限公司 | Dpi规则的生成方法及装置 |
CN106971348A (zh) * | 2016-01-14 | 2017-07-21 | 阿里巴巴集团控股有限公司 | 一种基于时间序列的数据预测方法和装置 |
CN107133190A (zh) * | 2016-02-29 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种机器学习***的训练方法和训练*** |
WO2017215565A1 (zh) * | 2016-06-12 | 2017-12-21 | 中兴通讯股份有限公司 | Dpi规则的下发方法及装置 |
CN107169520A (zh) * | 2017-05-19 | 2017-09-15 | 济南浪潮高新科技投资发展有限公司 | 一种大数据缺失属性补全方法 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109165664A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种基于生成对抗网络的属性缺失数据集补全与预测方法 |
CN109063433A (zh) * | 2018-07-09 | 2018-12-21 | 中国联合网络通信集团有限公司 | 虚假用户的识别方法、装置及可读存储介质 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
CN110288537A (zh) * | 2019-05-20 | 2019-09-27 | 湖南大学 | 基于自注意力的深度生成式对抗网络的人脸图像补全方法 |
Non-Patent Citations (2)
Title |
---|
冀俭俭;杨刚;: "基于生成对抗网络的分级联合图像补全方法", 《图学学报》, no. 6, 15 December 2019 (2019-12-15), pages 29 - 37 * |
王力 等: "基于生成式对抗网络的路网交通流数据补全方法", 《交通运输***工程与信息》, vol. 18, no. 6, 15 December 2018 (2018-12-15), pages 63 - 71 * |
Also Published As
Publication number | Publication date |
---|---|
CN113010500B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271958B (zh) | 人脸年龄识别方法及装置 | |
CN113221687B (zh) | 一种压板状态识别模型的训练方法及压板状态识别方法 | |
CN111899759B (zh) | 音频数据的预训练、模型训练方法、装置、设备及介质 | |
CN110991321B (zh) | 一种基于标签更正与加权特征融合的视频行人再识别方法 | |
CN103744974B (zh) | 局部兴趣点选取的方法及设备 | |
CN111901594B (zh) | 面向视觉分析任务的图像编码方法、电子设备及介质 | |
US20210294834A1 (en) | 3d-aware image search | |
CN109685104B (zh) | 一种识别模型的确定方法和装置 | |
CN114693942A (zh) | 一种仪器仪表智能运维的多模态故障理解及辅助标注方法 | |
CN112597831A (zh) | 一种基于变分自编码器和对抗网络的信号异常检测方法 | |
CN111241258A (zh) | 数据清洗方法、装置、计算机设备及可读存储介质 | |
CN105354228A (zh) | 相似图搜索方法及装置 | |
CN114691868A (zh) | 文本聚类方法、装置及电子设备 | |
CN111010595B (zh) | 一种新节目推荐的方法及装置 | |
CN111353526A (zh) | 一种图像匹配方法、装置以及相关设备 | |
CN112738098A (zh) | 一种基于网络行为数据的异常检测方法及装置 | |
CN113010500A (zh) | 用于dpi数据的处理方法和处理*** | |
CN110071845B (zh) | 一种对未知应用进行分类的方法及装置 | |
CN116468947A (zh) | 刀具图像识别方法、装置、计算机设备及存储介质 | |
CN112749530B (zh) | 文本编码方法、装置、设备及计算机可读存储介质 | |
CN112115991B (zh) | 移动终端换机预测方法、装置、设备及可读存储介质 | |
CN112905987B (zh) | 账号识别方法、装置、服务器及存储介质 | |
CN113743593A (zh) | 神经网络量化方法、***、存储介质及终端 | |
CN110210518B (zh) | 提取降维特征的方法和装置 | |
CN114004974A (zh) | 对弱光环境下拍摄的图像的优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220126 Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing Applicant after: Tianyiyun Technology Co.,Ltd. Address before: No.31, Financial Street, Xicheng District, Beijing, 100033 Applicant before: CHINA TELECOM Corp.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |