CN110363223A - 工业流量数据处理方法、检测方法、***、装置和介质 - Google Patents
工业流量数据处理方法、检测方法、***、装置和介质 Download PDFInfo
- Publication number
- CN110363223A CN110363223A CN201910534886.0A CN201910534886A CN110363223A CN 110363223 A CN110363223 A CN 110363223A CN 201910534886 A CN201910534886 A CN 201910534886A CN 110363223 A CN110363223 A CN 110363223A
- Authority
- CN
- China
- Prior art keywords
- flow data
- industrial flow
- data
- classification results
- industrial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种工业流量数据处理方法、检测方法、***、装置和介质。所述处理方法包括使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果,使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,然后输出对应有最高票数的分类结果,以及根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果等步骤。将本发明用于对工业流量数据的异常检测,可以实现高准确度、低误报率的流量检测分类,为防止异常流量入侵、保护工业控制***安全和隐私提供安全保障。本发明广泛应用于计算机技术领域。
Description
技术领域
本发明涉及计算机技术领域,尤其是一种工业流量数据处理方法、***、装置和介质。
背景技术
在工业生产中广泛应用工业控制***。工业控制***的工作过程会产生或者通过传感器等设备获取到工业流量数据,为了确保生产的安全性和稳定性,需要对工业流量数据进行检测,从而判定工业流量数据是正常数据或异常数据。用于检测异常流量数据的现有技术主要可以分为三类,即基于端口的方法、基于流量特征统计的方法和基于原始有效载荷的方法。
基于端口的方法的原理是,使用工业流量数据的数据包标头中的端口号来检查已知的应用程序。基于端口的方法简单易行,但由于许多应用程序使用动态端口甚至通过使用其他应用程序的众所周知的端口来隐藏自己,导致基于端口的方法难以对工业流量数据进行识别,因此基于端口的方法并不能提供可靠的结果,现有技术已较少采用基于端口的方法。
基于流量特征统计的方法采用有监督和无监督的机器学习算法来将网络流量分类为已知应用的预定义类别,但是这种方法需要专家依靠大量的经验,对流量信息进行统计,耗费较多的人力。
基于原始有效载荷的方法的原理是,利用深度学习等方法学习原始工业流量数据的内在特征。但是基于深度学习的方法在学习数据内在特征时,存在数据信息的丢失、特征提取不完备的缺点。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种工业流量数据处理方法、***、装置和介质。
一方面,本发明实施例包括一种工业流量数据处理方法,包括以下步骤:
使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果;
使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,然后输出对应有最高票数的分类结果;
根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果。
进一步地,所述工业流量数据处理方法还包括训练步骤,所述训练步骤具体包括:
获取与所述工业流量数据相应的数据标签;所述数据标签用于表示相应的所述工业流量数据的类别;
使用所述工业流量数据与所述数据标签建立训练集;所述训练集中的工业流量数据用作各所述分类算法的输入数据,所述训练集中的数据标签用作所述投票算法的期望输出;
使用所述训练集对各所述分类算法和投票算法进行训练。
进一步地,所述工业流量数据处理方法还包括以下步骤:
执行多次所述训练步骤,并在每次执行训练步骤之后对所述投票算法的投票权重进行调整;所述投票权重用于使得在执行所述投票算法时,各所述分类结果获得的票数具有相应的权重;
当所述投票算法的输出与相应的数据标签之间的误差最小时,记录相应的投票权重;
根据所记录的投票权重对所述投票算法进行设定。
进一步地,所述多个互不相同的分类算法为K最近邻算法、朴素贝叶斯算法和决策树算法。
进一步地,所述工业流量数据处理方法还包括以下步骤:
检测所述工业流量数据的长度;
若所述工业流量数据的长度大于预设长度,则将所述工业流量数据截短至所述预设长度,若所述工业流量数据的长度小于预设长度,则对所述工业流量数据进行数据位补足,从而使所述工业流量数据的长度增加至所述预设长度;
对经过截短或数据位补足的所述工业流量数据进行归一化处理。
进一步地,所述归一化处理所用的公式为式中,ai为所述工业流量数据的特征值,Rescaled(ai)为对ai进行归一化处理的结果,Amin为所述工业流量数据的特征值的最小取值,Amax为所述工业流量数据的特征值的最大取值,max和min分别为预设数值。
另一方面,本发明实施例还包括一种工业流量数据检测方法,包括以下步骤:
获取工业流量数据;
执行如权利要求1-6任一项所述的方法对获取到的工业流量数据进行处理;
若检测到所述工业流量数据属于异常数据,则进行告警提示。
另一方面,本发明实施例还包括一种工业流量数据处理***,包括:
分类模块,用于使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果;
投票模块,用于使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,并输出对应有最高票数的分类结果;
判断模块,用于根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果。
另一方面,本发明实施例还包括一种工业流量数据处理装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行本发明方法。
另一方面,本发明实施例还包括一种介质,其具有存储功能,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行本发明方法。
本发明的有益效果是:本发明通过使用经过训练的分类算法和投票算法,可以识别工业流量数据的特征分布,对未曾出现的新型异常也具有可检测性,避免了传统统计特征无法有效检测异常的缺点,并且简化了专家对流量特征进行人工分析和提取特征的操作。将本发明用于对工业流量数据的异常检测,可以实现高准确度、低误报率的流量检测分类,为防止异常流量入侵、保护工业控制***安全和隐私提供安全保障。
附图说明
图1为本发明实施例中工业流量数据处理方法的流程图;
图2为本发明实施例中工业流量数据处理方法的原理图;
图3为本发明实施例中对分类算法和投票算法的训练过程的原理图;
图4为本发明实施例中工业流量数据处理***的结构框图。
具体实施方式
本实施例包括一种工业流量数据处理方法,参照图1,包括以下步骤:
S1.使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果;
S2.使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,然后输出对应有最高票数的分类结果;
S3.根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果。
步骤S1中,设置多个互不相同的分类算法,这些分类算法事先经过了训练,从而具有相应的分类能力。将获取到的工业流量数据分别输入到这些分类算法中,接收这些分类算法输出的多个分类结果。所述分类结果是指分类算法将工业流量数据所分成的类别,不同的分类算法可能将相同的工业流量数据分成相同的类别或不同的类别。
本实施例中,所述工业流量数据可以特指一个个体,即一个数据包或者一段数据,也可以是一个集合概念,即多个数据包或者多段数据组成的集合。步骤S1所处理的工业流量数据可以是一个数据包。
步骤S2中,使用经过训练的投票算法对多个所述分类结果进行投票。在投票结束后,工业流量数据所对应的各分类结果分别会获得相应的票数。本实施例中所述投票算法是简单投票算法,即查找对应有最高票数的分类结果并将其输出。如果有多个分类结果所得的票数相同,可以采用按照默认顺序排序并选择排名第一的分类结果,或者通过随机方法选定分类结果并进行输出。
步骤S1中多个分类算法可能分别将工业流量数据分类成多个类别。通过步骤S2的投票,可以将对应票数最多的分类结果确定为工业流量数据所属类别。
步骤S3中,根据步骤S2所确定的工业流量数据所属类别,进一步判断工业流量数据属于异常数据还是正常数据,然后将判断结果进行输出,最终确定工业流量数据是否正常。步骤S1-S3的具体执行过程可以包括:建立步骤S1中分类所得的多个分类结果与“异常数据”和“正常数据”这两种类别的映射关系,通过执行步骤S2确定工业流量数据所属的分类结果后,再通过所述映射关系确定工业流量数据属于正常数据还是异常数据,从而实现对工业流量数据异常性的检测。还可以对各分类算法进行设置,使得各分类算法直接将工业流量数据分类为“正常数据”或“异常数据”,然后使用投票算法进行投票,输出对应有最高票数的分类结果,从而直接将工业流量数据确定属于“正常数据”还是“异常数据”。
步骤S1-S3的原理如图2所示。在应用分类算法和投票算法对工业流量数据进行处理时,被处理的工业流量数据称为测试集。
步骤S1-S3通过使用经过训练的分类算法和投票算法,可以识别工业流量数据的特征分布,对未曾出现的新型异常也具有可检测性,避免了传统统计特征无法有效检测异常的缺点,并且简化了专家对流量特征进行人工分析和提取特征的操作。将步骤S1-S3用于对工业流量数据的异常检测,可以实现高准确度、低误报率的流量检测分类,为防止异常流量入侵、保护工业控制***安全和隐私提供安全保障。
优选地,步骤S1中可以使用K最近邻算法(K-Nearest Neighbor,KNN)、朴素贝叶斯算法(Naive Bayes,NB)和决策树算法(Decision Tree,DT)三种分类算法。在执行步骤S1时,这三种分类算法分别接收同一工业流量数据并输出各自的分类结果。
K最近邻算法的原理是:找待定样本最近的几个样本,根据几个样本的所属类,然后选择占比最大的类别作为待定样本的类别。K就是算法中需要寻找的样本数量。在本发明中,我们选择距离待定样本最近的5个样本(即K值为5),该5个样本,其投票的权重设置为等比重,距离测算选择欧几里得距离,计算公式为将训练集输入KNN模块后,KNN模块计算与流量欧几里得距离最近的5个样本,进行类别判定,并与训练集标签进行比对,通过该学习过程,使KNN模块掌握该训练集的特征分布,以便该模块在测试阶段能够准确判断未知流量类别。
决策树算法的原理是:DT算法通常是一个递归选择最优切分点(即特征),并根据该特征对训练数据集进行分割,使得对各个子数据集有一个最好的分类过程,这一过程对应着对特征空间的划分,也对应着决策树的构建,继续在子数据集上循环这个切割的过程,直到所有的训练数据子集被基本正确分类,或者没有合适的特征为止。在选择最优切分点时,我们通过计算信息熵来衡量数据的不纯度或者不确定性,同时用信息熵来决定类别变量的最优二分值得切分问题,计算公式为其中,D表示训练数据集,c表示数据类别数,pi表示类别i样本数量占所有样本的比例,确定某一特征作为结点后,以该结点为根对数据进行分类,分类后的数据集信息熵会比分类前的小,计算公式为式中k表示样本D被分为k部分。信息增益,即信息熵之差,衡量某个特征对分类结果的影响,计算公式为Gain(A)=Info(D)-InfoA(D)。将训练集输入DT模块后,DT模块计算各个特征值的信息熵,通过信息熵值大小,选择出第一切分点,然后排除已选择的特征,对剩下的特征进行递归操作,直到数据不可再分。
朴素贝叶斯算法的原理是:朴素贝叶斯分类算法基于贝叶斯定理实现目标分类,其原理是利用事件的先验概率,通过贝叶斯公式计算出后验概率,然后判断后验概率,选择最大概率类作为该事件的所属类,贝叶斯公式为其中,事件Bi的全概率为P(Bi),事件Bi已发生条件下事件A的条件概率为P(A|Bi),事件A发生条件下事件Bi的条件概率为P(Bi|A)。将训练集输入朴素贝叶斯算法后,模块通过计算极大似然估计,并判断出训练集中的数据类别。
进一步作为优选的实施方式,所述工业流量数据处理方法还包括训练步骤,所述训练步骤具体包括:
SA1.获取与所述工业流量数据相应的数据标签;所述数据标签用于表示相应的所述工业流量数据的类别;
SA2.使用所述工业流量数据与所述数据标签建立训练集;所述训练集中的工业流量数据用作各所述分类算法的输入数据,所述训练集中的数据标签用作所述投票算法的期望输出;
SA3.使用所述训练集对各所述分类算法和投票算法进行训练。
本实施例中,步骤SA1-SA3用于对分类算法和投票算法进行训练,优选地,步骤SA1-SA3是在执行步骤S1-S3前执行的。步骤SA1中所使用的工业数据流量与步骤S1-S3所处理的工业数据流量可以来自同一来源,例如可以将获取到的工业数据流量按数据包数量4:6的比例进行分配,将比例为“4”的部分用于步骤SA1-SA3中对分类算法和投票算法进行训练,将比例为“6”的部分用于步骤SA1-SA3中供分类算法和投票算法进行处理。
步骤SA1-SA3的原理如图3所示。
步骤SA1中,可以通过人工方法对各工业流量数据进行分类,也就是将各工业流量数据分为相应的类别,所述类别用相应的数据标签表示。
步骤SA2中,使用步骤SA1所得的工业流量数据和数据标签建立训练集。当执行步骤SA3,使用步骤SA2所得的训练集对分类算法和投票算法进行训练时,训练集中的工业流量数据用作分类算法的输入数据,分类算法输出分类结果后,所述投票算法对各分类结果进行投票并输出具有最高票数的分类结果,训练集中的数据标签用作投票算法的期望输出,即对分类算法和投票算法的参数进行调整,使得投票算法所输出的具有最高票数的分类结果收敛至相应的数据标签。在对分类算法和投票算法的训练过程中,可能需要执行多轮训练步骤,即执行多次由步骤SA1-SA3组成的组合。
进一步作为优选的实施方式,所述工业流量数据处理方法还包括以下步骤:
SB1.执行多次所述训练步骤,并在每次执行训练步骤之后对所述投票算法的投票权重进行调整;所述投票权重用于使得在执行所述投票算法时,各所述分类结果获得的票数具有相应的权重;
SB2.当所述投票算法的输出与相应的数据标签之间的误差最小时,记录相应的投票权重;
SB3.根据所记录的投票权重对所述投票算法进行设定。
本实施例中,所使用的投票算法可以对各类别设置相同的投票权重。所述投票权重是指在统计各分类结果所获得的票数时,在原始票数的基础上所乘以的系数。本实施例中,所使用的投票算法还可以对各类别设置不两两相同的投票权重,所述投票权重可以是根据所使用的分类算法的性质进行设置的,也可以通过执行步骤SB1-SB3来进行动态调整。
所述步骤SB1-SB3可以在执行步骤S1-S3之前执行。步骤SB1中执行多轮训练步骤,即执行多次步骤SA1-SA3所组成的组合。每一轮训练步骤,即每次执行步骤SA1-SA3时,所述投票算法都分别对分类算法产生的多个分类结果设置不同的投票权重;在执行完一次步骤SA1-SA3后,对所述投票算法的投票权重进行调整,也就是对分类算法产生的多个分类结果所对应的投票权重进行更改,然后执行下一次步骤SA1-SA3。在每次执行步骤SA1-SA3后,记录投票算法的实际输出与期望输出之间的误差,从而考察投票权重带来的影响。
步骤SB2中,对多次执行步骤SA1-SA3所得的误差进行分析,查找出最小误差对应的那次步骤SA1-SA3执行过程,并将查找到的那次步骤SA1-SA3执行过程所使用的投票权重对所述投票算法进行设定。经过设定后的投票算法,在执行步骤S1-S3对实际生产中产生的工业流量数据进行处理时,则使用所设定的投票权重进行投票,从而取得最优效果。
进一步作为优选的实施方式,所述工业流量数据处理方法还包括以下步骤:
SC1.检测所述工业流量数据的长度;
SC2.若所述工业流量数据的长度大于预设长度,则将所述工业流量数据截短至所述预设长度,若所述工业流量数据的长度小于预设长度,则对所述工业流量数据进行数据位补足,从而使所述工业流量数据的长度增加至所述预设长度;
SC3.对经过截短或数据位补足的所述工业流量数据进行归一化处理。
所述步骤SC1-SC3是对所述工业流量数据的预处理过程,此时所述工业流量数据是以数据包的形式体现的。其中,所述步骤SC1和SC2用于对所述工业流量数据进行对齐处理,也就是将工业流量数据的长度进行统一,使得工业流量数据用于对分类算法和投票算法的训练过程时,可以让分类算法和投票算法更好地学习到其中的特征。具体为:设定一个预设长度MIS,例如MIS=500,判断工业流量数据的长度与MIS的关系,若工业流量数据的长度等于MIS则不做操作;若工业流量数据的长度大于MIS,则将工业流量数据的最后几位截去从而将工业流量数据的长度截短至MIS;若工业流量数据的长度小于MIS,则在工业流量数据的最后一位之后补0从而将工业流量数据的长度补足至MIS。
步骤SC3中,通过以下公式对工业流量数据进行归一化处理:
式中,ai为所述工业流量数据的特征值,即工业流量数据的特征值的具体取值;Rescaled(ai)为对ai进行归一化处理的结果;Amin为所述工业流量数据的特征值的最小取值,即工业流量数据的特征值可能取得的最小值;Amax为所述工业流量数据的特征值的最大取值,即工业流量数据的特征值可能取得的最大值;max和min分别为预设数值,例如可以设置max=1以及min=0。
通过所述归一化处理,可以将工业流量数据的特征值缩放到[0,1],可以避免不同的工业流量数据的特征值相差较大导致分类算法和投票算法的执行过程中目标函数变“扁”,因此可以减少所需的训练时间。
本实施例还包括一种工业流量数据检测方法,包括以下步骤:
S100.获取工业流量数据;
S101.执行S1-S3等步骤,从而对获取到的工业流量数据进行处理;
S102.若检测到所述工业流量数据属于异常数据,则进行告警提示。
所述步骤S100-S102是将步骤S1-S3应用至对由大量工业流量数据形成的数据流进行检测。步骤S100中,通过抓取数据包等方式从数据流中获取工业流量数据,然后执行步骤S1-S3对单个工业流量数据进行处理,判断工业流量数据属于正常数据还是异常数据。步骤S102中,如果检测到工业流量数据属于异常数据,那么就进行告警提示或者暂停数据传输等操作,从而维护生产的安全和稳定。
本实施例还包括一种工业流量数据处理***,参照图4,包括:
分类模块,用于使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果;
投票模块,用于使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,并输出对应有最高票数的分类结果;
判断模块,用于根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果。
所述分类模块、投票模块和判断模块可以是计算机***上具有相应功能的硬件模块或软件模块。
本实施例还包括一种工业流量数据处理装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行本发明工业流量数据处理方法。
本实施例还包括一种介质,其具有存储功能,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行本发明工业流量数据处理方法。
本实施例中的工业流量数据处理***、装置和介质,可以执行本发明的工业流量数据处理方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读介质在计算机程序中实现,其中如此配置的介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入介质、RAM、ROM等,使得其可由可编程计算机读取,当介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (10)
1.一种工业流量数据处理方法,其特征在于,包括以下步骤:
使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果;
使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,然后输出对应有最高票数的分类结果;
根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果。
2.根据权利要求1所述的一种工业流量数据处理方法,其特征在于,还包括训练步骤,所述训练步骤具体包括:
获取与所述工业流量数据相应的数据标签;所述数据标签用于表示相应的所述工业流量数据的类别;
使用所述工业流量数据与所述数据标签建立训练集;所述训练集中的工业流量数据用作各所述分类算法的输入数据,所述训练集中的数据标签用作所述投票算法的期望输出;
使用所述训练集对各所述分类算法和投票算法进行训练。
3.根据权利要求2所述的一种工业流量数据处理方法,其特征在于,还包括以下步骤:
执行多次所述训练步骤,并在每次执行训练步骤之后对所述投票算法的投票权重进行调整;所述投票权重用于使得在执行所述投票算法时,各所述分类结果获得的票数具有相应的权重;
当所述投票算法的输出与相应的数据标签之间的误差最小时,记录相应的投票权重;
根据所记录的投票权重对所述投票算法进行设定。
4.根据权利要求1-3任一项所述的一种工业流量数据处理方法,其特征在于,所述多个互不相同的分类算法为K最近邻算法、朴素贝叶斯算法和决策树算法。
5.根据权利要求1-3任一项所述的一种工业流量数据处理方法,其特征在于,还包括以下步骤:
检测所述工业流量数据的长度;
若所述工业流量数据的长度大于预设长度,则将所述工业流量数据截短至所述预设长度,若所述工业流量数据的长度小于预设长度,则对所述工业流量数据进行数据位补足,从而使所述工业流量数据的长度增加至所述预设长度;
对经过截短或数据位补足的所述工业流量数据进行归一化处理。
6.根据权利要求5所述的一种工业流量数据处理方法,其特征在于,所述归一化处理所用的公式为式中,ai为所述工业流量数据的特征值,Rescaled(ai)为对ai进行归一化处理的结果,Amin为所述工业流量数据的特征值的最小取值,Amax为所述工业流量数据的特征值的最大取值,max和min分别为预设数值。
7.一种工业流量数据检测方法,其特征在于,包括以下步骤:
获取工业流量数据;
执行如权利要求1-6任一项所述的方法对获取到的工业流量数据进行处理;
若检测到所述工业流量数据属于异常数据,则进行告警提示。
8.一种工业流量数据处理***,其特征在于,包括:
分类模块,用于使用经过训练的多个互不相同的分类算法对工业流量数据进行分类,从而得到多个分类结果;
投票模块,用于使用经过训练的投票算法对多个所述分类结果进行投票,从而使各所述分类结果分别对应相应的票数,并输出对应有最高票数的分类结果;
判断模块,用于根据所输出的分类结果,输出对所述工业流量数据是否属于异常数据的判断结果。
9.一种工业流量数据处理装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-7任一项所述方法。
10.一种介质,其具有存储功能,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534886.0A CN110363223A (zh) | 2019-06-20 | 2019-06-20 | 工业流量数据处理方法、检测方法、***、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534886.0A CN110363223A (zh) | 2019-06-20 | 2019-06-20 | 工业流量数据处理方法、检测方法、***、装置和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110363223A true CN110363223A (zh) | 2019-10-22 |
Family
ID=68216411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910534886.0A Pending CN110363223A (zh) | 2019-06-20 | 2019-06-20 | 工业流量数据处理方法、检测方法、***、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363223A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400155A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海微众银行股份有限公司 | 一种数据检测方法及装置 |
CN114615002A (zh) * | 2020-12-03 | 2022-06-10 | ***通信集团设计院有限公司 | 运营商关键基础设施被控识别方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN104468276A (zh) * | 2014-12-18 | 2015-03-25 | 东南大学 | 基于随机抽样多分类器的网络流量识别方法 |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学***衡数据分类方法 |
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN109325638A (zh) * | 2018-11-09 | 2019-02-12 | 电子科技大学 | 一种基于rbf神经网络的sdn流量预测方法 |
-
2019
- 2019-06-20 CN CN201910534886.0A patent/CN110363223A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN104468276A (zh) * | 2014-12-18 | 2015-03-25 | 东南大学 | 基于随机抽样多分类器的网络流量识别方法 |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学***衡数据分类方法 |
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN109325638A (zh) * | 2018-11-09 | 2019-02-12 | 电子科技大学 | 一种基于rbf神经网络的sdn流量预测方法 |
Non-Patent Citations (5)
Title |
---|
何跃 等: "基于情感知识和机器学习算法的组合微文情感倾向分类研究", 《情报杂志》 * |
吴嘉乐: "异质集成学习器在鸢尾花卉分类中的应用", 《中国设备工程》 * |
朱佳佳,陈佳: "基于熵和SVM多分类器的异常流量检测方法", 《计算机技术与发展》 * |
汪为汉: "IPv6网络流量分类识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
高嵩 等: "基于快速级联分类器的行人检测方法研究", 《计算机工程与科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400155A (zh) * | 2020-03-13 | 2020-07-10 | 深圳前海微众银行股份有限公司 | 一种数据检测方法及装置 |
CN111400155B (zh) * | 2020-03-13 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 一种数据检测方法及装置 |
CN114615002A (zh) * | 2020-12-03 | 2022-06-10 | ***通信集团设计院有限公司 | 运营商关键基础设施被控识别方法及*** |
CN114615002B (zh) * | 2020-12-03 | 2024-02-27 | ***通信集团设计院有限公司 | 运营商关键基础设施被控识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9984334B2 (en) | Method for anomaly detection in time series data based on spectral partitioning | |
Wahono et al. | A comparison framework of classification models for software defect prediction | |
CN102265227B (zh) | 用于在机器状况监视中创建状态估计模型的方法和设备 | |
US20150120213A1 (en) | System and method for identifying and distinguishing materials, method for identifying or distinguishing materials, and measuring device for recording material properties of materials | |
CN111079283B (zh) | 对信息饱和度不均衡数据的处理方法 | |
JP2008059601A (ja) | 双峰性データを判別する方法 | |
CN110363223A (zh) | 工业流量数据处理方法、检测方法、***、装置和介质 | |
CN106452934B (zh) | 一种网络性能指标变化趋势的分析方法和装置 | |
CN116930042B (zh) | 建筑防水材料性能检测设备及方法 | |
US20050144537A1 (en) | Method to use a receiver operator characteristics curve for model comparison in machine condition monitoring | |
CN113988616A (zh) | 一种基于行业数据的企业风险评估***及方法 | |
US20210197205A1 (en) | Method and device for controlling a process within a system, in particular a grinding process in a grinding device | |
Qiu et al. | Detecting misclassification errors in neural networks with a gaussian process model | |
CN113506160A (zh) | 一种面向不平衡财务文本数据的风险预警方法及*** | |
CN115186776B (zh) | 一种红宝石产地分类的方法、装置及存储介质 | |
US20230156043A1 (en) | System and method of supporting decision-making for security management | |
US7672813B2 (en) | Mixed statistical and numerical model for sensor array detection and classification | |
Buschmann et al. | Data-driven decision support for process quality improvements | |
Jantzen | Dynamical kinds and their discovery | |
US6782376B2 (en) | Reasoning method based on similarity of cases | |
CN107067034B (zh) | 一种快速识别红外光谱数据分类的方法及*** | |
CN113722485A (zh) | 一种异常数据识别分类方法、***及存储介质 | |
Balega et al. | IoT Anomaly Detection Using a Multitude of Machine Learning Algorithms | |
CN107239256A (zh) | 基于综合评价的彩票行业随机序列的随机性检测方法 | |
Eliades et al. | Using inductive conformal martingales for addressing concept drift in data stream classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |