CN110941542A - 基于弹性网络的序列集成高维数据异常检测***及方法 - Google Patents
基于弹性网络的序列集成高维数据异常检测***及方法 Download PDFInfo
- Publication number
- CN110941542A CN110941542A CN201911076540.7A CN201911076540A CN110941542A CN 110941542 A CN110941542 A CN 110941542A CN 201911076540 A CN201911076540 A CN 201911076540A CN 110941542 A CN110941542 A CN 110941542A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- data
- anomaly
- layer
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000010354 integration Effects 0.000 title claims abstract description 40
- 239000002356 single layer Substances 0.000 claims abstract description 90
- 230000002159 abnormal effect Effects 0.000 claims description 119
- 239000013598 vector Substances 0.000 claims description 83
- 238000002955 isolation Methods 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 claims 1
- 230000002547 anomalous effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于弹性网络的集成高维数据异常检测***,包括对应于高维数据中每一维度的单层***和与每一维度的单层***连接的总成集成模块;单层***包括:数据模块;异常打分模块,第一输入端与数据模块连接;选择模块,输入端与异常打分模块的第一输出端连接;弹性网络模块,输入端与选择模块连接,输出端与异常打分模块的第二输入端连接;单层集成模块,与异常打分模块的第二输出端连接;总成集成模块与每一维度的单层集成模块连接。此方法解决了高维数据异常检测的个体预测误差大,检测精度低和稳定性差的问题,实现了高维数据个体预测模型的小误差、高精度,保证了异常检测的稳定性。
Description
技术领域
本发明涉及高维数据异常检测技术领域,具体涉及一种基于弹性网络的序列集成高维数据异常检测***及方法。
背景技术
异常数据检测通常是识别出不满足一般数据分布的数据对象或者是识别出与大多数数据对象存在明显偏离的数据对象。异常数据检测可以为医疗诊断,欺诈检测和信息安全等一系列领域中的广泛应用提供重要的参考依据。通常这些应用领域中产生的数据都是高维数值型数据,例如生物信息学中数以千计的分子或基因表达特征、交易欺诈中成千上万的数据特征、网络攻击中各种复杂的信息特征等。
所谓的高维数据,是指维数较高的数据,它们的维度通常可达到成百上千,甚至更高。对于高维数值型数据进行分析和处理主要有两个困难:一是欧式距离的无法使用的问题。在低维空间中,欧式距离是有意义的,可以用来衡量数据之间的相似性,但是在高维空间中的距离就没有太大的意义。二是维数灾难问题。当维数越来越多的时候,计算量会迅速上升,分析和处理高维数据的复杂度和成本会是指数增长的。因此,在对高维数值型数据进行异常数据检测的过程中会面临以下挑战:
(1)高维数值型数据中通常包含与异常数据无关的特征和噪声数据。这些无关的特征和噪声数据会对高维数值型数据的异常检测带来影响。
(2)随着数据维数的增加,邻居、距离以及最近邻等低维空间中的相关概念会无法使用,导致无法使用基于距离、密度等常规的异常数据检测方法。
(3)利用特征提取的方法对高维数据进行降维,如何衡量所提特征的准确性是一个问题。
目前也存在较多关于异常数据检测的方法,如基于距离的方法,基于密度的方法,基于树的方法等。但是由于这些方法的计算复杂性和效率问题,在对高维数据进行异常数据检测的时候需要花费较大的代价,并且在高维数据的异常检测效果方面表现的不是特别好。因此并不能够把这些方法简单地应用在高维数据的异常检测方面,需要对高维数据进行处理之后再利用这些方法进行检测。
为了对高维数值型数据进行异常数据检测,通常是将高维数据映射到低维空间中,从而保留与异常数据相关的信息以便在低维空间中对异常数据进行检测。后来,基无监督表示学习的技术开始出现,如子空间特征选择方法、神经网络和流学习方法等。
基于子空间的特征选择方法是通过寻找与异常数据相关的特征子集以此来减弱无关特征带来的影响,然后再对这些特征子集进行常规的异常数据检测。这种方法通常将子集选择和异常数据检测分开,这样会导致一些与异常数据无关的特征被用来进行异常数据的检测。因此这种方法会导致异常数据检测的精度降低并且有较大的偏差。
基于神经网络和流学习的方法侧重于保留数据的规律性信息(如数据结构、邻近信息),然后用于聚类和数据压缩等学习任务。因此,它们保留的信息往往包含了冗余数据。
针对以上各种方法的局限性以及高维数值型数据异常检测面临的挑战,后来出现了基于集成学习的异常数据检测方法。这些方法旨在将多个预测模型组合在一起,以利用“众多力量”实现对异常数据的检测。基于集成学习的方法虽然能够在一定程度上减少整体预测模型的检测误差,但是不能对每一个预测模型的误差进行改进。基于减少个体预测模型误差的CARE方法虽然解决了个体预测模型存在误差的问题,但是该方法在处理高维数据的异常检测问题时表现不理想。基于序列集成的CINFO方法通过构建序列的异常数据检测模型实现对高维数据的特征提取和异常数据检测。但是,该方法在利用序列集成学习的方法进行异常数据选择的时候使用固定的阈值,这样的方法适用于异常数据占比和该阈值对应的数据集,一旦异常数据占比改变的时候,该方法中的固定阈值就不能很好的实现对异常数据的检测。另外,该方法利用套索回归(Lasso)对变量或者特征进行特征提取时,在面对具有多重共线性的变量或者特征的时候只是从其中任意的选择一个,这样会导致对变量或者特征的选择过于随意并且稳定性不能得到保障。
发明内容
本发明的目的是提供一种基于弹性网络的序列集成高维数据异常检测***及方法。该***及方法旨在解决高维数据异常检测的个体预测误差大,检测精度低和稳定性差的问题,实现高维数据个体预测模型的小误差、高精度,保证异常检测的稳定性。
高维数据的维度很高,当维度越来越多的时候,计算量会迅速上升,为了简化计算量,在高维数据的维度的每一维度中分别进行异常检测。为达到上述目的,本发明提供了一种基于弹性网络的集成高维数据异常检测***,该***包括对应于高维数据中每一维度的单层***和与每一维度的单层***连接的总成集成模块;
单层***包括:
数据模块,用于接收高维数据中每一维度的单层初始数据;
异常打分模块,第一输入端与数据模块连接,用于对单层初始数据进行第一次异常打分,获得单层初始数据中的异常得分向量;
选择模块,输入端与异常打分模块的第一输出端连接,用于根据异常得分向量对单层初始数据进行选择,获得异常数据集;
弹性网络模块,输入端与选择模块连接,输出端与异常打分模块的第二输入端连接,用于根据异常得分向量对异常数据集进行特征提取,生成特征向量和均方误差;
异常打分模块进一步用于对特征向量和均方误差进行第二次异常打分,获取分数异常的异常特征向量;
单层集成模块,与异常打分模块的第二输出端连接,用于对输出的均方误差和分数异常的异常特征向量进行第一次集成,获得单层异常结果;
总成集成模块与每个单层***的单层集成模块连接,对各单层***输出的单层异常结果进行第二次集成,获得最终异常结果。
本发明还提供了一种基于弹性网络的集成高维数据异常检测方法,包括以下步骤:
接收高维数据中每一维度的单层初始数据,并对单层初始数据进行第一次异常打分,获得单层初始数据中的异常得分向量;
根据异常得分向量对单层初始数据进行选择,获得异常数据集;
根据异常得分向量对异常数据集进行特征提取,生成特征向量和均方误差;
根据特征向量和均方误差进行第二次异常打分,获取分数异常的异常特征向量;
将均方误差与弹性网络模块设置的均方误差初始值进行比较,在均方误差大于均方误差初始值时,输出均方误差;在均方误差小于均方误差初始值时,单层***对此维度的单层初始数据重复循环上述操作,直到均方误差大于上一次的均方误差时,输出此次的均方误差;
对输出的均方误差和分数异常的异常特征向量进行第一次集成,获得每个维度的单层异常结果;
对高维数据中各维度的单层异常结果进行第二次集成,获得最终异常结果。
最优选的,单层初始数据为Xi,i=1,2,3...N,且满足:
Xi=(x1,x2,…,xM)
其中,M为单层初始数据中的特征个数;高维数据为X,且满足:
X={X1,X1,…,XN}
其中,N为高维数据中的维度数。
最优选的,第一次和/或第二次异常打分是基于隔离森林的方式,基于隔离森林的方式包括采样、建立隔离树、计算路径长度、对路径长度归一化。
最优选的,根据异常得分向量对单层初始数据进行选择,获得异常数据集,包括以下步骤:
计算异常得分向量Si的期望E(Si)=μ和方差D(Si)=σ2;
根据期望E(Si)和方差D(Si)计算异常值候选函数;异常值候选函数为H(Si,α),且满足:
H(Si,α)=Si-μ-ασ
其中,α为每维度中选择模块设置的阈值;σ为方差的平方根;
根据期望E(Si)和方差D(Si)采用切比雪夫不等式对异常得分向量Si进行选择判断,判断结果P(S≥μ+ασ),且满足:
其中,ε为任意足够小的正数,且满足ε=ασ;
根据判断结果P(S≥μ+ασ)对异常得分向量Si进行选择区分,生成异常数据集C,且满足:
最优选的,特征提取还包括以下步骤:
将异常得分向量Si作为目标特征,异常数据集C作为预测因子,构建稀疏回归模型,求解回归系数ω;稀疏回归模型为ElN(C,λ),且满足:
其中,λ为非负的正则化参数,K为异常数据集C中数据的个数;T为循环操作结束时的循环次数;
从异常数据集C中提取出与回归系数ω最相关的特征为特征向量F和均方误差mse;特征向量F满足:
F={Xi|ωi≠0,1<i<K}
其中,ωi为异常数据集C中第i个异常数据的回归系数。
最优选的,均方误差mse的计算还包括以下步骤:
在均方误差mse小于预设的均方误差初始值mse0时,对此维度的单层初始数据重复执行上述操作,直到循环T次的均方误差mseT大于上一次的均方误差mseT-1时,输出循环T次的均方误差mseT。
特征向量F和输出的均方误差mset(1≤t≤T)根据第二次异常打分,通过采样、建立隔离树、计算路径长度、对路径长度归一化的步骤,获取分数异常的异常特征向量Q。
最优选的,第一次集成包括以下步骤:
对循环t次的均方误差mset进行求和,1≤t≤T,获得均方误差和SUM,且满足:
其中T为循环操作结束时的循环次数;
将均方误差和SUM减去循环t次的均方误差mset,获得误差项MSEt,且满足:
MSEt=SUM-mset,1≤t≤T;
对误差项MSEt进行归一化操作,获得不同循环次数下的权重γt,且满足:
对循环t次的异常特征向量Qt进行单位化,获得单位异常特征向量τt,且满足:
最优选的,第二次集成是通过对N维度的单层异常结果求平均值;最终异常结果为Z,且满足:
运用此发明,解决了高维数据异常检测的个体预测误差大,检测精度低和稳定性差的问题,实现了高维数据个体预测模型的小误差、高精度,保证了异常检测的稳定性。
相对于现有技术,本发明具有以下有益效果:
1、本发明***提供一种多层次基于弹性网络的序列集成学习模型(MRENSE)通过对每一维度的数据异常进行检测,从而简化计算量,以实现对高维数值型数据的异常检测。
2、本发明***通过弹性网络模块对数据进行特征提取,进而再对提取后的特征向量进行异常打分,解决了高维数据异常检测的个体预测误差大的问题,实现了高维数据异常检测***中个体预测模型的小误差。
3、本发明***通过对每一维度的数据进行两次异常打分,从而获得异常特征向量,解决了高维数据异常检测的精度低和稳定性差的问题,保证了高维数据异常检测***的高精度和稳定性。
附图说明
图1为本发明提供的集成高维数据异常检测***结构示意图;
图2为本发明提供的集成高维数据异常检测方法流程图。
具体实施方式
以下结合附图通过具体实施例对本发明作进一步的描述,这些实施例仅用于说明本发明,并不是对本发明保护范围的限制。
实施例1
高维数据的维度很高,当维度越来越多的时候,计算量会迅速上升,为了简化计算量,在高维数据的维度的每一维度中分别进行异常检测。
本发明提供了一种基于弹性网络的集成高维数据异常检测***,如图1所示,该***包括对应于高维数据中每一维度的单层***1和与每一维度的单层***连接的总成集成模块2。
其中,单层***1包括数据模块3、异常打分模块4、选择模块5、弹性网络模块6和单层集成模块7;数据模块3用以接收高维数据中每一维度的单层初始数据;异常打分模块4的第一输入端与数据模块3连接,用于对单层初始数据进行第一次异常打分,获得单层初始数据中的异常得分向量;选择模块5的输入端与异常打分模块4的第一输出端连接,用于根据异常得分向量对单层初始数据进行选择,获得异常数据集;弹性网络模块6的输入端与选择模块5连接,输出端与异常打分模块4的第二输入端连接,用于根据异常得分向量对异常数据集进行特征提取,生成特征向量和均方误差;异常打分模块4进一步用于对特征向量和均方误差进行第二次异常打分,获取分数异常的异常特征向量;单层集成模块7与异常打分模块4的第二输出端连接,用于对输出的均方误差和分数异常的异常特征向量进行第一次集成,获得单层异常结果。
总成集成模块2与每个单层***的单层集成模块7连接,对各个单层***输出的单层异常结果进行第二次集成,获得最终异常结果。
实施例2
基于同一发明构思,本发明还提供了一种基于弹性网络的集成高维数据异常检测方法,如图2所示,该方法包括以下步骤:
接收高维数据X中每一维度的单层初始数据,单层初始数据为Xi,i=1,2,3...N,且满足:
Xi=(x1,x2,…,xM)
其中,M为单层初始数据中的特征个数;高维数据为X,且满足:
X={X1,X1,…,XN}
其中,N为高维数据中的维度数;并对单层初始数据Xi传输至异常打分模块进行第一次异常打分,获得单层初始数据Xi中的异常得分向量Si;第一次异常打分是基于隔离森林的方式,基于隔离森林的方式包括采样、建立隔离树、计算路径长度、对路径长度归一化步骤。根据异常得分向量Si对所述单层初始数据Xi进行选择,获得异常数据集C;根据异常得分向量对单层初始数据进行选择,获得异常数据集C,包括以下步骤:
计算异常得分向量Si的期望E(Si)=μ和方差D(Si)=σ2。
根据异常得分向量Si的期望E(Si)和方差D(Si)计算异常值候选函数;异常值候选函数为H(Si,α),且满足:
H(Si,α)=Si-μ-ασ
其中,α为每一维度中选择模块设置的阈值,α值在每一维度中取不同的值并可以由用户指定;σ为方差的平方根;
异常数据集C是与大多数的高维数据的分布不同或者是与大多数的高维数据对象之间存在明显偏差的数据,并且只是整个数据集中很少的一部分。因此,我们通过设置选择模块5阈值α来控制异常数据集C中的元素个数K。
在每一维度中,选择模块5阈值α的值不同,使得每一维度中的异常数据集C的个数K不同,对每一维度的单层异常结果进行第一次集成,以便最终异常结果更加可靠。
根据异常得分向量Si的期望E(Si)和方差D(Si)采用切比雪夫不等式对异常得分向量Si进行选择判断,判断结果为P(S≥μ+ασ),且满足:
其中,ε为任意足够小的正数,且满足ε=ασ。
根据判断结果P(S≥μ+ασ)对异常得分向量Si进行选择区分,生成异常数据集C,且满足:
根据异常得分向量Si和对异常数据集C进行特征提取,生成特征向量F和均方误差mse;特征提取还包括以下步骤:
将异常得分向量Si作为目标特征,异常数据集C作为预测因子,构建稀疏回归模型,求解回归系数ω;稀疏回归模型为ElN(C,λ),且满足:
其中,λ为非负的正则化参数,K为异常数据集C中数据的个数;T为循环操作结束时的循环次数。
随着正则化参数λ的逐渐增加,回归系数ω中非零的个数会逐渐减少,从而完成对高维数据的稀疏回归。
其中,在弹性网络模块6中正则化参数λ的选取至关重要,不合适的正则化参数λ会导致过拟合或者欠拟合。在异常数据集C上采用10次交叉验证的方式来选择最优的正则化参数λ,使得均方误差mse最小。
从异常数据集C中提取出与回归系数ω最相关的特征为特征向量F和均方误差mse;特征向量F满足:
F={Xi|ωi≠0,1<i<K}
其中,ωi为异常数据集C中第i个异常数据的回归系数。
对特征向量F和均方误差mse传输回异常打分模块进行第二次异常打分,获取分数异常的异常特征向量Q;特征向量F根据第二次异常打分,通过采样、建立隔离树、计算路径长度、对路径长度归一化的步骤,获取分数异常的异常特征向量Q。
经过了弹性网络模块6的特征提取,高维数据的维数得到了一定程度的降低,隔离森林方法的第二次异常打分相对第一次异常打分容易。
均方误差mse的计算还包括以下步骤:在均方误差mse小于预设的均方误差初始值mse0时,对此维度的单层初始数据重复执行上述操作,直到循环T次的均方误差mseT大于上一次的均方误差mseT-1时,输出循环T次的均方误差mseT;
对循环t次的均方误差mset(1≤t≤T)进行求和,获得均方误差和SUM,且满足:
其中T为循环操作结束时的循环次数;
将均方误差和SUM减去循环t次的均方误差mset,获得误差项MSEt,且满足:
MSEt=SUM-mset,1≤t≤T;
对误差项MSEt进行归一化操作,获得不同循环次数下的权重γt,且满足:
对循环t次的异常特征向量Qt进行单位化,获得单位异常特征向量τt,且满足:
本发明的工作原理:
接收高维数据中每一维度的单层初始数据,并对单层初始数据进行第一次异常打分,获得单层初始数据中的异常得分向量;根据异常得分向量对单层初始数据进行选择,获得异常数据集;根据异常得分向量对异常数据集进行特征提取,生成特征向量和均方误差;对特征向量和均方误差进行第二次异常打分,获取分数异常的异常特征向量;对输出的均方误差和分数异常的异常特征向量进行第一次集成,获得单层异常结果;对高维数据中各维度的单层异常结果进行第二次集成,获得最终异常结果。
综上所述,本发明解决了高维数据异常检测的个体预测误差大,检测精度低和稳定性差的问题,实现了高维数据个体预测模型的小误差、高精度,保证了异常检测的稳定性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于弹性网络的集成高维数据异常检测***,其特征在于,该***包括对应于高维数据中每一维度的单层***和与所述每一维度的单层***连接的总成集成模块;
所述单层***包括:
数据模块,用于接收高维数据中每一维度的单层初始数据;
异常打分模块,第一输入端与所述数据模块连接,用于对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;
选择模块,输入端与所述异常打分模块的第一输出端连接,用于根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;
弹性网络模块,输入端与所述选择模块连接,输出端与所述异常打分模块的第二输入端连接,用于根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;
所述异常打分模块进一步用于对所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;
单层集成模块,与所述异常打分模块的第二输出端连接,用于对输出的均方误差和所述异常特征向量进行第一次集成,获得单层异常结果;
所述总成集成模块与所述每个单层***的单层集成模块连接,对各单层***输出的所述单层异常结果进行第二次集成,获得最终异常结果。
2.一种基于弹性网络的集成高维数据异常检测方法,其特征在于,该方法包括以下步骤:
接收高维数据中每一维度的单层初始数据,并对所述单层初始数据进行第一次异常打分,获得所述单层初始数据中的异常得分向量;
根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集;
根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差;
根据所述特征向量和所述均方误差进行第二次异常打分,获取分数异常的异常特征向量;
对输出的所述均方误差和所述异常特征向量进行第一次集成,获得每个维度的单层异常结果;
对各维度的所述单层异常结果进行第二次集成,获得最终异常结果。
3.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述单层初始数据为Xi,i=1,2,3...N,且满足:
Xi=(x1,x2,…,xM)
其中,M为所述单层初始数据中的特征个数;高维数据为X,且满足:
X={X1,X1,…,XN}
其中,N为高维数据中的维度数。
4.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述第一次打分和/或第二次异常打分是基于隔离森林的方式,所述基于隔离森林的方式包括:采样、建立隔离树、计算路径长度、对路径长度归一化。
5.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述根据所述异常得分向量对所述单层初始数据进行选择,获得异常数据集,包括以下步骤:
计算所述异常得分向量Si的期望E(Si)=μ和方差D(Si)=σ2;
根据所述期望E(Si)和方差D(Si)计算异常值候选函数;所述异常值候选函数为H(Si,α),且满足:
H(Si,α)=Si-μ-ασ
其中,α为每层中选择模块设置的阈值;σ为方差的平方根;
根据所述期望E(Si)和方差D(Si)采用切比雪夫不等式对所述异常得分向量Si进行选择判断,判断结果P(S≥μ+ασ),且满足:
其中,ε为任意足够小的正数,且满足ε=ασ;
根据所述判断结果P(S≥μ+ασ)对所述异常得分向量Si进行选择区分,生成异常数据集C,且满足:
6.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述根据所述异常得分向量对所述异常数据集进行特征提取,生成特征向量和均方误差,包括以下步骤:
将异常得分向量Si作为目标特征,异常数据集C作为预测因子,构建稀疏回归模型,求解回归系数ω;所述稀疏回归模型为ElN(C,λ),且满足:
其中,λ为非负的正则化参数,K为所述异常数据集C中数据的个数;T为循环操作结束时的循环次数;
从所述异常数据集C中提取出与所述回归系数ω最相关的特征为特征向量F和所述均方误差mse;所述特征向量F满足:
F={Xi|ωi≠0,1<i<K}
其中,ωi为所述异常数据集C中第i个异常数据的回归系数。
7.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述均方误差mse的计算还包括以下步骤:
在所述均方误差mse小于预设的均方误差初始值mse0时,对此维度的单层初始数据重复执行上述操作,直到循环T次的所述均方误差mseT大于上一次的所述均方误差mseT-1时,输出循环T次的所述均方误差mseT。
8.如权利要求2所述的基于弹性网络的集成高维数据异常检测方法,其特征在于,所述特征向量F和输出的的均方误差mset(1≤t≤T)根据所述第二次异常打分,通过所述采样、建立隔离树、计算路径长度、对路径长度归一化的步骤,获取分数异常的异常特征向量Q。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911076540.7A CN110941542B (zh) | 2019-11-06 | 2019-11-06 | 基于弹性网络的序列集成高维数据异常检测***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911076540.7A CN110941542B (zh) | 2019-11-06 | 2019-11-06 | 基于弹性网络的序列集成高维数据异常检测***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110941542A true CN110941542A (zh) | 2020-03-31 |
CN110941542B CN110941542B (zh) | 2023-08-25 |
Family
ID=69906630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911076540.7A Active CN110941542B (zh) | 2019-11-06 | 2019-11-06 | 基于弹性网络的序列集成高维数据异常检测***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941542B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112014785A (zh) * | 2020-08-06 | 2020-12-01 | 三峡大学 | 基于弹性网络的空心线圈电流互感器误差补偿方法 |
WO2022151843A1 (zh) * | 2021-01-13 | 2022-07-21 | 徐培亮 | 一种基于正则化算法的速度和加速度计算方法及测量装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2921054A1 (en) * | 2015-04-10 | 2016-10-10 | Pankaj Malhotra | Anomaly detection system and method |
US20180103052A1 (en) * | 2016-10-11 | 2018-04-12 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
CN108304851A (zh) * | 2017-01-13 | 2018-07-20 | 重庆邮电大学 | 一种高维数据流异常点识别方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
-
2019
- 2019-11-06 CN CN201911076540.7A patent/CN110941542B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2921054A1 (en) * | 2015-04-10 | 2016-10-10 | Pankaj Malhotra | Anomaly detection system and method |
US20180103052A1 (en) * | 2016-10-11 | 2018-04-12 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
CN108304851A (zh) * | 2017-01-13 | 2018-07-20 | 重庆邮电大学 | 一种高维数据流异常点识别方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
Non-Patent Citations (1)
Title |
---|
余立苹;李云飞;朱世行;: "基于高维数据流的异常检测算法" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112014785A (zh) * | 2020-08-06 | 2020-12-01 | 三峡大学 | 基于弹性网络的空心线圈电流互感器误差补偿方法 |
CN112014785B (zh) * | 2020-08-06 | 2023-07-11 | 三峡大学 | 基于弹性网络的空心线圈电流互感器误差补偿方法 |
WO2022151843A1 (zh) * | 2021-01-13 | 2022-07-21 | 徐培亮 | 一种基于正则化算法的速度和加速度计算方法及测量装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110941542B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956779B2 (en) | Multi-distance clustering | |
CN108709745B (zh) | 一种基于增强型lpp算法和极限学习机快速轴承故障识别方法 | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN111797122B (zh) | 高维重现概念漂移流数据的变化趋势预测方法及装置 | |
Cateni et al. | A hybrid feature selection method for classification purposes | |
Park et al. | Data compression and prediction using machine learning for industrial IoT | |
CN111476100B (zh) | 基于主成分分析的数据处理方法、装置及存储介质 | |
CN110602120B (zh) | 一种面向网络的入侵数据检测方法 | |
US20050114382A1 (en) | Method and system for data segmentation | |
US20230282216A1 (en) | Authentication method and apparatus with transformation model | |
Nguyen et al. | Asymmetric mixture model with simultaneous feature selection and model detection | |
Nurhopipah et al. | Dataset splitting techniques comparison for face classification on CCTV images | |
Ammu et al. | Review on feature selection techniques of DNA microarray data | |
CN110941542B (zh) | 基于弹性网络的序列集成高维数据异常检测***及方法 | |
Shi et al. | Dynamic barycenter averaging kernel in RBF networks for time series classification | |
Sivasankar et al. | Feature reduction in clinical data classification using augmented genetic algorithm | |
Do et al. | Multiple Metric Learning for large margin kNN Classification of time series | |
CN114003900A (zh) | 变电站二次***网络入侵检测方法、装置及*** | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
CN112287036A (zh) | 一种基于谱聚类的离群点检测方法 | |
WO2023250322A1 (en) | Image embeddings via deep learning and adaptive batch normalization | |
Gogebakan et al. | Mixture model clustering using variable data segmentation and model selection: a case study of genetic algorithm | |
Hsu et al. | Linear dynamics: Clustering without identification | |
Lv et al. | Determination of the number of principal directions in a biologically plausible PCA model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |