CN114462617A - 一种基于蒸馏机制的数据异常检测方法 - Google Patents

一种基于蒸馏机制的数据异常检测方法 Download PDF

Info

Publication number
CN114462617A
CN114462617A CN202111571914.XA CN202111571914A CN114462617A CN 114462617 A CN114462617 A CN 114462617A CN 202111571914 A CN202111571914 A CN 202111571914A CN 114462617 A CN114462617 A CN 114462617A
Authority
CN
China
Prior art keywords
hidden
vectors
vector
data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111571914.XA
Other languages
English (en)
Inventor
邓方
朱佳琪
赵佳晨
郑豪
石翔
高峰
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111571914.XA priority Critical patent/CN114462617A/zh
Publication of CN114462617A publication Critical patent/CN114462617A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于蒸馏机制的数据异常检测方法,1:原始数据采集与预处理;2:将预处理的数据压缩编码,编码器将输入数据投影到隐空间得到初始隐藏向量;3:将初始隐藏向量输入隐空间中的聚合模块,得到地标向量以及各初始隐藏向量的权重向量,通过地标向量和权重向量得到与初始隐藏向量一一对应的约束隐藏向量;4:对约束隐藏向量进行蒸馏过滤,得到只包含正常模式特征的干净约束隐藏向量;5:将干净约束隐藏向量解码重构,得到与输入数据对应的重构数据;6:利用输入数据和与之对应的重构数据计算异常分数,设置异常阈值,异常分数超过异常阈值的样本即为异常样本;本发明可自适应地在训练过程中更新正常特征,异常检测准确度高。

Description

一种基于蒸馏机制的数据异常检测方法
技术领域
本发明属于信息处理技术领域,具体涉及一种基于蒸馏机制的数据异常检测方法。
背景技术
近年来,随着人工智能和大数据领域的快速发展,异常检测作为一个经典且核心的关键研究,广泛应用于我们生产生活的各个领域,比如金融诈骗、网络攻击、人体健康检测、城市安全建设以及设备故障诊断等。在异常检测任务中,通常情况下,与正常样本相比,异常样本往往是极少数的,并且异常样本的异常情况是异构且未知的。这种类别不均衡以及异常样本的未知和异构特性导致对其进行标签往往需要大量的时间成本以及专家知识,这是非常困难的。因此,无监督的异常检测研究具有重要的现实意义。
尽管异常检测任务在多年来一直是活跃的研究领域,但仍存在一些独特的复杂性的挑战。现有的大部分异常检测方法均假设训练数据是干净的,即训练数据全部都是正常样本。然而,真实数据往往是大量正常样本中包含少量异常样本的情况。而正如前文中说的,在大量的正常样本中标记出少量且异构的异常样本是非常困难的。因此真实情况下往往存在着错误的标记为相反类别标签的嘈杂实例,而现有的方法对于这种情况是非常脆弱的,在实际检测过程中易产生误报和漏报的现象。同时,现有的异常检测的方法大多忽略正常样本的多样性,而在实际情况中,正常与异常往往都是包含多类的,即使是只有一类,也可能会存在多种不同的特征表述。另一方面,在少数考虑多种正常模式的方法中,往往需要人工预定义正常模式的数量,而无法根据数据样本的特征自适应的得到正常模式的数量。因此研究一种在有噪声干扰的训练条件下考虑正常样本的多样性且无需人工预定义正常模式数量的无监督异常检测方法至关重要。
发明内容
有鉴于此,本发明提供了一种基于蒸馏机制的数据异常检测方法,能够考虑到正常样本特征的多样性,并且可以自适应地在训练过程中更新正常特征及其数量,异常检测准确度高。
实现本发明的技术方案如下:
一种基于蒸馏机制的数据异常检测方法,包括以下步骤:
步骤1:原始数据采集与预处理;
步骤2:将采集后经预处理的数据输入编码器进行压缩编码,编码器将输入数据投影到隐空间,得到隐空间中的初始隐藏向量;
步骤3:将初始隐藏向量输入隐空间中的聚合模块,得到地标向量(特征原型向量即正常样本的聚类中心)以及各初始隐藏向量的权重向量,通过地标向量和权重向量进而得到与初始隐藏向量一一对应的约束隐藏向量;
步骤4:将地标向量与约束隐藏向量同时输入蒸馏模块,对约束隐藏向量进行蒸馏过滤,得到只包含正常模式特征的干净约束隐藏向量;
步骤5:将干净约束隐藏向量输入到解码器进行解码重构,得到与步骤2中的输入数据对应的重构数据;
步骤6:利用输入数据和与之对应的重构数据计算出重构误差,将重构误差和权重向量的熵的加权和作为异常分数,设置异常阈值,异常分数超过异常阈值的样本即为异常样本。
进一步地,在步骤1中,预处理包括删除连续丢失的数据、对于非连续丢失的数据根据前后数据插值填充、数据标准化。
进一步地,在步骤3中,在所述聚合模块中,分析正常样本隐平面上的特征,选取局部密度大于其周围向量的初始隐藏向量作为特征原型向量即为地标向量。
进一步地,在步骤3中,对于每个输入到聚合模块中的初始隐藏向量,基于注意力机制,由若干地标向量加权组合形成一个与初始隐藏向量对应的约束隐藏向量;若干地标向量组成一个凸多边形边界;基于注意力机制的映射操作使得形成的约束隐藏向量即正常特征均处于地标向量组成的凸多边形边界内,最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性,从而更好地检测异常样本。
进一步地,在步骤4中,通过所述蒸馏模块将混入的噪杂实例过滤掉,使其不参与训练;在训练过程中,将隐藏平面上以地标向量为顶点的凸多边形中心C为圆心,r为半径的区域内的样本删除,使其不参与模型的训练;从而保证模型在训练集中有异常样本干扰情况下的异常检测效果。
进一步地,在步骤4中,自适应地减小半径r收缩过滤区域的大小,从而减少训练集中正常样本的损失。
进一步地,自适应地减小半径r,具体采用以下公式:
rdecayed=r·e-ρ·global_step
其中,rdecayed为采用自然指数衰减策略后的蒸馏半径,ρ为设定的衰减率,global_step为当前的训练迭代次数,r为设定的初始半径。
有益效果:
1、本发明方法是一种无监督的端到端的异常检测方法,训练方便,检测精度高,漏检率低,具有较好的通用性和高效性。
2、本发明方法考虑了正常样本特征的多样性,并且可以自适应地在训练过程中更新正常特征及其数量,异常检测准确度高;
3、本发明方法通过地标向量组成一个凸多边形边界,使得正常样本的隐藏向量均处于边界内,从而最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性,使该方法可以更好地检测异常样本。
4、本发明方法通过一种基于空间特征的蒸馏机制,使得模型可以在有噪声干扰的情况下进行异常检测,并保证精度,同时减轻模型的计算代价。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
如图1所示,本发明提供了一种基于蒸馏机制的数据异常检测模型,该模型包括编码器、解码器以及隐空间中的聚合模块和蒸馏模块。该模型包含一种基于局部密度的自适应的地标向量生成机制,考虑正常模式的多样性,最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性。同时,模型通过蒸馏机制,使得模型在有噪声干扰的实际训练环境中保证模型的异常检测精度,同时减轻模型的计算代价。
步骤1是原始数据采集与预处理工作。所述方法可处理各类一维数据,比如人体健康检测数据、网络攻击数据以及设备传感器检测数据等。原始数据的预处理工作包括删除连续丢失的数据,并对于非连续丢失的数据,根据前后数据插值填充,以及数据标准化等工作。
步骤2是对输入数据编码的过程。首先,定义X表示输入数据样本所处的域,而Z表示隐空间。令输入数据样本集为U={xi|i=1,...,M},其中xi∈X表示第i个数据样本。基于此,可将编码器的编码过程表示为fe(·):X→Z,给定一个样本x∈X,编码器将其从X域映射到Z域上,z∈Z。具体过程可表示如下:
z=fe(x;θe)
其中,θe表示编码器的参数。
步骤3中,为了保证地标向量满足拥有较高的局部密度,以及不同地标向量之间的距离相对较远,具有稀疏性,选取局部可达密度大于其周围向量的初始隐藏向量作为特征原型向量即为地标向量。地标向量集合P表示如下:
Figure BDA0003424047140000051
其中,Z表示隐空间中的初始隐藏向量集合,Νk(p)为p向量的k近临,lrd(z)为z向量的局部可达密度,局部可达密度表示如下:
Figure BDA0003424047140000052
其中,ρi为局部密度表示如下:
Figure BDA0003424047140000053
其中,若X<0则χ(x)=1,否则χ(x)=0。dij表示i,j两点间的距离,dc为截断距离。
在此基础上,可以得到约束隐藏向量为各地标向量的线性加权和计算如下:
Figure BDA0003424047140000054
Figure BDA0003424047140000055
其中,L为地标向量,L∈RF×D,F表示地标向量的个数,D表示每个地标向量的维数。W为权重向量,W∈R1×F,ωi为向量W的第i个非负元素。对于一个初始隐藏向量z∈Z,ωi表示其与每个地标向量的对应的注意力权重大小如下:
Figure BDA0003424047140000061
其中,d(.,.)表示一种相似性度量,在此采用余弦相似度计算如下:
Figure BDA0003424047140000062
通过上述基于注意力机制的映射操作,可以将所有样本均映射到以地标向量为顶点的凸多边形边界内。
步骤4为蒸馏操作,目的是将混入的噪杂实例过滤掉,使其不参与训练。由于地标向量被选择用来代表正常样本在隐藏平面中的原型特征表示,因此,经过上述映射操作后,正常样本对应的权重向量应有较小的熵值,即映射后的正常样本应位于以地标向量为顶点的凸多边形边界内,且分布靠近其中某一个地标向量。与之相反,对于异常样本,由于地标向量无法代表其特征,因此其映射后的权重向量拥有相对较大的熵值。因此,异常样本的隐藏向量经过上述映射操作之后将位于凸多边形的中心区域附近。可将凸多边形的中心表示如下
Figure BDA0003424047140000063
在训练过程中,将隐藏平面上以中心C为圆心,r为半径的区域内的样本删除,使其不参与模型的训练,最终输出干净的约束隐藏向量。从而在训练集中过滤掉异常样本,保证模型在训练集中有异常样本干扰情况下的异常检测效果。
上述蒸馏操作将使得训练集中的异常样本随着迭代次数的增多逐渐减少,因此在训练过程中,过滤区域的半径r也应自适应的进行相应的收缩,从而减少训练集中正常样本的损失。采用自然指数衰减策略进行r的动态调整,公式如下:
rdecayed=r·e-ρ·global_step
其中,rdecayed为采用自然指数衰减策略后的蒸馏半径,ρ为设定的衰减率,global_step为当前的训练迭代次数。
步骤5是对解码的过程。解码器的解码过程可表示为fd(·):Z→X。解码器将Z域上的向量
Figure BDA0003424047140000071
映射回X域上,
Figure BDA0003424047140000072
具体过程可表示如下:
Figure BDA0003424047140000073
其中,θd表示解码器的参数,
Figure BDA0003424047140000074
为重构数据。
步骤6为异常样本的检测过程,即衡量异常分数是否大于异常阈值,若大于,则为异常,反之则为正常。异常分数由两部分组成:重构误差和权重向量的熵。重构误差可根据输入数据和重构数据计算得到,公示如下:
Figure BDA0003424047140000075
其中,xi表示第i个输入数据,
Figure BDA0003424047140000076
表示第i个重构数据。
权重向量的熵计算公式如下:
E(ωi)=-ωilog(ωi)
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于蒸馏机制的数据异常检测方法,其特征在于,包括以下步骤:
步骤1:原始数据采集与预处理;
步骤2:将采集后经预处理的数据输入编码器进行压缩编码,编码器将输入数据投影到隐空间,得到隐空间中的初始隐藏向量;
步骤3:将初始隐藏向量输入隐空间中的聚合模块,得到地标向量以及各初始隐藏向量的权重向量,通过地标向量和权重向量进而得到与初始隐藏向量一一对应的约束隐藏向量;所述地标向量即为特征原型向量或正常样本的聚类中心;
步骤4:将地标向量与约束隐藏向量同时输入蒸馏模块,对约束隐藏向量进行蒸馏过滤,得到只包含正常模式特征的干净约束隐藏向量;
步骤5:将干净约束隐藏向量输入到解码器进行解码重构,得到与步骤2中的输入数据对应的重构数据;
步骤6:利用输入数据和与之对应的重构数据计算出重构误差,将重构误差和权重向量的熵的加权和作为异常分数,设置异常阈值,异常分数超过异常阈值的样本即为异常样本。
2.如权利要求1所述的一种基于蒸馏机制的数据异常检测方法,其特征在于,在步骤1中,预处理包括删除连续丢失的数据、对于非连续丢失的数据根据前后数据插值填充、数据标准化。
3.如权利要求1所述的一种基于蒸馏机制的数据异常检测方法,其特征在于,在步骤3中,在所述聚合模块中,分析正常样本隐平面上的特征,选取局部密度大于其周围向量的初始隐藏向量作为特征原型向量即为地标向量。
4.如权利要求1所述的一种基于蒸馏机制的数据异常检测方法,其特征在于,在步骤3中,对于每个输入到聚合模块中的初始隐藏向量,基于注意力机制,由若干地标向量加权组合形成一个与初始隐藏向量对应的约束隐藏向量;若干地标向量组成一个凸多边形边界;基于注意力机制的映射操作使得形成的约束隐藏向量即正常特征均处于地标向量组成的凸多边形边界内,最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性,从而更好地检测异常样本。
5.如权利要求4所述的一种基于蒸馏机制的数据异常检测方法,其特征在于,在步骤4中,通过所述蒸馏模块将混入的噪杂实例过滤掉,使其不参与训练;在训练过程中,将隐藏平面上以地标向量为顶点的凸多边形中心C为圆心,r为半径的区域内的样本删除,使其不参与模型的训练;从而保证模型在训练集中有异常样本干扰情况下的异常检测效果。
6.如权利要求5所述的一种基于蒸馏机制的数据异常检测方法,其特征在于,在步骤4中,自适应地减小半径r,收缩过滤区域的大小,从而减少训练集中正常样本的损失。
7.如权利要求6所述的一种基于蒸馏机制的数据异常检测方法,其特征在于,自适应地减小半径r,具体采用以下公式:
rdecayed=r·e-ρ·global_step
其中,rdecayed为采用自然指数衰减策略后的蒸馏半径,ρ为设定的衰减率,global_step为当前的训练迭代次数,r为设定的初始半径。
CN202111571914.XA 2021-12-21 2021-12-21 一种基于蒸馏机制的数据异常检测方法 Pending CN114462617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111571914.XA CN114462617A (zh) 2021-12-21 2021-12-21 一种基于蒸馏机制的数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111571914.XA CN114462617A (zh) 2021-12-21 2021-12-21 一种基于蒸馏机制的数据异常检测方法

Publications (1)

Publication Number Publication Date
CN114462617A true CN114462617A (zh) 2022-05-10

Family

ID=81406048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111571914.XA Pending CN114462617A (zh) 2021-12-21 2021-12-21 一种基于蒸馏机制的数据异常检测方法

Country Status (1)

Country Link
CN (1) CN114462617A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204770A (zh) * 2022-12-12 2023-06-02 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204770A (zh) * 2022-12-12 2023-06-02 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置
CN116204770B (zh) * 2022-12-12 2023-10-13 中国公路工程咨询集团有限公司 一种用于桥梁健康监测数据异常检测的训练方法及装置

Similar Documents

Publication Publication Date Title
WO2023123941A1 (zh) 一种数据异常检测方法及装置
JP6692464B2 (ja) 点を有する入力点群を処理するシステム及び方法
Distante et al. Handbook of image processing and computer vision
Pauly et al. Uncertainty and variability in point cloud surface data
Willett et al. Minimax optimal level-set estimation
CN109919204A (zh) 一种面向噪声图像的深度学习聚类方法
CN115412455B (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN111914903B (zh) 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备
Wan et al. Industrial pollution areas detection and location via satellite-based IIoT
CN107862687A (zh) 一种用于监测农业病虫害的预警***
CN114120974A (zh) 一种基于深度学习的风机叶片故障诊断方法
CN114462617A (zh) 一种基于蒸馏机制的数据异常检测方法
CN113723472B (zh) 一种基于动态滤波等变卷积网络模型的图像分类方法
Dickinson et al. Use of pattern-recognition techniques in analyzing downhole dynamometer cards
CN117272055B (zh) 一种基于滤波增强自编码器的电能表异常检测方法及装置
CN117782198B (zh) 一种基于云边端架构的公路机电设备运行监测方法及***
CN114595635A (zh) 火电机组主汽温度数据的特征选择方法、***及设备
CN117606798A (zh) 一种烟草机械轴承故障诊断方法及诊断***
CN116310851B (zh) 遥感图像变化检测方法
CN117763494A (zh) 基于多模态和多尺度融合网络的轴承诊断方法及***
CN112365551A (zh) 一种图像质量处理***、方法、设备和介质
Jung et al. A vertical-energy-thresholding procedure for data reduction with multiple complex curves
CN114219084B (zh) 一种快消行业的访销陈列造假识别方法及装置
Aiordachioaie et al. Change Detection by Feature Extraction and Processing from Time-Frequency Images
CN114267063A (zh) 一种无监督的人脸伪造评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination