CN114462617A

CN114462617A - 一种基于蒸馏机制的数据异常检测方法

Info

Publication number: CN114462617A
Application number: CN202111571914.XA
Authority: CN
Inventors: 邓方; 朱佳琪; 赵佳晨; 郑豪; 石翔; 高峰; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-10

Abstract

本发明公开一种基于蒸馏机制的数据异常检测方法，1：原始数据采集与预处理；2：将预处理的数据压缩编码，编码器将输入数据投影到隐空间得到初始隐藏向量；3：将初始隐藏向量输入隐空间中的聚合模块，得到地标向量以及各初始隐藏向量的权重向量，通过地标向量和权重向量得到与初始隐藏向量一一对应的约束隐藏向量；4：对约束隐藏向量进行蒸馏过滤，得到只包含正常模式特征的干净约束隐藏向量；5：将干净约束隐藏向量解码重构，得到与输入数据对应的重构数据；6：利用输入数据和与之对应的重构数据计算异常分数，设置异常阈值，异常分数超过异常阈值的样本即为异常样本；本发明可自适应地在训练过程中更新正常特征，异常检测准确度高。

Description

一种基于蒸馏机制的数据异常检测方法

技术领域

本发明属于信息处理技术领域，具体涉及一种基于蒸馏机制的数据异常检测方法。

背景技术

近年来，随着人工智能和大数据领域的快速发展，异常检测作为一个经典且核心的关键研究，广泛应用于我们生产生活的各个领域，比如金融诈骗、网络攻击、人体健康检测、城市安全建设以及设备故障诊断等。在异常检测任务中，通常情况下，与正常样本相比，异常样本往往是极少数的，并且异常样本的异常情况是异构且未知的。这种类别不均衡以及异常样本的未知和异构特性导致对其进行标签往往需要大量的时间成本以及专家知识，这是非常困难的。因此，无监督的异常检测研究具有重要的现实意义。

尽管异常检测任务在多年来一直是活跃的研究领域，但仍存在一些独特的复杂性的挑战。现有的大部分异常检测方法均假设训练数据是干净的，即训练数据全部都是正常样本。然而，真实数据往往是大量正常样本中包含少量异常样本的情况。而正如前文中说的，在大量的正常样本中标记出少量且异构的异常样本是非常困难的。因此真实情况下往往存在着错误的标记为相反类别标签的嘈杂实例，而现有的方法对于这种情况是非常脆弱的，在实际检测过程中易产生误报和漏报的现象。同时，现有的异常检测的方法大多忽略正常样本的多样性，而在实际情况中，正常与异常往往都是包含多类的，即使是只有一类，也可能会存在多种不同的特征表述。另一方面，在少数考虑多种正常模式的方法中，往往需要人工预定义正常模式的数量，而无法根据数据样本的特征自适应的得到正常模式的数量。因此研究一种在有噪声干扰的训练条件下考虑正常样本的多样性且无需人工预定义正常模式数量的无监督异常检测方法至关重要。

发明内容

有鉴于此，本发明提供了一种基于蒸馏机制的数据异常检测方法，能够考虑到正常样本特征的多样性，并且可以自适应地在训练过程中更新正常特征及其数量，异常检测准确度高。

实现本发明的技术方案如下：

一种基于蒸馏机制的数据异常检测方法，包括以下步骤：

步骤1：原始数据采集与预处理；

步骤2：将采集后经预处理的数据输入编码器进行压缩编码，编码器将输入数据投影到隐空间，得到隐空间中的初始隐藏向量；

步骤3：将初始隐藏向量输入隐空间中的聚合模块，得到地标向量(特征原型向量即正常样本的聚类中心)以及各初始隐藏向量的权重向量，通过地标向量和权重向量进而得到与初始隐藏向量一一对应的约束隐藏向量；

步骤4：将地标向量与约束隐藏向量同时输入蒸馏模块，对约束隐藏向量进行蒸馏过滤，得到只包含正常模式特征的干净约束隐藏向量；

步骤5：将干净约束隐藏向量输入到解码器进行解码重构，得到与步骤2中的输入数据对应的重构数据；

步骤6：利用输入数据和与之对应的重构数据计算出重构误差，将重构误差和权重向量的熵的加权和作为异常分数，设置异常阈值，异常分数超过异常阈值的样本即为异常样本。

进一步地，在步骤1中，预处理包括删除连续丢失的数据、对于非连续丢失的数据根据前后数据插值填充、数据标准化。

进一步地，在步骤3中，在所述聚合模块中，分析正常样本隐平面上的特征，选取局部密度大于其周围向量的初始隐藏向量作为特征原型向量即为地标向量。

进一步地，在步骤3中，对于每个输入到聚合模块中的初始隐藏向量，基于注意力机制，由若干地标向量加权组合形成一个与初始隐藏向量对应的约束隐藏向量；若干地标向量组成一个凸多边形边界；基于注意力机制的映射操作使得形成的约束隐藏向量即正常特征均处于地标向量组成的凸多边形边界内，最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性，从而更好地检测异常样本。

进一步地，在步骤4中，通过所述蒸馏模块将混入的噪杂实例过滤掉，使其不参与训练；在训练过程中，将隐藏平面上以地标向量为顶点的凸多边形中心C为圆心，r为半径的区域内的样本删除，使其不参与模型的训练；从而保证模型在训练集中有异常样本干扰情况下的异常检测效果。

进一步地，在步骤4中，自适应地减小半径r收缩过滤区域的大小，从而减少训练集中正常样本的损失。

进一步地，自适应地减小半径r，具体采用以下公式：

r_decayed＝r·e^{-ρ·global_step}

其中，r_decayed为采用自然指数衰减策略后的蒸馏半径，ρ为设定的衰减率，global_step为当前的训练迭代次数，r为设定的初始半径。

有益效果：

1、本发明方法是一种无监督的端到端的异常检测方法，训练方便，检测精度高，漏检率低，具有较好的通用性和高效性。

2、本发明方法考虑了正常样本特征的多样性，并且可以自适应地在训练过程中更新正常特征及其数量，异常检测准确度高；

3、本发明方法通过地标向量组成一个凸多边形边界，使得正常样本的隐藏向量均处于边界内，从而最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性，使该方法可以更好地检测异常样本。

4、本发明方法通过一种基于空间特征的蒸馏机制，使得模型可以在有噪声干扰的情况下进行异常检测，并保证精度，同时减轻模型的计算代价。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

如图1所示，本发明提供了一种基于蒸馏机制的数据异常检测模型，该模型包括编码器、解码器以及隐空间中的聚合模块和蒸馏模块。该模型包含一种基于局部密度的自适应的地标向量生成机制，考虑正常模式的多样性，最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性。同时，模型通过蒸馏机制，使得模型在有噪声干扰的实际训练环境中保证模型的异常检测精度，同时减轻模型的计算代价。

步骤1是原始数据采集与预处理工作。所述方法可处理各类一维数据，比如人体健康检测数据、网络攻击数据以及设备传感器检测数据等。原始数据的预处理工作包括删除连续丢失的数据，并对于非连续丢失的数据，根据前后数据插值填充，以及数据标准化等工作。

步骤2是对输入数据编码的过程。首先，定义X表示输入数据样本所处的域，而Z表示隐空间。令输入数据样本集为U＝{x_i|i＝1,...,M},其中x_i∈X表示第i个数据样本。基于此，可将编码器的编码过程表示为f_e(·):X→Z，给定一个样本x∈X，编码器将其从X域映射到Z域上，z∈Z。具体过程可表示如下：

z＝f_e(x；θ_e)

其中，θ_e表示编码器的参数。

步骤3中，为了保证地标向量满足拥有较高的局部密度，以及不同地标向量之间的距离相对较远，具有稀疏性，选取局部可达密度大于其周围向量的初始隐藏向量作为特征原型向量即为地标向量。地标向量集合P表示如下：

其中，Z表示隐空间中的初始隐藏向量集合，Ν_k(p)为p向量的k近临，lrd(z)为z向量的局部可达密度，局部可达密度表示如下：

其中，ρ_i为局部密度表示如下：

其中，若X<0则χ(x)＝1,否则χ(x)＝0。d_ij表示i，j两点间的距离，d_c为截断距离。

在此基础上，可以得到约束隐藏向量为各地标向量的线性加权和计算如下：

其中，L为地标向量，L∈R^F×D，F表示地标向量的个数，D表示每个地标向量的维数。W为权重向量，W∈R^1×F，ω_i为向量W的第i个非负元素。对于一个初始隐藏向量z∈Z，ω_i表示其与每个地标向量的对应的注意力权重大小如下：

其中，d(.,.)表示一种相似性度量，在此采用余弦相似度计算如下：

通过上述基于注意力机制的映射操作，可以将所有样本均映射到以地标向量为顶点的凸多边形边界内。

步骤4为蒸馏操作，目的是将混入的噪杂实例过滤掉，使其不参与训练。由于地标向量被选择用来代表正常样本在隐藏平面中的原型特征表示，因此，经过上述映射操作后，正常样本对应的权重向量应有较小的熵值，即映射后的正常样本应位于以地标向量为顶点的凸多边形边界内，且分布靠近其中某一个地标向量。与之相反，对于异常样本，由于地标向量无法代表其特征，因此其映射后的权重向量拥有相对较大的熵值。因此，异常样本的隐藏向量经过上述映射操作之后将位于凸多边形的中心区域附近。可将凸多边形的中心表示如下

在训练过程中，将隐藏平面上以中心C为圆心，r为半径的区域内的样本删除，使其不参与模型的训练，最终输出干净的约束隐藏向量。从而在训练集中过滤掉异常样本，保证模型在训练集中有异常样本干扰情况下的异常检测效果。

上述蒸馏操作将使得训练集中的异常样本随着迭代次数的增多逐渐减少，因此在训练过程中，过滤区域的半径r也应自适应的进行相应的收缩，从而减少训练集中正常样本的损失。采用自然指数衰减策略进行r的动态调整，公式如下：

r_decayed＝r·e^{-ρ·global_step}

其中，r_decayed为采用自然指数衰减策略后的蒸馏半径，ρ为设定的衰减率，global_step为当前的训练迭代次数。

步骤5是对解码的过程。解码器的解码过程可表示为f_d(·):Z→X。解码器将Z域上的向量

映射回X域上，

具体过程可表示如下：

其中，θ_d表示解码器的参数，

为重构数据。

步骤6为异常样本的检测过程，即衡量异常分数是否大于异常阈值，若大于，则为异常，反之则为正常。异常分数由两部分组成：重构误差和权重向量的熵。重构误差可根据输入数据和重构数据计算得到，公示如下：

其中，x_i表示第i个输入数据，

表示第i个重构数据。

权重向量的熵计算公式如下：

E(ω_i)＝-ω_ilog(ω_i)

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于蒸馏机制的数据异常检测方法，其特征在于，包括以下步骤：

步骤1：原始数据采集与预处理；

步骤3：将初始隐藏向量输入隐空间中的聚合模块，得到地标向量以及各初始隐藏向量的权重向量，通过地标向量和权重向量进而得到与初始隐藏向量一一对应的约束隐藏向量；所述地标向量即为特征原型向量或正常样本的聚类中心；

2.如权利要求1所述的一种基于蒸馏机制的数据异常检测方法，其特征在于，在步骤1中，预处理包括删除连续丢失的数据、对于非连续丢失的数据根据前后数据插值填充、数据标准化。

3.如权利要求1所述的一种基于蒸馏机制的数据异常检测方法，其特征在于，在步骤3中，在所述聚合模块中，分析正常样本隐平面上的特征，选取局部密度大于其周围向量的初始隐藏向量作为特征原型向量即为地标向量。

4.如权利要求1所述的一种基于蒸馏机制的数据异常检测方法，其特征在于，在步骤3中，对于每个输入到聚合模块中的初始隐藏向量，基于注意力机制，由若干地标向量加权组合形成一个与初始隐藏向量对应的约束隐藏向量；若干地标向量组成一个凸多边形边界；基于注意力机制的映射操作使得形成的约束隐藏向量即正常特征均处于地标向量组成的凸多边形边界内，最小化正常样本的类内差异并且保证其在隐藏空间中的表示的一致性，从而更好地检测异常样本。

5.如权利要求4所述的一种基于蒸馏机制的数据异常检测方法，其特征在于，在步骤4中，通过所述蒸馏模块将混入的噪杂实例过滤掉，使其不参与训练；在训练过程中，将隐藏平面上以地标向量为顶点的凸多边形中心C为圆心，r为半径的区域内的样本删除，使其不参与模型的训练；从而保证模型在训练集中有异常样本干扰情况下的异常检测效果。

6.如权利要求5所述的一种基于蒸馏机制的数据异常检测方法，其特征在于，在步骤4中，自适应地减小半径r，收缩过滤区域的大小，从而减少训练集中正常样本的损失。

7.如权利要求6所述的一种基于蒸馏机制的数据异常检测方法，其特征在于，自适应地减小半径r，具体采用以下公式：

r_decayed＝r·e^{-ρ·global_step}