CN115080965B

CN115080965B - 基于历史表现的无监督异常检测方法及***

Info

Publication number: CN115080965B
Application number: CN202210979825.7A
Authority: CN
Inventors: 黄铮; 秦宝帅; 周倩如
Original assignee: Hangzhou Bizhi Technology Co ltd
Current assignee: Hangzhou Bizhi Technology Co ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-15
Anticipated expiration: 2042-08-16
Also published as: CN115080965A

Abstract

本发明公开了一种基于历史表现的无监督异常检测方法及***，包括以下步骤：S1：周期性触发，获取推理样本；S2：获取训练生成的模型文件和中间变量；S3：用户可对推理结果进行纠正打标，产生的新样本用于打标模式训练的使用；S4:即时模式下获取推理样本作为当前轮次的训练样本，称为T训练样本；S5：从存储中获取上一轮次的训练样本，称为T‑1训练样本，以时间为索引对T‑1和T训练样本进行拼接、去重、存储，得到完整的训练样本；S6:对训练样本进行交叉验证，计算评估指标二分轮廓系数；S7:执行模型调优，使用网格搜索的方法重复执行S6；S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄‑孤立森林异常检测模型。

Description

基于历史表现的无监督异常检测方法及***

技术领域

本发明涉及机器学习中无监督时序异常检测领域，尤其是涉及一种基于历史表现的无监督异常检测方法及***。

背景技术

异常检测是数据安全领域的一个重要分支，其定义是从正常的时间序列中识别不正常的事件或行为的过程。企业使用异常检测技术可以对网络数据、用户敏感访问和操作进行实时监测，当发现异常时，及时采取措施最终保障信息安全、减少企业损失。

现有的异常检测技术主要分为以下几类：

1、基于统计预测的方法：通过预测值和实际值的误差大小来判定出现异常的位置。代表算法有EMA、AR、ARIMA。

缺陷：多维时间序列转换为多个单维时间序列分别进行预测，需要建立多个模型，当数据维度增长时，算法的计算量显著增长，不适用于数据量大、有实时性要求的异常检测场景；仅适用于平稳性较好的时序数据。

2、基于有监督分类的方法：代表算法有支持向量机、K近邻、决策树一族、深度神经网络等。

缺陷：实际工程应用中获取时序数据是否异常的标签成本高，难以落地。

3、基于无监督学习的方法：基于聚类的代表算法有K-means、DBSCAN、高斯混合模型GMM等；另一方面，也有基于树的异常检测方法如孤立森林。

缺陷：传统的无监督异常检测算法的对象是无序变量，但时序数据是有序的，在建模的过程中会丢失时间维度的信息。无监督学习缺乏有效的评估指标，难以做到***高度自动化。

针对以上痛点，本发明实现了一种针对多维时序特征的基于历史表现的无监督异常检测方法及***：

1、采用希尔伯特黄算法做时频分析，同时考虑了时间和频率维度的信息，实现同时对时域和频域进行异常检测，覆盖面广。

2、采用孤立森林无监督学习算法来检测异常，无需对时序数据进行打标，在实际工程应用中能够快速落地。

3、在同一时刻保留各个维度之间的相互关系，单模型实现多维时序特征的异常检测，快速、实时性好。

4、使用二分轮廓系数来指导参数调优，使***能够高度自动化。自动化的参数调优让无监督算法效果也能得到保障。

5、异常检测在线学习***高度自动化，能够实现对各类数据的异常时序和频率的检测、告警等目标。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种多维时序、基于历史、无监督、快速、高度自动化的异常检测算法方案及***，能够实现对数据异常时序和频率的检测、告警等目标。

为实现上述目的，本发明提供一种基于历史表现的无监督异常检测方法，所述方法包括以下步骤：

S1：周期性触发，获取推理样本；

S2：获取训练生成的模型文件和中间变量，对推理样本执行希尔伯特黄-孤立森林算法的推理流程；

S3：用户可对推理结果进行纠正打标，产生的新样本用于打标模式训练的使用；

S4: 即时模式下获取推理样本作为当前轮次的训练样本（T训练样本）；打标模式下获取最新的打标样本作为T训练样本；

S5：从存储中获取上一轮次的训练样本（T-1训练样本），以时间为索引对T-1和T训练样本进行拼接、去重、存储，得到完整的训练样本；

S6: 对训练样本进行交叉验证，计算评估指标二分轮廓系数；

S7: 执行模型调优，使用网格搜索的方法重复执行S6；

S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄-孤立森林异常检测模型。

进一步，推理样本为包含时间戳和时序信息的文本数据。

进一步，推理流程生成的推理结果为包含时间戳和多维时序信息是否为异常的标签。

进一步，打标样本需要对打标为异常的时序做缺失处理，再插补缺失值。

进一步，***启动后首次执行推理，由于尚未执行过训练，不存在模型文件和中间变量，推理结果将默认全部正常；在之后的推理任务中，将获取和使用最新一次的训练生成的模型。

进一步，网格搜索通过遍历给定的模型参数组合来优化模型表现。

进一步，打标样本为包含时间戳、时序信息和用户打标标签的文本数据。

进一步，步骤S6中，交叉验证和计算流程包括：

S61: 执行保证数据连续性的数据划分，形成K次实验；

S62: 对于第1～K次实验，对训练集执行希尔伯特黄-孤立森林算法的训练流程，得到K个异常检测模型。

S63: 对于第1～K次实验，使用S62得到的模型对测试集上执行希尔伯特黄-孤立森林算法的推理流程。

S64: 对于第1～K次实验，计算二分轮廓系数。

S65: 根据第1～K次实验得到的二分轮廓系数取均值，生成最终的二分轮廓系数。

进一步，所述方法中使用的二分轮廓系数如下：

二分轮廓系数是衡量异常检测模型结果质量的评估指标。二分轮廓系数考虑的有两个因素：预测为正常的标签和预测为异常的标签的内聚度和分离度，它们的值介于[-1,1]，越趋近于1则代表内聚度和分离度都相对较优。我们希望在模型预测的结果中，正常的标签与异常的标签对应的点之间的距离足够的远，同时正常的标签对应的点簇中及异常的标签对应的点簇中的点足够的近，而不考虑正常的点簇之间与异常的点簇之间的情况。

步骤S64中计算轮廓系数的具体步骤如下：

S641: 使用经典聚类算法，例如k-means，分别对模型预测的正常的标签和异常的标签对应的值做聚类，得到正常的标签中值对应的具体类别和异常的标签中值对应的具体类别，按先异常再正常的顺序重构待评估数据；

S642: 对于正常点簇中的每一个类别，取出对应的点集，对点集中的每个点分别计算类内与其他点的距离均值

、类外到其他所有异常簇的距离之和的最小平均值

，使用下述公式计算点的二分轮廓系数值；异常点簇计算类似，对于异常点簇中的每一个类别，取出对应的点集，对点集中的每个点分别计算类内与其他点的距离均值

、类外到其他所有正常簇的距离之和的最小平均值

，同样使用下述公式计算点的二分轮廓系数值；最后计算二分轮廓系数均值；

S643: 对Step 2得到的二分轮廓系数结果集的子集，计算超过Step 1得到的二分轮廓系数均值的比例值；

S644: 对Step 2得到的二分轮廓系数结果集中的每个子集的值求和，并以Step 3得到的比例值作为权重做加权求和，再除以点数做归一化，即得到模型对应的整体的二分轮廓系数的值。

本方法中步骤S2和S63中使用的希尔伯特黄-孤立森林算法具体如下：

S100: 对

维的时序特征

进行经验模态分解，得到

个固有模态函数

和残差

，其关系满足：

其中时序特征

是一个时间步长为

，维度为

，每个元素为实数

的矩阵X

是经验模态分解得到的第

个固有模态函数，其矩阵表示为

；

是经验模态分解终止后得到的残差的矩阵表示。

S200：对S100得到的

个固有模态函数{

分别做希尔伯特谱分析，得到

个希尔伯特谱

，即将固有模态函数表示在联合的时频域中；

S300：对S200得到的

个希尔伯特谱，由于希尔伯特黄变换的端点飞翼现象，需要过滤一定比例两端的时序；根据奈奎斯特采样定理，需要过滤逼近二分之一采样频率的时序；

S400: 对S300得到的

个过滤后的希尔伯特谱关于瞬时频率

做分箱，该操作的主要目的是将

维的时频域信息进行分割、聚合；接下来，对分箱后的希尔伯特谱

求频率边际谱：

其中

表示

和

的联合分布，

表示第

维、第

个的固有模态函数的频率边际谱，其数值

表示的是某个瞬时频率

下、某些时序

下所对应的能量。

S500: 对S400得到的多维频率边际谱{

，可以视为是多维频域特征。频域特征根据其频率对应的时序点数进行加权得到

；

S600：对S500得到的若干个加权后的多维频域特征

进行拼接，形成完整的多维频域特征

；

S700：对S600得到的多维频率特征，在训练阶段，使用孤立森林算法进行训练，得到频率异常检测模型；在推理阶段，该模型输出频率异常概率，再根据时频域的对应关系，可以得到推理样本的异常时序。

另一方面，本发明实施例提供一种基于历史表现的无监督异常检测***，所述***中包括推理模块，用于实现步骤S1-S2；纠正打标模块，用于实现步骤S3；训练和评估模块，用于实现步骤S4-S8。

本发明提出的针对多维时序特征的基于历史表现的无监督异常检测方法及***，其有益效果在于：

附图说明

图1示出了根据本发明实施例一种基于历史表现的无监督异常检测方法及***的算法架构示意图；

图2示出了根据本发明实施例一种基于历史表现的无监督异常检测方法及***的训练流程示意图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合图1、图2对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

实施例

本实施例公开如图1所示的一种针对多维时序特征的基于历史表现的无监督异常检测方法，具有多维时序、基于历史、无监督、快速、高度自动化的技术优势，以数据安全场景下的敏感数据访问的智能风险识别为例，目的是运用所述异常检测方法对小时级敏感数据访问次数进行风险识别，其流程框架包括以下步骤：

推理模块：

S1：周期性触发，获取推理样本。推理样本包含时间戳和时序信息的文本数据。

S2：获取训练生成的模型文件和中间变量，根据步骤S100～S700，对推理样本执行希尔伯特黄-孤立森林算法的推理流程。

推理生成的推理结果包含时间戳和时序信息是否为异常的标签。***启动后首次执行推理，由于尚未执行过训练，不存在模型文件和中间变量，推理结果将默认全部正常。在之后的推理任务中，将获取和使用最新一次的训练生成的模型。

纠正打标模块：

S3：用户可对推理结果进行纠正打标，产生的新样本用于打标模式训练的使用。

该操作体现在产品中为平台软件的使用者，包括开发者和客户，可以在推理结果展示的页面选择进入打标***，对不合理的推理结果进行修正，例如：原本“2022-08-1100:00:00”的推理结果为“异常”，用户可以将其重新打标为“正常”；原本“2022-08-1001:00:00”的推理结果为“正常”，用户可以将其重新打标为“异常”。请注意，该打标***同一时间只允许一个用户进行操作，以防止多人同时打标造成的混乱。用户操作完毕保存之后，生成的打标样本为包含时间戳、时序信息、用户打标标签的文本数据。

训练和评估模块，其中训练包括即时模式和打标模式：

S4: 即时模式下获取推理样本作为当前轮次的训练样本（T训练样本）；打标模式下获取最新的打标样本作为T训练样本，对其中打标为异常的时序做缺失处理，再插补缺失值。

插补缺失值的方式有很多，基于统计方式的有均值填充、线性插值、移动平均、指数平滑，也有基于机器学习对缺失值进行预测，如K近邻、循环神经网络、随机森林等。本发明比较注重线上运行的计算、存储资源开销，而不太关心对缺失值的插补的准确性，所以选择使用线性插值。

S5：从存储中获取上一轮次的训练样本（T-1训练样本），以时间为索引对T-1和T训练样本进行拼接、去重、存储，得到完整的训练样本。

S6: 对训练样本进行交叉验证，计算评估指标二分轮廓系数。

执行S6的步骤具体包括：

S61: 执行保证时间连续性的数据划分，形成K次实验。

具体操作步骤如下：第一步，将原始训练样本（不需要打乱）等分成K份，记为

。第二步，从K份中取1份作为测试集，其他K-1份作为训练集，从而形成K次实验的数据集：

第一次实验：按时序拼接

作为训练集，

作为测试集

第二次实验：按时序拼接

作为训练集，

作为测试集

…

第K次实验：按时序拼接

作为训练集，

作为测试集

S62: 对于第1～K次实验，根据步骤S100～S700，对训练集执行希尔伯特黄-孤立森林算法的训练流程，得到K个异常检测模型。

S63: 对于第1～K次实验，根据步骤S100～S700，使用S62得到的模型对测试集上执行希尔伯特黄-孤立森林算法的推理流程。

S64: 对于第1～K次实验，计算二分轮廓系数。

步骤S64中计算二分轮廓系数的具体步骤如下：

、类外到其他所有异常簇的距离之和的最小平均值

、类外到其他所有正常簇的距离之和的最小平均值

S643: 对S642得到的二分轮廓系数结果集的子集，计算超过Step 1得到的二分轮廓系数均值的比例值；

S644: 对S642得到的二分轮廓系数结果集中的每个子集的值求和，并以S643得到的比例值作为权重做加权求和，再除以点数做归一化，即得到模型对应的整体的二分轮廓系数的值。

S7: 执行模型调优，使用网格搜索的方法重复执行S6。网格搜索通过遍历给定的模型参数组合来优化模型表现

图1展示了无监督异常检测***的整体运作流程，包括了各子流程的触发条件、引用和产出、各子流程之间的依赖关系。该图从左到右，第一步，以周期性触发推理子流程，其引用了推理样本、模型文件和中间变量，产出推理结果和日志文件；第二步，以用户提交触发纠正打标子流程，其引用推理结果，在打标***中对错误的结果进行修正，产出打标样本；第三步，以推理结束触发即时模式训练子流程和评估子流程，其引用推理样本作为当前轮次T训练样本和上一轮次训练存储的T-1训练样本，产出模型文件、拼接数据、中间变量和日志文件；第四步，以打标结束触发打标模式训练子流程和评估子流程，其引用打标样本和上一轮次训练存储的T-1训练样本，产出模型文件、拼接数据、中间变量和日志文件。

如图2所示，本发明中步骤S2和步骤S63中所使用的希尔伯特黄-孤立森林算法的计算步骤如下：

S100: 对

维的时序特征

进行经验模态分解，得到

个固有模态函数

和残差

，其关系满足：

其中时序特征

是一个时间步长为

，维度为

，每个元素为实数

的矩阵X；

是经验模态分解得到的第

个固有模态函数，其矩阵表示为

；

是经验模态分解终止后得到的残差的矩阵表示。

S200：对S100得到的

个固有模态函数{

分别做希尔伯特谱分析，得到

个希尔伯特谱

，即将固有模态函数表示在联合的时频域中。

S300：对S200得到的

个希尔伯特谱，由于希尔伯特黄变换的端点飞翼现象，需要过滤一定比例两端的时序；根据奈奎斯特采样定理，需要过滤逼近二分之一采样频率的时序。

S400: 对S300得到的

个过滤后的希尔伯特谱关于瞬时频率

做分箱，该操作的主要目的是将

维的时频域信息进行分割、聚合。例如，有以下的时频对应关系

:

,那么以

的精度等距分箱后得到的时频对应关系是：

。接下来，对分箱后的希尔伯特谱

求频率边际谱：

其中

表示

和

的联合分布，

表示第

维、第

个的固有模态函数的频率边际谱，其数值

表示的是某个瞬时频率

下、某些时序

下所对应的能量。

S500: 对S400得到的多维频率边际谱{

，例如，频率

所对应的时序

点数为

，则将该频率所对应的数值

拷贝

份进入频域特征。

S600：对S500得到的若干个加权后的多维频域特征

按照频率

为轴进行拼接，形成完整的多维频域特征

。

孤立森林是一种基于集成学***面对一个数据空间进行切割，直到每个子空间仅包含一个数据点，换言之，就是数据点被“孤立”在各自的子空间。判断一个数据点是否是异常的依据是其被“孤立”时的切割次数：非异常点是聚集成簇的，需要多次切割才能将它们“孤立”；而异常点，即那些分布稀疏的点，只需要少数几次切割就可以将它们“孤立”。

在训练阶段，孤立森林算法的伪代码如下；

输入数据为

，孤立森林有

棵子树，每棵子树随机从输入数据中采样

个数据点。因为算法更关心最先被“孤立”出来的异常点，且为了避免树将所有点都“孤立”而产生的高时间复杂度，树的深度限制在

。

训练孤立森林的重要参数有：

1. 子树的个数，调节范围在[100, 1000]，过低的值会导致算法效果不稳定，过高的值会导致计算资源的浪费。

2. 异常的比例，调节范围在（0, 0.2]，取决于输入的异常比例。请注意，在打标模式下已对打标为异常的时序做了插值处理，所以默认此时全部为正常时序，异常的比例应设置为一个很小的值，如0.0001。

3. 采样的大小,默认

，输入规模大时可以增大该参数。

在推理阶段，孤立森林对于每个输入样本

计算异常分数

：

其中，

为样本

在每棵子树的高度的均值，

是所有样本在每棵子树的高度的均值。如果异常分数接近于1，那该样本被判为异常点；如果异常分数远小于0.5，那该样本被判为正常点。

图2展示了无监督异常检测方法的计算逻辑，包括了上半部分的希尔伯特黄算法和下半部分的孤立森林算法。第一步，希尔伯特黄算法的输入是多维时序特征，对该输入做经验模态分解，得到若干个固有模态函数；第二步，对这些固有模态函数做希尔伯特谱分析，得到若干个对应的希尔伯特谱；第三步，提取固有模态函数和希尔伯特谱中的信息，得到固有模态函数的频率边际谱，可以视作频率特征；第四步，频域特征根据其频率对应的时序点数进行加权；第五步，对固有模态函数的频域特征进行拼接得到完整的频域特征；第六步，孤立森林算法的输入是频域特征，运算后输出频率异常概率。

本发明的技术优势在于，采用希尔伯特黄算法做时频分析，同时考虑了时间和频率维度的信息，实现同时对时域和频域进行异常检测，覆盖面广。采用孤立森林无监督学习算法来检测异常，无需对时序数据进行打标，在实际工程应用中能够快速落地。在同一时刻保留各个维度之间的相互关系，单模型实现多维时序特征的异常检测，快速、实时性好。使用二分轮廓系数来指导参数调优，使***能够高度自动化。自动化的参数调优让无监督算法效果也能得到保障。异常检测在线学习***高度自动化，能够实现对各类数据的异常时序和频率的检测、告警等目标。

在本说明书的描述中，参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，本领域的技术人员可以在不产生矛盾的情况下，将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。

上述内容虽然已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。