CN112199670B

CN112199670B - 一种基于深度学习改进iforest对行为异常检测的日志监控方法

Info

Publication number: CN112199670B
Application number: CN202011059670.2A
Authority: CN
Inventors: 宋昕; 徐思航; 朱磊; 赵琛; 黑新宏; 王一川; 姬文江; 杜延宁; 盘隆; 吕泽立
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2023-04-07
Anticipated expiration: 2040-09-30
Also published as: CN112199670A

Abstract

本发明公开了一种基于深度学习改进IFOREST对行为异常检测的日志监控方法。通过对用户的行为信息进行采集并向量化信息。利用Auto‑Encoder对算法训练模型对输入的日志用户行为向量进行降维。利用genetic算法以及Gan网络改进IFOREST，依据更新的信息反复训练模型提高其识别的准确率，最后通过日志监控的方法对用户的日常行为进行高效率高精准度的异常行为检测，将深度学习的方法应用到异常行为检测的网络安全领域，借以检测用户或管理员进行的非正常操作，同时采用了深度学习中自编码器对提取的用户行为信息进行降维，实现对高维数据的预处理，提出了一种相比于IFOREST训练准确率更高更加稳定的模型。

Description

一种基于深度学习改进IFOREST对行为异常检测的日志监控方法

技术领域

本发明属于网络安全领域，具体涉及一种基于深度学习改进IFOREST对行为异常检测的日志监控方法。

背景技术

如今的网络平台***规模越来越庞大，用户以及管理员的数量同样激增，难免会有用户或管理员进行非正常的操作。基于日志监控***运行过程中使用监控***对日志状态进行实时监控，及时检测到已经发生或即将发生的异常行为，为采取对应措施留出宝贵时间。日志监控是对***运行中产生的各类用户日志的行为进行采集、过滤、存储、分析、检测异常的一系列过程，是日志监控***中的重要组成部分。通过对日志进行不同角度的分析，可以达检测异常行为和日志审计等目的。目前对日志的监控有两种主流的算法思想，一种是基于传统的聚类算法的改进如LOF，另一种是基于深度学习如CNN，RNN以及Auto-Encoder自编码器等等。这些算法都存在运行时间长问题，本发明基于IFOREST的改进在运行时间和准确率方面都有所提升。

发明内容

本发明的目的是提供一种基于深度学习改进IFOREST对行为异常检测的日志监控方法。解决了现有技术中存在的监控方法运行时间过长的问题。通过对用户的行为信息进行采集并向量化信息。利用Auto-Encoder对算法训练模型对输入的日志用户行为向量进行降维。利用genetic算法以及Gan网络改进IFOREST，依据更新的信息反复训练模型提高其识别的准确率，最后通过日志监控的方法对用户的日常行为进行高效率高精准度的异常行为检测。

本发明所采用的技术方案是，一种基于深度学习改进IFOREST对行为异常检测的日志监控方法，具体操作步骤如下：

步骤1，利用平台***中产生的日志用户信息进行提取，以用户对数据库的操作为例将用户每日对数据库的增表、删表、改表、查表等不同行为的操作次数进行长期统计，生成用户日志行为向量并用MySQL进行存储；

步骤2，获取日志用户行为向量同时用Auto-Encoder进行降维，按照8:2的比例将数据随机划分将用户行为训练集及用户行为测试集，其中用户行为训练集是用来训练生成用户行为信息识别模型，用户行为测试集用来检测监控模型的准确率；

步骤3，对步骤2中用户行为训练集中的用户行为信息依据改进的IFOREST进行模型训练；

步骤4，使用genetic算法对步骤3中组成IFOREST的Itree进行筛选,选出m颗适应值较好的Itree组成优适应度的IFOREST；

步骤5，对步骤4中，生成的识别模型IFOREST对用户行为测试集计算平均路径长度；

步骤6，对步骤5中识别模型计算出异常分数s(x,Ψ)。

步骤7，对步骤6中得到的异常分数进行upsample处理并保存到文件1.txt中；

步骤8，获取步骤7中的文件1.txt，利用Gan网络对异常分数的数据进行学习，获得鉴别器；

步骤9，对步骤8中的鉴别器，采用用户行为的测试集进行异常行为检测并给出每个向量化数据相应的标签；

步骤10，对步骤9中检测的结果进行统计，如果该结果的标签为1则为正常行为，标签为0则为异常行为；

步骤11，对于步骤10中模型预测的统计结果利用Roc曲线，Auc面积，F1分数，准确率等指标进行评估并重复步骤3到9重新训练模型，提高用户异常行为识别模型的准确率。

本发明的特点还在于：

步骤3中采用基于深度学习与启发式搜索的改进IFOREST方法建立日志监控模型，具体步骤如下：

步骤3.1，设置itree的最大高度初始化IFOREST；

步骤3.2，从步骤2的用户行为向量信息中重复构建itree，在构建树组成初始森林；

步骤3.3，对步骤3.2中构建的初始森林利用genetic算法筛选优适应值的itree，构造新的IFOREST；

步骤3.4，利用新生成的IFOREST对用户行为向量的测试集进行检测；

步骤3.5，利用生成的模型判断用户行为是否异常。

步骤4中利用genetic算法能够挑选出优适度更高的itree组成更加优秀的IFOREST，具体步骤如下：

步骤4.1，对生成的IFOREST进行随机采样itree得到种群并进行二进制编码；

步骤4.2，根据步骤4.1中得到的编码信息，对初始化的IFOREST进行解码；

步骤4.3，根据步骤4.1中得到的编码信息，对初始化的IFOREST进行解码；

步骤4.4，根据步骤4.1中得到的IFOREST信息，用部分用户行为向量信息DTrain对初始森林T进行训练根据交叉验证法计算出每一个itree的精度值a；

步骤4.5，根据步骤4.1中得到的IFOREST信息，用Q-统计量法计算itree之间的差异度m；

步骤4.6，根据步骤4.4与步骤4.5中得到的精度值以及差异度得到适应度函数；

步骤4.7，根据步骤4.6中的适应度函数，计算itree的适应度值以及累积概率；

步骤4.8，根据步骤4.7的结果，选择新的IFOREST种群；

步骤4.9，根据步骤4.8中新的种群，进行交叉变异操作；

步骤4.10，根据步骤4.9中得到变异后的种群，进行解码；

步骤4.11，根据步骤4.10中的结果，进行适应度评价，迭代选择出最好的个体。

步骤5中，计算平均路径长度的方法具体为：

在一颗Itree中，从根节点到外部节点所经历边的数目称为路径长度，记为h(Ψ)。由于Itree与二叉查找树的结构等价，因此包含d的叶子节点的路径长度等于二叉查找树中失败查询的路径长度:C(Ψ)＝2H(Ψ－1)－(2(Ψ－1)/Ψ)其中，H(Ψ)＝Ln(Ψ)+γ，γ为欧拉常数；Ψ为叶子节点数；C(Ψ)为给定Ψ时h(Ψ)的平均值，用以标准化h(Ψ)。

步骤6中，计算出异常分数s(x,Ψ)的方法具体为：

对于每一个数据点Xi,令其遍历每一颗孤立树Itree,计算点Xi在森林中的平均高度h(Xi),对所有点的平均高度做归一化处理。异常值分数的计算公式如下所示：

步骤7中对步骤6中得到的异常分数进行upsample处理具体步骤如下：

步骤7.1：在numpy中将得到的异常分数进行维度变化，增加一个内容与异常分数相同的维度；

步骤7.2：将维度变化后的数据储存在1.txt中。

步骤8中利用Gan网络对异常分数的数据进行学习获得鉴别器具体步骤如下：

步骤8.1，获取步骤7中upsample后的数据，并进行GPU转换；

步骤8.2，将步骤8.2中的数据，导入到Discriminator中进行初始化Loss；

步骤8.3，利用torch随机生成符合正态分布的数据导入Generator中；

步骤8.4，根据步骤8.3中的结果，用Discriminator进行鉴别；

步骤8.5，将步骤8.4的鉴别结果，与真实数据对比计算Discriminator的Loss并更新梯度；

步骤8.6，利用torch随机生成符合正态分布的数据导入Generator中；

步骤8.7，根据步骤8.6中的结果，用Discriminator进行鉴别；

步骤8.8，将步骤8.7的鉴别结果，与真实数据对比计算Generator的Loss并更新梯度；

步骤8.9，将步骤8.1到8.8重复迭代，最终得到鉴别器Discriminator。

本发明的有益效果是：本发明的目的是提供一种基于深度学习改进IFOREST对行为异常检测的日志监控方法。通过对用户的行为信息进行采集并向量化信息。利用Auto-Encoder对算法训练模型对输入的日志用户行为向量进行降维。利用genetic算法以及Gan网络改进IFOREST，依据更新的信息反复训练模型提高其识别的准确率，最后通过日志监控的方法对用户的日常行为进行高效率高精准度的异常行为检测。

附图说明

图1为本发明一种基于深度学习改进IFOREST对行为异常检测的日志监控方法的总流程图；

图2为本发明基于深度学习改进IFOREST进行异常行为检测的模型流程图；

图3为本发明利用genetic算法改进IFOREST的流程图；

图4为本发明利用Gan网络改进异常分数判断的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种基于深度学习改进IFOREST对行为异常检测的日志监控方法，具体操作步骤如下：

步骤6，对步骤5中识别模型计算出异常分数s(x,Ψ)。

本发明的特点还在于：

步骤3.1，设置itree的最大高度初始化IFOREST；

步骤3.5，利用生成的模型判断用户行为是否异常。

步骤4.8，根据步骤4.7的结果，选择新的IFOREST种群；

步骤4.9，根据步骤4.8中新的种群，进行交叉变异操作；

步骤4.10，根据步骤4.9中得到变异后的种群，进行解码；

步骤5中，计算平均路径长度的方法具体为：

步骤6中，计算出异常分数s(x,Ψ)的方法具体为：

步骤7.2：将维度变化后的数据储存在1.txt中。

步骤8.1，获取步骤7中upsample后的数据，并进行GPU转换；

步骤8.4，根据步骤8.3中的结果，用Discriminator进行鉴别；

步骤8.7，根据步骤8.6中的结果，用Discriminator进行鉴别；

一种基于深度学习改进IFOREST对行为异常检测的日志监控方法，具体流程如图1所示，利用Auto-Encoder对算法训练模型对输入的日志用户行为向量进行降维。利用genetic算法以及Gan网络改进IFOREST实现异常行为检测，包括以下步骤：

步骤1，利用平台***中产生的日志用户信息进行提取，生成用户日志行为向量并用MySQL进行存储；

步骤2，获取日志用户行为向量同时用Auto-Encoder进行降维，并将其分为用户行为训练集及用户行为测试集，其中用户行为训练集是用来训练生成用户行为信息识别模型，用户行为测试集用来检测监控模型的准确率；

步骤3，对步骤2中用户行为训练集中的用户行为信息依据改进的IFOREST进行模型训练(如图2所示)；

步骤4，使用genetic算法对步骤3中的IFOREST的训练过程中进行改进，该算法可以实现选出m颗具有较有适应值的Itree构成IFOREST(如图3所示)；

步骤6，对步骤5中识别模型计算出异常分数；

步骤8，获取步骤7中的文件1.txt，利用Gan网络对异常分数的数据进行学习，获得鉴别器(如图4所示)；

步骤2中构建用户行为向量时进行Auto-Encoder的降维操作可以降低数据的维度，提高异常检测的精度。

例如有一份用户行为向量的数量为500，每个数据有40个维度的行为向量，其中异常行为的用户有50个，数据均以贴上标签并储存在test.txt文件中。

在步骤2中利用Auto-Encoder进行降维，将每个用户40个维度的行为向量，按照要求降维到主要的8个维度并存放到test2.txt文件中。

步骤2伪代码如下：

步骤3.1，设置itree的最大高度初始化IFOREST；

步骤3.5，利用生成的模型判断用户行为是否异常。

步骤3.1伪代码如下：

步骤4.8，根据步骤4.7的结果，选择新的IFOREST种群；

步骤4.9，根据步骤4.8中新的种群，进行交叉变异操作；

步骤4.10，根据步骤4.9中得到变异后的种群，进行解码；

步骤4.11，根据步骤4.10中的结果，进行适应度评价，迭代选择出最好的个体；

步骤4伪代码如下：

步骤7.2：将维度变化后的数据储存在1.txt中。

步骤8.1，获取步骤7中upsample后的数据，并进行GPU转换；

步骤8.4，根据步骤8.3中的结果，用Discriminator进行鉴别；

步骤8.7，根据步骤8.6中的结果，用Discriminator进行鉴别；

步骤8伪代码如下：

Claims

1.一种基于深度学习改进IFOREST对行为异常检测的日志监控方法，其特征在于，具体操作步骤如下：

步骤1，利用平台***中产生的日志用户信息进行提取，将用户每日对数据库的增表、删表、改表、查表不同行为的操作次数进行长期统计，生成用户日志行为向量并用MySQL进行存储；

步骤2，获取日志用户行为向量同时用Auto-Encoder进行降维，按照8:2的比例将数据随机划分为用户行为训练集及用户行为测试集，其中用户行为训练集是用来训练生成用户行为信息识别模型，用户行为测试集用来检测监控模型的准确率；

步骤3.1，设置itree的最大高度初始化IFOREST；

步骤3.2，从步骤2的用户行为向量信息中重复构建itree，将构建树组成初始森林；

步骤3.5，利用生成的模型判断用户行为是否异常；

步骤4.3，根据步骤4.1中得到的IFOREST信息，用部分用户行为向量信息DTrain对初始森林T进行训练，根据交叉验证法计算出每一个itree的精度值a；

步骤4.4，根据步骤4.1中得到的IFOREST信息，用Q-统计量法计算itree之间的差异度m；

步骤4.5，根据步骤4.3与步骤4.4中得到的精度值以及差异度得到适应度函数；

步骤4.6，根据步骤4.5中的适应度函数，计算itree的适应度值以及累积概率；

步骤4.7，根据步骤4.6的结果，选择新的IFOREST种群；

步骤4.8，根据步骤4.7中新的种群，进行交叉变异操作；

步骤4.9，根据步骤4.8中得到变异后的种群，进行解码；

步骤4.10，根据步骤4.9中的结果，进行适应度评价，迭代选择出最好的个体；

所述步骤5中，计算平均路径长度的方法具体为：在一颗Itree中，从根节点到外部节点所经历边的数目称为路径长度，记为h(Ψ)；由于Itree与二叉查找树的结构等价，因此包含d的叶子节点的路径长度等于二叉查找树中失败查询的路径长度:C(Ψ)＝2H(Ψ－1)－(2(Ψ－1)/Ψ)其中，H(Ψ)＝Ln(Ψ)+γ，γ为欧拉常数；Ψ为叶子节点数；C(Ψ)为给定Ψ时h(Ψ)的平均值，用以标准化h(Ψ)；

步骤6，对步骤5中识别模型计算出异常分数s(x,Ψ)；

所述步骤6中，计算出异常分数s(x,Ψ)的方法具体为：

对于每一个数据点Xi,令其遍历每一颗孤立树Itree,计算点Xi在森林中的平均高度h(Xi),对所有点的平均高度做归一化处理；异常值分数的计算公式如下所示：

步骤7.2：将维度变化后的数据储存在1.txt中；

步骤8.1，获取步骤7中upsample后的数据，并进行GPU转换；

步骤8.2，将步骤8.1中的数据，导入到Discriminator中进行初始化Loss；

步骤8.4，根据步骤8.3中的结果，用Discriminator进行鉴别；

步骤8.7，根据步骤8.6中的结果，用Discriminator进行鉴别；

步骤8.9，将步骤8.1到8.8重复迭代，最终得到鉴别器Discriminator；

步骤11，对于步骤10中模型预测的统计结果利用Roc曲线，Auc面积，F1分数，准确率指标进行评估并重复步骤3到9重新训练模型，提高用户异常行为识别模型的准确率。