CN112685272B

CN112685272B - 一种具备可解释性的用户行为异常检测方法

Info

Publication number: CN112685272B
Application number: CN202011590113.3A
Authority: CN
Inventors: 彭佳; 计畅; 李敏; 高能; 屠晨阳
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-10-14
Anticipated expiration: 2040-12-29
Also published as: CN112685272A

Abstract

本发明公开了一种具备可解释性的用户行为异常检测方法，其步骤包括：1)使用特征提取模块收集目标网络中用户的特征信息；2)图矩阵模块根据各用户的特征信息构建邻接矩阵；其中所述图矩阵模块根据用户特征信息确定用户之间是否存在直接联系，根据用户之间的相似度确定用户之间的联系；3)利用邻接矩阵训练图神经网络，得到分类模型；4)利用图解释模块以设定优化目标函数对该分类模型进行训练，得到图掩膜M和特征选择器F；5)将一待检测用户的特征输入训练后的分类模型，得到分类结果，如果该用户为异常节点，则利用M从分类模型中得到该异常节点的关联节点、利用F得到分类模型各节点的特征中与异常节点最相关的关联特征。

Description

一种具备可解释性的用户行为异常检测方法

技术领域

本发明属于机器学习领域，尤其涉及一种利用图卷积网络的具备可解释性的用户行为异常检测方法。

背景技术

从近几年的安全事故中可以看到，内部威胁已经成为企业或组织威胁的主要原因。内部威胁是指内部人员利用获得的信任做出对授信组织造成损害的行为。这些利益包括企业的经济利益、业务运行、对外服务以及授信主体声誉等。内部威胁不仅仅包括组织合法成员有意或无意导致组织利益受损的行为，还包括一些外部伪装成内部成员的攻击。随着信息化的普及，人们在工作中普遍地使用电子设备，产生并积累了越来越多的行为数据。通过对这些行为数据的挖掘和应用，对用户行为数据进行异常检测，能够实现内部威胁的检测，为企业或组织提供内部威胁的预警。

较早的用户行为异常检测方法主要基于分类的方法。主要有支持向量机(SupportVector Machines)、多层感知器(Multi Layered Perceptron)等方法，将异常检测转化为二分类问题。在测试阶段，使用已经训练好的这类算法通常很快。但是，这样的算法存在需要大规模标注数据的问题。尤其是在用户行为异常数据通常是非常不均衡数据的情况下，这类方法在训练中会由于异常数据相对于正常数据过少的原因达不到理想的效果。

最近流行的基于深度学习的方法相较传统方法有多种优势，一是表示学习上可以通过深度学习模型自动发掘用于异常检测的特征，二是以循环神经网络(RecurrentNeural Network)为代表的深度学习模型在建模序列数据上有非常优秀的表现，三是深度学习模型可以融合异构数据从而引入更多的信息加强异常检测的最终效果。

上述的这些主流算法中，基于分类的传统算法在获取合适的训练数据在用户行为异常检测任务上存在困难，而基于深度学习的方法通常被称为“黑盒子”。虽然深度学习的模型在一些领域中取得了令人振奋的效果，但是可解释性的缺失造成了深度学习在一些领域中的使用存在不确定性。特别是在用户行为异常检测这个任务上，即使深度学习的模型性能很好，但也不能达到100％的准确性，如果误报并且不能解释造成异常的原因很有可能对某些员工造成不必要的伤害。

发明内容

根据上述发展现状，本发明的目的在于提出一种利用图卷积网络的具备可解释性的用户行为异常检测方法。本发明能够通过对用户属性、关系等信息构建拓扑图，因此图上的节点不但包含其本身的属性信息例如IP地址、端口等，还包含一些结构化信息比如节点间交流的模式；之后使用图卷积网络(Graph Convolutional Networks)进行用户行为的异常检测，之后使用图解释网络对图卷积网络进行分析增强可解释性。

为了达到上述目的，本发明采用了以下方案：

一种具备可解释性的用户行为异常检测方法，其步骤包括：

1)使用特征提取模块收集目标网络中用户的特征信息；

2)图矩阵模块根据各用户的特征信息构建邻接矩阵；其中所述图矩阵模块根据用户特征信息确定用户之间是否存在直接联系，然后使用权重方程A(i，j)＝w*cos(F_i，F_j)+(1-w)*C_ij计算用户i与用户j之间的相似度A(i，j)，根据相似度确定用户之间的联系；F_i为用户i的特征信息，F_j为用户j的特征信息，w为权重系数，C_ij代表用户i与用户j之间是否存在直接联系，如果存在则C_ij＝1，否则C_ij＝0；

3)利用所述邻接矩阵训练图神经网络，得到一个用于异常检测的分类模型；

4)将用户的特征信息输入上述得到的分类模型，得到分类结果(即异常或非异常)；

5)利用图解释模块以设定优化目标函数对该分类模型进行训练，得到图掩膜M和特征选择器F；其中图解释模块的优化目标函数为

6)将一待检测用户的特征输入训练后的分类模型，得到分类结果，如果该用户为异常节点，则利用图掩模M从分类模型中得到该异常节点的关联节点、利用特征选择器F得到分类模型各节点的特征中与该异常节点最相关的关联特征，将得到的关联节点和关联特征作为该异常节点的解释信息。

利用训练后得到的GCN分类模型，根据上述的目标函数进行训练，得到图掩膜M和特征选择器F。利用图掩模M在训练好的GCN分类模型中得到对分类结果贡献较大的节点(通过调整阈值大小将图掩膜中低于阈值的边移除，保留的节点为对分类结果贡献较大的节点)。利用特征选择器F得到节点的特征中贡献较大的节点。解释模型是在得到分类模型后，在已经训练好的分类模型上做的操作，不对检测结果有影响，但会对得到的结果得到解释，通过对贡献值较大的节点和特征，我们可以知道该异常节点跟哪些节点和特征关系较大，这样得到的解释性。

一种具备可解释性的用户行为异常检测方法，本发明首先使用特征提取模块收集网络中每个用户的特征信息，包括登入登出特征、设备特征、文件特征、邮件特征、网页浏览特征等用户行为特征。之后，本发明利用图矩阵模块构建邻接矩阵体现用户之间的联系，由于在内部威胁监测应用里有很多用户在社交网络上是孤立的，因此本发明在构建邻接矩阵(即用户关系的拓扑图)的时候使用权重方程通过用户行为特征的相似度建立一些用户的弱联系。之后，本发明利用所述邻接矩阵和用户属性特征作为输入，训练一个用于异常检测的GCN分类模型。之后，本发明利用图解释模块对训练好的分类模型进行结构上和特征上的解释。

所述特征提取模块是一个包含所有用户和他们的行为特征(特征提取模块最终得到的结果为一个矩阵，每一行表示一个用户，每一列表示一个特征)。该模块收集目标网络上每一个用户的行为，提取特定的行为特征，包括设备使用的特征，登录特征，文件使用特征，社交特征，浏览特征等。这些特征提供了用户作为图的节点的属性信息。

进一步的，所述特征提取模块得到特征矩阵F为一个N*D的矩阵，其中N代表网络中所包含用户的数量，D代表每个用户的行为特征数量。

所述图矩阵模块是一个构建邻接矩阵的模块，该邻接矩阵体现了用户之间的联系，对构建社交网络图提供了重要的信息。在传统的图神经网络中，邻接矩阵通常是由1和0分别表示了节点和节点之间有或没有联系。本发明定义有过邮件沟通的用户之间有直接联系，没有邮件沟通记录的用户之间表示没有联系。但不同于社交网络和知识图谱，在内部威胁的用户数据中有很多没有邮件沟通记录的孤立用户，每一用户对应一个节点。由于这部分用户的存在，本发明使用了权重方程为这些孤立用户建立与其他节点的联系。

进一步的，所述图矩阵模块中的邻接矩阵定义一个N*N的矩阵A，体现用户与用户之间的联系。

进一步的，用户i和用户j的直接联系用C_ij＝(0，1)表示。

进一步的，所述邻接矩阵的构成，为解决孤立用户的问题，本发明使用权重方程A(i，j)＝w*cos(F_i，F_j)+(1-w)*C_ij为用户建立联系，这里使用参数w(01)平衡用户间直接联系和相似性的关系(即权重系数w的取值为0～1)；C_ij代表用户i与用户j之间是否存在直接联系，如果存在则C_ij＝1，否则C_ij＝0。

进一步的，当A(i，j)＞0.5的时候，本发明将用户i和用户j建立联系。

所述图卷积网络模块是作为用户行为异常检测分类模型。本发明使用图卷积网络(GCN)去训练一个异常分类的模型。其中输入为特征提取矩阵和邻接矩阵，经过图卷积网络后，输出为每个节点的分类结果，即确定每个节点是否异常。

进一步的，图卷积网络模块使用的是一个两层的图卷积网络。

进一步的，图卷积网络的具体表达式为Z＝f(X，A)＝soft max(A ReLU(AXW⁰)W¹)，其中W⁰代表从输入层到隐含层的权重矩阵，W¹代表从隐含层到输出层的权重矩阵；X是节点特征向量的矩阵，对应于前面的特征矩阵F。

进一步的，为了计算每个节点的分类结果，本发明使用softmax激活函数进行每个节点的输出计算，具体方程为

x_i是代表softmax(AReLU(AXW⁰)W¹)中的AReLU(AXW⁰)W¹矩阵中的第i行，也就是图卷积网络的输出结果，取值范围是0～N。

进一步的，在训练图卷积网络模型的W⁰和W¹矩阵时，本发明使用了批梯度下降(batch gradient descent)方法。

进一步的，在训练时使用交叉熵损失函数

其中Y_lf是真实概率，Z_lf是预测概率，yL表示运算样本数量(即邻接矩阵中的用户数量)，F是类别标签数。

所述图解释模块是对训练好的图卷积网络分类模型做出分析和解释。本发明从图的结构和特征信息两方面对分类模型进行分析。该模块通过训练，得到对分类结果最有贡献的部分图结构信息和特征信息，从而在贡献值上对分类模型进行一定程度的解释。

进一步的，对于一个节点来说，如其与模型预测结果Y最相关的结构和特征分别是G_s和X_s，那么相关的重要性可以用互信息(Mutual Information)衡量：

其中H(Y)是信息熵函数H()对Y的计算结果，因为模型在已经训练好的GCN上进行解释，所以上式等价于最小化H(Y|G＝G_s，X＝X_s)。

进一步的，由于

新的优化目标为

表示期望值，P_Φ()表示概率值X_S为节点S对异常节点Y最有贡献的特征、G_S为节点S对异常节点Y最优贡献的子图，H()是信息熵函数。

进一步的，利用Jensen不等式和凸性假设，可以得到上限，优化目标变为

是一个随机图变量

的期望值。

进一步的，利用平均场变分近似对随机图变量

进行分解

这里的A_s[j，k]代表边(υ_j，υ_k)的存在期望，Gc表示全部的子图。

进一步的，

可以用A_c⊙σ(M)替代，这里的Ac是邻接矩阵，M就是该模块要学习的图掩膜(Graph Mask)，⊙是哈达玛积，即同位元素对应相乘。

进一步的，对于分类模型的图结构的解释部分，优化函数为

这里的P_Φ是概率值，

是指示函数，当y＝c时，

y≠c时，

进一步的，对于特征选择部分的解释与图结构的解释类似，通过选择与预测结果最相关的部分来实现对模型的解释，具体公式为

扣r

其中

是最有贡献的子图G_s中的节点特征子集，

是没有被mask(图掩模M)盖住的节点特征，v_j是图结构中节点j，F是特征选择器，F∈{0，1}^d，d是特征数。

进一步的，考虑结构和特征的选择，图解释模块最终的优化目标为

其中

是目标学习的特征选择器，d是特征数，MI()互信息函数。

进一步的，利用图解释模块以设定优化目标函数对该分类模型进行训练，得到图掩膜M和特征选择器F；其中图解释模块的优化目标函数为

X_S为节点S对异常节点Y最优贡献的特征、G_S为节点S对异常节点Y最优贡献的子图、H()为信息熵函数；通过训练得到的图掩膜M和特征选择器F，本发明可以得到，在结构上对分类结果有较大贡献的节点；在特征上对分类结果有较大贡献的特征。从而得到对分类结果的一定程度的解释。

与现有技术相比，本发明的积极效果为：

通过使用图神经网络进行用户异常行为的检测，可以更好的捕捉用户与用户之间的联系和相似性，同时通过使用权重方程增加孤立用户之间的联系，又通过图解释模型对检测的结果进行结构上的和特征上的分析，得出最相关的结构和特征。

本方法可以利用图神经网络，从用户的关联性和行为特征中捕捉用户的深层次联系，从而发现异常用户，通过图可解释模块，对分类结果最相关的图结构上的其他节点和最相关的特征，更好的了解得出异常的原因，包括相关用户和显著的异常行为特征等，在用户行为异常检测上，取得不错的效果。

附图说明

图1为整个***示意图；

图2为图卷积网络模块示意图；

图3为图解释模块结果示意图；

(a)结构上贡献较大的节点，(b)特征上贡献较大的特征值。

具体实施方式

为了使本发明的目的、方案及优点更加清楚明白，以下以在真实数据集上进行的实验为例，对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

以CMU CERT v4.2数据集为例，描述一个具备可解释性的用户行为异常检测方案的具体实施步骤。

CMU CERT v4.2数据集模拟了恶意内部人实施的***破坏、信息窃取与内部欺诈三类主要的攻击行为数据以及大量正常背景数据。CMU CERT v4.2数据集中涉及多个维度的1000个用户行为数据，如文件访问(创建、修改、删除以文件名称、类型等)、邮件收发、设备使用(移动存储设备、打印机等)、HTTP访问以及***登录等行为，还包括了用户的工作岗位以及工作部门等信息。CMU CERT v4.2数据集提供了用户全面的行为观测数据以刻画用户行为模型。

本实施例中，本发明的任务为对用户行为进行异常检测发现内部威胁用户。本发明的整体***构架如附图1所示。本实例将CMU CERT v4.2数据集中的160个正常节点和40个异常节点作为训练集，170个正常节点和30个异常节点作为测试集。评价标准为准确率，精度和召回率。

首先描述特征提取模块，每个用户的行为特征有30个，其中登入、登出的特征包括每日登入、登出的时间、休息时段的登入、登出时间、登入、登出设备的数量，设备的特征包括每日连接设备的数量、休息时段连接设备的数量、连接设备的电脑数量，文件的特征包括每日修改文件的数量、总文件数量、休息时段修改的文件数量、exe文件的数量、包含文件的电脑数量，邮件特征包括每日发送数量、组织外发送数量、组织内发送数量、平均邮件大小、收件人数量、话题相关的邮件数量、跟情感相关的邮件数量，网页浏览的特征包括每日浏览网页的数量、情感相关的网页数量、话题相关的网页数量、特定网站相关的网页数量。特征提取矩阵F定义一个N*D的矩阵，其中N代表网络中所包含用户的数量，D代表每个用户的行为特征数量。

之后，为构建图卷积网络的输入，本发明使用图矩阵模块构建N*N的邻接矩阵A。在本实施例中的1000个用户的网络上，使用传统的有无直接联系的方式，总共一共构造了3556条边。使用本发明的权重方程A(i，j)＝w*cos(F_i，F_j)+(1-w)*C_ij后，新的邻接矩阵构造了超过1,000,000条非零的边，为孤立的用户构建了丰富的联系。

之后，图卷积网络模块如图2所示，使用上面构建的矩阵F和矩阵A作为输入，使用一个两层的图卷积网络，输出分类的结果。其中卷积网络表达式为Z＝f(X，A)＝soft max(AReLU(AXW⁰)W¹)，为了计算每个节点的分类结果，本发明使用softmax激活函数

在训练图卷积网络中，使用比梯度下降的方法和交叉熵损失函数

之后，图解释模块对图卷积网络进行可解释性分析，本发明对图卷积网络图结构和特征信息两方面进行分析。本发明使用该模块，得到对分类结果最有贡献的图结构和特征信息如图3所示，从而得到在贡献值上对分类结果的解释。对于训练后得到的分类模型的图结构的解释部分，优化函数为

只需要设定阈值将M中的部分低于阈值的边移除，这样就从结构的角度得到对结果最有贡献的图结构。对于特征选择部分的解释与图结构的解释类似，通过选择与预测结果最相关的部分来实现对模型的解释，具体公式为

for

同时考虑结构和特征的选择，图解释模块最终的优化目标为

其中

本实施例中在与传统方法比如支持感知机、随机森林、Logistic回归、卷积神经网络的实验对比中，本发明在准确率、精度、召回率上都取得了最好的实验效果。同时能够对分类结果提供图结构上和属性特征上的贡献分析，提高分类结果的可解释性。

以上所述为本发明的一个实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种具备可解释性的用户行为异常检测方法，其步骤包括：

1)使用特征提取模块收集目标网络中用户的特征信息；

2)图矩阵模块根据各用户的特征信息构建邻接矩阵；其中所述图矩阵模块根据用户特征信息确定用户之间是否存在直接联系，然后使用权重方程A(i，j)＝w*cos(F_i，F_j)+(1-w)*C_ij计算用户i与用户j之间的相似度A(i，j)，根据相似度确定用户之间的联系；F_i为用户i的特征信息，F_j为用户j的特征信息，w为权重系数，C_ij代表用户i与用户j之间是否存在直接联系，如果存在则C_ij＝1，否则C_ij＝0；其中，所述图矩阵模块根据用户之间是否有过邮件沟通确定对应用户之间是否有直接联系，对于有邮件沟通记录的用户之间确定有直接联系；

3)利用所述邻接矩阵训练图卷积网络，得到一个用于异常检测的分类模型；

4)利用图解释模块以设定优化目标函数对该分类模型进行训练，得到图掩膜M和特征选择器F；其中图解释模块的优化目标函数为