CN114638342A - 基于深度无监督自动编码器的图异常检测方法 - Google Patents

基于深度无监督自动编码器的图异常检测方法 Download PDF

Info

Publication number
CN114638342A
CN114638342A CN202210281370.1A CN202210281370A CN114638342A CN 114638342 A CN114638342 A CN 114638342A CN 202210281370 A CN202210281370 A CN 202210281370A CN 114638342 A CN114638342 A CN 114638342A
Authority
CN
China
Prior art keywords
network
model
nodes
node
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210281370.1A
Other languages
English (en)
Inventor
席亮
梁晨晨
梁钰佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210281370.1A priority Critical patent/CN114638342A/zh
Publication of CN114638342A publication Critical patent/CN114638342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于深度无监督自动编码器的图异常检测方法,属于无监督异常检测领域。由于使用半监督图异常检测算法来检测离群值时,获取有标签的网络节点数据既困难又昂贵,而现有的无监督图异常检测算法也普遍存在两个局限性,首先是现实世界的复杂网络表现出的高度非线性的特征很难用矩阵分解捕捉到,其次矩阵分解技术在更大的网络中不能很好的使用。针对以上问题,为了能够更合理地提取网络表示中的特征信息,本发明提出了一种基于深度无监督自动编码器的图异常检测方法,在生成网络嵌入时,使用随机梯度下降和封闭形式来更新网络,以更快地优化网络参数。其次通过识别网络的结构和属性以及联合结构和属性的嵌入来学习,以最大限度地减少离群值的影响。最终将本发明所提的网络模型应用于无监督异常检测领域,能达到提升检测异常的准确率的效果。

Description

基于深度无监督自动编码器的图异常检测方法
技术领域:
本发明涉及一种基于深度无监督自动编码器的图异常检测方法,属于无监督异常检测领域。
背景技术:
现实世界中图结构数据无处不在,图作为一种复杂的结构化数据,相对于其他数据结构能够更好地存储和表达实体属性之间的联系,在社交网络分析、交通路网分析和知识图谱构建等领域均有广泛的应用。图异常检测是指在一个图或海量的图数据中寻找不正常的结构,包括节点结构异常,属性异常以及结构和属性联合异常三种类别,目前被广泛应用于网络攻击检测、社交网络中的突发事件检测、交通路网异常检测等应用场景。相较于传统的异常检测方法,由于图具有更强大的表达能力,基于图的异常检测方法不仅可以将复杂的数据更加直观的呈现,同时也能将数据中隐含的相关性融入到异常检测过程中。
网络中的节点具有社团结构,当节点的结构及其属性符合网络的社团结构时,大多数网络嵌入算法都能很好地工作。但是现实生活中的网络有社区离群节点,这些离群节点在其结构或属性上的相似性方面与它们所属社区的其他节点有很大的差异。如果不仔细处理这些离群节点,甚至会影响网络中其他节点的嵌入。因此,选择一个合适的节点嵌入方法在无监督异常检测任务中处理异常值的结构和属性是非常重要的。为了更合理地提取网络表示中的特征信息,本发明提出了一种基于深度无监督自动编码器的图异常检测方法,在生成网络嵌入时,使用随机梯度下降和封闭形式更新网络,以更快地优化网络参数。同时通过识别网络的结构和属性以及联合结构和属性的嵌入来学习,以最大限度地减少离群值的影响。
基于深度无监督自动编码器的图异常检测方法的应用列举及优势如下。
案例1:应用于网络攻击检测。通过对网络结构的实时监测,能够第一时间发现网络的异常情况从而及时对网络安全加强防护,避免黑客入侵和网络瘫痪。
案例2:应用于社交网络异常检测。通过对社交网络的检测,能够检测到社交网络中的突发事件,避免异常用户通过创建多个马甲进行虚假评论,盗用用户信息进行网络欺凌等情况的发生。
案例3:应用于交通路网异常检测。通过对交通路网的实时监控,能够***不正常的交通路段情况,如异常轨迹预测和路网拥堵趋势预测等,从而避免不必要的交通事故发生。
发明内容:
由于使用半监督图异常检测算法来检测离群值时,获取有标签的网络节点数据既困难又昂贵,而现有的无监督图异常检测算法也普遍存在两个局限性,首先是现实世界的复杂网络表现出的高度非线性的特征很难用矩阵分解捕捉到,其次矩阵分解技术在更大的网络中不能很好的使用。因此为了解决以上问题,本发明提出了一种基于深度无监督自动编码器的图异常检测方法。
(一)技术方案
基于深度无监督自动编码器的图异常检测方法的基本思想是:一方面使用两个并行的自动编码器分别对节点的结构和属性进行编码,以一种无监督的方式来最小化异常值对网络嵌入的影响,另一方面使用SGD算法训练模型,同时使用封闭形式更新网络,以更快地优化网络的参数。具体步骤如下:
1.模型预处理
现实生活中的网络是高度稀疏的,节点之间缺乏连接。邻接矩阵的行只能捕获观察到少量的节点之间的连接。为了解决这个问题,本发明使用重启随机游走方法来获得更丰富的上下文,从而保证节点间的高阶邻近性。
步骤1_1加载原始数据集中的图节点文件和图边文件。
步骤1_2将原始数据集按不同的比例划分成训练集和测试集。分别取数据集中的10%、20%、30%、40%和50%的数据作为训练集训练,剩余数据作为测试集进行测试使用。
步骤1_3计算转移矩阵。通过网络的邻接矩阵A得到转移矩阵D-1A,其中D是一个对角矩阵,具体公式如下:
Figure BDA0003557915840000021
步骤1_4计算节点之间的高阶近似。首先定义
Figure BDA0003557915840000022
表示概率矩阵,其中
Figure BDA0003557915840000023
表示从节点i开始经过t步到达节点j的概率,t=0,1,…,T。T是截断后随机游动的最大长度,
Figure BDA0003557915840000024
的具体公式如下:
Figure BDA0003557915840000025
其中0≤r≤1,(1-r)是任意一步从起始节点随机游走的重新启动概率。最终取所有矩阵P1,…,PT的平均值来获取节点之间的高阶近似。
步骤1_5计算模型的最终输入。最终使用矩阵
Figure BDA0003557915840000031
的行作为模型的最终输入,具体公式如下:
Figure BDA0003557915840000032
2.模型训练和优化
模型的结构如图2所示,具体而言使用两个并行的自动编码器分别对节点的结构和属性进行编码。第一个自动编码器对节点的网络结构进行编码,使用Encs表示,第二个自动编码器对节点的属性进行编码,使用Enca表示。第一个自动编码器的输入是xi,即矩阵X的第i行,第二个自动编码器的输入是ci,即属性矩阵C的第i行。每个编码器和解码器都有L层,两个自动编码器均使用LeakyReLU非线性激活函数来训练网络。此外节点i关于结构和属性的隐藏层嵌入分别为
Figure BDA0003557915840000033
Figure BDA0003557915840000034
重构输出分别为
Figure BDA0003557915840000035
Figure BDA0003557915840000036
节点的结构异常分数为
Figure BDA0003557915840000037
属性异常分数为
Figure BDA0003557915840000038
结构属性联合异常分数为
Figure BDA0003557915840000039
步骤2_1计算邻近节点的结构损失
Figure BDA00035579158400000310
由于结构自动编码器的输入捕获了节点的局部邻域,因此通过最小化重构损失
Figure BDA00035579158400000311
可以保持网络中的高阶邻近性。为了进一步减少异常值对网络参数的学习产生不利影响,将结构损失的具体公式表述如下:
Figure BDA00035579158400000312
步骤2_2计算邻近节点的结构同质性损失
Figure BDA00035579158400000313
由于由边连接的节点往往具有相似的行为,它们在低维嵌入空间中的分布也应该是紧密的。相反的是,网络中的离群节点随机地与多个社区的节点连接,因此它们对同质性损失的贡献很小。因此结构同质性损失的具体公式如下:
Figure BDA00035579158400000314
步骤2_3计算邻近节点的属性损失
Figure BDA00035579158400000315
与结构损失的计算原理类似,属性损失具体公式如下:
Figure BDA00035579158400000316
步骤2_4计算邻近节点的属性同质性损失
Figure BDA00035579158400000317
与结构同质性损失的计算原理类似,属性同质性损失具体公式如下:
Figure BDA0003557915840000041
步骤2_5计算结构和属性联合损失
Figure BDA0003557915840000042
具体公式如下:
Figure BDA0003557915840000043
步骤2_6通过最小化总损失来训练整个模型的网络,其中α为权重系数。具体公式如下:
Figure BDA0003557915840000044
步骤2_7使用ADAM函数来优化学***均值来近似整个邻域的平均。对于训练,首先对自动编码器进行不带异常值的训练,然后交替更新各自封闭规则的超参数,之后使用ADAM函数更新自动编码器的参数,直到其收敛。最终将节点i的结构和属性的嵌入拼接起来,得到节点i的最终嵌入
Figure BDA0003557915840000045
步骤2_8根据训练集的准确率和F1分数对模型超参数进行调整,直到得到最优的符合预期的结果。
3.模型测试
步骤3_1对测试数据进行预处理,与训练数据的预处理方式一致。
步骤3_2将经过预处理的测试数据输入训练好的模型中,计算节点的结构异常分数
Figure BDA0003557915840000046
属性异常分数
Figure BDA0003557915840000047
和结构属性联合的异常分数
Figure BDA0003557915840000048
将三部分的异常分数的加权平均值oi作为最终的异常分数,然后通过设定一个异常评分阈值来判定数据是否异常。计算异常分数的具体公式如下:
Figure BDA0003557915840000049
步骤3_3计算测试数据的F1分数和准确率,根据结果调整模型的超参数,最终得到一个最优且符合预期的结果。
(二)有益效果
1.本发明解决了使用半监督图异常检测算法检测离群值存在的获取有标签的网络节点困难,需要花费昂贵的人力和物力代价的问题。
2.本发明解决了现有的无监督图异常检测算法存在的两个局限性。首先是现实世界的复杂网络表现出的高度非线性的特征很难用矩阵分解捕捉到,其次矩阵分解技术在更大的网络中不能很好的使用。针对以上两个局限,为了能够更合理地提取网络表示中的特征信息,本发明一方面以一种无监督的方式来最小化异常值对网络嵌入的影响,另一方面使用SGD算法训练模型和封闭形式更新网络,能够以更快地优化网络的参数,同时通过识别网络的结构和属性以及联合结构和属性的嵌入来学习,以最大限度地减少离群值的影响,在一定程度上解决了以上两个局限性带来的问题。
附图说明:
图1为本发明的方法流程图。
图2为本发明所述的模型结构图。
具体实施方式:
为将本发明的技术方案更清晰完整地阐述,下面结合附图及实例,对本发明进一步阐述。
下面选取公开可用的属性网络数据集中的Cora数据集为实例进行讲解。该数据集是一个引文网络数据集,由7类机器学习论文组成,总共包含2708篇论文和5429条引用,即网络中包含2708个节点和5429条边,总共由1433个单词组成,即该数据的特征有1433个维度。由于原数据集中不包含离群值,本发明最终使用的Cora数据集包含手动植入的总计5%的离群值。如图1所示,本发明提供基于深度无监督自动编码器的图异常检测方法,包括以下步骤:
步骤1如图1的方法流程图所示,方法的第一步是输入数据并进行数据预处理,数据预处理具体步骤如下:
步骤1_1从公开可用的属性网络数据集中下载Cora数据集,得到cora.tgz压缩文件,文件夹包含cora.cites和cora.content两个文件。其中cora.cites文件包含网络中论文的引用关系,即每行数据代表图的一条边,通过论文之间的引用关系来建立邻接矩阵。cora.content文件包含网络中的论文数量,即图中的节点数,每条记录包含1435个维度,其中1433个维度表示记录的特征维度,即引文网络中的单词数量。分别加载两个文件得到原始的引文网络数据。
步骤1_2将原始数据集按不同的比例划分成训练集和测试集。分别取数据集中的10%、20%、30%、40%和50%的数据作为训练集训练,剩余数据作为测试集进行测试使用。
步骤1_3计算数据的转移矩阵。通过数据集的邻接矩阵A得到转移矩阵D-1A。
步骤1_4计算数据节点之间的高阶近似。首先使用
Figure BDA0003557915840000051
表示概率矩阵,然后取所有矩阵P1,…,PT的平均值来获取节点之间的高阶近似。
步骤1_5计算数据经过模型预处理后的最终输入。最终使用矩阵
Figure BDA0003557915840000061
的行作为模型的最终输入。
步骤2对模型进行训练和优化,将数据集按比例划分为训练集和测试集,具体步骤如下:
步骤2_1输入数据经过模型预处理后的结果作为训练的最终输入。
步骤2_2计算邻近节点的结构损失
Figure BDA0003557915840000062
结构损失的具体公式表述如下:
Figure BDA0003557915840000063
步骤2_3计算邻近节点的结构同质性损失
Figure BDA0003557915840000064
结构同质性损失的具体公式如下:
Figure BDA0003557915840000065
步骤2_4计算邻近节点的属性损失
Figure BDA0003557915840000066
与结构损失类似,属性损失具体公式如下:
Figure BDA0003557915840000067
步骤2_5计算邻近节点的属性同质性损失
Figure BDA0003557915840000068
与结构同质性损失类似,属性同质性损失具体公式如下:
Figure BDA0003557915840000069
步骤2_6计算结构和属性联合损失
Figure BDA00035579158400000610
具体公式如下:
Figure BDA00035579158400000611
步骤2_7通过最小化总损失来训练整个模型的网络,其中α为权重系数。具体公式如下:
Figure BDA00035579158400000612
步骤2_8使用ADAM函数来优化学***均值来近似整个邻域的平均。对于训练,我们首先对自动编码器进行不带异常值的训练。然后我们交替更新各自封闭规则的超差值,再用ADAM函数更新自动编码器的参数,直到其收敛。最终将节点i的结构和属性的嵌入拼接起来,得到节点i的最终嵌入
Figure BDA00035579158400000613
步骤3对模型进行测试,分别计算不同比例下的测试集的F1分数和准确率,具体步骤如下:
步骤3_1加载原始数据集中的图节点文件和图边文件。
步骤3_2对测试数据进行预处理,与训练数据的预处理方式一致。
步骤3_3将经过预处理的测试数据输入训练好的模型中,计算节点的结构异常分数
Figure BDA0003557915840000071
属性异常分数
Figure BDA0003557915840000072
和结构属性联合异常
Figure BDA0003557915840000073
的分数,将三部分的异常分数的加权平均值oi作为最终的异常分数,然后通过设定一个异常评分阈值来判定数据是否异常。计算异常分数的具体公式如下:
Figure BDA0003557915840000074
步骤3_4根据结果调整模型的超参数,最终得到一个稳定且符合预期的结果。
步骤3_5分别计算不同比例下的F1分数和准确率,作为最终模型的评价指标。
以上所述是结合附图对本发明的实施例进行的详细介绍,本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,故本发明书不应理解为对本发明的限制。

Claims (4)

1.基于深度无监督自动编码器的图异常检测方法,其特征在于,该方法包括以下步骤:
步骤1:模型预处理,包括对数据集的划分和对原始数据的预处理。
步骤2:模型训练和优化,使用基于深度无监督自动编码器的图异常检测方法进行训练。
步骤3:模型测试,使用训练好的模型对测试集的数据测试,计算测试数据的异常分数。
2.根据权利要求1所述的基于深度无监督自动编码器的图异常检测方法,其特征在于,所述步骤1中的模型预处理模块的具体步骤为:
步骤1_1加载原始数据集中的图节点文件和图边文件。
步骤1_2将原始数据集按不同的比例划分成训练集和测试集。分别取数据集中的10%、20%、30%、40%和50%的数据作为训练集训练,剩余数据作为测试集进行测试使用。
步骤1_3计算转移矩阵。通过网络的邻接矩阵A得到转移矩阵D-1A,其中D是对角矩阵。
步骤1_4计算节点之间的高阶近似。
Figure FDA0003557915830000011
表示概率矩阵,取所有概率矩阵P1,…,PT的平均值来获取节点之间的高阶近似。
步骤1_5计算模型的最终输入。最终使用矩阵
Figure FDA0003557915830000012
的行作为模型的最终输入。
3.根据权利要求1所述的基于深度无监督自动编码器的图异常检测方法,其特征在于,所述步骤2中的模型训练和优化模块的具体步骤为:
步骤2_1计算邻近节点的结构损失
Figure FDA0003557915830000013
使用结构自动编码器的输入捕获节点的局部邻域,进而通过最小化重构损失保持网络中的高阶邻近性。
步骤2_2计算邻近节点的结构同质性损失
Figure FDA0003557915830000014
由于网络中的离群节点随机地与多个社区的节点连接,因此通过减小它们对同质性损失的贡献来优化网络。
步骤2_3计算邻近节点的属性损失
Figure FDA0003557915830000015
与节点的结构损失类似。
步骤2_4计算邻近节点的属性同质性损失
Figure FDA0003557915830000016
与节点的结构同质性损失类似。
步骤2_5计算结构和属性联合损失
Figure FDA0003557915830000017
步骤2_6通过最小化总损失来训练整个模型的网络,其中α为权重系数。具体公式如下:
Figure FDA0003557915830000018
步骤2_7使用ADAM函数来优化学***均值来近似整个邻域的平均。对于训练,首先对自动编码器进行不带异常值的训练,然后交替更新各自封闭规则的超参数,然后使用ADAM函数更新自动编码器的参数,直到其收敛。最终将节点的结构和属性的嵌入拼接起来,得到节点的最终嵌入。
步骤2_8根据训练集的准确率和F1分数对模型超参数进行调整,直到得到最优的符合预期的结果。
4.根据权利要求1所述的基于深度无监督自动编码器的图异常检测方法,其特征在于,所述步骤3中的模型测试模块的具体步骤为:
步骤3_1加载原始数据集中的图节点文件和图边文件。
步骤3_2对测试数据进行预处理,与训练数据的预处理方式一致。
步骤3_3将经过预处理的测试数据输入训练好的模型中,计算节点的结构异常分数
Figure FDA0003557915830000021
属性异常分数
Figure FDA0003557915830000022
和结构属性联合异常
Figure FDA0003557915830000023
的分数,将三部分的异常分数的加权平均值oi作为最终的异常分数。
步骤3_4计算测试数据的F1分数和准确率,根据结果调整模型的超参数,最终得到一个最优且符合预期的结果。
CN202210281370.1A 2022-03-22 2022-03-22 基于深度无监督自动编码器的图异常检测方法 Pending CN114638342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210281370.1A CN114638342A (zh) 2022-03-22 2022-03-22 基于深度无监督自动编码器的图异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210281370.1A CN114638342A (zh) 2022-03-22 2022-03-22 基于深度无监督自动编码器的图异常检测方法

Publications (1)

Publication Number Publication Date
CN114638342A true CN114638342A (zh) 2022-06-17

Family

ID=81950641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210281370.1A Pending CN114638342A (zh) 2022-03-22 2022-03-22 基于深度无监督自动编码器的图异常检测方法

Country Status (1)

Country Link
CN (1) CN114638342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080964A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 基于图深度学习的数据流转异常检测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080964A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 基于图深度学习的数据流转异常检测方法及***

Similar Documents

Publication Publication Date Title
WO2019184119A1 (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN113360670B (zh) 一种基于事实上下文的知识图谱补全方法及***
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN111709523A (zh) 一种基于内部集成的宽度学习方法
CN113705099A (zh) 基于对比学***台谣言检测模型构建方法及检测方法
CN113297429A (zh) 一种基于神经网络架构搜索的社交网络链路预测方法
CN111104975A (zh) 一种基于广度学习的信用评估模型
CN111291810B (zh) 基于目标属性解耦的信息处理模型生成方法及相关设备
CN113434756A (zh) 基于图双向聚合网络链接预测模型的个性化评论推荐方法
CN117201122A (zh) 基于视图级图对比学习的无监督属性网络异常检测方法及***
CN114638342A (zh) 基于深度无监督自动编码器的图异常检测方法
CN115879505A (zh) 一种自适应相关感知无监督深度学习异常检测方法
CN115170874A (zh) 一种基于解耦蒸馏损失的自蒸馏实现方法
CN114708479A (zh) 一种基于图结构和特征的自适应防御方法
CN114443909A (zh) 基于社区结构的动态图异常检测方法
CN114528971A (zh) 一种基于异质图神经网络的图谱频繁关系模式挖掘方法
CN113536508A (zh) 一种制造网络节点分类方法及***
CN117176436A (zh) 一种网络攻击检测方法、装置、电子设备及存储介质
CN113283243B (zh) 一种实体与关系联合抽取的方法
CN109978013A (zh) 一种用于人物动作识别的深度聚类方法
CN112347369B (zh) 基于网络表征的集成学习动态社会网络链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination