CN111126437B

CN111126437B - 基于加权动态网络表示学习的异常群体检测方法

Info

Publication number: CN111126437B
Application number: CN201911155412.1A
Authority: CN
Inventors: 冯昊; 刘琰; 周资乔; 钟凤喆; 王博
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-05-02
Anticipated expiration: 2039-11-22
Also published as: CN111126437A

Abstract

本发明属于动态网络异常检测技术领域，公开一种基于加权动态网络表示学习的异常群体检测方法，包括：步骤1：基于深度自编码神经网络构建加权动态网络表示学习模型；步骤2：基于构建的加权动态网络表示学习模型进行异常链接识别，得到异常链接集；步骤3：基于所述异常链接集构建全连接神经网络模型，通过所述全连接神经网络模型进行异常群体检测。本发明将异常链接与全连接神经网络异常检测模型相结合，基于异常链接扩展了本发明的适用范围，并在安然邮件数据集和AS级Internet数据集上进行了实验验证，实验结果显示本发明具有较好的异常群体检测效果。

Description

基于加权动态网络表示学习的异常群体检测方法

技术领域

本发明属于动态网络异常检测技术领域，尤其涉及一种基于加权动态网络表示学习的异常群体检测方法。

背景技术

随着网络技术的飞速发展和计算机、移动智能终端的广泛普及，网络极大地改变着人们的工作和生活，同时网络规模也变得越来越庞大、结构越来越复杂。这就使得对动态网络进行异常检测变得越来越困难，基于现有的图结构特征统计方法难以全面地捕捉图中的结构特征，如何在变化的网络中有效识别异常群体是当前的一个研究热点。

网络表示学习其基本思想是通过一系列的转换将网络中的节点变成多维向量表示，在转换过程中要求尽可能多地保留原始网络中的结构信息，进而更方便地利用现有方法实现链接预测、节点多标签分类、社团划分等任务。在当前已知的动态网络表示学习方法中，在面对加权网络时，基于随机游走的方法在选择下一跳节点时，依据出度节点的权重来增大或缩小节点的选择概率。该方法可以有效地缩小表示学习后高权重边对应节点间的距离，然而在异常链接检测任务中，需要使用历史网络中的节点的表示来判断下一时间片网络中的节点间链接是否正常，此类方法学习到的是节点间的结构信息，并没有学习到边的权重信息。因此如果待检测节点间存在链接但其权重明显较往常偏大或偏小，此类方法并不能成功地识别链接的权重异常。于此同时，动态网络中异常事件持续时间或长或短，往往难以被单个时间片网络所捕捉，论文(Miz V,Ricaud B,Benzi K,et al.Anomalydetection in the dynamics of web and social networks using associative memory[C]//The World Wide Web Conference.ACM,2019:1290-1299.)中提出了基于全连接神经网络的异常检测模型，可以有效地检测异常事件的持续时间及参与的节点集。然而在该论文中将节点异常定义为节点在一定时间内通信量突然增加，未考虑节点间通信结构的改变。据此，本发明构建了一个加权动态网络表示学习模型，并在此模型的基础上，对整个网络进行异常链接检测，最后构建基于异常链接的全连接神经网络，检测并确定异常节点集。

发明内容

本发明针对现有的网络表示学习方法在面向加权动态网络时还不能很好地学习边与权重的对应关系，在进行异常链接检测时无法有效地识别权重异常的问题，提出一种基于加权动态网络表示学习的异常群体检测方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于加权动态网络表示学习的异常群体检测方法，包括：

步骤1：基于深度自编码神经网络构建加权动态网络表示学习模型；

步骤2：基于构建的加权动态网络表示学习模型进行异常链接识别，得到异常链接集；

步骤3：基于所述异常链接集构建全连接神经网络模型，通过所述全连接神经网络模型进行异常群体检测。

进一步地，所述步骤1包括：

步骤1.1：对于动态网络G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}中的每一条边e_i∈E，采集其在不同时间片网络中的权重值，边e_i的权重值序列记为w_ei＝{w₁,w₂,...,w_m}，对于序列w_ei，对其进行离散化；

步骤1.2：在各个时间片网络中，基于各时间片网络中的各个节点构建随机游走路径集，给定网络G＝(V,E,W)，对于任意v₁∈V，构建随机游走路径集Ω_v1＝{(v₁,v₂,...,v_l,w₁₂,w₂₃,...,w_(l-1)l),...|(v_i,v_i+1)∈E∩w_i(i+1)∈W}，其中l为构建的随机游走路径的长度，w_i(i+1)为边(v_i,v_i+1)的权重；

步骤1.3：将边的权重视为特殊的节点，通过one-hot编码方式将对随机游走路径中的各节点进行编码作为深度自编码神经网络的输入层和输出层，在中间层通过最小化损失函数学习网络结构及边的权重信息，同时压缩各节点向量表示的维度至预先设定的向量表示维度d。

进一步地，所述步骤1.3包括：

步骤1.3.1：通过优化第一目标方程来最小化输入层和输出层的差异，第一目标方程为：

其中，|Ω|为随机游走路径的数量，l为随机游走路径的长度；为第nl层、即输出层的输出，W^(nl-1)为第nl-1层权重，b^(nl-1)表示第nl-1层偏置；为第i条随机游走路径的任一节点的one-hot编码，为第0层、即输入层的输入，为第i条随机游走路径边(v_l-1,v_l) 的权重；

步骤1.3.2：在中间层，对于随机游走路径(v₁,v₂,...,v_l,w₁₂,w₂₃,...,w_(l-1)l)，通过优化第二目标方程来最小化该路径前半部分(v₁,v₂,...,v_l)节点间的距离，第二目标方程为：

其中，与为随机游走路径中相邻的两个节点的one-hot编码；

步骤1.3.3：通过优化第三目标方程来最小化边和权重节点之间的距离，第三目标方程为：

其中为(v₁,v₂,...,v_r)节点间的边(e₁₂,e₂₃,...,e_(r-1)r)中任意一条边e_(j-1)j的向量表示；

步骤1.3.4：通过KL散度限制输入输出向量的稀疏性：

其中，d为向量表示的维度，ρ为稀疏性参数，为第τ层神经元的平均激活度，为第i维神经元的激活度，为第i维神经元的平均激活度，τ∈[1,nl]；

步骤1.3.5：综合式1、式2、式3及式4，构建损失函数，完成加权动态网络表示学习模型构建：

其中表示权重衰减函数，W^(τ)为第τ层权重，F表示范数。

进一步地，所述步骤2包括：

步骤2.1：动态更新节点的向量表示，为第1到t时间片网络随机游走路径设置采样概率s_i：其中i为时刻值；

步骤2.2：通过综合当前时间片网络和历史时间片网络获得随机游走路径集，将随机游走路径依次送入构建的加权动态网络表示学习模型，通过最小化损失函数得到节点的低维向量表示；

步骤2.3：在获取第t时间片网络各节点的向量表示后，基于当前节点的向量表示对第t+1时间片网络各链接进行异常链接检测，得到异常链接集。

进一步地，所述步骤2.3包括：

步骤2.3.1：链接异常识别：

以第1到t时间片网络出现过所有连边的节点对之间的平均距离为基准，节点v_i，v_j之间的相近程度定义为：

其中，d_ij为节点v_i，v_j间的欧式距离；

设置异常链接判定阈值k，当网络中相近程度小于k的两个节点在t+1时间片发生链接时，则在t+1时间片该节点对存在链接异常，该链接是异常链接；

步骤2.3.2：权重异常识别：

通过对节点v_i，v_j的向量表示进行哈达玛积运算获得边e_ij的向量表示，通过计算边e_ij与各权重节点在d维空间中的欧氏距离来预测该边在t+1时间片的权重；若预测的权重值与其实际权重值不符则判断边e_ij在第t+1时间片发生了权重异常，该链接是异常链接；

步骤2.3.3：通过步骤2.3.1及步骤2.3.2，得到异常链接集。

进一步地，所述步骤3包括：

步骤3.1：将异常链接集中的各异常链接视为节点间的边，基于异常链接集构建全连接神经网络模型，从而输出多个异常子图，得到异常子图集；

步骤3.2：取异常子图集中的最大联通子图输出作为最终的异常群体。

与现有技术相比，本发明具有的有益效果：

1.本发明通过学习动态网络中的结构信息、边的权值信息获得节点、边的向量表示，在异常链接检测的基础上使用全连接神经网络模型来获得异常节点集。

2.本发明设计了加权动态网络表示学习模型，该模型较全面地学习了动态网络结构信息，将权重视为特殊的节点，综合节点表示获得边的向量表示，最小化边与其“权重节点”间的距离，从而学习网络中的权重信息。在获得节点向量表示后，使用真实动态网络数据集来进行异常链接检测，实验验证了该方法的有效性。

3.本发明将异常链接与全连接神经网络异常检测模型相结合，基于异常链接扩展了本发明的适用范围，并在安然邮件数据集和AS级Internet数据集上进行了实验验证，实验结果显示本发明具有较好的异常群体检测效果。

附图说明

图1为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的基本流程图之一；

图2为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的加权动态网络表示学习模型架构示意图；

图3为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的t时间片网络各边与权重节点位置示意图；

图4为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的动态网络链接结构变化示意图；

图5为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的基本流程图之二；

图6为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的安然邮件数据集异常检测结果图；

图7为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的黎巴嫩、委内瑞拉AS级Internet异常群体检测结果图；

图8为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的黎巴嫩异常节点集异常链接数统计结果图；

图9为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的黎巴嫩异常节点集异常链接数演变图；

图10为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的委内瑞拉异常节点集异常链接数统计结果图；

图11为本发明实施例一种基于加权动态网络表示学习的异常群体检测方法的委内瑞拉异常节点集异常链接数演变图。

具体实施方式

为更好的理解本发明，对本发明中出现的部分名词含义进行解释：

加权动态网络：加权动态网络是随时间不断变化的加权网络，一个包含n个时间片的动态网络表示为G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}，其中的第t个时间片网络 G_t＝(V_t,E_t,W_t)，V_t为网络中顶点集合，E_t为边集合表示顶点之间的关系，W_t为边权重集合。

权重异常：给定动态网络G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}，对于其任一时间片网络 G_t＝(V_t,E_t,W_t)，对于任意一条边e_i∈E_t，e_i＝{frm,to,w_i}，其中frm、to为边的两个端点，w_t为当前边的权重，在n个时间片范围内，以frm、to为端点的边其权重正常范围为[w_l,w_h]，若w_i<w_l或w_i>w_h则认为e_i在时间片t发生了权重异常。

链接异常：链接异常包含链接异常连接和链接异常断开，给定动态网络 G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}，在获得t-1时间片网络各节点的向量表示后，若发生链接概率很低的两个节点v_i、v_j在某时刻t发生了链接，则称该链接行为称为链接异常连接，同理，若发生链接概率很高的两个节点v_i、v_j在某时刻t断开连接，则称该行为为链接异常断开。

同步异常链接：给定动态网络G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}，动态网络中的多个节点在第t-th时间片网络到第s-th时间片网络上异常链接的出现呈现出一致性与统一化的现象，则我们称该节点集在t-s时间段出现了同步异常链接行为。

下面结合附图和具体的实施例对本发明做进一步的解释说明：

将网络异常定义为一组节点在一段时间内同步发生异常链接行为。给定一加权动态网络G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}，我们的目标是获取加权动态网络指定时间段内具有同步异常链接行为的节点集，为此通过网络表示学习来识别动态网络中的异常链接集。对于动态网络中的任一时间片网络t，通过学习第1到第t个时间片网络的结构信息来对第t+1时间片网络进行异常链接检测，其中，异常链接包含链接权重异常和链接异常。

在获取整个加权动态网络异常链接集后，我们的目标是获取在一定时间段内同步发生异常行为的节点集，据此在异常链接集的基础上寻找在该时间段内存在连边且同步发生异常行为的节点集，期间通过比较各节点的异常行为相似度来获得节点间的权重，通过设定权重阈值来对低权重边进行剪枝，最后取最大联通子图(最大子网络输出)作为当前时间段的异常节点集。

为有效地对加权动态网络进行异常群体检测，本发明公开一种基于加权动态网络表示学习的异常群体检测方法，如图1所示，首先基于深度自编码神经网络构建加权动态网络表示学习模型，并对当前动态网络进行异常链接识别，将异常链接集与全连接神经网络相融合，最后获得异常群体(异常节点集)。下面对该三部分内容进行详细描述。

步骤S11：基于深度自编码神经网络构建加权动态网络表示学习模型WeightWalk；WeightWalk模型可以有效地学习网络结构信息及边的权重信息，下面分别从权重离散化、加权随机游走路程生成及表示学习三部分来阐述。

步骤S11.1：权重离散化：

在加权动态网络中，节点之间的权重是连续的数值，然而连续的数值不利于我们对其进行表示学习，需要将连续的数值转离散化。对于动态网络 G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}中的每一条边e_i∈E，我们采集其在不同时间片网络中的权重值，边e_i的权重值序列记为w_ei＝{w₁,w₂,...,w_m}，对于序列w_ei，可以采用多种方法将其离散化，例如等频划分、等距划分、聚类划分等，此处我们假设该序列满足正态分布，计算其均值μ和方差σ²，给定一个阈值α，对于任意w_i∈w_ei，若w_i的值落在[μ-α,μ+α]之外的区域，则将其权重设为1，若值落在[μ-α,μ+α]之内则将其权重设为0。通常取α为3σ，因为若序列w_ei满足正态分布则值落在该区域外的概率仅为0.3％，是一个小概率事件，当然也可以根据实际情况确定α的取值。

步骤S11.2：加权随机游走路径生成：

在各个时间片网络中，基于各时间片网络中的各个节点构建随机游走路径集，给定网络G＝(V,E,W)，对于任意v₁∈V，构建随机游走路径集Ω_v1＝{(v₁,v₂,...,v_l,w₁₂,w₂₃,...,w_(l-1)l),...|(v_i,v_i+1)∈E∩w_i(i+1)∈W}，其中l为构建的随机游走路径的长度，w_i(i+1)为边(v_i,v_i+1)的权重，为了学习网络中边与权重的对应关系，此时需要将边权重与节点一同传入模型，在模型学习阶段需要分离节点和边的权重。

步骤S11.3：深度自编码神经网络表示学习：

网络表示学习的目的是学习一个映射函数f将网络中每一个节点映射到一个低维向量中：V→R^d，其中d为向量表示的维度。现有的NetWalk动态网络表示学习算法，该方法使用自编码神经网络来学习对各时间片网络进行表示学习，但存在两个方面的问题：第一，在动态网络表示学习中没有考虑历史路径的重要性衰减情况，比如在对第n时间片节点表示学习时时，第n-100时间片的节点链接重要性显然要远远低于第n时间片节点链接。第二，在处理带权重网络时没有对边的权重进行学习，因此在进行异常链接检测任务时，如果待检测节点间存在链接但其权重明显较往常偏大或偏小，该方法并不能成功地识别权重异常。为解决上述两个问题，本发明提出了针对加权动态网络的表示学习模型—WeightWalk，模型框架如图2所示，模型输入为带权重的随机游走路径，在模型中我们将边的权重视为特殊的节点，通过one-hot编码方式将对随机游走路径中的各节点进行编码作为自编码神经网络的输入和输出层，在中间层通过最小化损失函数学习网络结构及边的权重信息，同时压缩各节点向量表示的维度至预先设定的向量表示维度d。

在该模型中，假设该模型共nl层，将输入层记为layer₀，输出层记为layer_nl，中间层统称为layer_ml。给定第i条随机游走路径对于任一节点其one-hot编码记为整条随机游走路径记为给定第τ层权重矩阵W^(τ)，第τ层偏置矩阵b^(τ)，τ∈[1,nl]，f^(τ)(.)表示第τ层的输出，该模型的第 0层输入为第nl层输出为

对于自编码神经网络，需要最小化模型的输入和输出的差异，使用l₂正则来最小化该差异，目标方程记为：

其中，|Ω|为随机游走路径的数量，l为随机游走路径的长度，W^(nl-1)为第nl-1层权重，b^(nl-1)表示第nl-1层偏置。

在中间层layer_ml，对于随机游走路径(v₁,v₂,...,v_l,w₁₂,w₂₃,...,w_(l-1)l)，需要最小化该路径前半部分(v₁,v₂,...,v_l)节点间的距离，该目标方程记为：

其中，与为第i条随机游走路径中相邻的两个节点的one-hot编码。

我们通过合并节点的向量表示来获得边的向量表示，(v₁,v₂,...,v_r)节点间的边可表示为(e₁₂,e₂₃,...,e_(r-1)r)，其中对于任一条边e_(j-1)j，通过对节点的向量表示进行哈达玛积(Hadamard product)运算获得边的向量表示，为了学习边的权重，需要最小化边和权重节点之间的距离，该目标方程记为：

为了保证输入输出向量的稀疏性，使用KL散度来进行限制：

其中，d为向量表示的维度，ρ为稀疏性参数，为第τ层神经元的平均激活度，为第i维神经元的激活度，为第i维神经元的平均激活度。

为防止过拟合，加入权重衰减，综上，最终的损失函数定义为：

其中表示权重衰减函数，W^(τ)为第τ层权重，F表示范数。

通过步骤S11.1至S11.3完成加权动态网络表示学习模型构建。

步骤S12：基于构建的加权动态网络表示学习模型进行异常链接识别，得到异常链接集；在获取第t时间片网络各节点的向量表示后，我们基于当前节点的向量表示对第t+1时间片网络各链接进行异常链接检测，包括链接异常和权重异常识别方法。

步骤S12.1：采用NetWalk模型的蓄水池抽样策略来动态更新节点的向量表示，于此同时考虑到历史路径的重要性衰减情况，距离当前时刻t越远的路径对当前时间片网络的影响越小，为第1到t时间片网络随机游走路径设置采样概率s_i：其中i为时刻值。

步骤S12.2：通过综合当前时间片网络和历史时间片网络获得随机游走路径集，将随机游走路径依次送入构建的加权动态网络表示学习模型，通过最小化损失函数得到节点的低维向量表示；

步骤S12.3：在获取第t时间片网络各节点的向量表示后，基于当前节点的向量表示对第t+1时间片网络各链接进行异常链接检测，得到异常链接集。

进一步地，所述步骤S12.3包括：

步骤S12.3.1：链接异常识别：

通过计算节点v_i，v_j在d维空间中的欧氏距离来作为两个节点的距离，第t时间片网络表示学***均距离为基准，节点v_i，v_j之间的相近程度定义为：

其中，d_ij为节点v_i，v_j间的欧式距离。

第t+1时间片网络中的各条链接，在获取第t时间片网络各节点对相近程度后，设置一个异常链接判定阈值k，当相近程度小于k的两个节点在t+1时间片发生链接时，则在t+1时间片该节点对存在链接异常，认为该链接是异常链接；或同时设置链接异常断开判定阈值h，当相近程度大于h的两个节点在t+1时间片没有链接关系时，则认为在t+1时间片该节点对存在链接异常断开。通常情况下，我们不需要考虑链接异常断开，只有在动态网络各时间片网络节点、链接保持高度一致的情况下才适用，例如AS路由网络、道路通行量网络等。

步骤S12.3.2：权重异常识别：

通过对节点v_i，v_j的向量表示进行哈达玛积(Hadamard product)运算获得边e_ij的向量表示，通过计算边e_ij与各权重节点在d维空间中的欧氏距离来预测该边在 t+1时间片的权重。假设将权重简单地设为两类，即0和1，经过[0,t]时间片动态网络表示学习后，各边实际上形成了围绕各权重的多个聚类，边e_ij的权重实际上位于权重0、1两个聚类中心的中间位置，通过分别计算边e_ij到两个权重中心距离的远近来预测第t+1时间片边e_ij的权重值，若预测的权重值与其实际权重值不符则判断边e_ij在第t+1时间片发生了权重异常。如图3所示，图3中各点为第 t时间片网络中各边的与权重节点的位置关系，边e_ij的权重由距离其最近的权重节点来决定。

步骤S12.3.3：通过步骤S12.3.1及步骤S12.3.2，得到异常链接集。

步骤S13：基于所述异常链接集进行构建全连接神经网络，通过所述全连接神经网络进行异常群体检测。

在动态网络发生异常事件时，往往会有一系列的节点集间发生异常行为，节点间通联数突发或突减，链接异常出现或消失。传统的异常检测方法往往聚焦在异常时间点，在确定异常时间点后再去寻找异常节点，若异常事件持续时间较长则此类方法无法完整的检测。使用全连接神经网络可以将动态网络转化为包含动态网络结构信息和时间信息的静态网络，将动态网络异常检测转化为在静态图上寻找联通子图，该联通子图包含结构信息和时间信息。该方法基于最大化同步发生异常的互连节点间边的权重，增强了具有相似活动的节点之间的连接，之后裁剪掉低权重的边，将全连接神经网络转变成了一个或数个具有相似行为的子图集 (子网络集)。这些子网络间可能相互隔离，也可能是连接为一个整体，将检测后保留的子网络节点输出作为最终的异常节点集。

然而该方法将动态网络中的异常定义为节点通联量突增，没有考虑节点间通联量的突减，同样由于其仅仅考虑节点的通联量，未考虑节点间的链接结构异常，如图4所示，T0时刻和T1时刻图中的各节点通联量都为2，由通联量来看没有发生任何变化，但其节点间的链接结构均发生了巨大变化。

而在异常链接检测的基础上使用本发明方法则可以有效地检测图4中出现的链接结构异常，图4中T1时刻边v1-v4、v2-v3均可视为异常链接，在异常链接的基础上可以有效地检测链接(结构)异常及链接权重异常节点集、即异常链接集。本发明首次将异常链接与全连接神经网络(异常检测)模型相融合,该方法流程图如图5所示。获取动态网络异常链接集，记为ο，ο＝{(t₁,v₁,v₂),(t₁,v₁,v₄),...,(t_n,v_x,v_y)}，其中对于任意(t_i,v_x,v_y)∈ο，t_i为异常链接的发生时间片，v_x∈V、v_y∈V，V为动态网络中存在的节点集。我们将动态网络中的异常链接视为节点间的边，并基于该异常链接集构建全连接神经网络，在构造的全连接神经网络模型中共有N个节点，这些节点对应着对动态网络中异常链接的各个节点(对于V中未出现在异常链接中的节点需要舍弃)，对于N个节点中的任意两个节点如果它们之间存在异常链接则它们之间存在连边。在经过全连接神经网络学习(节点相似度度量，增大出现同步异常的节点间边的权重，对低权重边进行剪枝)后获得异常子图集(异常子网络集)，在本发明中，取异常子图集中的最大联通子图输出作为最终的异常群体(异常节点集)。

未验证本发明效果，设置如下实验：

为了验证加权动态网络表示学习模型WeightWalk在权重学习方面的有效性，采用异常链接检测实验来进行证明。

(a)基线方法：

为了验证该模型的有效性，采用了5种当前最新基线方法：

DeepWalk:该方法通过随机游走策略生成节点序列，然后采用skipgram模型学习节点的向量表示。

node2vec:该方法在随机游走中兼顾了深度优先遍历和广度优先遍历，从而得以更加灵活地学习网络结构。

LINE:该方法通过兼顾节点的一阶与二阶相似度来优化节点的表示，对比试验中采用二阶相似度来进行学习表示。

Structural Deep Network Embedding(SDNE):SDNE是一种基于深度学习的网络表示模型，它使用自编码器和局部保留约束来学习节点的表示。

NetWalk:该方法采用随机游走和蓄水池算法来动态更新随机游走路径，是一种基于深度自编码神经网络的动态网络表示学习模型。

实验数据：

UCI(Uc irvine messages)：该网络为一个在线学生社区用户之间相互交流。节点代表用户，边代表发送的消息。

DNC:DNC数据集为一个泄露的邮件网络，网络中的节点对应于用户，边为用户之间发送的电子邮件。

Subreddit：该数据包含25000名reddit用户针对不同主题的讨论，网络中节点对应reddit用户或者主题、边代表了用户在某主题的一次发言。

(b)实验步骤：

WeightWalk模型设置随机游走路径长度为3，由每个节点出发的路径条数为 20，自编码神经网络的层数设为5，中间层向量表示的维度分别为100,20。实验中我们将上述数据集按天进行切片，将数据集转变为加权动态网络。在每一个数据上我们随机选择10000条边作为正样本，取5000条链接负样本边(即，两个节点间在数据集中没有连边关系)，取5000条权重负样本边(即两个节点间在数据集中存在链接，但权重不同)。在使用上述方法获得各节点的向量表示后，对 20000个样本进行检测，使用逻辑回归模型进行训练预测，最终获得表1中列出的Macro F1-score结果。F1-score，它同时兼顾了分类模型的精确率和召回率，可视为综合考虑准确率和召回率的调和值，其计算公式如下：

其中Precision为准确率，Recall为召回率。

表1异常链接检测

	UCI	DNC	Subreddit
				LINE	0.581	0.516	0.597
DeepWalk	0.567	0.52	0.495
				node2vec	0.57	0.523	0.582
SDNE	0.691	0.776	0.604
				NetWalk	0.609	0.665	0.576
WeightWalk	0.776	0.8	0.789

由表1可以看出，WeightWalk模型在上述数据集上均表现最好，该方法学习的节点向量表示可以有效地对异常链接进行检测。而相反，其余方法均无法有效检测异常权重，说明WeightWalk模型在面向加权动态网络时异常链接检测方面适用性更强。

为验证本发明异常群体检测效果，我们采用在真实数据集上注入异常来对异常检测的准确率进行评估，同时将该方法用于AS级Internet数据集来进行实验验证。

将本发明与源方法(参见Miz V,Ricaud B,Benzi K,et al.Anomaly detectionin the dynamics of web and social networks using associative memory[C]//TheWorld Wide Web Conference.ACM,2019:1290-1299.)进行实验对比，鉴于搜集真实动态网络数据集上异常群体数据的困难性，我们采用在真实数据集上注入异常的方式来构造异常群体。

实验数据集采用UCI和DNC数据集，将上述数据集按天进行切片，将数据集转变为加权动态网络。在每一个数据上随机抽取某一时间片网络选择25％的节点增大其在当前时间片网络的通信量，随后选择25％的节点在不改变其当前时间片网络通信量的前提下改变其通信结构，将该上述节点作为待检测异常节点集。 WeightWalk模型设置随机游走路径长度为3，由每个节点出发的路径条数为20，自编码神经网络的层数设为5，中间层向量表示的维度分别为100,20，在获得各节点的向量表示后，基于异常链接对上述异常节点集进行检测，最终获得表2 中列出的Macro F1-score结果。

表2异常群体检测实验对比

	DNC	UCI
			WeightWalk_Anomaly	0.652	0.550
Method	0.584	0.316

由表2可以看出，本发明在上述数据集上表现较好，可以有效地识别节点通信量突增异常、通信结构异常。于此同时，鉴于动态网络的变化性及复杂性，上述方法在UCI数据集上表现稍差，与其网络结构较松散、连接不紧密存在一定关系。

为进一步验证本发明异常群体检测效果，在真实数据集上进行实验比较。

我们采用安然邮件数据集和AS级Internet动态网络数据集对本发明检测效果进行评估，同时由于AS级Internet动态网络数据集异常事件(海底光缆断开、断电)带来的是相关国家互联网运营商通信量的减少和通信结构的改变，因此论文(参见Miz V,Ricaud B,Benzi K,et al.Anomaly detection in the dynamics of web and social networksusing associative memory[C]//The World Wide Web Conference. ACM,2019:1290-1299.)中基于通信量“突增”的异常群体检测方法无法对该异常进行有效检测，而基于异常链接的加权动态网络异常群体检测模型则可以较好的检测此类异常事件，这也说明了我们基于异常链接集的动态网络异常群体检测模型具有更好的适用性。

(c)安然邮件数据集实验

安然邮件数据集是某公司数百名高层管理人员数年来的来往邮件，已被公开。因为该数据集不仅包含该公司成员之间相互通信，而且还存在大量的与公司外人员的通信。因此在实验中我们首先过滤安然邮件网络在近5年时间里发送少于3 封邮件的用户，对数据进行一定的清洗，最终仅保留发送多余3封邮件用户之间的通联数据。从安然邮件数据集中提取邮件记录中发送方和接受方的邮箱地址以及发送时间，用于构建邮件网络，网络中节点表示通信成员，若成员a向成员b 发送了一封邮件，则在ab之间加一条边，以一天为单位将1999/1/4到2001/12/31 共三年的邮件通讯记录划分为1092个时间片，a和b之间一天内发送邮件的数量作为ab边的权重。

实验中分别以1999年12月，2001年4月、5月和8月为异常检测区间对安然数据集进行检测，取最大联通子图分别涉及23个，50个，92个，12个节点。分别以上述节点集为检测群体，在1999年至2001年3年范围内比较其异常链接数的变化，如图6所示，分别将4个待检测月份用黑色宽线标识，将上述节点集的异常链接数分别标准化为0-100，由图6可知，上述节点集分别在各个事发月份取得了最大值，尤其是2001年4月、5月及8月，异常链接数分别较其它月份有50％-300％的提升，这在一定程度上证明了我们方法的有效性。其中，2001 年5月份异常检测共涉及92个节点，于此同时该节点集异常链接数在5月份也较其余月份有2至3倍的提升，说明5月份发生的事件对安然公司造成了较大的影响。

(d)AS级Internet数据集实验

在特定时刻t，某个国家的AS级Internet是指与该国所属AS直接相连的所有AS构成的网络快照，记为G＝{G₁,G₂,…,G_t,G_t+1,…,G_n}。其中的第t个时间片网络G_t＝(V_t,E_t,W_t)，V_t为该国家AS自治域以及与该国家AS自治域直接相连的其它国家AS自治域，E_t为AS自治域间的连边，W_t为边权重集合。在一段时间内，由G_t＝(V_t,E_t,W_t)构成的动态网络G则能够反映该国网络连通状态的演变趋势。通常情况下，G的正常变化反映了AS级Internet规模、拓扑关系循序渐进的演变规律，但是大规模互联网的剧烈变化通常是由网络异常事件引起的，如路由器误配置、物理链路故障、网络攻击等，会导致该国的AS级Internet的拓扑结构发生一定变化。

本实施例选择黎巴嫩和委内瑞拉的AS级Internet进行实验验证，通过分析 RouteViews项目的公开路由表数据，可以得到黎巴嫩和委内瑞拉的AS级Internet 动态网络，将相关国家AS对在路由表中出现的数量作为边的权重。Route Views 项目的路由表采样间隔为2h，因此动态网络中相邻网络快照的时间间隔也为2h，同时异常检测的精度也为2h。黎巴嫩和委内瑞拉的AS级Internet数据集如表3 所示。

表3黎巴嫩和委内瑞拉的AS级Internet数据集统计信息

国家	起始时间	结束时间	快照个数
				黎巴嫩	2012/6/1 00:00	2012/7/31 22:00	727
委内瑞拉	2019/2/1 00:00	2019/3/31 22:00	706

据BGPMon报道(参见BGPMon[EB/OL].https://www.bgpmon.net/internetoutage-in-lebanon-continues-for-days/)，从2012年7月4日16时16分开始，黎巴嫩的海底光纤被切断，互联网服务中断长达数日，其中黎巴嫩最大互联网运营商Liban Teleccom(AS42020)等运营商的网络受到的影响最为严重。因Route Views项目路由表采样间隔为2h，因此反映到路由表上的时间点为2012年7月4日18 时。

选择检测区间为2012年7月1日至7月9日，经过异常群体检测得到的异常子图如图7中图G1所示，其中节点为检测后异常节点集，边的权重为当前连边的异常值，边的权重越大说明当前边越异常。图8直观地显示了上述异常节点集在整个动态网络中的演变情况，图8中横坐标为当前动态网络的时间片，共 727个时间片，纵坐标为异常节点集，图中我们使用颜色的深浅来表示当前节点在当前时间片上的异常链接数(颜色越深，异常链接数越大，纯白色代表无异常链接)，异常事件发生时间点2012年7月4日18时用黑色直线段标识。由图8 可以发现，在该黑色直线段标识后上述节点集异常链接数急剧升高，部分节点异常链接一直持续到2012年7月30日，这说明直到2012年7月30日该AS依然没有恢复正常。

于此同时为了进一步了解异常事件发生时异常节点集的行为变化，从上述节点集中选取7个节点，对其在异常事件发生时的行为进行分析。如图9所示，图 9中a部分为上述节点集在7月1日至7月9日之间的总的异常链接数统计，图 9中b部分为上述节点集在7月1日至7月9日之间各自的异常链接数变化。由图9可知，上述节点的异常链接数在2012年7月4日18时均发生了较为明显的变化，直到7月7日后才有所缓解。这也一定程度上为分析异常事件的发生时间点、分析异常事件造成的影响提供了一定的依据。

据***3月8日报道(参见CNN[EB/OL].https://edition.cnn.com/2019/03/08/americas/venezuelablackout-power-intl/index.htm)，委内瑞拉7日傍晚大部分地区遭遇停电危机，直到8日凌晨，很多地方还处于黑暗中。虽然官方没有公布停电城市的具体数字，但当地媒体有统计称，该国23个州的22个都停电了。

选择检测区间为2019年3月3日至3月11日，经过异常群体检测得到的异常子图如图7中图G2所示。同样我们使用图10来直观的显示上述异常节点集在整个动态网络中的演变情况，黑色直线段为异常事件发生时间点2019年3月7日22时(UTC)。由图10可以发现，在黑色直线段后上述节点集异常链接数急剧升高，在持续数天后才逐步缓解。为了进一步了解异常事件发生时异常节点集的行为变化，同样从上述节点集中选取7个节点进行分析。如图11所示，图 11中a部分为上述节点集在3月3日至3月11日之间的总的异常链接数统计，图11中b部分为上述节点集在3月3日至3月11日之间各自的异常链接数变化。由图11可知，上述节点的异常链接数在2019年3月7日22时均发生了较为明显的变化，且一直持续到3月11日依然没有缓解。这说明了委内瑞拉AS级 Internet路由直到3月11日依然波动较大，没有完全恢复。

实验结果证明本发明方法在检测异常群体方面的有效性，该方法可以一定程度上揭示异常事件的发生时间，同时通过对单个节点的异常链接数演变进行分析可以评估当前事件对个体的影响程度，为异常事件影响分析提供了一定的参考。

本发明通过学习动态网络中的结构信息、边的权值信息获得节点、边的向量表示，在异常链接检测的基础上使用全连接神经网络模型来获得异常节点集。本发明设计了加权动态网络表示学习模型，该模型较全面地学习了动态网络结构信息，将权重视为特殊的节点，综合节点表示获得边的向量表示，最小化边与其“权重节点”间的距离，从而学习网络中的权重信息。在获得节点向量表示后，使用真实动态网络数据集来进行异常链接检测，实验验证了该方法的有效性。本发明将异常链接与全连接神经网络异常检测模型相结合，基于异常链接扩展了本发明的适用范围，并在安然邮件数据集和AS级Internet数据集上进行了实验验证。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。