CN112910680A

CN112910680A - 一种融合多粒度社区信息的网络嵌入方法

Info

Publication number: CN112910680A
Application number: CN202011624828.6A
Authority: CN
Inventors: 胡军; 许正康; 钟福金; 张清华
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-06-04

Abstract

本发明属于复杂网络分析技术，特别涉及一种融合多粒度社区信息的网络嵌入方法，包括：构建无向网络；使用Louvain算法获得不同粒度下的网络以及相应的社区划分；使用DeepWalk学***均，得到相应社区的嵌入；利用社区嵌入来调整节点嵌入，即通过最大化节点属于所属社区的条件概率，使得节点嵌入与节点所属社区的社区嵌入相似，将社区信息融合进节点嵌入当中；将所有社区粒度下节点嵌入进行拼接，得到最终网络嵌入，并应用于下游任务。本发明通过联合多粒度社区下的节点嵌入，可以捕获不同粒度下的社区信息，提高下游任务的准确率。

Description

一种融合多粒度社区信息的网络嵌入方法

技术领域

本发明属于复杂网络分析技术，特别涉及一种融合多粒度社区信息的网络嵌入方法。

背景技术

由于网络规模的飞速增长，网络中蕴含的信息也越来越丰富，网络表示学习受到越来越多的关注，同时也产生了许多领域相关的方法。这些方法一般可以分为三种，分别为基于矩阵分解的网络表示方法，基于神经网络的网络表示方法，以及基于Skip-Gram模型的网络表示方法。上述方法通常只考虑了网络的局部信息，忽视了全局信息，比如社区信息。

由于网络中社区的重要性，近些年一些学者在网络嵌入时开始考虑对社区信息进行保留。一般的保留社区信息的嵌入方法都是在节点嵌入上进行聚类，根据聚类结果(社区划分)来重新调整原本的节点嵌入结果，其思想如图1所示。但这些方法都只关注网络最终的社区结构，没有考虑到社区的多粒度特性。为此，本发明利用社区发现算法得到多粒度社区结构，提出可以融合多粒度社区信息的网络嵌入方法。

发明内容

为了解决现有网络嵌入方法无法有效利用网络潜在的多粒度社区信息，本发明提出一种融合多粒度社区信息的网络嵌入方法，该方法具体包括以下步骤：

S1、构建无向网络G(V，E)，V为网络G的节点集合，E为网络G的边集；

S2、使用Louvain算法获得不同粒度下的网络以及相应的社区划分，表示为(G¹，C¹)，...，(G^T，C^T)；

S3、使用DeepWalk最大化通过中心节点预测上下文节点的条件概率，来学习初始节点嵌入；

S4、将社区内的所有节点的嵌入进行加权平均，得到相应的社区嵌入；

S5、利用社区嵌入来调整节点嵌入，即通过计算节点属于所属社区的条件概率，使得节点嵌入与节点所属社区的社区嵌入相似，将社区信息融合进节点嵌入；

S6、将所有社区粒度下节点嵌入进行拼接，得到最终网络嵌入，并应用于下游任务。

进一步的，使用Louvain算法获得不同粒度下的网络以及相应的社区划分，过程包括：

遍历网络中所有节点，计算将节点划分到其邻居节点的所在社区的模块度增益，并将其划分到最大正向增益的对应社区；

重新构造网络，将所有同一社区内的节点合并为新网络中的节点；

将新网络中节点内部权重更新为合并节点集合内部权重的总和、新网络中节点之间的边权重更新为两个节点对应社区间连接边上的权重总和；

重复以上步骤，直到模块度不再发生改变，将不同粒度下构建的网络与社区划分输出。

进一步的，最大化通过中心节点预测上下文节点的条件概率包括：

使用截断随机游走来捕获网络结构信息，得到游走路径集合S＝{s₁，s₂，...，s_n}，其中s_i＝{v_i，...}表示以节点v_i为起始节点的节点序列；

对于节点序列s_i中任意节点，根据窗口大小，生成中心-上下文节点对；

根据Skip-Gram模型，使用DeepWalk最大化通过中心节点预测上下文节点的条件概率。

进一步的，通过中心节点预测上下文节点的条件概率表示为：

其中，p(v_j|v_i)表示通过中心节点v_i预测上下文节点v_j的条件概率；φ_i为节点i的嵌入，φ′_j为节点j的上下文嵌入。

进一步的，使用负采样策略对节点v_i和v_j之间的条件概率进行优化，最小化优化后的节点v_i和v_j之间的目标函数，得到初始网络嵌入φ⁰，该目标函数为：

其中，O₁为优化后的节点v_i和v_j之间的目标函数；K为负采样的个数；

表示通过噪声分布P_n(v)采样出节点v_k所计算的期望值，

d_v表示节点的度数；φ_i为节点v_i的节点嵌入；φ′_k为负采样节点的上下文嵌入。

进一步的，通过对t粒度网络中第i个节点

的合并节点对应的社区嵌入进行加权平均，得到t-1粒度中第i个社区

的社区嵌入。

进一步的，社区

的社区嵌入表示为：

其中，

为t-1粒度下社区

的社区嵌入；

为节点

的权重；

为t-1粒度下节点

的节点嵌入；

为节点

的合并节点，

为节点

对应的社区内部节点。

进一步的，计算节点属于所属社区的条件概率表示为：

其中，p(c_j|v_i)为节点v_i属于对应的社区c_j的条件概率，社区c_j为节点v_i所属社区；ψ′为社区c′的社区嵌入；

为社区c_j的社区嵌入的转置；φ_i为节点v_i的节点嵌入。

进一步的，通过负采样策略对节点v_i属于所属社区c_j的条件概率进行优化，最小化优化后的节点v_i与所属社区c_j之间的目标函数，更新得到融合当前t粒度社区信息网络嵌入φ^t，该目标函数表示为：

其中，O₂为优化后的节点v_i与所属社区c_j之间的目标函数；K为负采样的个数；

表示通过噪声分布P_n(c)采样出社区c_k所计算的期望值；

d_c表示社区c对应节点的度数；

为社区c_k的社区嵌入的转置。

进一步的，最终节点v_i的嵌入表示为：

其中，符号

为拼接运算，

为初始网络中节点v_i的嵌入；

为第T粒度网络中节点v_i的嵌入，T为粒度网络数量。

本发明解决其他融合社区信息的嵌入方法只考虑最终社区结构，而无法利用社区本身隐含的多粒度特性的问题。该发明根据网络当前社区粒度结构以及上一社区粒度下的节点嵌入得到当前社区粒度下的社区嵌入，利用社区嵌入更新当前社区粒度下的节点嵌入结果，通过整合多粒度下的节点嵌入，可以捕获不同粒度下社区信息，提高下游任务的准确率。

附图说明

图1为本发明融合社区信息的网络嵌入示意图；

图2为本发明融合多粒度社区信息的网络嵌入方法框架示意图；

图3为本发明融合多粒度社区信息的网络嵌入方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种融合多粒度社区信息的网络嵌入方法，如图3，具体包括以下步骤：

S2、根据Louvain算法，获得不同粒度下的网络以及相应的社区划分(G¹，C¹)，...，(G^T，C^T)；

本发明通过网络结构学习初始节点嵌入，根据节点嵌入和网络节点本身隐含的社区属性学习社区嵌入，使用联合优化的方式，利用社区嵌入更新节点嵌入，得到既保留网络结构信息又融合不同粒度社区信息的网络嵌入结果。该方法的思想框架如图2所示。本发明分别从步骤S1～S6进行详细说明，具体包括以下步骤：

Step1：构建网络。

本实施例可适用于无向网络G(V，E)中，其中V＝{v_i}_{i＝1，...，n}是网络G的节点集合，E＝{e_ij}是网络G的边集，e_ij＝(v_i，v_j)代表节点v_i和v_j所形成的边。

Step2：社区划分。

根据不同的社区划分标准，网络中的节点可以划分为不同粒度的社区结构。对于网络的一个社区划分C＝{c₁，c₂，...，c_|C|}，网络中的一个节点v_i∈V，有社区分配函数z(v_i)→C。

本实施例采用的社区划分算法为Louvain算法，具体包括以下步骤：

Louvain算法通过遍历网络中所有节点，计算将节点划分到其邻居节点的所在社区的模块度增益，并将其划分到最大正向增益的对应社区，使得模块度最大化；

由于当前模块度可能只是局部最大化，所以该算法需要重新构造网络，将所有同一社区内的节点合并为新网络中的节点；

与此同时，新网络中节点内部权重更新为合并节点集合内部权重的总和，新网络中节点

的权重表示为：

其中，

为t粒度下节点

的权重，

为节点

的合并节点，

为由节点

和节点

构成的边

上的权重，E^t-1为t-1粒度下网络的边集；

新网络中节点之间的边权重更新为两个节点对应社区间连接边上的权重总和，表示为：

得到新网络后，按照之前的步骤划分新网络上社区；这样依次迭代下去，直到模块度不再发生改变，此时模块度达到全局最大化。

在上述步骤中，可以获得Louvain算法在每个阶段构建的网络以及相应的社区划分(G¹，C¹)，...，(G^T，C^T)。(G^t，C^t)，其中一个阶段对应一个粒度下的网络。

Step3：节点嵌入。

为了将网络结构信息较好地保存到节点嵌入当中，本实施例使用DeepWalk来学习节点嵌入，具体包括以下步骤：

DeepWalk使用截断随机游走来捕获网络结构信息，得到游走路径集合S＝{s₁，s₂，...，s_n}，其中s_i＝{v_i，...}表示以节点v_i为起始节点的节点序列；

对于节点序列s_i中任意节点，根据窗口大小，生成中心-上下文节点对，并通过节点嵌入来刻画中心节点和上下文节点之间的关系；

根据Skip-Gram模型，DeepWalk最大化通过中心节点预测上下文节点的条件概率。

其中，p(v_j|v_i)表示通过中心节点v_i预测上下文节点v_j条件概率，节点v_j是节点v_i的上下文节点，即节点v_i为选中的中心节点，节点v_j为节点v_i有联系的节点，p(v_j|v_i)表示通过节点v_i预测节点v_j的概率；φ_i为节点i的嵌入，φ′_j为节点j的上下文嵌入；公式(1)中分母需要节点v_i的嵌入和网络中所有节点v_n的嵌入相乘，计算量太大。

作为一种可选实施方式，为了降低计算公式(1)的复杂度，本发明使用负采样策略对上述公式进行优化，从计算全体节点的嵌入相乘到负采样K个节点进行近似，公式(1)可以修改成如下形式：

其中，O₁为优化后的节点v_i和v_j之间的目标函数；

K为负采样的个数，P_n(v)为负采样的概率分布，通常

d_v为节点v的度数。

Step4：社区嵌入。

对于网络中每个社区，将社区内的所有节点的嵌入进行平均，得到相应的社区嵌入。为了捕获网络中的多粒度社区信息，可以更加细化社区嵌入的更新过程，具体包括以下更新过程：

对于网络G，G^t＝(V^t，E^t)为Louvain算法迭代t次后所形成的新的网络，当前网络中节点

相当于G^t-1中的一个社区；

若

对应G^t-1中的社区

则

的合并节点

为

的内部节点

为

同时节点自身的权重

更新为社区

内部节点和边的权重总和；

对于一个社区，其对应的社区嵌入，可以通过其内部的所有节点的节点嵌入进行平均计算得到，例如，对于社区

的嵌入，可以进行如下计算：

获取

(本质上等同于社区

)中合并节点

对应的社区嵌入，该社区嵌入向量通过合并

的内部节点

对应的节点嵌入累加平均后得到；

根据合并节点之间的权重对合并节点的社区嵌入加权平均后得到社区

的嵌入；于是可以对社区

的嵌入进行如下更新：

其中，

需要注意到的是由于初始网络G是无权的，当t＝1时，对于任意的

可以令

Step5：联合优化。

分别得到节点嵌入和社区嵌入后，利用社区嵌入来调整节点嵌入，使得调整后的节点嵌入可以保留网络的社区信息。类比于节点嵌入，将社区考虑成虚拟节点，通过计算节点属于所属社区的条件概率，可以将社区信息融合进节点嵌入当中：

这里的c_j是v_i所属的社区，即z(v_i)＝c_j；p(c_j|v_i)为节点v_i与对应的社区c_j之间的条件概率，社区c_j为节点v_i所属社区；ψ′为社区c′的社区嵌入；

为社区c_j的社区嵌入的转置；φ_i为节点v_i的节点嵌入。

由于节点v_i和社区c_j并不是一个真实边的关系，所以在训练时，只需采样网络中的节点，即可通过社区分配函数z(·)找到所属社区。相似的，通过负采样优化策略来降低复杂度，这样可以得到联合优化的目标函数为：

其中，

与节点嵌入不同，这里是对社区进行负采样，确保所采样的社区不是节点i所在的社区；社区负采样与节点负采样原理相同，此处不再赘述。

Step6：嵌入拼接。

最终网络嵌入为所有社区粒度下节点嵌入的拼接，即对于节点v_i的节点嵌入，计算公式为：

其中符号

为拼接运算。

在上述方案的基础上，本实施例采用4种真实网络进行验证，这4种真实网络的具体属性如表1所示，包括网络的规模以及真实社区个数。

表1数据集属性

为了验证本发明的有效性，本实施例将5种现有技术中的嵌入方法作为本发明的对照组，本实施例选择的5种现有技术分别为DeepWalk，LINE，node2vec，ComE，GEMSEC，其中前3种方法只考虑了网络的结构信息，而后2种方法同时考虑了网络的结构信息和社区信息，这5种方法的优点如下：

DeepWalk：DeepWalk使用截断随机游走捕获网络的低阶和高阶结构信息；

LINE：LINE模型捕获节点的一阶近似或二阶近似，本实施例实验中LINE方法保留网络的二阶结构信息；

node2vec:node2vec在DeepWalk的基础上，有偏向的捕获网络中低阶或高阶结构信息；

ComE:ComE使用网络表示的结果来进行聚类，根据聚类结果调整原始网络表示结果，最终得到的网络嵌入既保留了网络的结构信息也保留了网络的社区信息；

GEMSEC：GEMSEC是另外一个保留社区信息的网络表示模型，对原始的网络嵌入进行K-Means聚类，调整网络嵌入结果，使之保留网络的结构和社区两种信息。

在所有用到随机游走的方法中，统一对随机游走的参数设定为:节点游走次数λ＝10，游走长度l＝80，窗口大小w＝10，另外负采样个数n_neg设置为5，嵌入维度d统一设置为128。其他的，对于LINE方法，本实例使用的是其二阶近似。node2vec的参数p，q的取值范围设定为{0.25，0.5，1，2，4}。ComE和GEMSEC的社区个数/聚类中心个数都设置为相应数据集的真实标签个数。由于Facebook数据集没有真实标签，在这个数据集上的实验所需的社区个数设置为Louvain算法发现的社区个数。

在链接预测的实验中，本实例删除网络中部分存在的边，通过剩下的网络来训练模型得到网络嵌入的结果，通过分类的方法来预测网络中丢失的边，使用AUC来评价预测结果。对每个网络中随机选择50％的边进行删除，并保证删除后的网络仍是连通的。将这所删除的50％的边当作正例，并同时在网络中选取相同数量不存在的边当作负例。

由于链接预测的对象是边，所以需要得到每条边对应的特征，通过对边的两个端点的嵌入向量求Hadamard积，将得到结果当作边的特征进行预测。Hadamard积的求法如下：

在四种数据集上取得的实验结果如表2所示,每列粗体数字代表取得最好结果。可以看到本实例EMGC方法在多数情况下所取得的结果较其他未考虑的社区信息的方法(DeepWalk、LINE、node2vec)有着较大的提升，而对于其他考虑了社区信息的方法有一定的提升。尤其在Cora和Wiki数据集上，这一现象更为明显，分析原因主要是Cora网络中的边较为稀疏，Wiki网络中的社区数较多，两种数据集社区结构较为明显，使用同时保留结构信息和社区信息的方法更容易取得较好的结果，而完全通过社区信息来更新节点嵌入的方法(ComE、GEMSEC)所取得效果较差，其原因在于对有着明显社区结构的网络，删除过多的边会导致社区信息大量损失。LINE的方法总体上比其他方法都差，说明只考虑低阶信息(二阶邻居)在链接预测的实验上较其他考虑低阶、高阶结构信息和全局信息(社区信息)的方法所获得的效果较差。

表2实验结果(AUC(％))

尽管已经描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。