CN106991614A

CN106991614A - Spark下基于标签传播的并行重叠社区发现方法

Info

Publication number: CN106991614A
Application number: CN201710121328.2A
Authority: CN
Inventors: 马廷淮; 岳明亮; 薛羽; 曹杰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2017-07-28

Abstract

本发明提供一种Spark下基于标签传播的并行社区发现方法，涉及数据挖掘领域。本发明在网络中寻找完全子图，将完全子图中的节点赋予相同的标签，以此来减少初始化阶段标签过多的缺点，提高了算法的执行效率；其次根据节点的权重计算网络中节点的传播概率，在标签选择阶段综合考虑了标签传播概率以及节点间的相似性，提高了标签选择阶段的准确度；整个算法是在Spark框架下执行的，对于海量数据具有很好的可扩展性，本发明在执行效率以及准确度都有明显的提高，社区发现的质量也有很大的提升。

Description

Spark下基于标签传播的并行重叠社区发现方法

技术领域

本发明属于数据挖掘领域，具体涉及的是一种利用标签传播思想挖掘网络中社区的并行重叠社区发现方法。

背景技术

随着Internet的高速发展使得社交网络迅速进入人们的生活，导致了在线个人信息量的大量增加，并引起研究者对它的极大关注。简单的来看，社会网络所完成的就是把人们日常生活中的一部分内容转移到了网络平台中。在社会网络中，用户可以结交新的朋友，也可以交流自己的思想，分享自己遇到的趣事等等。这些个人信息囊括了他们的活动，与个人或群体之间的联系，他们发表的意见和想法随着在线社交网络的出现并快速流行开来，诸如新浪微博，微信朋友圈，Facebook，Twitter等越来越受欢迎，使得社交网络作为一个新生的产物，吸引了众多领域学者对其数据进行挖掘分析的广泛关注，包括人际关系学、行为学、化学、生物学、遗传学、计算机学等诸多领域。随着这些用户信息的急剧增加，人类社会快速步入的“大数据”时代，在面对海量数据的情况下，出现了“信息***而知识匮乏”的现象。我们如何能在这些海量数据中挖掘出有用的信息或者模式对当今的研究者来说是一个巨大的挑战。19世纪90年代第一次提出知识发现(Knowledge Discovery in Databases，KDD)的概念，以韩家炜《数据挖掘：概念与技术》一书中提出的概念为例：“数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程”。数据挖掘技术通过分析海量数据以挖掘出潜在的有效的模式，是研究社交网络的一件利器。

现实中的很多***都可以抽象为节点和边，即用节点表示实体，用边表示各个实体之间的联系，这样的节点和边就构成了一个网络。关于社交网络的研究已经持续了很长的时间。在很多网络***，如生物学，计算机科学，工程学，生态学等中都有社区的概念。例如：在生物学领域的蛋白质交互网络中，位于同一个社区中的蛋白质通常起着相似的功能，通过把蛋白质当做节点以及他们之间的联系当做边来研究与生命活动，以了解生物构造和功能之间的关系。在信息领域的万维网中,通过社区发现,可以在不知道网页文本内容的情况下得到相关或相似主题的页面,从而改善搜索引擎的性能。在实际应用中，一个微信用户，当其在朋友圈中关注、发表、晒图等有关足球方面内容相对频繁的时候，可以会对该用户的行为进行分析，并将其划分为体育甚至更为准确的足球爱好者这一社区，那么以后就可以为该用户提供一些足球方面的商品、球赛信息，减少用户自己花时间进行搜索的同时又能实现类似于百度推广的信息推广，从而实现互利互赢。

标签传播算法基本思想是利用网络的传播特性，对网络中节点的标签信息进行传播，从而发现潜在的社区结构。首先为每个节点分配一个标签，随着标签的传播对节点标签进行更新，最后具有相同标签的节点就属于同一个社区。该算法思想简单，易于理解和操作，并且时间复杂度很低，因此得到国内外学者的关注。很多学者虽然都针对不同的问题进行优化改进，在一定程度上提高标签传播的稳定性和准确率，但是大都或多或少地带来增加计算开销等问题，并没有达到十分理想的效果。

本发明考虑网络结构中存在的完全子图中的节点在算法停止迭代的时候都会被划分在同一个社区中，因此这些节点可以在初始化阶段就划分在同一个社区中，即标注为相同的标签。综合节点间标签传播的概率，节点间的相似度，改进标签选择的方法。最后，将改进后的算法在Spark平台上实现并行化，以适应海量数据的社区发现。

发明内容

本发明所要解决的技术问题是Spark下基于标签传播的并行重叠社区发现问题。通过寻找完全子图减少初始化标签数目；综合考虑节点间标签传播概率以及节点间的相似度确定节点选择的标签；最终将其应用于Spark并行计算框架下。本发明能提高算法的准确性以及稳定性，同时在面对海量数据时能展现出良好的可扩展性。

技术方案如下：

Spark下基于标签传播的并行重叠社区发现方法，包括以下步骤：

步骤1)，由网络数据集，设计map和reduce函数，得到节点的邻接列表，计算节点的度并降序排列。

步骤2)，由步骤1)得到的由节点的度降序排列的列表，依次选取节点，在网络中寻找完全子图，最终得到k个完全子图g₁，g₂，…g_k，将每个完全子图中的节点都分配一个相同的标签，网络中剩下的节点分配一个唯一的标签。

步骤3)，根据步骤2)得到的完全子图，计算网络中节点的权重。首先为网络中的节点分配一个初始权重W₁＝1；其次计算节点与完全子图的距离，处于完全子图中的节点距离D＝0，不属于完全子图并且与完全子图中节点有边相连的节点距离D＝1，依次类推，计算权重W₂＝2^D；最后计算节点自身的权重d为节点的度数，d_max为网络中节点的最大度数；综合这3个权重，计算网络中节点的权重。

步骤4)，根据网络中的传播特性，即越重要的节点越容易将自己的标签传播给周围的节点，由步骤3)得到的节点的权重计算节点间标签传播的概率。每个节点得到一个邻接节点概率列表。

步骤5)，根据步骤4)得到的节点间标签传播概率列表，结合节点间的相似度，确定节点选择的标签列表。当网络中的标签数目不再发生变化时停止迭代，此时，每个节点拥有的标签就是它们所属的社区。

进一步的，本发明的Spark下基于标签传播的并行重叠社区发现方法，步骤1)由网络数据集，设计map和reduce函数，这里的map函数将边映射为一个二元组(a，b),代表节点a与节点b之间有一条边相连；reduce函数将二元组的第一个元素作为key进行规约，最终得到节点的邻接列表，并以此计算节点的度并降序排列。

进一步的，本发明的Spark下基于标签传播的并行重叠社区发现方法，步骤2)根据步骤1)得到的由节点的度降序排列的列表，依次选取节点，在网络中寻找完全子图，最终得到k个完全子图g₁，g₂，…g_k，将每个完全子图中的节点都分配一个相同的标签，网络中剩下的节点分配一个唯一的标签。

进一步的，本发明的Spark下基于标签传播的并行重叠社区发现方法，步骤3)根据步骤2)得到的完全子图，计算网络中节点的权重。首先为网络中的节点分配一个初始权重W₁＝1；其次计算节点与完全子图的距离，处于完全子图中的节点距离D＝0，不属于完全子图并且与完全子图中节点有边相连的节点距离D＝1，依次类推，计算权重W₂＝2^D；最后计算节点自身的权重d为节点的度，d_max为网络中节点的最大度；综合这3个权重，计算网络中节点的权重。计算的公式如下：

W＝λ/3(W₁+W₂+W₃)

其中λ为放大因子，是一个可调参数，节点的权重取值范围为(0,λ]。

进一步的，本发明的Spark下基于标签传播的并行重叠社区发现方法，步骤4)根据网络中的传播特性，即越重要的节点越容易将自己的标签传播给周围的节点，由步骤3)得到的节点的权重计算节点间标签传播的概率。节点之间标签传播的概率计算公式如下：

其中W_i和W_j分别代表节点i和节点j的权重，P_ij代表节点i将自己的标签传播给节点j的概率，P_ji代表节点j将自己的标签传播给节点i的概率。计算结束后每个节点得到一个邻接节点概率列表。如节点i的邻接节点概率列表为PList_i＝{(j,P_ij),(k,P_ik),…}，其中j,k,…为节点i的邻居节点。

进一步的，本发明的Spark下基于标签传播的并行重叠社区发现方法，步骤5)，根据步骤4)得到的节点间标签传播概率列表，结合节点间的相似度，确定节点选择的标签集合。节点间的相似度计算公式为：

其中N(i)和N(j)分别表示节点i和节点j邻居节点的集合；Attr_ik和Attr_jk分别代表节点i和节点j的第k个属性，函数ζ用来判断两个节点属性值是否相等，相等为1，不等为0；|A|代表节点属性的个数。在每一次迭代过程中，节点i的标签集合计算公式为：

其中，LabelList_i代表第i个节点的标签集合，例如LabelList_i＝{(1,0.5),(2,0.3),(3,0.2)}，说明节点i拥有标签1的概率为0.5，拥有标签2的概率为0.3，拥有标签3的概率为0.2；节点k∈N(i)并且节点k是N(i)中与节点i相似度最高的节点；β为可调参数，这里β＝0.5。此外，为了避免节点拥有过多的标签，使用一个自适应阈值|N|代表节点的邻居节点个数，将标签概率低于的标签删除。每个节点都更新了自己的标签后进行下一次迭代，如此循环，直到网络中的标签数目不再发生变化时停止迭代，此时，每个节点拥有的标签就是它们所属的社区。

有益效果

本发明考虑网络结构中存在的完全子图中的节点在算法停止迭代的时候都会被划分在同一个社区中，因此这些节点可以在初始化阶段就划分在同一个社区中，即标注为相同的标签，以此减少初始化时标签的个数，提高算法执行的效率。综合节点间标签传播的概率，节点间的相似度，改进标签选择的方法，提高了算法执行的精度。最后，将改进后的算法在Spark平台上实现并行化，以适应海量数据的社区发现。

附图说明

图1是Spark下基于标签传播的并行重叠社区发现方法的流程图。

具体实施方式

下面结合附图对技术方案的实施作进一步的详细描述：

结合流程图及实施案例对本发明所述的Spark下基于标签传播的并行重叠社区发现方法作进一步的详细描述。

本实施案例在Spark框架下采用完全子图减少初始化标签，提高算法执行的效率、改进标签选择的方法，进而提高算法的精确度。如图1所示，本方法包含如下步骤：

步骤10，由网络数据集，设计map和reduce函数，这里的map函数将边映射为一个二元组(a，b),代表节点a与节点b之间有一条边相连；reduce函数将二元组的第一个元素作为key进行规约，最终得到节点的邻接列表，例如节点i的邻接列表为NList_i＝N(i)，N(i)代表节点i的邻居节点集合。

步骤101，根据步骤10得到的邻接列表，统计每一个节点邻居节点的个数，即节点的度，以此得到度降序排列的节点列表DescList。

步骤20，根据步骤101得到的由节点的度降序排列的列表DescList，在DescList中依次选取节点作为开始节点,假设第一次拿到的节点是A，然后选取节点A邻居节点中度数最大的节点B，从节点A和B出发，寻找网络中的完全子图(完全子图中的节点两两相连)，将标签1赋予这个完全子图中的每一个节点；第二次拿到节点未赋予标签的节点C，选取节点C邻居节点中度数最大的节点D，从C和D出发寻找完全子图，并将标签2赋予这个子图中的每一个节点；以此类推，最终得到k个完全子图g₁，g₂，…g_k，这k个完全子图中的节点标签分别为1,2,3，…。

步骤201，将网络中其余节点赋予一个唯一的标签。

步骤30，根据步骤20得到的完全子图g₁，g₂，…g_k，计算网络中节点的权重。权重由3部分组成。首先为网络中的节点分配一个初始权重W₁＝1；其次计算节点与完全子图的距离，处于完全子图中的节点距离D＝0，不属于完全子图并且与完全子图中节点有边相连的节点距离D＝1，依次类推，计算权重W₂＝2^D；最后计算节点自身的权重d为节点的度数，d_max为网络中节点的最大度数；综合这3个权重，计算网络中节点的权重。计算的公式如下：

W＝λ/3(W₁+W₂+W₃)

其中λ为放大因子，是一个可调参数，这里我们选取λ＝5，节点的权重取值范围为(0,λ]。

步骤40，根据网络中的传播特性，即越重要的节点越容易将自己的标签传播给周围的节点，由步骤30得到的节点的权重计算节点间标签传播的概率。节点之间标签传播的概率计算公式如下：

步骤50，根据步骤40得到的节点间标签传播概率列表，结合节点间的相似度，确定节点选择的标签集合。节点间相似度越高，节点的标签相同的可能性就越大，即节点属于同一个社区的可能性就越大。节点间的相似度计算公式为：

其中N(i)和N(j)分别表示节点i和节点j邻居节点的集合；Attr_ik和Attr_jk分别代表节点i和节点j的第k个属性，函数ζ用来判断两个节点属性值是否相等，相等为1，不等为0；|A|代表节点属性的个数。

步骤501，在每一次迭代过程中，节点i的标签集合计算公式为：

其中，LabelList_i代表第i个节点的标签集合，集合中存放的是一个二元组(label,prob)，label代表节点拥有的标签，prob代表拥有该标签的概率。节点k∈N(i)并且节点k是N(i)中与节点i相似度最高的节点；β为可调参数，这里β＝0.5。这里举个最简单的例子，假设节点i只有一个邻居节点j，那么j必然是i邻居节点中与i相似度最高的节点，如果LabelList_j＝{(1,0.5),(2,0.3),(3,0.2)}，那么LabelList_i＝0.5*P_ji*LabelList_j+(1-0.5)*LabelList_j＝{(1,0.25*P_ji),(2,0.15*P_ji),(3,0.1*P_ji)}+{(1,0.25),(2,0.15),(3,0.1)}＝{(1,0.25*(P_ji+1)),(2,0.25*(P_ji+1))，(3,0.25*(P_ji+1))}。

步骤502，为了避免节点拥有过多的标签，使用一个自适应阈值|N|代表节点的邻居节点个数，将标签概率低于的标签删除。

步骤503，归一化每个节点的标签集合，使标签概率之和为1，例如LabelList_i＝{(1,2),(2,1),(3,1)}，归一化后的标签集合为LabelList_i＝{(1,0.5),(2,0.25),(3,0.25)}，说明节点i拥有标签1的概率为0.5，拥有标签2的概率为0,25，拥有标签3的概率为0.25；

步骤504，每个节点都更新了自己的标签后进行下一次迭代，每一次迭代就是一次mapreduce，如此循环，直到网络中的标签数目不再发生变化时停止迭代，此时，每个节点拥有的标签就是它们所属的社区。

以上所述的具体实施方案，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，所应理解的是，以上所述仅为本发明的具体实施方案而已，并非用以限定本发明的范围，任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.Spark下基于标签传播的并行重叠社区发现方法，其特征在于，包括以下步骤：

步骤1)由网络数据集，设计map和reduce函数，得到节点的邻接列表，计算节点的度并降序排列；

步骤2)由步骤1)得到的由节点的度降序排列的列表，依次选取节点，在网络中寻找完全子图，最终得到k个完全子图g₁，g₂，…g_k，将每个完全子图中的节点都分配一个相同的标签，网络中剩下的节点分配一个唯一的标签；

步骤3)根据步骤2)得到的完全子图，计算网络中节点的权重；首先为网络中的节点分配一个初始权重W₁＝1；其次计算节点与完全子图的距离，处于完全子图中的节点距离D＝0，不属于完全子图并且与完全子图中节点有边相连的节点距离D＝1，依次类推，计算权重W₂＝2^D；最后计算节点自身的权重d为节点的度数，d_max为网络中节点的最大度数；综合这3个权重，计算网络中节点的权重；

步骤4)根据网络中的传播特性，即越重要的节点越容易将自己的标签传播给周围的节点，由步骤3)得到的节点的权重计算节点间标签传播的概率；每个节点得到一个邻接节点概率列表；

步骤5)根据步骤4)得到的节点间标签传播概率列表，结合节点间的相似度，确定节点选择的标签列表；当网络中的标签数目不再发生变化时停止迭代，此时，每个节点拥有的标签就是它们所属的社区。

2.根据权利要求1所述的方法，其特征在于，步骤1)由网络数据集，设计map和reduce函数，这里的map函数将边映射为一个二元组(a，b),代表节点a与节点b之间有一条边相连；reduce函数将二元组的第一个元素作为key进行规约，最终得到节点的邻接列表，并以此计算节点的度并降序排列。

3.根据权利要求1所述的方法，其特征在于，步骤2)根据步骤1)得到的由节点的度降序排列的列表，依次选取节点，在网络中寻找完全子图，最终得到k个完全子图g₁，g₂，…g_k，将每个完全子图中的节点都分配一个相同的标签，网络中剩下的节点分配一个唯一的标签。

4.根据权利要求1所述的方法，其特征在于，步骤3)根据步骤2)得到的完全子图，计算网络中节点的权重；首先为网络中的节点分配一个初始权重W₁＝1；其次计算节点与完全子图的距离，处于完全子图中的节点距离D＝0，不属于完全子图并且与完全子图中节点有边相连的节点距离D＝1，依次类推，计算权重W₂＝2^D；最后计算节点自身的权重 d为节点的度，d_max为网络中节点的最大度；综合这3个权重，计算网络中节点的权重；计算的公式如下：

W＝λ/3(W₁+W₂+W₃)

5.根据权利要求1所述的方法，其特征在于，步骤4)根据网络中的传播特性，即越重要的节点越容易将自己的标签传播给周围的节点，由步骤3)得到的节点的权重计算节点间标签传播的概率；节点之间标签传播的概率计算公式如下：

P_{i j} = \frac{l o g (1 + W_{i})}{l o g ((1 + W_{i}) * (1 + W_{j}))} P_{j i} = \frac{l o g (1 + W j)}{l o g ((1 + W_{i}) * (1 + W_{j}))}

其中W_i和W_j分别代表节点i和节点j的权重，P_ij代表节点i将自己的标签传播给节点j的概率，P_ji代表节点j将自己的标签传播给节点i的概率；计算结束后每个节点得到一个邻接节点概率列表；如节点i的邻接节点概率列表为PList_i＝{(j,P_ij),(k,P_ik),…}，其中j,k,…为节点i的邻居节点。

6.根据权利要求1所述的方法，其特征在于，步骤5)，根据步骤4)得到的节点间标签传播概率列表，结合节点间的相似度，确定节点选择的标签集合；节点间的相似度计算公式为：

{Sim}_{i, j} = \frac{| N (i) \cap N (j) |}{\sqrt{(| N (i) | + 1) * (| N (j) | + 1)}} + \frac{1}{| A |} * Σ_{k = 1}^{| A |} ζ ({Attr}_{i k}, {Attr}_{j k})

其中N(i)和N(j)分别表示节点i和节点j邻居节点的集合；Attr_ik和Attr_jk分别代表节点i和节点j的第k个属性，函数ζ用来判断两个节点属性值是否相等，相等为1，不等为0；|A|代表节点属性的个数；在每一次迭代过程中，节点i的标签集合计算公式为：

{LabelList}_{i} = β * \underset{j &Element; N (i)}{Σ} P_{j i} * {LabelList}_{j} + (1 - β) * {LabelList}_{k}

其中，LabelList_i代表第i个节点的标签集合，集合中存放的是一个二元组(label,prob)，label代表节点拥有的标签，prob代表拥有该标签的概率；节点k∈N(i)并且节点k是N(i)中与节点i相似度最高的节点；β为可调参数，这里β＝0.5；此外，为了避免节点拥有过多的标签，使用一个自适应阈值|N|代表节点的邻居节点个数，将标签概率低于的标签删除；每个节点都更新了自己的标签后进行下一次迭代，如此循环，直到网络中的标签数目不再发生变化时停止迭代，此时，每个节点拥有的标签就是它们所属的社区。