CN110213164A

CN110213164A - 一种基于拓扑信息融合的识别网络关键传播者的方法及装置

Info

Publication number: CN110213164A
Application number: CN201910423580.8A
Authority: CN
Inventors: 钱琳; 梅竹; 俞俊; 朱广新; 庞恒茂; 许明杰; 王琳; 梅峰; 王剑; 陈海洋
Original assignee: State Grid Zhejiang Electric Power Co Ltd; NARI Group Corp; Nari Technology Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; NARI Group Corp; Nari Technology Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-06
Anticipated expiration: 2039-05-21
Also published as: CN110213164B

Abstract

本发明公开一种基于拓扑信息融合的识别网络关键传播者的方法及装置，该方法包括：根据各个网络节点的直接连边数量计算网络中各个节点的度，即各个节点对应的邻居节点的个数；依据所述节点的度计算各个节点的H指数；计算所述网络中每对节点间的最短距离，进而得到各个节点的排名对应分值。本发明采用网络节点的常用指标得到一种可以全面反映社交网络节点角色的排名分值，可以更加准确的定位节点在社交网络中的定位角色，准确的挖掘出社交网络中的关键传播者，降低错判率；并且本发明采用Dijkstra算法，跟其他距离算法相比时间复杂度低，适用于复杂的社交网络时，时间成本更低，提高了识别效率。

Description

一种基于拓扑信息融合的识别网络关键传播者的方法及装置

技术领域

本发明涉及网络信息挖掘领域，具体涉及一种基于拓扑信息融合的识别网络关键传播者的方法及装置。

背景技术

由于社交网络的异质性，每个个体在网络结构和功能上发挥的作用差异巨大。关键传播者就是那些能够在更大程度上影响社交网络的结构与功能的一些特殊个体。例如，微博大V可以加速谣言在社交网络中的扩散。因此需要从海量用户中准确发掘出社交网络中的关键传播者，这样可以更好地控制社交网络信息的传播，而解决上述问题的关键在于针对社交网络的节点排序方法的设计。

目前，大部分节点排序方法仅使用网络的结构化信息，且主要分为基于邻居的中心性和基于路径的中心性。基于邻居中心性的代表包括：度中心性、H指数以及k-壳分解方法。基于路径中心性的代表包括：接近中心性和介数中心性。但经典的节点排序方法无法全面评价节点在网络中的角色。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于拓扑信息融合的识别网络关键传播者的方法，该方法可以解决评价节点在网络中的角色不全面以及准确率低的问题，另一方面，本发明还提供一种基于拓扑信息融合的识别网络关键传播者的装置。

技术方案：本发明所述的基于拓扑信息融合的识别网络关键传播者的方法，该方法包括：

采集以个体为节点的社交软件中的好友列表数据，若个体之间是好友关系，则对应的两节点之间存在一条直接连边，从而得到各个节点对应的直接连边数量；

根据各个节点的直接连边数量确定网络中各个节点的度；

依据所述节点的度计算各个节点的H指数，所述H指数用来表征社交网络中个体的直接影响力；

计算所述网络中每对节点间的最短距离，根据所述H指数和最短距离计算各个节点的排名对应分值，进而得到网络中关键传播者，所述节点间的最短距离用来表征个体处于社交网络中的传播位置。

进一步地，包括：

所述依据所述节点的度计算各个节点的H指数，具体包括：

统计所述节点对应的邻居节点的度，当h＝1时，判断是否满足有一个邻居节点的度不小于1；

若不满足，停止循环，H指数等于1，

若满足，则h+1，迭代循环，直至满足至多有h个邻居节点的度不小于h，其中，1≤h≤邻居节点的个数。

进一步地，包括：

所述网络中每对节点间的最短距离采用Dijkstra算法计算。

进一步地，包括：

采用Dijkstra算法计算节点间最短距离，具体包括：

输入：所述网络对应的网络邻接矩阵，

步骤：(1)指定起点s；

(2)引进两个集合S和U，S用来记录已求出最短路径的节点以及相应的最短路径长度，而U则是记录还未求出最短路径的节点以及该节点到起点s的距离；

(3)初始时，S中只有起点s；U中是除s之外的节点，并且U中节点的路径是起点s到该节点的路径；然后，从U中找出路径最短的节点，并将其加入到S中；接着，更新U中的节点和节点对应的路径，再从U中找出路径最短的节点，并将其加入到S中；接着，更新U中的节点和节点对应的路径；重复上述操作，直到遍历完所有节点；

输出：网络中节点间的距离矩阵。

进一步地，包括：

所述各个节点的排名分值公式为：

其中，H(j)为第j个网络节点对应的H指数，d_i,j表示节点i和j之间的最短距离。

一种基于拓扑信息融合的识别网络关键传播者的装置，包括：

采集模块，用于采集以个体为节点的社交软件中的好友列表数据，若个体之间是好友关系，则对应的两节点之间存在一条直接连边，从而得到各个节点对应的直接连边数量；

节点邻居计算模块，用于根据各个节点的直接连边数量确定网络中各个节点的度；

H指数计算模块，用于依据所述节点的度计算各个节点的H指数，所述H指数用来表征社交网络中个体的直接影响力；

分值计算模块，用于计算所述网络中每对节点间的最短距离后，根据所述H指数和最短距离计算各个节点的排名对应分值，进而得到网络中关键传播者，所述节点间的最短距离用来表征个体处于社交网络中的传播位置。

进一步地，包括：

所述H指数计算模块中，所述依据所述节点的度计算各个节点的H指数，具体包括：

若不满足，停止循环，H指数等于1，

进一步地，包括：

所述分值计算模块中，所述网络中每对节点间的最短距离采用Dijkstra算法计算。

进一步地，包括：

采用Dijkstra算法计算节点间最短距离，具体包括：

输入：所述网络对应的网络邻接矩阵，

步骤：(1)指定起点s；

输出：网络中节点间的距离矩阵。

进一步地，包括：

所述分值计算模块中，各个节点的排名分值公式为：

有益效果：本发明采用网络节点的常用指标得到一种可以全面反映社交网络节点角色的排名分值，可以更加准确的定位节点在社交网络中的定位，准确的挖掘出社交网络中的关键传播者，降低错判率；并且本发明采用Dijkstra算法，跟其他距离算法相比时间复杂度低，适用于复杂的社交网络时，时间成本更低，提高了识别效率。

附图说明

图1为本发明实施例中识别方法流程图图；

图2为本发明实施例中网络节点连接图；

图3为本发明实施例中是识别装置结构图；

图4为本发明实施例中电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

识别社交网络的关键传播者，除了能够被直接影响的个体数量外，其所处的传播位置是否足够中心也决定了其传播的影响力，故节点排序方法有必要同时考虑这两方面的作用，即节点自身的影响力(个体在社交网络中与之关系密切的个体的数量)及节点在网络中所处的位置(个体处于社交网络中的传播位置)。上述经典的节点排序方法均没有同时考虑这两方面的作用，这使得应用上述现有方法无法全面评价节点在网络中的角色。

本发明提出了一种基于拓扑信息融合的识别网络关键传播者的方法，采用H指数来表征社交网络中个体的直接影响力，采用节点间最短距离来表征个体处于社交网络中的传播位置，在此基础上，将两者有效结合进而达到全面反映社交网络节点角色的目的。

本发明不对涉及到的网络类型进行限制，参阅图1所示，为本发明实施例中基于拓扑信息融合的识别网络关键传播者的方法，包括：

S100采集以个体为节点的社交软件中的数据，若个体之间是好友关系，则对应的两节点之间存在一条连边；

具体的，本发明不对具体社交软件进行限制，若以个体的好友列表中，是直接朋友关系，则采集社交软件中对应的数据库中的好友列表关系，若两个体之间为朋友关系，则存在一条直接连边，若两个体之间不为好友关系，则不存在直接连边，不为好友的个体之间通过同时为好友的个体相互影响。

S110根据各个网络节点的直接连边数量确定网络中各个节点的度。

对网络中的进行节点编号，确定各个节点对应的直接连边数量，即为该节点对应的的度表示为K(i)，其中，i为网络节点编号，1≤i≤N，N为该网络中节点的总数，同时有该节点具有直接连边的节点为该节点对应的邻居节点。

S120依据所述节点的度计算各个节点的H指数H(i)，H指数用来表征社交网络中个体的直接影响力。

具体的，算子H(·)作用在一组实数上，返回一个非负整数，就是这组实数的H指数h，将这个算子H(·)作用在一个节点所有邻居的度上，就得到了这个节点的H指数H(i)。在本实施例中，社交网络中的节点的H指数的大小表征了其个体的直接影响力。

统计所述节点对应的邻居节点的度，当h＝1时，判断是否满足有一个邻居节点的度不小于1，若不满足，停止循环，H指数＝1，若满足，则h+1，迭代循环，直至满足至多有h个邻居节点的度不小于h，其中，1≤h≤邻居节点的个数。得到每个节点对应的H指数。

S130计算所述网络中每对节点间的最短距离d_i,j，后计算各个节点的排名对应分值，进而得到网络中关键传播者，所述节点间的最短距离用来表征个体处于社交网络中的传播位置。

进一步的，在本发明实施例中，采用Dijkstra算法计算每对节点间的最短距离d_i,j，其中，i,j为网络节点编号，Dijkstra算法是一个按照路径长度递增的次序产生的最短路径算法，具体包括：

带权值的有向图采用邻接矩阵graph来进行存储，在计算中就是采用n*n的二维数组来进行存储，数组中包括索引编号，二维数组的值表示节点之间的权值，若两个节点不能通行，那么采用计算机中最大正整数来进行表示。

具体的：(1)指定起点s，即从节点s开始计算。

(2)引进两个集合S和U。S的作用是记录已求出最短路径的节点以及相应的最短路径长度，而U则是记录还未求出最短路径的节点以及该节点到起点s的距离。

(3)初始时，S中只有起点s；U中是除s之外的节点，并且U中节点的路径是“起点s到该节点的路径”。然后，从U中找出路径最短的节点，并将其加入到S中；接着，更新U中的节点和节点对应的路径。然后，再从U中找出路径最短的节点，并将其加入到S中；接着，更新U中的节点和节点对应的路径。重复上述操作，直到遍历完所有节点。

进一步的，在本发明实施例中，进而得到各个节点的排名对应分值，公示表示为：根据该公式，排名得分越高说明节点越重要，即得分越高的节点更加体现了网络中的关键传播者。

值得说明的是，本发明实施例中的方法流程图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，并且，本发明实施例中也不仅限于社交网络的应用，对于其它的***结构和业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用。

下面将结合图2中的算例网络对本发明的具体实施进行详细说明。

步骤1：计算各节点的度。

以节点1为例，节点1有3个邻居，因此K(1)＝3。所有节点的度见表1：

表1各节点的度

步骤2：计算各节点的H指数。以节点1为例，节点1的邻居分别为节点2、3和4，对应的度分别为4、4和4，因为节点1的邻居至多有3个节点的度不小于3，因此H(1)＝3。

以节点4为例，节点4的邻居分别为节点1、2、5、6，对应的度分别为3、4、4、2，可以看出{3、4、4、2}这个序列存在3个数(3、4、4)不小于3，但是不存在4个数不小于4，即只有2个数不小于4，就是节点2和节点5的度，因此至多有3个数不小于3，所以H指数为3所有节点的H指数见表2：

表2各节点的H指数

步骤3：计算网络中每对节点间的最短距离d_ij。以节点对(1，6)为例，d_1,6＝2。

输入为对应的网络邻接矩阵，输出为距离矩阵，本实施例中对应的邻接矩阵表示为：

0 1 1 1 0 0 0 0 0 0

1 0 1 1 0 0 0 0 1 0

1 1 0 0 0 0 0 0 1 1

1 1 0 0 1 1 0 0 0 0

0 0 0 1 0 1 1 1 0 0

0 0 0 1 1 0 0 0 0 0

0 0 0 0 1 0 0 0 0 0

0 1 1 0 0 0 0 0 0 0

0 0 1 0 0 0 0 0 0 0

以节点1为例，与节点2、3、4存在直接连边，故对应位置为1，与其余六个节点之间不存在直接连边，故对应位置为0。输出的所有节点对间的最短距离矩阵，见表3：

表3各节点对间的最短距离

步骤4：计算各节点的排名得分，排名得分越高节点越重要。

以节点1为例，

所有节点的得分见表4：

表4各节点的得分

根据表4的得分，可以得到最终的节点重要性排名，见表5：

表5各节点的重要性排名

通过表5可以看到，节点4最为重要。图2看出节点4连接着左右两个小社团，处于必经之路的节点4的确是最为重要的节点。反映到真实的社交网络中，节点4同时作为两个社团的个体，且不可替代。如果节点4作为传播者，消息会迅速在左右两个社团扩散。

基于上述实施例，参阅图3所示，本发明实施例中，基于拓扑信息融合的识别网络关键传播者的装置，具体包括：

采集模块20，用于采集以个体为节点的社交软件中的数据，若个体之间是好友关系，则对应的两节点之间存在一条连边；

节点邻居计算模块21，用于根据各个节点的直接连边数量确定网络中各个节点的度；

H指数计算模块22，用于依据所述节点的度计算各个节点的H指数，所述H指数用来表征社交网络中个体的直接影响力；

分值计算模块23，用于计算所述网络中每对节点间的最短距离后，根据所述H指数和最短距离计算各个节点的排名对应分值，进而得到网络中关键传播者，所述节点间的最短距离用来表征个体处于社交网络中的传播位置。

进一步地，包括：

所述H指数计算模块中22，所述依据所述节点的度计算各个节点的H指数，具体包括：

若不满足，停止循环，H指数等于1，

进一步地，包括：

所述分值计算模块23中，所述网络中每对节点间的最短距离采用Dijkstra算法计算。

进一步地，包括：

采用Dijkstra算法计算节点间最短距离，具体包括：

输入：所述网络对应的网络邻接矩阵，

步骤：(1)指定起点s；

输出：网络中节点间的距离矩阵。

进一步地，包括：

所述分值计算模块23中，各个节点的排名分值公式为：

参阅图4所示，本发明实施例中，一种电子设备结构示意图。

本发明实施例提供了一种电子设备，该电子设备可以包括处理器310(CenterProcessing Unit，CPU)、存储器320、输入设备330和输出设备340等，输入设备330可以包括键盘、鼠标、触摸屏等，输出设备340可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器320可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器310提供存储器320中存储的程序指令和数据。在本发明实施例中，存储器320可以用于存储上述基于拓扑信息融合的识别网络关键传播者方法的程序。

处理器310通过调用存储器320存储的程序指令，处理器310用于按照获得的程序指令执行上述任一种基于拓扑信息融合的识别网络关键传播者的方法的步骤。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的基于拓扑信息融合的识别网络关键传播者的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于拓扑信息融合的识别网络关键传播者的方法，其特征在于，该方法包括：

采集网络中以个体为节点的好友列表数据；

根据所述好友列表数据得到各个节点对应的连边数量；若个体之间是好友关系，则对应的两节点之间存在直接连边；

根据各个节点的直接连边数量确定网络中各个节点的度；

根据所述H指数和节点间的最短距离计算各个节点的排名对应分值，进而得到网络中关键传播者，所述节点间的最短距离用来表征个体处于社交网络中的传播位置。

2.根据权利要求1所述的基于拓扑信息融合的识别网络关键传播者的方法，其特征在于，所述依据所述节点的度计算各个节点的H指数，具体包括：

若不满足，停止循环，H指数等于1，

3.根据权利要求1所述的基于拓扑信息融合的识别网络关键传播者的方法，其特征在于，所述网络中每对节点间的最短距离采用Dijkstra算法计算。

4.根据权利要求1所述的基于拓扑信息融合的识别网络关键传播者的方法，其特征在于，所述最短距离的计算过程，具体包括：

初始时，集合S中包括起点s；集合U中是除s之外的节点，并且U中节点的路径是起点s到该节点的路径；集合S用于记录已求出最短路径的节点以及相应的最短路径长度，集合U用于记录还未求出最短路径的节点以及该节点到起点s的距离；

根据预先得到的网络邻接矩阵从U中找出路径最短的节点，并将其加入到S中；更新U中的节点和节点对应的路径，再从U中找出路径最短的节点，并将其加入到S中；更新U中的节点和节点对应的路径；重复上述操作，直到遍历完所有节点，得到节点间的距离矩阵。

5.根据权利要求1所述的基于拓扑信息融合的识别网络关键传播者的方法，其特征在于，所述各个节点的排名分值公式为：

6.一种基于拓扑信息融合的识别网络关键传播者的装置，其特征在于，包括：

7.根据权利要求6所述的基于拓扑信息融合的识别网络关键传播者的装置，其特征在于，所述H指数计算模块中，所述依据所述节点的度计算各个节点的H指数，具体包括：

若不满足，停止循环，H指数等于1，

8.根据权利要求6所述的基于拓扑信息融合的识别网络关键传播者的装置，其特征在于，所述分值计算模块中，所述网络中每对节点间的最短距离采用Dijkstra算法计算。

9.根据权利要求8所述的基于拓扑信息融合的识别网络关键传播者的装置，其特征在于，采用Dijkstra算法计算节点间最短距离，具体包括：

输入：所述网络对应的网络邻接矩阵，

步骤：(1)指定起点s；

输出：网络中节点间的距离矩阵。

10.根据权利要求6所述的基于拓扑信息融合的识别网络关键传播者的装置，其特征在于，所述分值计算模块中，各个节点的排名分值公式为：