CN103116611A - 社交网络意见领袖识别方法 - Google Patents

社交网络意见领袖识别方法 Download PDF

Info

Publication number
CN103116611A
CN103116611A CN201310028159XA CN201310028159A CN103116611A CN 103116611 A CN103116611 A CN 103116611A CN 201310028159X A CN201310028159X A CN 201310028159XA CN 201310028159 A CN201310028159 A CN 201310028159A CN 103116611 A CN103116611 A CN 103116611A
Authority
CN
China
Prior art keywords
node
seed
child node
social networks
influence power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310028159XA
Other languages
English (en)
Inventor
张璐
蔡皖东
蔡霖
彭冬
王塑
叶三成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an tobacco monopoly bureau
Northwestern Polytechnical University
Original Assignee
Xi'an tobacco monopoly bureau
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an tobacco monopoly bureau, Northwestern Polytechnical University filed Critical Xi'an tobacco monopoly bureau
Priority to CN201310028159XA priority Critical patent/CN103116611A/zh
Publication of CN103116611A publication Critical patent/CN103116611A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种社交网络意见领袖识别方法,用于解决现有的社交网络意见领袖识别方法效率低的技术问题。技术方案是首先获取社交网络数据;再根据社交网络特性建立信息传播模型;然后根据信息传播模型以及社交网络拓扑信息,计算每个节点度数;将其中影响力最大的节点作为第一个种子节点;在新的节点集合中检测余下的种子节点,形成一个按影响力大到小排序的种子节点集合;从影响力排序的种子节点集合中,选取前n个种子节点,构成意见领袖集合,从而识别出社交网络中具有不同影响力或号召力的意见领袖。由于通过检测社交网络中影响力最大的种子节点来识别意见领袖,节省了大量的盲目检测时间,提高了识别效率。与背景技术相比,识别效率提高了50~90%。

Description

社交网络意见领袖识别方法
技术领域
本发明涉及一种识别方法,具体涉及一种社交网络意见领袖识别方法。
背景技术
随着Web2.0技术的发展,社交网络(SNS)已成为互联网中非常流行的网络应用。目前,一些大规模在线社交网站,如Facebook的访问量已经超过谷歌,成为美国第一大网站,而国内深受大学生欢迎的人人网,目前注册用户已达1亿,日登陆2200万人次(2009年10月27日人人网公布的数据),2009年12月alexa网站的数据显示国内外网站访问量前15名中社交网站已分别占到4个和6个。社交网站每天都有数百万在线用户,这包含着巨大潜在的商机,比如一些公司可以利用社交网站在线用户来推销他们的产品。
在社交网络中,种子节点的影响力对推动信息传播是非常重要的。一些通过病毒式市场营销方式来推销其产品、服务的公司或用户对如何选择具有影响力的种子节点怀有很大的兴趣。比如A公司想在社交网站为其产品做广告,由于广告费用有限,只能投放K个用户,A公司希望这些最初的用户能够喜欢其产品,并以他们作为种子节点,在社交网络中以口碑相传方式来影响他们的朋友,让他们的朋友也喜欢其产品,而他们的朋友又通过社交网络进一步影响更多的朋友,使更多的用户都能喜欢其产品。A公司当然希望最初选择的用户(即种子节点)都具有较大影响力,所影响的人数尽可能地多,从而花费少量的费用就可达到最大的广告效益。可见,种子节点在网络信息传播过程中发挥了重要的作用,他们相当于意见领袖,通过他们的引导和影响,局部意见可能演化为网络舆论。统计数据显示,网络中的大部分用户不经常参与信息的制造与传播,他们做出的决定往往跟随意见领袖。有效地识别网络意见领袖,通过意见领袖发表引导性信息来影响所在网络用户而非直接说服他们,可以有效地触发整个网络或社会的影响力,对于推动信息传播,提高广告效应具有重要的现实意义。
人们从不同角度研究了社交网络意见领袖发现和识别问题,通过检测社交网络中影响力最大的种子节点来识别意见领袖是其中的一种重要方法,并引起业界的关注和重视,将此类问题归结为影响力最大化问题。
对于影响力最大化问题,目前求解算法主要分为两类:(1)复杂网络算法,比如基于节点度和基于中心的算法等,这类算法存在的主要问题是所得到的种子节点影响力偏低;(2)贪婪算法,其主要问题是计算效率较低、计算时间不稳定以及可扩展性较差等。
Kempe等在文献“Maximizing the spread of influence through a social network(SIGKDD,pages137-146,2003)”中,将影响力最大化问题作为一个离散优化问题,证明了影响力最大化问题是一个NP难题,并提出一个近似的贪婪算法,其核心思想是每次选取影响力增值最大的节点作为种子节点,证明了贪婪算法得到种子节点的影响力不低于最优算法的(1-1/e),并研究了三种不同离散的信息传播模型以及在模型中如何寻找具有最大影响力的种子节点。实验结果显示,贪婪算法得到种子节点影响力明显地高于传统的基于节点度和基于中心的算法,但该贪婪算法有一个严重的缺点,就是计算效率问题,比如在适度规模社交网络中(约15000节点)搜索最大影响力的种子节点需要在一台服务器上计算数天时间,而在大规模社交网络中有数百万计的节点,计算时间将可能成指数倍增长。
Leskovec等在文献“Cost-effective outbreak detection in networks(SIGKDD,pages420-429,2007)”中,提出一个CELF(Cost-Effective Lazy Forward selection)优化贪婪方法,该方法是基于影响力具有子模函数特征提出的,即所有节点的影响力随着种子节点集合中节点数目增加在减弱,具有单调递减性。该方法分为两个步骤:第一个步骤用于选择第一个种子节点,在全部节点中搜索种子节点,选择影响力最大节点加入到种子节点集合中;第二个步骤用于选择余下种子节点,利用影响力具有单调递减性这一性质在部分影响力较大节点中搜索种子节点。由于在第二个步骤中此方法搜索种子节点空间的减少,因此计算效率有了较大提高。实验结果显示,在搜索结果相同的情况下,CELF算法比原始贪婪算法的计算速度提高了近700倍,但对于大规模的社交网络,它的计算效率依然比较低。
Wei Chen等在文献“Efficient influence maximization in social networks(SIGKDD,pp.199-208,2009)”中,提出了一个新的贪婪算法(NewGreedy),基本思想是在社交网络图中,以节点间影响因子p选择相关边,建立一个全新的子图,然后选择子图中度数最大的节点作为种子节点,并且还提出一个MixGreedy算法,它分为两部分,第一部分采用NewGreedy算法思想选取第一个种子节点,第二部分采用CELF算法思想选取余下种子节点。MixGreedy算法结合了NewGreedy算法和CELF算法的优点,其计算效率比CELF算法有所提高。由于在线性阈值模型中节点间并不以影响因子p来相互激活,MixGreedy算法需要从独立级联模型或带权级联模型中求得种子节点,再在线性阈值模型中计算它们的影响力,因此其搜索结果与其他贪婪算法有时相差较大,在线性阈值模型中可扩展性较差。
发明内容
为了克服现有的社交网络意见领袖识别方法效率低的不足,本发明提供一种社交网络意见领袖识别方法。该方法通过检测社交网络中影响力最大的种子节点来发现和识别意见领袖,在检测社交网络中种子节点影响力时,根据社交网络节点的度分布以及节点的度数与影响力的关联性等因素,采用在具有高度数的部分节点中检测种子节点并其计算影响力,只需在少部分影响力较大的节点中进行检测和计算,因此可以节省大量的盲目检测时间,降低种子节点影响力计算复杂度,提高了社交网络意见领袖识别效率。
本发明解决其技术问题所采用的技术方案是:一种社交网络意见领袖识别方法,其特点是包括以下步骤:
(1)利用网络爬虫工具,从互联网中采集实际的社交网络数据。
(2)根据社交网络特性,使用独立级联模型等信息传播模型对社交网络的信息传播过程进行建模分析。在信息传播模型中,输入社交网络数据以及r参数,其中r(0<r≤1)为高度数节点占所有节点的百分比。
(3)根据信息传播模型以及社交网络拓扑等信息,计算每个节点度数,并由大到小进行排序,选择排序前r的节点形成新的节点集合。
(4)在新的节点集合中检测种子节点,并使用子模函数计算种子节点影响力,将其中影响力最大的节点作为第一个种子节点。
(5)在新的节点集合中检测余下的种子节点,同样使用子模函数计算种子节点影响力,在每次选择种子节点的过程中,只计算部分影响力大的节点,直到所有的种子节点选取完毕,形成一个按影响力大到小排列的种子节点集合。
(6)从影响力排序的种子节点集合中,选取前n个种子节点,构成意见领袖集合,识别出社交网络中具有不同影响力或号召力的意见领袖。式中,0<n≤集合中种子节点数目。
所述r参数取值在0.01至0.2之间。
本发明的有益效果是:由于通过检测社交网络中影响力最大的种子节点来发现和识别意见领袖,在检测社交网络中种子节点影响力时,根据社交网络节点的度分布以及节点的度数与影响力的关联性等因素,采用在具有高度数的部分节点中检测种子节点并其计算影响力,只需在少部分影响力较大的节点中进行检测和计算,因此可以节省大量的盲目检测时间,降低种子节点影响力计算复杂度,提高了社交网络意见领袖识别效率。通过实验验证和实际测试表明,本发明与背景技术相比,在影响力不受损失的情况下,识别效率提高了50~90%,并且具有良好的可扩展性,适合于在大规模社交网络中检测最大影响力的种子节点,从而识别出意见领袖。
下面结合附图和实施例对本发明作详细说明。
附图说明
图1是本发明社交网络意见领袖识别方法的流程图。
具体实施方式
本发明所涉及的基本概念解释如下:
(1)信息传播模型:社交网络是一种复杂网络,科技界通常采用数学建模方法对复杂网络特性进行分析,以描述网络信息传播特性和内在规律。对于社交网络,通常采用独立级联模型、带权级联模型和线性阈值模型等三种信息传播模型对社交网络种子节点影响力进行建模分析。这样,社交网络种子节点影响力最大化求解问题就转换成在信息传播模型中如何检测和识别最大影响力种子节点问题。
(2)影响力函数:定义σ(·)为影响力函数,S为种子节点集合,U为搜索节点集合。σ(S)是种子节点集合S的影响力,即集合S影响节点数目大小。
(3)子模函数性质:
定义1:如果对于任何元素x,y∈RK有f(x∨y)+f(x∧y)≤f(x)+f(y),则函数f:Rk→R是子模函数。
由定义1可以得出如下结论。
结论1:如果f是子模函数,则
Figure BDA00002775745400041
有f(A+j)-f(A)≥f(B+j)-f(B)。可见,任何子模函数具有单调、非负等性质。
结论2:在独立级联模型、带权级联模型和线性阈值模型的任何一个实例中,影响力函数σ(·)是一个子模函数。
参照图1。本发明社交网络意见领袖识别方法具体步骤如下:
1.获取社交网络数据。
利用网络爬虫工具,从互联网中采集实际的社交网络数据,提取其中的节点、连接等网络拓扑信息存入数据库待处理。
2.建立信息传播模型。
根据社交网络特性,使用独立级联模型等信息传播模型对社交网络的信息传播过程进行建模分析。在信息传播模型中,输入社交网络数据以及r等参数,其中r(0<r≤1)为高度数节点占所有节点的百分比,根据社交网络中的节点数目、种子节点数目以及网络拓扑等参数来确定,一般在0.01至0.2之间。
3.计算节点度数。
根据信息传播模型以及社交网络拓扑信息,计算每个节点度数,并由大到小进行排序,选择排序前r的节点形成新的节点集合。
4.选择第一个种子节点。
在新的节点集合中检测种子节点,并使用子模函数计算种子节点影响力,将其中影响力最大的节点作为第一个种子节点。
5.选择余下的种子节点。
在新的节点集合中检测余下的种子节点,同样使用子模函数计算种子节点影响力,在每次选择种子节点的过程中,只计算部分影响力大的节点,直到所有的种子节点选取完毕,形成一个按影响力大到小排序的种子节点集合。
6.识别意见领袖。
从影响力排序的种子节点集合中,选取前n(0<n≤集合中种子节点数目)个种子节点,构成意见领袖集合,从而识别出社交网络中具有了不同影响力或号召力的意见领袖。
使用伪代码描述本发明的具体算法如下:
Figure BDA00002775745400051
Figure BDA00002775745400061

Claims (2)

1.一种社交网络意见领袖识别方法,其特征在于包括以下步骤:
(1)利用网络爬虫工具,从互联网中采集实际的社交网络数据;
(2)根据社交网络特性,使用独立级联模型等信息传播模型对社交网络的信息传播过程进行建模分析;在信息传播模型中,输入社交网络数据以及r参数,其中r(0<r≤1)为高度数节点占所有节点的百分比;
(3)根据信息传播模型以及社交网络拓扑等信息,计算每个节点度数,并由大到小进行排序,选择排序前r的节点形成新的节点集合;
(4)在新的节点集合中检测种子节点,并使用子模函数计算种子节点影响力,将其中影响力最大的节点作为第一个种子节点;
(5)在新的节点集合中检测余下的种子节点,同样使用子模函数计算种子节点影响力,在每次选择种子节点的过程中,只计算部分影响力大的节点,直到所有的种子节点选取完毕,形成一个按影响力大到小排列的种子节点集合;
(6)从影响力排序的种子节点集合中,选取前n个种子节点,构成意见领袖集合,识别出社交网络中具有不同影响力或号召力的意见领袖;式中,0<n≤集合中种子节点数目。
2.根据权利要求1所述的社交网络意见领袖识别方法,其特征在于:所述r参数取值在0.01至0.2之间。
CN201310028159XA 2013-01-25 2013-01-25 社交网络意见领袖识别方法 Pending CN103116611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310028159XA CN103116611A (zh) 2013-01-25 2013-01-25 社交网络意见领袖识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310028159XA CN103116611A (zh) 2013-01-25 2013-01-25 社交网络意见领袖识别方法

Publications (1)

Publication Number Publication Date
CN103116611A true CN103116611A (zh) 2013-05-22

Family

ID=48414985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310028159XA Pending CN103116611A (zh) 2013-01-25 2013-01-25 社交网络意见领袖识别方法

Country Status (1)

Country Link
CN (1) CN103116611A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134159A (zh) * 2014-08-04 2014-11-05 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN104616200A (zh) * 2015-02-11 2015-05-13 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN105138580A (zh) * 2015-07-31 2015-12-09 中国科学院信息工程研究所 一种基于阻断连边的网络负面信息影响最小化方法
CN105335892A (zh) * 2015-10-30 2016-02-17 南京邮电大学 一种社交网络重要用户发现的实现方法
CN105959368A (zh) * 2016-04-29 2016-09-21 成都信息工程大学 一种社交云热点资源预测与部署的方法
CN106204297A (zh) * 2016-07-11 2016-12-07 深圳市中北明夷科技有限公司 一种封闭社交传播意见领袖的识别方法及装置
CN107123056A (zh) * 2017-03-03 2017-09-01 华南理工大学 一种基于位置的社交大数据信息最大化方法
CN107507020A (zh) * 2017-07-27 2017-12-22 上海交通大学 获取网络传播影响力竞争优势最大化的方法
CN108122168A (zh) * 2016-11-28 2018-06-05 中国科学技术大学先进技术研究院 社交活动网络中种子节点筛选方法和装置
CN108710618A (zh) * 2017-04-05 2018-10-26 中国科学院声学研究所 一种基于并发进程与影响力期望的传播种子节点选择方法
CN110750721A (zh) * 2019-10-21 2020-02-04 秒针信息技术有限公司 资讯信息推送方法、装置、电子设备及可读存储介质
CN111125453A (zh) * 2019-12-27 2020-05-08 中国电子科技集团公司信息科学研究院 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN112100241A (zh) * 2020-09-14 2020-12-18 哈尔滨工程大学 一种基于主题的社交网络动态影响力最大化方法
CN112667876A (zh) * 2020-12-24 2021-04-16 湖北第二师范学院 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法
US11468521B2 (en) 2016-10-31 2022-10-11 Tencent Technology (Shenzhen) Company Limited Social media account filtering method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859315A (zh) * 2010-04-30 2010-10-13 西北工业大学 基于度启发式的社交网络影响力最大化求解方法
CN102663101A (zh) * 2012-04-13 2012-09-12 北京交通大学 一种基于新浪微博的用户等级排序算法
CN102890696A (zh) * 2011-02-10 2013-01-23 微软公司 基于社交网络的上下文排序

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859315A (zh) * 2010-04-30 2010-10-13 西北工业大学 基于度启发式的社交网络影响力最大化求解方法
CN102890696A (zh) * 2011-02-10 2013-01-23 微软公司 基于社交网络的上下文排序
CN102663101A (zh) * 2012-04-13 2012-09-12 北京交通大学 一种基于新浪微博的用户等级排序算法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104134159A (zh) * 2014-08-04 2014-11-05 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN104134159B (zh) * 2014-08-04 2017-10-24 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN104616200A (zh) * 2015-02-11 2015-05-13 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN104616200B (zh) * 2015-02-11 2017-10-10 中南大学 一种基于节点特性的影响力最大化初始节点选取方法
CN105138580A (zh) * 2015-07-31 2015-12-09 中国科学院信息工程研究所 一种基于阻断连边的网络负面信息影响最小化方法
CN105138580B (zh) * 2015-07-31 2018-11-23 中国科学院信息工程研究所 一种基于阻断连边的网络负面信息影响最小化方法
CN105335892A (zh) * 2015-10-30 2016-02-17 南京邮电大学 一种社交网络重要用户发现的实现方法
CN105959368A (zh) * 2016-04-29 2016-09-21 成都信息工程大学 一种社交云热点资源预测与部署的方法
CN105959368B (zh) * 2016-04-29 2019-04-02 成都信息工程大学 一种社交云热点资源预测与部署的方法
CN106204297A (zh) * 2016-07-11 2016-12-07 深圳市中北明夷科技有限公司 一种封闭社交传播意见领袖的识别方法及装置
US11468521B2 (en) 2016-10-31 2022-10-11 Tencent Technology (Shenzhen) Company Limited Social media account filtering method and apparatus
CN108122168A (zh) * 2016-11-28 2018-06-05 中国科学技术大学先进技术研究院 社交活动网络中种子节点筛选方法和装置
CN108122168B (zh) * 2016-11-28 2020-11-13 中国科学技术大学先进技术研究院 社交活动网络中种子节点筛选方法和装置
CN107123056A (zh) * 2017-03-03 2017-09-01 华南理工大学 一种基于位置的社交大数据信息最大化方法
CN108710618A (zh) * 2017-04-05 2018-10-26 中国科学院声学研究所 一种基于并发进程与影响力期望的传播种子节点选择方法
CN107507020B (zh) * 2017-07-27 2021-10-08 上海交通大学 获取网络传播影响力竞争优势最大化的方法
CN107507020A (zh) * 2017-07-27 2017-12-22 上海交通大学 获取网络传播影响力竞争优势最大化的方法
CN110750721A (zh) * 2019-10-21 2020-02-04 秒针信息技术有限公司 资讯信息推送方法、装置、电子设备及可读存储介质
CN111125453A (zh) * 2019-12-27 2020-05-08 中国电子科技集团公司信息科学研究院 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN111125453B (zh) * 2019-12-27 2023-03-28 中国电子科技集团公司信息科学研究院 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN112100241A (zh) * 2020-09-14 2020-12-18 哈尔滨工程大学 一种基于主题的社交网络动态影响力最大化方法
CN112100241B (zh) * 2020-09-14 2023-07-25 哈尔滨工程大学 一种基于主题的社交网络动态影响力最大化方法
CN112667876A (zh) * 2020-12-24 2021-04-16 湖北第二师范学院 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法
CN112667876B (zh) * 2020-12-24 2024-04-09 湖北第二师范学院 一种基于PSOTVCF-Kmeans算法的意见领袖群识别方法

Similar Documents

Publication Publication Date Title
CN103116611A (zh) 社交网络意见领袖识别方法
CN104134159B (zh) 一种基于随机模型预测信息最大化传播范围的方法
Kundu et al. A new centrality measure for influence maximization in social networks
CN102394798B (zh) 一种基于多元特征的微博信息传播行为预测方法及***
CN103678613B (zh) 一种计算影响力数据的方法与装置
CN103678669B (zh) 一种社交网络中的社区影响力评估***及方法
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
Pal et al. Centrality measures, upper bound, and influence maximization in large scale directed social networks
CN103064917A (zh) 一种面向微博的特定倾向的高影响力用户群发现方法
CN103179198B (zh) 基于多关系网络的话题影响力个体挖掘方法
CN102262681A (zh) 一种博客信息传播中识别关键博客集的方法
CN105677881A (zh) 一种信息推荐方法、装置及服务器
CN106991617B (zh) 一种基于信息传播的微博社交关系提取算法
CN105095419A (zh) 一种面向微博特定类型用户的信息影响力最大化方法
CN105550275B (zh) 一种微博转发量预测方法
CN103617289A (zh) 基于用户特征及网络关系的微博推荐方法
CN103136331A (zh) 微博网络意见领袖识别方法
CN107123055A (zh) 一种基于PageRank的社交大数据信息最大化方法
CN103218400A (zh) 基于链接与文本内容的网络社区用户群划分方法
CN103823888A (zh) 一种基于节点亲密度的社交网站好友推荐方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
Li et al. Social network user influence dynamics prediction
Wang et al. A study on influential user identification in online social networks
CN108537569B (zh) 在线社交网络中人际关系感知的广告推送方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130522