CN106959953A - 一种基于统计特征的社交网络用户关系的计算方法 - Google Patents

一种基于统计特征的社交网络用户关系的计算方法 Download PDF

Info

Publication number
CN106959953A
CN106959953A CN201610012488.9A CN201610012488A CN106959953A CN 106959953 A CN106959953 A CN 106959953A CN 201610012488 A CN201610012488 A CN 201610012488A CN 106959953 A CN106959953 A CN 106959953A
Authority
CN
China
Prior art keywords
user
interactive
relationship
data
social network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610012488.9A
Other languages
English (en)
Inventor
脱立恒
李南星
盛益强
李超鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201610012488.9A priority Critical patent/CN106959953A/zh
Publication of CN106959953A publication Critical patent/CN106959953A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于统计特征的社交网络用户关系的计算方法,所述方法包括:步骤1)从业务***中采集用户互动行为数据;步骤2)根据用户互动行为数据生成用户互动记录集合,统计用户对集合和每个用户对的互动频数分布;由此统计每个用户的互动频数分布;步骤3)统计每个用户的互动频数总数及互动频数分布,计算每个用户的关系强度因子;步骤4)计算用户对集合中每对用户的关系强度。本发明的方法利用用户互动的统计特征对用户关系进行了量化,该量化值能够准确客观地体现用户之间的关系;并由此判断出用户关系所属的类型。

Description

一种基于统计特征的社交网络用户关系的计算方法
技术领域
本发明涉及网络通信技术领域,尤其涉及一种基于统计特征的社交网络用户关系的计算方法。
背景技术
基于社交网络的用户关系的应用越来越广泛,如视频推荐网站Clicker与亚马逊等基于用户关系提供社会化推荐以及各社交平台中的好友推荐等应用。其中将用户关系引入推荐***可以增加推荐结果的信任度、解决推荐***的冷启动问题。因此如何准确地度量用户间的关系强度就成为了一个重要问题,而基于用户互动信息的度量是一种有效的解决思路。
基于用户互动信息的关系强度度量基于如下假设:两个用户间的互动越多则认为彼此间的关系越强。在现有的方法里不考虑不同用户对关系强度的敏感度的差异,然而在实际社交网络中存在以下情形:不同用户对关系强度的敏感度是有差异的;存在一些不以社交为目的而是以宣传、提供咨询等为目的的用户,这些用户对关系强度的敏感度低于以社交为目的的用户。
因此,有必要提供更准确的用户关系计算方法,以解决现有技术所存在的准确度低的问题。
发明内容
本发明的目的在于克服目前用户关系计算方法中存在的准确度低的问题,提出了一种基于统计特征的社交网络用户关系计算方法,该方法根据互动记录集合得到互动频数分布,计算用户的关系强度因子,以此调整用户之间的关系强度,从而能够准确计算出用户关系强度。
为了实现上述方法,本发明提供了一种基于统计特征的社交网络用户关系计算方法,所述方法包括:
步骤1)从业务***中采集用户互动行为数据;
步骤2)根据用户互动行为数据生成用户互动记录集合,统计用户对集合和每个用户对的互动频数分布;由此统计每个用户的互动频数分布;
步骤3)统计每个用户的互动频数总数及互动频数分布,计算每个用户的关系强度因子;
步骤4)计算用户对集合中每对用户的关系强度。
上述技术方案中,所述步骤2)具体包括:
步骤2-1)对用户互动行为数据中的残缺数据、错误数据以及重复数据进行清洗;
步骤2-1)对用户互动行为数据中的残缺数据、错误数据以及重复数据进行清洗;
首先将缺失用户标识符的数据删除;其次检查是否符合命名规则,如果不符合则删除,符合则保留;最后将保留的数据集执行聚合操作删除重复数据;
步骤2-2)根据清洗后的数据生成互动记录集合;
根据业务***特性将清洗后的社交类型的用户行为数据去掉冗余信息形成用户互动记录,提取互动用户双方的标识符放入用户对集合中,然后为这个互动记录加上互动双方的标识符,最后,将所有的互动记录组合生成互动记录集合;
步骤2-3)根据互动记录集合统计用户总数U、用户对集合和每个用户对的互动频数分布。
上述技术方案中,所述步骤2-2)中的互动记录集合,其中互动是不受用户关系约束的,即互动双方为好友或陌生人。
上述技术方案中,所述步骤3)的用户的关系强度因子为用户的互动频数分布的二阶中心矩、三阶中心矩或四阶中心矩。
上述技术方案中,当用户的关系强度因子为用户的互动频数分布的二阶中心矩时,用户a的关系强度因子Parameter(a)的计算过程为:
从所述互动记录集合获取源用户a的互动用户集合Ua,互动用户总数为|Ua|;其与用户u的互动频数为Ea,u,u∈Ua;则用户a的互动频数分布的期望为:
上述技术方案中,所述步骤4)的具体实现过程为:
对于源用户a和目的用户b组成的互动用户对(a,b),源用户a对目标用户b的关系强度ta,b为:
其中,Ea,b为用户a与用户b的互动频数。
上述技术方案中,所述互动用户对的关系强度是不对称的,即ta,b≠tb,a
上述技术方案中,在所述步骤4)后,还包括:
根据统计数据为不同的用户关系类型预设对应的关系强度区间,将步骤4)计算出的用户关系强度进行关系强度区间匹配,确定用户对所属的用户关系类型;具体过程为:
通过有监督的机器学习方法获得K个阈值0≤H1<H2<…<HK,相邻两阈值间[Hi,Hi+1)对应第i种用户关系类型,计算出用户对的关系强度ta,b后,匹配关系强度ta,b所在的阈值区间;如果Hi≤ta,b<Hi+1,则将该用户对(a,b)放入第i种用户关系集合中。
本发明的优点在于:本发明的方法利用用户互动的统计特征对用户关系进行了量化,该量化值能够准确客观地体现用户之间的关系;并由此判断出用户关系所属的类型。
附图说明
图1是本发明的基于统计特征的社交网络用户关系计算方法的流程图;
图2是本发明的方法中的用户关系类型判定的数据流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图1所示,一种基于统计特征的社交网络用户关系计算方法,所述方法包括:
步骤1)从业务***中采集用户互动行为数据;
以QQ空间业务***为例,按照展示形式可分为日志版块、相册版块、说说版块、留言板版块等等,按照互动形式可分为评论、回复、点赞、访问、转载、分享等,爬虫程序遍历每个QQ用户的空间,爬取其空间各个版块的互动信息,从这些信息中采集用户互动行为数据;
步骤2)根据用户互动行为数据生成用户互动记录集合,统计用户对集合和每个用户对的互动频数分布;由此统计每个用户的互动频数分布;具体包括:
步骤2-1)对用户互动行为数据中的残缺数据、错误数据以及重复数据进行清洗;
首先将缺失UID(用户标识符)的数据删除;其次检查是否符合命名规则,如果不符合则删除,符合则保留;最后将保留的数据集执行聚合操作删除重复数据。
步骤2-2)根据清洗后的数据生成互动记录集合;
根据业务***特性将清洗后的社交类型的用户行为数据去掉冗余信息形成用户互动记录,提取互动双方的标识符:(源用户UID,目标用户UID);放入用户对集合中,然后为这个互动记录加上互动双方的标识符,最后,将所有的互动记录组合生成互动记录集合。
所述互动记录集合,其中互动是不受用户关系约束的,即互动双方可以是好友、陌生人或者其它关系。
步骤2-3)统计用户总数U、用户对集合和每个用户对的互动频数分布;
步骤3)统计每个用户的互动频数总数及互动频数分布,由此计算每个用户的关系强度因子;
设源用户a的互动用户集合为Ua,互动用户总数为|Ua|;其与用户u的互动频数为Ea,u,u∈Ua;则用户a的互动频数分布的期望为:
在本实施例中,用户a的关系强度因子Parameter(a)采用用户a的互动频数分布的二阶中心矩,计算公式为:
在其它实施例中,用户a的关系强度因子Parameter(a)可以采用用户a的互动频数分布的三阶中心矩或四阶中心矩。
步骤4)计算用户对集合中每对用户的关系强度;
对于源用户a和目的用户b组成的互动用户对(a,b),源用户a对目标用户b的关系强度ta,b为:
其中,Ea,b为用户a与用户b的互动频数;
将ta,b分别对Ea,b求偏导得:
证明可得到:即源用户对目标用户的互动越多则用户对的关系强度越强;
将ta,b分别对Parameter(a)求偏导得:
时,时,即当源用户对目标用户的互动较多时若源用户对关系强度越敏感则用户对的关系强度越强,当源用户对目标用户的互动较少时若源用户对关系强度越敏感则用户对的关系强度越弱。
所述用户对的关系强度是不对称的,即ta,b≠tb,a
如图2所示,在所述步骤4)后,还包括:
根据统计数据为不同的用户关系类型预设对应的关系强度区间,将步骤4)计算出的用户关系强度匹配的关系强度区间,确定用户对所属的用户关系类型;
通过有监督的机器学习方法设定阈值H;在计算出用户对的关系强度ta,b后,比较关系强度ta,b与阈值H;如果ta,b>H,则将该用户对(a,b)放入强关系集合中;如果ta,b≤H,则将该用户对(a,b)放入弱关系集合中;
优选地,通过有监督的机器学习方法获得K个阈值0≤H1<H2<…<HK,相邻两阈值间[Hi,Hi+1)对应第i种用户关系类型,如[H1,H2)区间对应于陌生关系;计算出用户对的关系强度ta,b后,匹配关系强度ta,b所在的阈值区间;如果Hi≤ta,b<Hi+1,则将该用户对(a,b)放入第i种用户关系集合中。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于统计特征的社交网络用户关系的计算方法,所述方法包括:
步骤1)从业务***中采集用户互动行为数据;
步骤2)根据用户互动行为数据生成用户互动记录集合,统计用户对集合和每个用户对的互动频数分布;由此统计每个用户的互动频数分布;
步骤3)统计每个用户的互动频数总数及互动频数分布,计算每个用户的关系强度因子;
步骤4)计算用户对集合中每对用户的关系强度。
2.根据权利要求1所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,所述步骤2)具体包括:
步骤2-1)对用户互动行为数据中的残缺数据、错误数据以及重复数据进行清洗;
首先将缺失用户标识符的数据删除;其次检查是否符合命名规则,如果不符合则删除,符合则保留;最后将保留的数据集执行聚合操作删除重复数据;
步骤2-2)根据清洗后的数据生成互动记录集合;
根据业务***特性将清洗后的社交类型的用户行为数据去掉冗余信息形成用户互动记录,提取互动用户双方的标识符放入用户对集合中,然后为这个互动记录加上互动双方的标识符,最后,将所有的互动记录组合生成互动记录集合;
步骤2-3)统计用户总数U、用户对集合和每个用户对的互动频数分布。
3.根据权利要求2所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,所述步骤2-2)中的用户互动记录,其中互动是不受用户关系约束的,即互动双方为好友或陌生人。
4.根据权利要求2所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,所述步骤3)的用户的关系强度因子为用户的互动频数分布的二阶中心矩、三阶中心矩或四阶中心矩。
5.根据权利要求4所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,当用户的关系强度因子为用户的互动频数分布的二阶中心矩时,用户a的关系强度因子Parameter(a)的计算过程为:
从所述互动记录集合获取源用户a的互动用户集合Ua,互动用户总数为|Ua|;其与用户u的互动频数为Ea,u,u∈Ua;则用户a的互动频数分布的期望为:
E &OverBar; a , u = 1 | U a | &times; &Sigma; u &Element; U a E a , u
P a r a m e t e r ( a ) = 1 | U a | &times; &Sigma; u &Element; U a ( E a , u - E &OverBar; a , u ) 2 .
6.根据权利要求5所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,所述步骤4)的具体实现过程为:
对于源用户a和目的用户b组成的互动用户对(a,b),源用户a对目标用户b的关系强度ta,b为:
t a , b = ( E a , b E &OverBar; a , u ) P a r a m e t e r ( a ) &times; log | U | | U a |
其中,Ea,b为用户a与用户b的互动频数。
7.根据权利要求6所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,所述互动用户对的关系强度是不对称的,即ta,b≠tb,a
8.根据权利要求6所述的基于统计特征的社交网络用户关系的计算方法,其特征在于,在所述步骤4)后,还包括:
根据统计数据为不同的用户关系类型预设对应的关系强度区间,将步骤4)计算出的用户关系强度进行关系强度区间匹配,确定用户对所属的用户关系类型;具体过程为:
通过有监督的机器学习方法获得K个阈值0≤H1<H2<...<HK,相邻两阈值间[Hi,Hi+1)对应第i种用户关系类型,计算出用户对的关系强度ta,b后,匹配关系强度ta,b所在的阈值区间;如果Hi≤ta,b<Hi+1,则将该用户对(a,b)放入第i种用户关系集合中。
CN201610012488.9A 2016-01-08 2016-01-08 一种基于统计特征的社交网络用户关系的计算方法 Pending CN106959953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610012488.9A CN106959953A (zh) 2016-01-08 2016-01-08 一种基于统计特征的社交网络用户关系的计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610012488.9A CN106959953A (zh) 2016-01-08 2016-01-08 一种基于统计特征的社交网络用户关系的计算方法

Publications (1)

Publication Number Publication Date
CN106959953A true CN106959953A (zh) 2017-07-18

Family

ID=59480597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610012488.9A Pending CN106959953A (zh) 2016-01-08 2016-01-08 一种基于统计特征的社交网络用户关系的计算方法

Country Status (1)

Country Link
CN (1) CN106959953A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609087A (zh) * 2017-09-07 2018-01-19 马上消费金融股份有限公司 一种社交关系的分析方法及装置
CN107908673A (zh) * 2017-10-25 2018-04-13 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN111666498A (zh) * 2020-06-30 2020-09-15 腾讯科技(深圳)有限公司 一种基于互动信息的好友推荐方法、相关装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823888A (zh) * 2014-03-07 2014-05-28 安徽融数信息科技有限责任公司 一种基于节点亲密度的社交网站好友推荐方法
CN103995909A (zh) * 2014-06-17 2014-08-20 东南大学成贤学院 一种基于三维关系强度模型的在线用户关系测量及分类方法
CN104809132A (zh) * 2014-01-27 2015-07-29 阿里巴巴集团控股有限公司 一种获取网络主体社交关系类型的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809132A (zh) * 2014-01-27 2015-07-29 阿里巴巴集团控股有限公司 一种获取网络主体社交关系类型的方法及装置
CN103823888A (zh) * 2014-03-07 2014-05-28 安徽融数信息科技有限责任公司 一种基于节点亲密度的社交网站好友推荐方法
CN103995909A (zh) * 2014-06-17 2014-08-20 东南大学成贤学院 一种基于三维关系强度模型的在线用户关系测量及分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609087A (zh) * 2017-09-07 2018-01-19 马上消费金融股份有限公司 一种社交关系的分析方法及装置
CN107908673A (zh) * 2017-10-25 2018-04-13 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
WO2019080403A1 (zh) * 2017-10-25 2019-05-02 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN107908673B (zh) * 2017-10-25 2019-06-25 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN111666498A (zh) * 2020-06-30 2020-09-15 腾讯科技(深圳)有限公司 一种基于互动信息的好友推荐方法、相关装置及存储介质
CN111666498B (zh) * 2020-06-30 2023-06-16 腾讯科技(深圳)有限公司 一种基于互动信息的好友推荐方法、相关装置及存储介质

Similar Documents

Publication Publication Date Title
Cheng et al. An epidemic model of rumor diffusion in online social networks
CN102394798B (zh) 一种基于多元特征的微博信息传播行为预测方法及***
CN103678669B (zh) 一种社交网络中的社区影响力评估***及方法
US20150019588A1 (en) Identifying Implicit Relationships Between Social Media Users To Support Social Commerce
CN103136331A (zh) 微博网络意见领袖识别方法
CN109242250A (zh) 一种基于模糊熵权法与云模型的用户行为可信度检测方法
CN107895038A (zh) 一种链路预测关系推荐方法及装置
Chattopadhyay et al. Fitting truncated geometric distributions in large scale real world networks
CN106959953A (zh) 一种基于统计特征的社交网络用户关系的计算方法
CN111709714A (zh) 基于人工智能的流失人员预测方法和装置
CN105654361A (zh) 一种基于社区o2o的信用评价方法和***
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
Cantarella et al. Approaches for solving the stochastic equilibrium assignment with variable demand: internal vs. external solution algorithms
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
Ahmad et al. Social account matching in online social media using cross-linked posts
CN106910013A (zh) 基于动态表达学习的不实信息检测方法和装置
KR20150020823A (ko) 소셜 네트워크에서의 상대적 친밀도 측정 시스템
CN107220742A (zh) 一种基于***脆弱性分析的信息***开发通用支撑方法及平台
CN114285896B (zh) 信息推送方法、装置、设备、存储介质及程序产品
US10853820B2 (en) Method and apparatus for recommending topic-cohesive and interactive implicit communities in social customer relationship management
CN109145223A (zh) 一种基于社交影响力传播的社交推荐方法
CN109189828A (zh) 一种基于复杂网络的业务部门间数据价值评估的方法
Song et al. A model of consistent node types in signed directed social networks
Ye et al. Reconstructing spatial information diffusion networks with heterogeneous agents and text contents
JP7024663B2 (ja) 評価更新装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718

RJ01 Rejection of invention patent application after publication