CN107590742B - 一种基于行为的社交网络用户属性值反演方法 - Google Patents

一种基于行为的社交网络用户属性值反演方法 Download PDF

Info

Publication number
CN107590742B
CN107590742B CN201710957182.5A CN201710957182A CN107590742B CN 107590742 B CN107590742 B CN 107590742B CN 201710957182 A CN201710957182 A CN 201710957182A CN 107590742 B CN107590742 B CN 107590742B
Authority
CN
China
Prior art keywords
user
comment
behavior
attribute value
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710957182.5A
Other languages
English (en)
Other versions
CN107590742A (zh
Inventor
赵志滨
姚兰
于戈
鲍玉斌
陈郭成
刘佳良
张天成
李芳芳
许存立
刘欢
王勋
储佳红
唐梦娇
徐瑛蔚
李壮
王宗怡
石玉鑫
梁睿博
杨泽清
赵永恒
关亨
王思远
吴永琪
华钰
高若涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201710957182.5A priority Critical patent/CN107590742B/zh
Publication of CN107590742A publication Critical patent/CN107590742A/zh
Application granted granted Critical
Publication of CN107590742B publication Critical patent/CN107590742B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于行为的社交网络用户属性值反演方法,基于行为的用户属性值反演方法的思想是针对反演对象在社交网络多话题下的评论行为,发现与反演对象具有相似网络行为的人群,再利用群体属性值与个体属性值之间的映射策略以及带权重的投票机制,对网络用户的属性值进行推测并将结果赋给反演对象。这种方法一方面可以动态填补和修正用户属性信息中所存在的缺失值、错误值;更进一步可以为社交网络中的个性化推荐提供更为可靠的原始数据。提高网络用户信息的准确性,最终达到动态填补和修正网络用户属性缺失值和错误值的目的。

Description

一种基于行为的社交网络用户属性值反演方法
技术领域
本发明涉及社交网络技术领域,尤其涉及一种基于行为的社交网络用户属性值反演方法。
背景技术
近几年,互联网的高速发展大大提升了社交网络的关注度,许多社交平台不仅为用户展示快速、全面的社会舆情信息,还为科学研究提供了大量的实时参考数据。
社交网络为人们快速了解热点话题、社会新闻带来便捷,用户关注消息的方式也从平面媒体转变为网络媒体。用户在注册社交网络平台账号时需要填写本人属性信息,这些数据将会作为简介展示在个人主页中。但是不同社交网站注册的基本属性信息类别不尽相同,如Facebook要求用户填写兴趣、学校等信息,而Linkin则更加注重与用户教育背景、工作背景相关的内容。绝大多数社交网站的注册信息中都包括年龄、性别、所在地等基本属性数据。然而,随着社交网络平台注册用户数量的急剧增加,用户属性信息中存在大量缺失值和错误值的问题逐渐突显出来。
发明内容
针对上述问题,本发明的目的在于提供一种基于行为的社交网络用户属性值反演方法。
为了解决背景技术中所存在的问题,本发明的技术方案为:
一种基于行为的社交网络用户属性值反演方法,包括:
1)、获取目标反演用户的属性信息和参与话题的评论信息;
2)、根据目标反演用户的参与话题的评论信息,获取目标反演用户的行为信息;
3)、在目标反演用户参与的话题下,根据用户的行为信息,获取网络行为相似度,将用户划分成若干细分群体;
4)、获取各个细分群体用户的显著性属性数值,并根据带权重的投票机制对反演目标用户属性值进行反演。
所述步骤2具体包括:
2.1、获取同一话题评论中用户人群的行为信息,行为信息包括评论情感和评论角度;
2.2、根据用户人群的评论情感和评论角度,获取用户之间的行为相似度,所述行为相似度包括情感相似度和角度相似度;
2.3、根据用户之间的行为相似度,将用户人群划分成若干细分群体,所述细分群体内用户的行为相似度大于细分群体间用户的行为相似度。
所述评论情感sentiment分为正向Positive、中立Neutral和负向Negative,并且分别表示为+1、0、-1。
所述评论情感sentiment基于情感词典的情感值计算方法计算用户评论文本的情感,所述情感词典包括:知网(HowNet)情感词典、台湾大学简体中文情感极性词典(NTSUSD)、哈工大整体同义词词林拓展版。
所述评论角度insight为用户对话题t评论词语的集合:
Figure GDA0002991456480000021
其中,wj(1≤j≤m)为一个特征项;
用户u针对一个具体话题t的评论角度向量可以表示为
Figure GDA0002991456480000022
每个特征项wj的对应取值vu(wj)为:
Figure GDA0002991456480000031
所述情感相似度:
Figure GDA0002991456480000032
其中,假设相同话题t,用户ui发表的评论为ci,用户uj发表的评论为cj,那么对于用户ui和uj,如果情感sentiment相同,则情感相似度为1;反之则为0;
所述角度相似度:
Figure GDA0002991456480000033
其中,Q为用户角度矩阵,用户ui
Figure GDA0002991456480000034
共同参与话题t的讨论,角度向量分别为
Figure GDA0002991456480000035
向量间夹角越小,用户评价的角度就越相似;
所述行为相似度:
behaviorSim(ui,uj)=sentimentSim(ui,uj)+insightSim(ui,uj)。
所述将用户人群划分成若干细分群体为通过用户人群AP聚类算法完成人群细分。
所述步骤4)获取各个细分群体用户的显著性属性数值具体为:
采用变异系数(Coefficient of Variation,CV)作为衡量用户属性值统计量间差距的标准,得到具有共同行为特征的人群的最大公共属性;
所述变异系数是对属性值最大类间方差的计算,通过滑动分割的方法将属性值区间分为两个区间,将每个区间看做一个类,分别计算并比较每次分割结果的类间方差,从而得到最大类间方差以及对应的分割方式。
所述步骤4)还包括:获取话题热度,根据话题热度、以及带权重的投票机制进行显著性属性数值计算,获得属性值反演结果,所述话题热度计算公式:
Figure GDA0002991456480000041
ht为话题t的热度,hci为相关评论ci的热度;
Figure GDA0002991456480000042
其中,hci表示评论ci的热度,fli为评论ci发布者的粉丝数,rei为评论ci的转发数,cmi为评论ci的二次评论数。
所述属性值反演结果:
Ai←{<ai1,P(ai1)>,<ai2,P(ai2)>,...,<ais,P(ais)>}
其中:用户属性Ai取值aij的属性值反演概率P(aij):
Figure GDA0002991456480000043
Figure GDA0002991456480000044
为多话题下Ai取值aij的得票数,
Figure GDA0002991456480000045
其中,WR(tx)为话题tx所在热度区间的权重,Ψ(aij)为在话题tx下属性值aij的得票数,利用多话题下各属性值的得票数,定义属性值反演概率作为用户属性Ai取值为aij的概率。
与现有技术相比较,本发明的有益效果为:
本发明提供了一种基于行为的社交网络用户属性值反演方法,基于行为的用户属性值反演方法的思想是针对反演对象在社交网络多话题下的评论行为,利用群体属性值与个体属性值之间的映射策略以及带权重的投票机制,对网络用户的属性值进行推测并将结果赋给反演对象。这种方法一方面可以动态填补和修正用户属性信息中所存在的缺失值、错误值;另一方面为社交网络中的个性化推荐提供更为可靠的原始数据。提高网络用户信息的准确性,最终达到动态填补和修正网络用户属性缺失值和错误值的目的。
附图说明
图1是本发明基于行为的社交网络用户属性值反演方法流程图;
图2是本发明基于行为的社交网络用户属性值反演框图;
图3是本发明基于行为的社交网络用户细分方法流程图。
具体实施方式
下面结合附图对本发明做详细描述。
如图1、2所示,本发明提供了一种基于行为的社交网络用户属性值反演方法,包括:
步骤1)、获取目标反演用户的属性信息和参与话题的评论信息;
具体的,社交网络用户经常在平台上关注并评论某些热点话题或感兴趣的内容,这些评论都是网络用户自身立场的真实体现。确定反演对象是该方法的第一步,也是最重要的一步。截止2015年6月,新浪微博用户已超过5.6亿,且增长趋势稳定。用户群体分为两大类型:个人用户和机构及组织用户。个人用户主要包含名人用户和普通用户。名人用户的账号主要作用是宣传自己,提高知名度;而普通用户则是自然用户实体在社交网络中的真实体现。普通用户数量多,属性特征分布广泛。
用户主要通过社交网络了解热点话题或新闻资讯,表达自我观点和情绪,扩展交友圈,这类用户是网络话题评论的主力军。而机构及组织类型的用户主要包括企业用户和公益组织用户两种,他们关注的领域虽不同,但都是利用社交网络达到品牌营销或弘扬正能量的目的。
由此可见,名人用户和机构及组织用户的属性值都是相对公开的,且真实性已验证,而普通用户的属性值信息填写自由度很大,最容易存在缺失值和错误值的问题。因此这类用户群体将成为基于行为的属性值反演方法的基础用户。
本发明将在基础用户中再次筛选符合反演条件的对象,为保证基于行为的属性值反演方法的有效性,反演对象需满足以下条件:
1.具有稳定的网络行为模式。反演对象必须在社交网络中具有一定的存在性,这种存在性主要包括稳定时间和稳定行为模式两个方面。稳定时间指的是用户账号注册时间t0与当前反演时间t*满足t*-t0≥ξ,其中ξ为用户指定的时间跨度。这样的用户账号成为临时账号的可能性很小,且具有长期参与社交网络活动的趋势。稳定的行为模式代表用户在社交网络中能够积极参与话题活动,对感兴趣的内容能够转发、点赞、评论等。本章将用户参与讨论话题的数量作为衡量标准,若话题集合T满足条件|T|>δ,则认为该用户的行为模式是稳定的。
2.活跃用户。活跃用户是指该用户在一定时间内参与社交活动的行为是频繁的,转发、评论等行为都可表明该用户是活跃的,这样就可排除一些“僵尸号”。衡量用户是否活跃的判定依据包含3个变化率因子:
(1)微博数变化率Tw,令Tw(x)表示用户截止到x时刻的微博发送总数,则用户在任意时间段j-i的微博数量变化率为:
Figure GDA0002991456480000061
(2)关注数变化率Fo,令Fo(x)表示用户截止到x时刻的关注数,则用户在任意时间段j-i的关注数量变化率为:
Figure GDA0002991456480000062
(3)收藏数变化率Fa,令Fa(x)表示用户截止到x时刻的收藏数,则用户在任意时间段j-i的收藏数量变化率为:
Figure GDA0002991456480000071
当max(tw,fo,fa,)≠0时,说明在时间段j-i内,用户是活跃的。
3.属性值缺失或错误情况严重。通过对用户属性值信息填写情况的观察,属性值缺失和错误的情况非常普遍。部分用户只填写性别,其他的基本属性值均为空,造成缺失值的出现;还有一些用户经常的签到地点与注册地点不一致,这属于错误值。
步骤2)、根据目标反演用户的参与话题的评论信息,获取目标反演用户的行为信息;
如图3所示:
2.1、获取同一话题评论中用户人群的行为信息,行为信息包括评论情感和评论角度;
2.2、根据用户人群的评论情感和评论角度,获取用户之间的行为相似度,所述行为相似度包括情感相似度和角度相似度;
其中,所述评论情感sentiment分为正向Positive、中立Neutral和负向Negative,并且分别表示为+1、0、-1。
如表1所示。
表1评论情感分类
Figure GDA0002991456480000072
Figure GDA0002991456480000081
所述评论情感sentiment基于情感词典的情感值计算方法计算用户评论文本的情感,所述情感词典包括:知网(HowNet)情感词典、台湾大学简体中文情感极性词典(NTSUSD)、哈工大整体同义词词林拓展版。否定副词属于副词的一种,否定副词的每次出现都会使得单句的情感极性转向,因此可以认为是情感极性方向系数,其值为-1。
由此可知,当单句clause中某个情感词的情感值为si,si对应的否定副词出现次数为
Figure GDA0002991456480000082
si对应的程度副词的程度值为
Figure GDA0002991456480000083
假设一个单句中含有n个情感词,则单句情感值score计算如下:
Figure GDA0002991456480000084
至此,单句的情感值已可以计算,但是话题下的一条评论往往是由几个单句共同组成的。根据NLP&CC2013会议对约4000条中文微博的分析发现,绝大多数微博评论包含1~6个单句。因此一条评论c的情感值应为多个单句情感值的和。
所述情感相似度:
Figure GDA0002991456480000085
其中,用户ui发表的评论为ci,用户uj发表的评论为cj,用户ui,uj如果情感sentiment相同,则情感相似度为1,反之则为0;
所述评论角度insight为用户对话题t评论词语的集合:
Figure GDA0002991456480000086
其中,wj(1≤j≤m)为一个特征项;
用户u针对一个具体话题t的评论角度向量可以表示为
Figure GDA0002991456480000091
每个特征项wj的对应取值vu(wj)为:
Figure GDA0002991456480000092
本发明采用向量空间模型(Vector Space Model)对用户评论角度进行计算。由于每个特征项wj∈insight(t)(1≤j≤m)的出现概率和频率都不相同,因此每个特征项将被赋予不同的权重。对于话题t,用户ui的评论集合中特征项wj对应的权重为qij,用户的评论角度如公式所示:
Figure GDA0002991456480000093
用户的评论文本形式化表示后可以映射成多维空间中的一个点,而其评论角度则由该点所对应的向量表示。
每个特征项所含信息熵不同,对评论文本集合的贡献程度自然也是不同的。为兼顾特征项在评论文本集合中的重要性,本文引入特征项权重概念,采用TF-IDF权重计算方法,根据特征项在文本集合中出现频率与在其他文本中出现频率成反比的特性判断特征项是否具有区分性。权重qij计算方法如公式所示:
qij=tfij×idfij
其中,tfij表示特征项wj在话题t的评论文本集合中出现的频率。通常特征项wj在集合C中出现的次数越多,tfij越大,说明特征项wj能够代表话题t评论角度的概率就越大。idfij为特征项wj的逆文档因子,反映特征项wj在评论文本集合C中的分布情况,即包含特征项wj的评论数量越多,idfij值越小,特征项wj区分评论角度的能力就越弱。idfij计算方法如公式所示:
Figure GDA0002991456480000094
其中,N为评论集合C中文本数量,nj为包含特征项wj的评论文本数。idfij值作为一个全局因子,考虑的并不是单条评论中特征项wj的重要性,而是整个评论分词集合中特征项wj的相对重要性。为方便计算,一般都采用归一化的TF-IDF函数:
Figure GDA0002991456480000101
其中M为评论分词集合C中包含特征项wj的数量。
为规范化表示用户评论角度,本文将特征项wj按照TF-IDF计算结果降序排列,构建p个网络用户评论角度矩阵Q,如公式所示:
Figure GDA0002991456480000102
在矩阵Q中,行向量为用户的评论角度向量,列向量代表特征项在用户集合上的权重向量,表示为q1,q2,...,qm,矩阵中的元素qij是用户ui对应特征项wj的权重值。
用户评论角度的相似度度量就可转化为文本向量相似度的计算,本文采用余弦相似度计算用户的角度相似度。
设用户ui
Figure GDA0002991456480000103
共同参与具体话题t的讨论,角度向量分别为
Figure GDA0002991456480000104
向量间夹角越小,用户评价的角度就越相似。那么用户ui和uj之间角度相似度的计算方法如下式所示。
Figure GDA0002991456480000105
2.3、根据用户之间的行为相似度,将用户人群划分成若干细分群体,所述细分群体内用户的行为相似度大于细分群体间用户的行为相似度。
行为相似度是对用户评论情感sentiment和角度insight两方面相似度的综合度量。用户ui和uj的行为相似度behaviorSim(ui,uj)如公式所示:
behaviorSim(ui,uj)=sentimentSim(ui,uj)+insightSim(ui,uj)
据用户行为相似度度量结果behaviorSim(ui,uj)构建用户行为相似度矩阵B。其中,B为对阵矩阵,对角线元素均为1且
behaviorSim(ui,uj)=behaviorSim(uj,ui)
设参与具体话题评论的用户人群为
Figure GDA0002991456480000111
基于行为相似度将用户人群
Figure GDA0002991456480000112
划分成若干细分群体
Figure GDA0002991456480000113
在这里,细分群体内用户ui、uj的行为相似度大于细分群体间用户ui、uk的行为相似度,即
Figure GDA0002991456480000114
Figure GDA0002991456480000115
步骤3)、在目标反演用户参与的话题下,根据用户的行为信息,获取网络行为相似度,将用户划分成若干细分群体;
本发明采用AP聚类算法完成人群细分工作,算法中涉及到的参数说明如表2所示。
表2用户人群AP聚类算法参数符号
Figure GDA0002991456480000116
Figure GDA0002991456480000121
步骤4)、获取各个细分群体用户的显著性属性数值,并根据带权重的投票机制对反演目标用户属性值进行反演。
获取各个细分群体用户的显著性属性数值具体为:
采用变异系数(Coefficient of Variation,CV)作为衡量用户属性值统计量间差距的标准,得到具有共同行为特征的人群的最大公共属性;
所述变异系数是对属性值最大类间方差的计算,通过滑动分割的方法将属性值区间分为两个区间,将每个区间看作一个类,分别计算并比较每次分割结果的类间方差,从而得到最大类间方差以及对应的分割方式。
在话题t下,利用基于用户网络行为的人群细分算法,将评论用户人群细分为
Figure GDA0002991456480000131
任一细分群体中用户属性Ai的取值范围为DOM(Ai)={ai1,ai2,...,aik},k为属性Ai的取值个数。在变异系数CV下,具有用户数量最大类间方差的属性即为该话题下的显著性属性。
通过对细分群体中用户属性值情况的统计,本文使用Mi表示任一细分群体中属性Ai各取值数量降序排列后的集合,Mij为包含属性值aij的用户人数,则Mi={Mi1,Mi2,...,Mik},集合Mi的总方差计算如公式所示:
Figure GDA0002991456480000132
由于Mi具有k个取值,所以需要对集合进行k-1次分割,得到k-1个类间方差。在每次计算类间方差时,Mi都会被划分成两个类
Figure GDA0002991456480000133
Figure GDA0002991456480000134
分别计算
Figure GDA0002991456480000135
的平均值,如公式所示:
Figure GDA0002991456480000136
Figure GDA0002991456480000137
根据大津阈值分割法中类内方差以及类间方差的定义,类内方差σw(Mi)计算公式如下:
Figure GDA0002991456480000138
类间方差计算如下:
σb 2(Mi)=σ2(Mi)-σ2 w(Mi)
选取k-1个类间方差中的最大值max(σ2 b),并计算变异系数CV,如公式所示:
Figure GDA0002991456480000141
当CV≥θ时,说明两个类中数据的差距足够大,此时属性Ai可称之为显著性属性,显著性属性所对应的属性值域为{ai1,ai2,...,ais}(1≤s≤k)。在这里,阈值θ可根据实际情况取值或由用户给出。
所述步骤4)还包括:获取话题热度,根据话题热度、以及带权重的投票机制进行显著性属性数值计算,获得属性值反演结果,所述话题热度计算公式:
Figure GDA0002991456480000142
ht为话题t的热度,hci为相关评论ci的热度;
Figure GDA0002991456480000143
其中,hci表示评论ci的热度,fli为评论ci发布者的粉丝数,rei为评论ci的转发数,cmi为评论ci的二次评论数。
所述属性值反演结果:
Ai←{<ai1,P(ai1)>,<ai2,P(ai2)>,...,<ais,P(ais)>}
其中:用户属性Ai取值aij的属性值反演概率P(aij):
Figure GDA0002991456480000144
Figure GDA0002991456480000145
为多话题下Ai取值aij的得票数,
Figure GDA0002991456480000146
其中,WR(tx)为话题tx所在热度区间的权重,Ψ(aij)为在话题tx下属性值aij的得票数。利用多话题下各属性值的得票数,定义属性值反演概率作为用户属性Ai取值为aij的概率。
本文在用户属性值反演过程中加入了带权重的投票机制,这样做具有以下几个优点:
(1)带权重的投票机制体现的是多个话题反演结果经过交叉验证后的最优解,具有一定的代表性,能够最大程度上减少异常值或错误值对结果的影响。
(2)带权重的投票机制对不同热度话题反演属性值的能力进行了区分,热度高的话题,其属性值反演能力较强,相对权重较大。这样能够弱化低热度话题对反演结果的影响,得到更加全面、准确的结果。
(3)带权重的投票机制成本极低,执行过程相对简单直接,能够降低计算时间和空间复杂度,提高***的运行效率。
对于本领域技术人员而言,显然能了解到上述具体实施例只是本发明的优选方案,因此本领域的技术人员对本发明中的某些部分所可能做出的改进、变动,体现的仍是本发明的原理,实现的仍是本发明的目的,均属于本发明所保护的范围。

Claims (7)

1.一种基于行为的社交网络用户属性值反演方法,其特征在于,包括:
1)、获取目标反演用户的属性信息和参与话题的评论信息;
2)、根据目标反演用户的参与话题的评论信息,获取目标反演用户的行为信息;
3)、在目标反演用户参与的话题下,根据用户的行为信息,获取网络行为相似度,将用户划分成若干细分群体;
4)、获取各个细分群体用户的显著性属性数值,并根据带权重的投票机制对目标反演用户属性值进行反演;
所述步骤2具体包括:
2.1、获取同一话题评论中用户人群的行为信息,行为信息包括评论情感和评论角度;
2.2、根据用户人群的评论情感和评论角度,获取用户之间的行为相似度,所述行为相似度包括情感相似度和角度相似度;
2.3、根据用户之间的行为相似度,将用户人群划分成若干细分群体,所述细分群体内用户的行为相似度大于细分群体间用户的行为相似度;
所述步骤4)获取各个细分群体用户的显著性属性数值具体为:
采用变异系数作为衡量用户属性值统计量间差距的标准,得到具有共同行为特征的人群的最大公共属性;
所述变异系数是对属性值最大类间方差的计算,通过滑动分割的方法将属性值区间分为两个区间,将每个区间看作一个类,分别计算并比较每次分割结果的类间方差,从而得到最大类间方差以及对应的分割方式;
所述评论角度insightu(t)为用户u对话题t评论词语的集合:
insightu(t)={wj|wj∈insight(t)},
Figure FDA0003023845810000011
其中,wj为一个特征项,1≤j≤m;
用户u针对一个具体话题t的评论角度向量可以表示为
Figure FDA0003023845810000025
每个特征项wj的对应取值vu(wj)为:
Figure FDA0003023845810000021
2.根据权利要求1所述的基于行为的社交网络用户属性值反演方法,其特征在于,所述评论情感sentiment分为正向Positive、中立Neutral和负向Negative,并且分别表示为+1、0、-1。
3.根据权利要求1或2所述的基于行为的社交网络用户属性值反演方法,其特征在于,所述评论情感sentiment为基于情感词典的情感值计算方法计算用户评论文本的情感,所述情感词典包括:知网情感词典、台湾大学简体中文情感极性词典、哈工大整体同义词词林拓展版。
4.根据权利要求1所述的基于行为的社交网络用户属性值反演方法,其特征在于,所述情感相似度:
Figure FDA0003023845810000022
其中,假设相同话题t,用户ui发表的评论为ci',用户uj发表的评论为cj',那么对于用户ui和uj,如果情感sentiment相同,则情感相似度为1;反之则为0;
所述角度相似度:
Figure FDA0003023845810000023
Figure FDA0003023845810000024
其中,Q为用户角度矩阵,用户ui和uj,共同参与话题t的讨论,角度向量分别为
Figure FDA0003023845810000031
向量间夹角越小,用户评价的角度就越相似;对于话题t,用户ui的评论集合中特征项wj对应的权重为qij,用户的评论角度如公式所示:
Figure FDA0003023845810000032
所述行为相似度:
behaviorSim(ui,uj)=sentimentSim(ui,uj)+insightSim(ui,uj)。
5.根据权利要求1所述的基于行为的社交网络用户属性值反演方法,其特征在于,所述将用户人群划分成若干细分群体为通过用户人群AP聚类算法完成人群细分。
6.根据权利要求1所述的基于行为的社交网络用户属性值反演方法,其特征在于,所述步骤4)还包括:获取话题热度,根据话题热度、以及带权重的投票机制进行显著性属性数值计算,获得属性值反演结果,所述话题热度计算公式:
Figure FDA0003023845810000033
ht为话题t的热度,hci为相关评论ci的热度;
Figure FDA0003023845810000034
其中,fli为评论ci发布者的粉丝数,rei为评论ci的转发数,cmi为评论ci的二次评论数。
7.根据权利要求1所述的基于行为的社交网络用户属性值反演方法,其特征在于,所述属性值反演结果:
Ai'←{<ai'1,P(ai'1)>,<ai'2,P(ai'2)>,...,<ai's,P(ai's)>}
其中,用户属性Ai'取值ai'j'的属性值反演概率P(ai'j'):
Figure FDA0003023845810000041
Figure FDA0003023845810000042
为多话题下Ai'取值ai'j'的得票数,
Figure FDA0003023845810000043
其中,WR(tx)为话题tx所在热度区间的权重,Ψ(ai'j')为在话题tx下属性值ai'j'的得票数,利用多话题下各属性值的得票数,定义属性值反演概率作为用户属性Ai' 取值为ai' j'的概率。
CN201710957182.5A 2017-10-16 2017-10-16 一种基于行为的社交网络用户属性值反演方法 Expired - Fee Related CN107590742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710957182.5A CN107590742B (zh) 2017-10-16 2017-10-16 一种基于行为的社交网络用户属性值反演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710957182.5A CN107590742B (zh) 2017-10-16 2017-10-16 一种基于行为的社交网络用户属性值反演方法

Publications (2)

Publication Number Publication Date
CN107590742A CN107590742A (zh) 2018-01-16
CN107590742B true CN107590742B (zh) 2021-06-22

Family

ID=61052592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710957182.5A Expired - Fee Related CN107590742B (zh) 2017-10-16 2017-10-16 一种基于行为的社交网络用户属性值反演方法

Country Status (1)

Country Link
CN (1) CN107590742B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108876018A (zh) * 2018-05-30 2018-11-23 深圳投时科技有限公司 一种基于群体情绪的预测方法、装置、***、服务器及终端
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144780A1 (en) * 2007-11-29 2009-06-04 John Toebes Socially collaborative filtering
CN104050258A (zh) * 2014-06-15 2014-09-17 中国传媒大学 一种基于兴趣群组的群体推荐方法
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机***有限公司 用户属性信息的生成方法及***
CN106295702A (zh) * 2016-08-15 2017-01-04 西北工业大学 一种基于个体情感行为分析的社交平台用户分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144780A1 (en) * 2007-11-29 2009-06-04 John Toebes Socially collaborative filtering
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机***有限公司 用户属性信息的生成方法及***
CN104050258A (zh) * 2014-06-15 2014-09-17 中国传媒大学 一种基于兴趣群组的群体推荐方法
CN106295702A (zh) * 2016-08-15 2017-01-04 西北工业大学 一种基于个体情感行为分析的社交平台用户分类方法

Also Published As

Publication number Publication date
CN107590742A (zh) 2018-01-16

Similar Documents

Publication Publication Date Title
Khanam et al. The homophily principle in social network analysis: A survey
Ren et al. Predicting user-topic opinions in twitter with social and topical context
Hu et al. Social spammer detection with sentiment information
Forestier et al. Roles in social networks: Methodologies and research issues
Sharma et al. A document-level sentiment analysis approach using artificial neural network and sentiment lexicons
Qiu et al. Modeling user arguments, interactions, and attributes for stance prediction in online debate forums
Rokade et al. Business intelligence analytics using sentiment analysis-a survey
Yang et al. Microblog sentiment analysis via embedding social contexts into an attentive LSTM
Lewenberg et al. Using emotions to predict user interest areas in online social networks
Nugroho et al. Deriving topics in twitter by exploiting tweet interactions
Wang et al. A multidimensional nonnegative matrix factorization model for retweeting behavior prediction
Joshi et al. Political issue extraction model: A novel hierarchical topic model that uses tweets by political and non-political authors
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
Badami et al. Detecting polarization in ratings: An automated pipeline and a preliminary quantification on several benchmark data sets
CN107590742B (zh) 一种基于行为的社交网络用户属性值反演方法
Yang et al. BMP: A blockchain assisted meme prediction method through exploring contextual factors from social networks
Wei et al. Using network flows to identify users sharing extremist content on social media
Granskogen Automatic detection of fake news in social media using contextual information
Li et al. Expertise network discovery via topic and link analysis in online communities
Gao et al. Discriminating topical influencers based on the user relative emotion
Abdaoui et al. Collaborative content-based method for estimating user reputation in online forums
Zheng et al. Identifying labor market competitors with machine learning based on maimai platform
Wang et al. Microblog sentiment orientation detection using user interactive relationship
Wang et al. Towards fake news refuter identification: Mixture of Chi-Merge grounded CNN approach
Chao et al. Opinion mining and the visualization of stock selection in quantitative trading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210622

Termination date: 20211016

CF01 Termination of patent right due to non-payment of annual fee