CN107590742B

CN107590742B - 一种基于行为的社交网络用户属性值反演方法

Info

Publication number: CN107590742B
Application number: CN201710957182.5A
Authority: CN
Inventors: 赵志滨; 姚兰; 于戈; 鲍玉斌; 陈郭成; 刘佳良; 张天成; 李芳芳; 许存立; 刘欢; 王勋; 储佳红; 唐梦娇; 徐瑛蔚; 李壮; 王宗怡; 石玉鑫; 梁睿博; 杨泽清; 赵永恒
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2021-06-22
Anticipated expiration: 2037-10-16
Also published as: CN107590742A

Abstract

本发明公开了一种基于行为的社交网络用户属性值反演方法，基于行为的用户属性值反演方法的思想是针对反演对象在社交网络多话题下的评论行为，发现与反演对象具有相似网络行为的人群，再利用群体属性值与个体属性值之间的映射策略以及带权重的投票机制，对网络用户的属性值进行推测并将结果赋给反演对象。这种方法一方面可以动态填补和修正用户属性信息中所存在的缺失值、错误值；更进一步可以为社交网络中的个性化推荐提供更为可靠的原始数据。提高网络用户信息的准确性，最终达到动态填补和修正网络用户属性缺失值和错误值的目的。

Description

一种基于行为的社交网络用户属性值反演方法

技术领域

本发明涉及社交网络技术领域，尤其涉及一种基于行为的社交网络用户属性值反演方法。

背景技术

近几年，互联网的高速发展大大提升了社交网络的关注度，许多社交平台不仅为用户展示快速、全面的社会舆情信息，还为科学研究提供了大量的实时参考数据。

社交网络为人们快速了解热点话题、社会新闻带来便捷，用户关注消息的方式也从平面媒体转变为网络媒体。用户在注册社交网络平台账号时需要填写本人属性信息，这些数据将会作为简介展示在个人主页中。但是不同社交网站注册的基本属性信息类别不尽相同，如Facebook要求用户填写兴趣、学校等信息，而Linkin则更加注重与用户教育背景、工作背景相关的内容。绝大多数社交网站的注册信息中都包括年龄、性别、所在地等基本属性数据。然而,随着社交网络平台注册用户数量的急剧增加，用户属性信息中存在大量缺失值和错误值的问题逐渐突显出来。

发明内容

针对上述问题，本发明的目的在于提供一种基于行为的社交网络用户属性值反演方法。

为了解决背景技术中所存在的问题，本发明的技术方案为：

一种基于行为的社交网络用户属性值反演方法，包括：

1)、获取目标反演用户的属性信息和参与话题的评论信息；

2)、根据目标反演用户的参与话题的评论信息，获取目标反演用户的行为信息；

3)、在目标反演用户参与的话题下，根据用户的行为信息,获取网络行为相似度，将用户划分成若干细分群体；

4)、获取各个细分群体用户的显著性属性数值，并根据带权重的投票机制对反演目标用户属性值进行反演。

所述步骤2具体包括：

2.1、获取同一话题评论中用户人群的行为信息，行为信息包括评论情感和评论角度；

2.2、根据用户人群的评论情感和评论角度,获取用户之间的行为相似度，所述行为相似度包括情感相似度和角度相似度；

2.3、根据用户之间的行为相似度，将用户人群划分成若干细分群体，所述细分群体内用户的行为相似度大于细分群体间用户的行为相似度。

所述评论情感sentiment分为正向Positive、中立Neutral和负向Negative，并且分别表示为+1、0、-1。

所述评论情感sentiment基于情感词典的情感值计算方法计算用户评论文本的情感，所述情感词典包括：知网(HowNet)情感词典、台湾大学简体中文情感极性词典(NTSUSD)、哈工大整体同义词词林拓展版。

所述评论角度insight为用户对话题t评论词语的集合：

其中，w_j(1≤j≤m)为一个特征项；

用户u针对一个具体话题t的评论角度向量可以表示为

每个特征项w_j的对应取值v_u(w_j)为：

所述情感相似度：

其中，假设相同话题t，用户u_i发表的评论为c_i，用户u_j发表的评论为c_j，那么对于用户u_i和u_j，如果情感sentiment相同，则情感相似度为1；反之则为0；

所述角度相似度：

其中，Q为用户角度矩阵，用户u_i和

共同参与话题t的讨论，角度向量分别为

向量间夹角越小，用户评价的角度就越相似；

所述行为相似度：

behaviorSim(u_i,u_j)＝sentimentSim(u_i,u_j)+insightSim(u_i,u_j)。

所述将用户人群划分成若干细分群体为通过用户人群AP聚类算法完成人群细分。

所述步骤4)获取各个细分群体用户的显著性属性数值具体为：

采用变异系数(Coefficient of Variation，CV)作为衡量用户属性值统计量间差距的标准，得到具有共同行为特征的人群的最大公共属性；

所述变异系数是对属性值最大类间方差的计算，通过滑动分割的方法将属性值区间分为两个区间，将每个区间看做一个类，分别计算并比较每次分割结果的类间方差，从而得到最大类间方差以及对应的分割方式。

所述步骤4)还包括：获取话题热度，根据话题热度、以及带权重的投票机制进行显著性属性数值计算，获得属性值反演结果，所述话题热度计算公式：

ht为话题t的热度，hc_i为相关评论c_i的热度；

其中，hc_i表示评论c_i的热度，fl_i为评论c_i发布者的粉丝数，re_i为评论c_i的转发数，cm_i为评论c_i的二次评论数。

所述属性值反演结果：

A_i←{＜a_i1,P(a_i1)＞,＜a_i2,P(a_i2)＞,...,＜a_is,P(a_is)＞}

其中：用户属性A_i取值a_ij的属性值反演概率P(a_ij)：

为多话题下A_i取值a_ij的得票数，

其中，W_R(t_x)为话题t_x所在热度区间的权重，Ψ(a_ij)为在话题t_x下属性值a_ij的得票数，利用多话题下各属性值的得票数，定义属性值反演概率作为用户属性A_i取值为a_ij的概率。

与现有技术相比较，本发明的有益效果为：

本发明提供了一种基于行为的社交网络用户属性值反演方法，基于行为的用户属性值反演方法的思想是针对反演对象在社交网络多话题下的评论行为，利用群体属性值与个体属性值之间的映射策略以及带权重的投票机制，对网络用户的属性值进行推测并将结果赋给反演对象。这种方法一方面可以动态填补和修正用户属性信息中所存在的缺失值、错误值；另一方面为社交网络中的个性化推荐提供更为可靠的原始数据。提高网络用户信息的准确性，最终达到动态填补和修正网络用户属性缺失值和错误值的目的。

附图说明

图1是本发明基于行为的社交网络用户属性值反演方法流程图；

图2是本发明基于行为的社交网络用户属性值反演框图；

图3是本发明基于行为的社交网络用户细分方法流程图。

具体实施方式

下面结合附图对本发明做详细描述。

如图1、2所示，本发明提供了一种基于行为的社交网络用户属性值反演方法，包括：

步骤1)、获取目标反演用户的属性信息和参与话题的评论信息；

具体的，社交网络用户经常在平台上关注并评论某些热点话题或感兴趣的内容，这些评论都是网络用户自身立场的真实体现。确定反演对象是该方法的第一步，也是最重要的一步。截止2015年6月，新浪微博用户已超过5.6亿，且增长趋势稳定。用户群体分为两大类型：个人用户和机构及组织用户。个人用户主要包含名人用户和普通用户。名人用户的账号主要作用是宣传自己，提高知名度；而普通用户则是自然用户实体在社交网络中的真实体现。普通用户数量多，属性特征分布广泛。

用户主要通过社交网络了解热点话题或新闻资讯，表达自我观点和情绪，扩展交友圈，这类用户是网络话题评论的主力军。而机构及组织类型的用户主要包括企业用户和公益组织用户两种，他们关注的领域虽不同，但都是利用社交网络达到品牌营销或弘扬正能量的目的。

由此可见，名人用户和机构及组织用户的属性值都是相对公开的，且真实性已验证，而普通用户的属性值信息填写自由度很大，最容易存在缺失值和错误值的问题。因此这类用户群体将成为基于行为的属性值反演方法的基础用户。

本发明将在基础用户中再次筛选符合反演条件的对象，为保证基于行为的属性值反演方法的有效性，反演对象需满足以下条件：

1.具有稳定的网络行为模式。反演对象必须在社交网络中具有一定的存在性，这种存在性主要包括稳定时间和稳定行为模式两个方面。稳定时间指的是用户账号注册时间t₀与当前反演时间t^*满足t^*-t₀≥ξ，其中ξ为用户指定的时间跨度。这样的用户账号成为临时账号的可能性很小，且具有长期参与社交网络活动的趋势。稳定的行为模式代表用户在社交网络中能够积极参与话题活动，对感兴趣的内容能够转发、点赞、评论等。本章将用户参与讨论话题的数量作为衡量标准，若话题集合T满足条件|T|＞δ，则认为该用户的行为模式是稳定的。

2.活跃用户。活跃用户是指该用户在一定时间内参与社交活动的行为是频繁的，转发、评论等行为都可表明该用户是活跃的，这样就可排除一些“僵尸号”。衡量用户是否活跃的判定依据包含3个变化率因子：

(1)微博数变化率Tw，令Tw(x)表示用户截止到x时刻的微博发送总数，则用户在任意时间段j-i的微博数量变化率为：

(2)关注数变化率Fo，令Fo(x)表示用户截止到x时刻的关注数，则用户在任意时间段j-i的关注数量变化率为：

(3)收藏数变化率Fa，令Fa(x)表示用户截止到x时刻的收藏数，则用户在任意时间段j-i的收藏数量变化率为：

当max(tw,fo,fa,)≠0时，说明在时间段j-i内，用户是活跃的。

3.属性值缺失或错误情况严重。通过对用户属性值信息填写情况的观察，属性值缺失和错误的情况非常普遍。部分用户只填写性别，其他的基本属性值均为空，造成缺失值的出现；还有一些用户经常的签到地点与注册地点不一致，这属于错误值。

步骤2)、根据目标反演用户的参与话题的评论信息，获取目标反演用户的行为信息；

如图3所示：

其中，所述评论情感sentiment分为正向Positive、中立Neutral和负向Negative，并且分别表示为+1、0、-1。

如表1所示。

表1评论情感分类

所述评论情感sentiment基于情感词典的情感值计算方法计算用户评论文本的情感，所述情感词典包括：知网(HowNet)情感词典、台湾大学简体中文情感极性词典(NTSUSD)、哈工大整体同义词词林拓展版。否定副词属于副词的一种，否定副词的每次出现都会使得单句的情感极性转向，因此可以认为是情感极性方向系数，其值为-1。

由此可知，当单句clause中某个情感词的情感值为s_i，s_i对应的否定副词出现次数为

s_i对应的程度副词的程度值为

假设一个单句中含有n个情感词，则单句情感值score计算如下：

至此，单句的情感值已可以计算，但是话题下的一条评论往往是由几个单句共同组成的。根据NLP&CC2013会议对约4000条中文微博的分析发现，绝大多数微博评论包含1～6个单句。因此一条评论c的情感值应为多个单句情感值的和。

所述情感相似度：

其中，用户u_i发表的评论为c_i，用户u_j发表的评论为c_j，用户u_i，u_j如果情感sentiment相同，则情感相似度为1，反之则为0；

所述评论角度insight为用户对话题t评论词语的集合：

其中，w_j(1≤j≤m)为一个特征项；

用户u针对一个具体话题t的评论角度向量可以表示为

每个特征项w_j的对应取值v_u(w_j)为：

本发明采用向量空间模型(Vector Space Model)对用户评论角度进行计算。由于每个特征项w_j∈insight(t)(1≤j≤m)的出现概率和频率都不相同，因此每个特征项将被赋予不同的权重。对于话题t，用户u_i的评论集合中特征项w_j对应的权重为q_ij，用户的评论角度如公式所示：

用户的评论文本形式化表示后可以映射成多维空间中的一个点，而其评论角度则由该点所对应的向量表示。

每个特征项所含信息熵不同，对评论文本集合的贡献程度自然也是不同的。为兼顾特征项在评论文本集合中的重要性，本文引入特征项权重概念，采用TF-IDF权重计算方法，根据特征项在文本集合中出现频率与在其他文本中出现频率成反比的特性判断特征项是否具有区分性。权重q_ij计算方法如公式所示：

q_ij＝tf_ij×idf_ij

其中，tf_ij表示特征项w_j在话题t的评论文本集合中出现的频率。通常特征项w_j在集合C中出现的次数越多，tf_ij越大，说明特征项w_j能够代表话题t评论角度的概率就越大。idf_ij为特征项w_j的逆文档因子，反映特征项w_j在评论文本集合C中的分布情况，即包含特征项w_j的评论数量越多，idf_ij值越小，特征项w_j区分评论角度的能力就越弱。idf_ij计算方法如公式所示：

其中，N为评论集合C中文本数量，n_j为包含特征项w_j的评论文本数。idf_ij值作为一个全局因子，考虑的并不是单条评论中特征项w_j的重要性，而是整个评论分词集合中特征项w_j的相对重要性。为方便计算，一般都采用归一化的TF-IDF函数：

其中M为评论分词集合C中包含特征项w_j的数量。

为规范化表示用户评论角度，本文将特征项w_j按照TF-IDF计算结果降序排列，构建p个网络用户评论角度矩阵Q，如公式所示：

在矩阵Q中，行向量为用户的评论角度向量，列向量代表特征项在用户集合上的权重向量，表示为q₁,q₂,...,q_m，矩阵中的元素q_ij是用户u_i对应特征项w_j的权重值。

用户评论角度的相似度度量就可转化为文本向量相似度的计算，本文采用余弦相似度计算用户的角度相似度。

设用户u_i和

共同参与具体话题t的讨论，角度向量分别为

向量间夹角越小，用户评价的角度就越相似。那么用户u_i和u_j之间角度相似度的计算方法如下式所示。

行为相似度是对用户评论情感sentiment和角度insight两方面相似度的综合度量。用户u_i和u_j的行为相似度behaviorSim(u_i,u_j)如公式所示：

behaviorSim(u_i,u_j)＝sentimentSim(u_i,u_j)+insightSim(u_i,u_j)

据用户行为相似度度量结果behaviorSim(u_i,u_j)构建用户行为相似度矩阵B。其中，B为对阵矩阵，对角线元素均为1且

behaviorSim(u_i,u_j)＝behaviorSim(u_j,u_i)

设参与具体话题评论的用户人群为

基于行为相似度将用户人群

划分成若干细分群体

在这里，细分群体内用户u_i、u_j的行为相似度大于细分群体间用户u_i、u_k的行为相似度，即

步骤3)、在目标反演用户参与的话题下，根据用户的行为信息,获取网络行为相似度，将用户划分成若干细分群体；

本发明采用AP聚类算法完成人群细分工作，算法中涉及到的参数说明如表2所示。

表2用户人群AP聚类算法参数符号

步骤4)、获取各个细分群体用户的显著性属性数值，并根据带权重的投票机制对反演目标用户属性值进行反演。

获取各个细分群体用户的显著性属性数值具体为：

所述变异系数是对属性值最大类间方差的计算，通过滑动分割的方法将属性值区间分为两个区间，将每个区间看作一个类，分别计算并比较每次分割结果的类间方差，从而得到最大类间方差以及对应的分割方式。

在话题t下，利用基于用户网络行为的人群细分算法，将评论用户人群细分为

任一细分群体中用户属性A_i的取值范围为DOM(A_i)＝{a_i1,a_i2,...,a_ik}，k为属性A_i的取值个数。在变异系数CV下，具有用户数量最大类间方差的属性即为该话题下的显著性属性。

通过对细分群体中用户属性值情况的统计，本文使用M_i表示任一细分群体中属性A_i各取值数量降序排列后的集合，M_ij为包含属性值a_ij的用户人数，则M_i＝{M_i1,M_i2,...,M_ik}，集合M_i的总方差计算如公式所示：

由于M_i具有k个取值，所以需要对集合进行k-1次分割，得到k-1个类间方差。在每次计算类间方差时，M_i都会被划分成两个类

和

分别计算

的平均值，如公式所示：

根据大津阈值分割法中类内方差以及类间方差的定义，类内方差σ_w(M_i)计算公式如下：

类间方差计算如下：

σ_b ²(M_i)＝σ²(M_i)-σ² _w(M_i)

选取k-1个类间方差中的最大值max(σ² _b)，并计算变异系数CV，如公式所示：

当CV≥θ时，说明两个类中数据的差距足够大，此时属性A_i可称之为显著性属性，显著性属性所对应的属性值域为{a_i1,a_i2,...,a_is}(1≤s≤k)。在这里，阈值θ可根据实际情况取值或由用户给出。

ht为话题t的热度，hc_i为相关评论c_i的热度；

所述属性值反演结果：

A_i←{＜a_i1,P(a_i1)＞,＜a_i2,P(a_i2)＞,...,＜a_is,P(a_is)＞}

其中：用户属性A_i取值a_ij的属性值反演概率P(a_ij)：

为多话题下A_i取值a_ij的得票数，

其中，W_R(t_x)为话题t_x所在热度区间的权重，Ψ(a_ij)为在话题t_x下属性值a_ij的得票数。利用多话题下各属性值的得票数，定义属性值反演概率作为用户属性A_i取值为a_ij的概率。

本文在用户属性值反演过程中加入了带权重的投票机制，这样做具有以下几个优点：

(1)带权重的投票机制体现的是多个话题反演结果经过交叉验证后的最优解，具有一定的代表性，能够最大程度上减少异常值或错误值对结果的影响。

(2)带权重的投票机制对不同热度话题反演属性值的能力进行了区分，热度高的话题，其属性值反演能力较强，相对权重较大。这样能够弱化低热度话题对反演结果的影响，得到更加全面、准确的结果。

(3)带权重的投票机制成本极低，执行过程相对简单直接，能够降低计算时间和空间复杂度，提高***的运行效率。

对于本领域技术人员而言，显然能了解到上述具体实施例只是本发明的优选方案，因此本领域的技术人员对本发明中的某些部分所可能做出的改进、变动，体现的仍是本发明的原理，实现的仍是本发明的目的，均属于本发明所保护的范围。

Claims

1.一种基于行为的社交网络用户属性值反演方法，其特征在于，包括：

1)、获取目标反演用户的属性信息和参与话题的评论信息；

4)、获取各个细分群体用户的显著性属性数值，并根据带权重的投票机制对目标反演用户属性值进行反演；

所述步骤2具体包括：

2.3、根据用户之间的行为相似度，将用户人群划分成若干细分群体，所述细分群体内用户的行为相似度大于细分群体间用户的行为相似度；

采用变异系数作为衡量用户属性值统计量间差距的标准，得到具有共同行为特征的人群的最大公共属性；

所述变异系数是对属性值最大类间方差的计算，通过滑动分割的方法将属性值区间分为两个区间，将每个区间看作一个类，分别计算并比较每次分割结果的类间方差，从而得到最大类间方差以及对应的分割方式；

所述评论角度insight_u(t)为用户u对话题t评论词语的集合：

insight_u(t)＝{w_j|w_j∈insight(t)},

其中，w_j为一个特征项,1≤j≤m；

用户u针对一个具体话题t的评论角度向量可以表示为

每个特征项w_j的对应取值v_u(w_j)为：

2.根据权利要求1所述的基于行为的社交网络用户属性值反演方法，其特征在于，所述评论情感sentiment分为正向Positive、中立Neutral和负向Negative，并且分别表示为+1、0、-1。

3.根据权利要求1或2所述的基于行为的社交网络用户属性值反演方法，其特征在于，所述评论情感sentiment为基于情感词典的情感值计算方法计算用户评论文本的情感，所述情感词典包括：知网情感词典、台湾大学简体中文情感极性词典、哈工大整体同义词词林拓展版。

4.根据权利要求1所述的基于行为的社交网络用户属性值反演方法，其特征在于，所述情感相似度：

其中，假设相同话题t，用户u_i发表的评论为c_i'，用户u_j发表的评论为c_j'，那么对于用户u_i和u_j，如果情感sentiment相同，则情感相似度为1；反之则为0；

所述角度相似度：

其中，Q为用户角度矩阵，用户u_i和u_j，共同参与话题t的讨论，角度向量分别为

向量间夹角越小，用户评价的角度就越相似；对于话题t，用户u_i的评论集合中特征项w_j对应的权重为q_ij，用户的评论角度如公式所示：

所述行为相似度：

behaviorSim(u_i,u_j)＝sentimentSim(u_i,u_j)+insightSim(u_i,u_j)。

5.根据权利要求1所述的基于行为的社交网络用户属性值反演方法，其特征在于，所述将用户人群划分成若干细分群体为通过用户人群AP聚类算法完成人群细分。

6.根据权利要求1所述的基于行为的社交网络用户属性值反演方法，其特征在于，所述步骤4)还包括：获取话题热度，根据话题热度、以及带权重的投票机制进行显著性属性数值计算，获得属性值反演结果，所述话题热度计算公式：

ht为话题t的热度，hc_i为相关评论c_i的热度；

其中，fl_i为评论c_i发布者的粉丝数，re_i为评论c_i的转发数，cm_i为评论c_i的二次评论数。

7.根据权利要求1所述的基于行为的社交网络用户属性值反演方法，其特征在于，所述属性值反演结果：

A_i'←{＜a_i'1,P(a_i'1)＞,＜a_i'2,P(a_i'2)＞,...,＜a_i's,P(a_i's)＞}

其中，用户属性A_i'取值a_i'j'的属性值反演概率P(a_i'j')：

为多话题下A_i'取值a_i'j'的得票数，

其中，W_R(t_x)为话题t_x所在热度区间的权重，Ψ(a_i'j')为在话题t_x下属性值a_i'j'的得票数，利用多话题下各属性值的得票数，定义属性值反演概率作为用户属性A_i'取值为a_{i' j'}的概率。