CN103577549B

CN103577549B - 一种基于微博标签的人群画像***和方法

Info

Publication number: CN103577549B
Application number: CN201310481674.3A
Authority: CN
Inventors: 阳德青; 肖仰华; 汪卫
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2013-10-16
Filing date: 2013-10-16
Publication date: 2017-02-15
Anticipated expiration: 2033-10-16
Also published as: CN103577549A

Abstract

本发明属于无线通信网络技术领域，具体为一种基于微博标签的人群画像***和方法，本发明***包含微博标签推荐和标签主题聚类两大模块，其中第一模块中采用一个涵盖三个步骤的标签推荐算法。第一步为同质性标签推荐，第二步为共现性标签扩展；第三步则是以中文知识图谱为基础建立语义网络，利用网络拓扑特性来度量标签之间的语义相似度，从而去除语义相同或相似的标签，保证用来刻画用户的标签精炼性。本发明利用微博用户标签具有广泛的商业应用价值，同时也为互联网用户标签的挖掘算法和中文知识图谱的应用指明了研究方向。

Description

一种基于微博标签的人群画像***和方法

技术领域

本发明属于无线通信网络技术领域，具体涉及一种基于微博标签的人群画像***和方法。

背景技术

微博是现阶段最热门的社交媒体，以新浪、腾讯为代表的国内微博网站的用户规模在近几年得到飞速增长。以新浪微博为例，截止到2012年底，其注册用户数已经超过5亿，而每天的活跃用户数就已经突破4620万人。随着微博的快速发展，和其相关的各种应用和服务正在创造越来越多的商业价值。

让用户使用个性标签是新浪和腾讯等主流微博网站提供的一个重要服务，用户可以使用这些标签来描述自己的身份、职业、兴趣、宗教信仰等个人属性，甚至是表达自己的某些观点。作为用户个人属性描述的重要补充，用户的标签连同个人信息页面的其它内容都能作为浏览者详细了解该用户的重要信息来源。而深入了解一个用户则对很多现实的应用有所帮助，如特殊用户搜索、好友推荐、在线广告和企业的客户关系管理等等。因此，为每个微博用户推荐一组能够准确描述用户相关属性的标签用于刻画不同用户群体的特征，或称作用户人群画像，具有重要意义。

现有的社会标注***大都针对网络物体的标注，如Flickr网站中的图片或者URL链接资源。这些***都是为用户提供标签来标注物体，而非用户本身。像很多以协同过滤(collaborative filtering)[1]为基本推荐机制的推荐算法都是建立在这样一个假设之上。假设用户A和用户B之前已经对很多物体对象的标注使用了相同或相似的标签，就说明A和B对事物的认知非常相似，那么A对于一个新物体的标注则很有可能使用B对该物体用过的相同标签。但是，在对微博用户的标注中，这种假设并不成立，用户只会对自己标注，甚至很多用户对自己都没有使用任何标签。因此已有的社会标签推荐***使用的方法并不能直接应用于微博用户标签的场景

社会标注更看重大多数人对某一物体对象的集体偏好来做标签推荐，而标注微博用户却要考虑如何真实地刻画被标注用户的个人偏好。显然，发掘用户的个人特性和偏好要比寻找大众的偏好更难，因为每个人都有自己独特的个性。

发明内容

本发明的目的在于通过设计一个有效的微博用户推荐***，提供一种基于微博标签的人群画像***和方法。其需要解决以下几个问题。

1、做标签推荐时需要面对协同过滤类推荐算法经常遇见的一个难题――冷启动(cold start)问题，尤其考虑到新浪微博用户中有将近一半的人是没有任何标签的。所谓冷启动，是指在向一个用户推荐某个新出现的物体(如某件商品)时，由于对于该物体没有历史的推荐记录可以参考，使得推荐算法无法起作用。

2、第二个挑战是要考虑到被推荐的标签足够多样化才能充分的刻画一个人多方面的属性，因为一个真实的人远比一个物体复杂，他可以使用很多个标签来分别描述自己各个方面的特性，例如教育背景、兴趣爱好，甚至是崇拜的明星等等。怎样才能找出一组多样化的标签是非常具有挑战性的工作。

3做标签推荐时应当注意到推荐的标签中存在的语义冗余问题。如新浪微博只允许一个用户最多使用10个标签，那么每个用户自然希望每个标签都尽可能地描述自己，对于同义词或者近义词一般来说是不会同时放入自己的标签组中。相比之下，对于同一个物体对象的描述，使用同义词或者近义词标签则是很常见的。因而，在这些标注物体的标签推荐***中，语义冗余问题是可以回避的。

针对以上需要解决的技术难题和研究目的，本发明在以往相关研究技术的基础上，融入全新的算法思想，并借助海量的互联网语义实体信息（中文知识图谱）实现了准确的微博用户人群画像技术。

本发明提供的一种基于微博标签的人群画像***，主要分为微博用户标签推荐和标签主题聚类两大模块，其中：

所述微博用户标签推荐模块，分别利用微博用户的同质性和标签的共现性关联来产生候选的标签，再利用中文知识图谱识别标签的语义冗余，进而消除候选标签中的冗余标签，实现微博用户推荐；

所述标签主题聚类模块，通过对推荐出的每一个微博用户的标签进行LDA主题聚类分析，获得每个用户的主题分布向量，从而判断出用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征，实现用户人群画像。

图1所示为本发明的整体技术框架。

本发明中，微博用户的标签推荐模块中涉及的推荐算法涵盖三个主要的工作步骤。算法的每一步正好应对了上述每一个挑战中的难题。

涉及的标签推荐算法三个步骤简述如下:

1. 同质性推荐：这一步是为了解决冷启动问题。核心思想是对于一个微博用户，将他的微博好友最常使用的标签推荐给他。在对候选标签进行筛选排序时，可以使用frequency（使用频率最多的标签）、tf-idf（词频-倒文档频率）和tf-rw三种打分机制。经过实证研究，优选地采用tf-rw打分机制，该机制同样基于tf-idf思想，能够更进一步地去除那些过于被全体用户广泛使用的标签，而保留那些对目标用户具有个性刻画能力的标签。除了这几种标签打分机制外，本发明还包括一种局部的多标签传播算法来为目标用户生成推荐的标签。

2. 共现性扩展：本模块在第一步推荐标签的基础上，还利用标签之间的共现关系来扩充推荐给微博用户的候选标签，从而使得最终推荐给用户的标签有足够的多样性，尽可能地刻画用户多方面的属性。

3. 消除语义冗余：为了消除候选标签组中存在的语义冗余，从在线百科网站上爬取的语义实体数据构建了一个庞大的中文知识图谱(Chinese knowledge graph)。通过将微博标签映射到图谱网络中的实体，度量出两个标签之间的语义距离，即相似程度。最后，***利用这种语义相似度来鉴别推荐标签列表中的同义标签或近义标签。

本发明中，标签主题聚类模块将上一模块产生的微博用户标签用LDA工具（一种生成式的文本主题模型）[2]进行聚类分析，每一个类可以代表一个主题或一个用户群体，从而判断出每位用户所属的类（人群）。

本发明中还提供一种基于微博标签的人群画像方法，其通过为微博用户推荐标签来精准刻画用户的属性特征，并利用LDA工具分析用户标签的主题分布后准确地判断用户所属的人群；具体步骤如下：

（1）分别利用微博用户的同质性和标签的共现性关联来产生候选的标签，再利用中文知识图谱来识别标签的语义冗余，进而消除候选标签中的冗余标签，实现微博用户标签推荐；

（2）对推荐出的每一个微博用户的标签进行LDA主题聚类分析，从而获得每个用户的主题分布向量，由此判断用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征，实现用户人群画像。

上述步骤（1）中，利用微博用户的同质性推荐标签的方法具体如下：挖掘微博用户的好友使用最频繁的标签，为每个微博用户推荐其好友广泛使用的标签，并去除那些过于频繁使用的标签。

上述步骤（1）中，利用标签的共现性推荐标签的方法具体如下：以同质性推荐的标签为基础，扩展出与其被共同使用较多的标签，使得推荐的标签更加丰富地刻画用户各方面的属性。

上述步骤（1）中消除候选标签中的冗余标签步的方法具体如下：通过建立中文知识图谱，将百科类网站的词条映射成图谱中的结点，词条间的超链接映射出网络边，使得网络的拓扑结构可以度量标签的语义范畴，从而判断出候选推荐的标签中是否存在语义冗余。

上述微博用户的好友为一个微博用户的“粉丝”、“关注”或“互粉对象”；在算法中优选地使用“互粉对象”作为微博好友。

上述关于用户之间的差异性距离为Cosine距离、Pearson距离或者Jensen-Shannon距离。

本发明的有益效果在于：

1、首次利用微博用户标签来对互联网用户做人群画像。

2、首次利用中文知识图谱来识别标签中的语义冗余。

3、首次将信息检索中对关键词的tf-idf（词频-倒文档频率）打分机制应用于微博标签的挖掘，并对算法做相应改进提高标签推荐准确率。

4 首次将LDA文本主题模型应用于微博用户的标签集合，从而刻画出每个微博用户的主题分布，为准确的人群画像服务。

本发明是利用微博用户标签实现具体应用服务的成功案例，不仅具有广泛的商业应用价值，同时也为互联网用户标签的挖掘算法和中文知识图谱的应用指明了研究方向。

附图说明

图1为本发明的整体技术框架。

图2为标签的中文知识图谱示例（图中右部矩形虚线框所示范围）。

图3为本发明实施例的具体示例。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本发明提供的一种基于微博标签的人群画像***，包括微博用户标签推荐模块和标签主题聚类模块两核心模块。以下结合模块介绍本发明。

模块一：微博用户标签推荐

1、基于同质性的标签推荐

同质性是指具体相同或相似属性的人之间相比其他人更容易产生社会交往行为，如成为好友、主题跟随行为等等。同质性已经被看作是各类社交媒体中的一种广泛存在的现象，甚至在如Twitter用户组成的社会网络中。例如，互相关注的Twitter用户中表现出更多相似的兴趣爱好、地理位置或者是影响力等等。实验证明，在微博社会网络中，具有亲密社会关系(如微博好友)的用户之间使用的标签具有很大程度的相似性。这个结果为基于同质性的标签打分机制提供了事实依据，即从用户的好友群体中按照某中排序机制选出最频繁使用的标签来推荐给目标用户u的候选标签组（假设为k个标签）。这一步产生的候选标签集合标记为C，它将作为下一个推荐步骤的输入。在此需要一个评分函数s(t)来对候选的标签t进行排序，然后选出排在最前面的k个。同时也要保证选出的标签具有一定的描述性，即不能是被大多数用户过于广泛使用的标签。本发明利用名为tf-rw的打分机制来计算s(t)函数的分值，即s(t) = tf (t) × rw(t)。tf (t)和rw(t)的具体计算参考以下公式1和2，其核心思想与文档关键词检索使用的tf-idf思想一致。在公式1中，Ngb(u)表示某个微博用户u的邻居集合（微博中的互粉对象），| Ngb(u)|表示该集合中的人数。r(t)是邻居集合中的用户使用了标签t的人次，而T(Ngb(u))则表示u的所有邻居使用的全体标签集合。公式2中，n(t)是全体用户中使用了标签t的人数，N则是全体用户总数。

公式1:

公式2:

除了上述的tf-rw打分机制来对排序出要推荐给目标用户的候选标签，本发明还提出一种基于经典标签传播算法（简称LPA）[3]的算法来生成候选标签组。该算法是一个反复迭代的算法，基本过程如下：

1)对于一个目标用户u，首先生成u的ego网络Gu，该网络的所有结点为u和他所有互粉好友，边即是这些点之间存在的关系边，后续的标签传播都局限在该ego网络中;

2)对于Gu中的所有没有真实标签的结点（用户）和u使用上述的tf-rw方法来生成其标签组，剩下的含有真实标签的用户则保留其标签，该步骤相当于一次迭代;

3)重复上述步骤2)，直到用户u的标签组（含k个候选标签）不再改变，即迭代收敛；

已经有前人的研究成果证明该算法是能在有限迭代次数内收敛的，因此该算法肯定能够在一定时间内结束。考虑到本发明提出的改进LPA算法只局限于目标用户的ego网络，并能产生多个标签，因此称为局部多标签传播算法。

2、基于共现性扩展的标签推荐

对于C中每一个标签t（共有k个），对其进行共现性标签的关联挖掘，然后选出与t共现关系最强的前q个标签，标记为ti。这里，用st(ti)分值表示与标签t有共现关联的标签tj的共现性强度，具体计算公式仍然参考公式2。在与t有共现性关联的所有标签中，选取st(ti)分值排在前q位的ti加入t的扩展列表中。这里t被称作ti的父标签，用p(ti)表示。如果扩展出来的标签ti已经存在于C中则可以直接忽略。经过这一步扩展，最多可以增加k×q个标签到C中。如果用C′来表示这一步工作结束后得到的候选推荐标签集合，那么C′ − C则代表了这一步中新扩展出来的标签。C′产生以后，还需要对C′中的每一个标签重新排序，因为它包含由两种推荐排序机制得到的标签。重新排序的核心思路就是要保证C′ − C中的新增标签的排序评分和之前一步得到的C集合中的标签既有竞争力，又小于其父标签的的排序评分。因此，需要对每一个ti∈C′定义一个新的排序评分函数。

公式3:

公式中λ是衰减系数，一般取值0.8，Z是归一化因子，是所有的总和。

3、消除标签的语义冗余

本步骤简言之，首先是利用从在线的中文百科网站获取的词条和词条链接信息构造出一个中文知识图谱(也包含不少英文词条)，该图谱又可以看作是一个语义网络，网络中每一个结点代表一个词条描述的语义实体，正好对应一个标签，而每一条边则代表词条之间的超链接关系（见图2中右边矩形虚线框的部分）。因此，一个词条对应结点的邻居群体能够在很大程度上反映出该词条的语义内容。结合该语义网络的拓扑结构，本发明技术涵盖一种精确度量两个标签(结点)之间语义距离的计算方法，从而判别出两个标签在语义上是否足够接近，是则将其中一个移除推荐的候选标签列表。图谱中两个结点u,v之间的语义距离sim(u,v)由邻居集合的Jaccard系数决定，即

公式4：

sim(u,v)=|Nu∩Nv|/|Nu∪Nv|

其中Nu表示结点u的邻居集合，|Nu∩Nv|表示u和v的公共邻居数。

通过训练数据集能够判断一个合适阈值τ（经过实验发现是0.028），如果sim(u,v)>= τ，则认为u和v是同语义或高度近似语义的标签，应该取其一。如果u在上述的共现性标签扩展步骤中的得分(u)大于v的得分，则从最终的推荐标签组中移除v而保留u。如“旅游”和“旅行”，“基督”和“耶稣”经过该算法的建议发现就是同/近义词（标签）。

下面，以图3中的具体示例来描述产生候选推荐标签的三个步骤。一开始，用户u没有标签，他的三个邻居（微博互粉对象）用户v1,v2,v3都有自己的标签。根据上述步骤1的基本思想，因为“旅游”、“旅行”和“摄影”的标签在邻居群体中使用较为频繁，所有经过第1步会将这三个标签作为用户u的候选标签组。在步骤2中，因为“美食”标签经常和“旅游”标签一块使用（很多驴友喜欢品尝旅行地的美食），因此“美食”标签也会被扩展进入u的候选标签组。最后在步骤3中经过语义判定，“旅游”和“旅行”是同义词，“旅行”标签因为分值低被筛选掉。

模块二：标签主题聚类

经过上述步骤推荐出的标签既然能够准确、丰富地刻画微博用户的各种属性特征，那么对所有用户的标签集合进行主题分析后则能判断出该微博用户的用户群体分布。本发明在此所用的具体算法为利用LDA工具对标签集合中的主题分布进行聚类分析，为每个微博用户产生一个对应的主题分布向量[v1,v2,…vk]。其中，k是主题总数，向量的每一维0<=vi<=1,代表用户属于主题i的概率。利用用户的主题分布向量，既能判断用户所属的人群或兴趣爱好等特征，也可以量化地计算出任意用户之间的差异性距离，从而完成人群画像的目标。关于用户之间的差异性距离，可以使用Cosine距离、Pearson距离或者Jensen-Shannon距离。

参考文献

[1] T. Hofmann. Collaborative filtering via gaussian probabilisticlatent semantic analysis.  In Proc. of SIGIR, 2003

[2]D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent dirichletallocation. Journal of Machine Learning Research, 3:993 - 1022, Jan. 2003.

[3]X.Zhu and Z.Ghahramani. Learning from labeledandunlabeleddata withlabel propagation. Technical Report, 2002。

Claims

1.一种基于微博标签的用户人群画像方法，其特征在于其通过为微博用户推荐标签来精准刻画用户的属性特征，并利用LDA工具分析用户标签的主题分布后准确地判断用户所属的人群；具体步骤如下：

（1）分别利用微博用户的同质性和标签的共现性关联来推荐产生候选的标签，再利用中文知识图谱识别标签的语义冗余，进而消除候选标签中的冗余标签，实现微博用户标签推荐；

（2）对推荐出的每一个微博用户的标签进行LDA主题聚类分析，获得每个用户的主题分布向量，由此判断用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征，实现用户人群画像；其中：步骤（1）中消除候选标签中的冗余标签步的方法具体如下：通过建立中文知识图谱，将百科类网站的词条映射成语义网络中的结点，词条间的超链接映射出网络边，使得网络的拓扑结构可以度量标签的语义范畴，从而判断出候选推荐的标签中是否存在语义冗余。

2.根据权利要求1所述的基于微博标签的用户人群画像方法，其特征在于，步骤（1）中，利用微博用户的同质性推荐标签的方法具体如下：挖掘微博用户的好友使用最频繁的标签，为每个微博用户推荐其好友广泛使用的标签，并去除那些过于频繁使用的标签。

3.根据权利要求1所述的基于微博标签的用户人群画像方法，其特征在于，步骤（1）中，利用标签的共现性推荐标签的方法具体如下：以同质性推荐的标签为基础，扩展出与其被共同使用较多的标签，使得推荐的标签更加丰富地刻画用户各方面的属性。

4.根据权利要求2所述的基于微博标签的用户人群画像方法，其特征在于：所述微博用户的好友为粉丝、关注或互粉对象。

5.根据权利要求2所述的基于微博标签的用户人群画像方法，其特征在于：挖掘时采用算法包括局部的多标签传播算法，以及frequency、tf-idf和tf-rw三种标签打分机制。

6.根据权利要求1所述的基于微博标签的用户人群画像方法，其特征在于，所述用户间的差异性距离是Cosine距离、Pearson距离或Jensen-Shannon距离。