CN103577549A - 一种基于微博标签的人群画像***和方法 - Google Patents

一种基于微博标签的人群画像***和方法 Download PDF

Info

Publication number
CN103577549A
CN103577549A CN201310481674.3A CN201310481674A CN103577549A CN 103577549 A CN103577549 A CN 103577549A CN 201310481674 A CN201310481674 A CN 201310481674A CN 103577549 A CN103577549 A CN 103577549A
Authority
CN
China
Prior art keywords
label
user
microblog users
microblogging
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310481674.3A
Other languages
English (en)
Other versions
CN103577549B (zh
Inventor
阳德青
肖仰华
汪卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201310481674.3A priority Critical patent/CN103577549B/zh
Publication of CN103577549A publication Critical patent/CN103577549A/zh
Application granted granted Critical
Publication of CN103577549B publication Critical patent/CN103577549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于无线通信网络技术领域,具体为一种基于微博标签的人群画像***和方法,本发明***包含微博标签推荐和标签主题聚类两大模块,其中第一模块中采用一个涵盖三个步骤的标签推荐算法。第一步为同质性标签推荐,第二步为共现性标签扩展;第三步则是以中文知识图谱为基础建立语义网络,利用网络拓扑特性来度量标签之间的语义相似度,从而去除语义相同或相似的标签,保证用来刻画用户的标签精炼性。本发明利用微博用户标签具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和中文知识图谱的应用指明了研究方向。

Description

一种基于微博标签的人群画像***和方法
技术领域
本发明属于无线通信网络技术领域,具体涉及一种基于微博标签的人群画像***和方法。
背景技术
微博是现阶段最热门的社交媒体,以新浪、腾讯为代表的国内微博网站的用户规模在近几年得到飞速增长。以新浪微博为例,截止到2012年底,其注册用户数已经超过5亿,而每天的活跃用户数就已经突破4620万人。随着微博的快速发展,和其相关的各种应用和服务正在创造越来越多的商业价值。
让用户使用个性标签是新浪和腾讯等主流微博网站提供的一个重要服务,用户可以使用这些标签来描述自己的身份、职业、兴趣、宗教信仰等个人属性,甚至是表达自己的某些观点。作为用户个人属性描述的重要补充,用户的标签连同个人信息页面的其它内容都能作为浏览者详细了解该用户的重要信息来源。而深入了解一个用户则对很多现实的应用有所帮助,如特殊用户搜索、好友推荐、在线广告和企业的客户关系管理等等。因此,为每个微博用户推荐一组能够准确描述用户相关属性的标签用于刻画不同用户群体的特征,或称作用户人群画像,具有重要意义。
现有的社会标注***大都针对网络物体的标注,如Flickr网站中的图片或者URL链接资源。这些***都是为用户提供标签来标注物体,而非用户本身。像很多以协同过滤(collaborative filtering)[1]为基本推荐机制的推荐算法都是建立在这样一个假设之上。假设用户A和用户B之前已经对很多物体对象的标注使用了相同或相似的标签,就说明A和B对事物的认知非常相似,那么A对于一个新物体的标注则很有可能使用B对该物体用过的相同标签。但是,在对微博用户的标注中,这种假设并不成立,用户只会对自己标注,甚至很多用户对自己都没有使用任何标签。因此已有的社会标签推荐***使用的方法并不能直接应用于微博用户标签的场景
社会标注更看重大多数人对某一物体对象的集体偏好来做标签推荐,而标注微博用户却要考虑如何真实地刻画被标注用户的个人偏好。 显然,发掘用户的个人特性和偏好要比寻找大众的偏好更难,因为每个人都有自己独特的个性。
发明内容
本发明的目的在于通过设计一个有效的微博用户推荐***,提供一种基于微博标签的人群画像***和方法。其需要解决以下几个问题。
1、做标签推荐时需要面对协同过滤类推荐算法经常遇见的一个难题――冷启动(cold start)问题,尤其考虑到新浪微博用户中有将近一半的人是没有任何标签的。所谓冷启动,是指在向一个用户推荐某个新出现的物体(如某件商品)时,由于对于该物体没有历史的推荐记录可以参考,使得推荐算法无法起作用。
2、第二个挑战是要考虑到被推荐的标签足够多样化才能充分的刻画一个人多方面的属性,因为一个真实的人远比一个物体复杂,他可以使用很多个标签来分别描述自己各个方面的特性,例如教育背景、兴趣爱好,甚至是崇拜的明星等等。怎样才能找出一组多样化的标签是非常具有挑战性的工作。
3做标签推荐时应当注意到推荐的标签中存在的语义冗余问题。如新浪微博只允许一个用户最多使用10个标签,那么每个用户自然希望每个标签都尽可能地描述自己,对于同义词或者近义词一般来说是不会同时放入自己的标签组中。相比之下,对于同一个物体对象的描述,使用同义词或者近义词标签则是很常见的。因而,在这些标注物体的标签推荐***中,语义冗余问题是可以回避的。
针对以上需要解决的技术难题和研究目的,本发明在以往相关研究技术的基础上,融入全新的算法思想,并借助海量的互联网语义实体信息(中文知识图谱)实现了准确的微博用户人群画像技术。
本发明提供的一种基于微博标签的人群画像***,主要分为微博用户标签推荐和标签主题聚类两大模块,其中:
所述微博用户标签推荐模块,分别利用微博用户的同质性和标签的共现性关联来产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户推荐;
所述标签主题聚类模块,通过对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,从而判断出用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征,实现用户人群画像。
图1所示为本发明的整体技术框架。
本发明中,微博用户的标签推荐模块中涉及的推荐算法涵盖三个主要的工作步骤。算法的每一步正好应对了上述每一个挑战中的难题。
涉及的标签推荐算法三个步骤简述如下:
1. 同质性推荐:这一步是为了解决冷启动问题。核心思想是对于一个微博用户,将他的微博好友最常使用的标签推荐给他。在对候选标签进行筛选排序时,可以使用frequency(使用频率最多的标签)、tf-idf(词频-倒文档频率)和tf-rw三种打分机制。经过实证研究,优选地采用tf-rw打分机制,该机制同样基于tf-idf思想,能够更进一步地去除那些过于被全体用户广泛使用的标签,而保留那些对目标用户具有个性刻画能力的标签。除了这几种标签打分机制外,本发明还包括一种局部的多标签传播算法来为目标用户生成推荐的标签。
2. 共现性扩展:本模块在第一步推荐标签的基础上,还利用标签之间的共现关系来扩充推荐给微博用户的候选标签,从而使得最终推荐给用户的标签有足够的多样性,尽可能地刻画用户多方面的属性。
3. 消除语义冗余:为了消除候选标签组中存在的语义冗余,从在线百科网站上爬取的语义实体数据构建了一个庞大的中文知识图谱(Chinese knowledge graph)。通过将微博标签映射到图谱网络中的实体,度量出两个标签之间的语义距离,即相似程度。最后,***利用这种语义相似度来鉴别推荐标签列表中的同义标签或近义标签。
本发明中,标签主题聚类模块将上一模块产生的微博用户标签用LDA工具(一种生成式的文本主题模型)[2]进行聚类分析,每一个类可以代表一个主题或一个用户群体,从而判断出每位用户所属的类(人群)。
本发明中还提供一种基于微博标签的人群画像方法,其通过为微博用户推荐标签来精准刻画用户的属性特征,并利用LDA工具分析用户标签的主题分布后准确地判断用户所属的人群;具体步骤如下:
(1)分别利用微博用户的同质性和标签的共现性关联来产生候选的标签,再利用中文知识图谱来识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户标签推荐;
(2)对推荐出的每一个微博用户的标签进行LDA主题聚类分析,从而获得每个用户的主题分布向量,由此判断用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征,实现用户人群画像。
上述步骤(1)中,利用微博用户的同质性推荐标签的方法具体如下:挖掘微博用户的好友使用最频繁的标签,为每个微博用户推荐其好友广泛使用的标签,并去除那些过于频繁使用的标签。
上述步骤(1)中,利用标签的共现性推荐标签的方法具体如下:以同质性推荐的标签为基础,扩展出与其被共同使用较多的标签,使得推荐的标签更加丰富地刻画用户各方面的属性。
上述步骤(1)中消除候选标签中的冗余标签步的方法具体如下:通过建立中文知识图谱,将百科类网站的词条映射成图谱中的结点,词条间的超链接映射出网络边,使得网络的拓扑结构可以度量标签的语义范畴,从而判断出候选推荐的标签中是否存在语义冗余。
上述微博用户的好友为一个微博用户的“粉丝”、“关注”或“互粉对象”;在算法中优选地使用“互粉对象”作为微博好友。
上述关于用户之间的差异性距离为Cosine距离、Pearson距离或者Jensen-Shannon距离。
本发明的有益效果在于:
1、 首次利用微博用户标签来对互联网用户做人群画像。
2、首次利用中文知识图谱来识别标签中的语义冗余。
3、首次将信息检索中对关键词的tf-idf(词频-倒文档频率)打分机制应用于微博标签的挖掘,并对算法做相应改进提高标签推荐准确率。
4 首次将LDA文本主题模型应用于微博用户的标签集合,从而刻画出每个微博用户的主题分布,为准确的人群画像服务。
本发明是利用微博用户标签实现具体应用服务的成功案例,不仅具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和中文知识图谱的应用指明了研究方向。
附图说明
图1为本发明的整体技术框架。
图2为标签的中文知识图谱示例(图中右部矩形虚线框所示范围)。
图3为本发明实施例的具体示例。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本发明提供的一种基于微博标签的人群画像***,包括微博用户标签推荐模块和标签主题聚类模块两核心模块。以下结合模块介绍本发明。
模块一:微博用户标签推荐
1、基于同质性的标签推荐
同质性是指具体相同或相似属性的人之间相比其他人更容易产生社会交往行为,如成为好友、主题跟随行为等等。同质性已经被看作是各类社交媒体中的一种广泛存在的现象,甚至在如Twitter用户组成的社会网络中。例如,互相关注的Twitter用户中表现出更多相似的兴趣爱好、地理位置或者是影响力等等。实验证明,在微博社会网络中,具有亲密社会关系(如微博好友)的用户之间使用的标签具有很大程度的相似性。这个结果为基于同质性的标签打分机制提供了事实依据,即从用户的好友群体中按照某中排序机制选出最频繁使用的标签来推荐给目标用户u的候选标签组(假设为k个标签)。这一步产生的候选标签集合标记为C,它将作为下一个推荐步骤的输入。在此需要一个评分函数s(t)来对候选的标签t进行排序,然后选出排在最前面的k个。同时也要保证选出的标签具有一定的描述性,即不能是被大多数用户过于广泛使用的标签。本发明利用名为tf-rw的打分机制来计算s(t)函数的分值,即s(t) = tf (t) × rw(t)。tf (t)和rw(t)的具体计算参考以下公式1和2,其核心思想与文档关键词检索使用的tf-idf思想一致。在公式1中,Ngb(u)表示某个微博用户u的邻居集合(微博中的互粉对象),| Ngb(u)|表示该集合中的人数。r(t)是邻居集合中的用户使用了标签t的人次,而T(Ngb(u))则表示u的所有邻居使用的全体标签集合。公式2中,n(t)是全体用户中使用了标签t的人数,N则是全体用户总数。
公式1:
Figure 392512DEST_PATH_IMAGE001
公式2:
Figure 404461DEST_PATH_IMAGE002
除了上述的tf-rw打分机制来对排序出要推荐给目标用户的候选标签,本发明还提出一种基于经典标签传播算法(简称LPA)[3]的算法来生成候选标签组。该算法是一个反复迭代的算法,基本过程如下:
1) 对于一个目标用户u,首先生成u的ego网络Gu,该网络的所有结点为u和他所有互粉好友,边即是这些点之间存在的关系边,后续的标签传播都局限在该ego网络中;
2) 对于Gu中的所有没有真实标签的结点(用户)和u使用上述的tf-rw方法来生成其标签组,剩下的含有真实标签的用户则保留其标签,该步骤相当于一次迭代;
3) 重复上述步骤2),直到用户u的标签组(含k个候选标签)不再改变,即迭代收敛;
已经有前人的研究成果证明该算法是能在有限迭代次数内收敛的,因此该算法肯定能够在一定时间内结束。考虑到本发明提出的改进LPA算法只局限于目标用户的ego网络,并能产生多个标签,因此称为局部多标签传播算法
2、 基于共现性扩展的标签推荐
对于C中每一个标签t(共有k个),对其进行共现性标签的关联挖掘,然后选出与t共现关系最强的前q个标签,标记为ti。这里,用st(ti)分值表示与标签t有共现关联的标签tj的共现性强度,具体计算公式仍然参考公式2。在与t有共现性关联的所有标签中,选取st(ti)分值排在前q位的ti加入t的扩展列表中。这里t被称作ti的父标签,用p(ti)表示。如果扩展出来的标签ti已经存在于C中则可以直接忽略。经过这一步扩展,最多可以增加k×q个标签到C中。如果用C′来表示这一步工作结束后得到的候选推荐标签集合,那么C′ − C则代表了这一步中新扩展出来的标签。C′产生以后,还需要对C′中的每一个标签重新排序,因为它包含由两种推荐排序机制得到的标签。重新排序的核心思路就是要保证C′ − C中的新增标签的排序评分和之前一步得到的C集合中的标签既有竞争力,又小于其父标签的的排序评分。因此,需要对每一个ti∈C′定义一个新的排序评分函数
Figure 73340DEST_PATH_IMAGE003
公式3:
Figure 66704DEST_PATH_IMAGE004
公式中λ是衰减系数,一般取值0.8,Z是归一化因子,是所有
Figure 821033DEST_PATH_IMAGE005
的总和。
3、消除标签的语义冗余
本步骤简言之,首先是利用从在线的中文百科网站获取的词条和词条链接信息构造出一个中文知识图谱(也包含不少英文词条),该图谱又可以看作是一个语义网络,网络中每一个结点代表一个词条描述的语义实体,正好对应一个标签,而每一条边则代表词条之间的超链接关系(见图2中右边矩形虚线框的部分)。因此,一个词条对应结点的邻居群体能够在很大程度上反映出该词条的语义内容。结合该语义网络的拓扑结构,本发明技术涵盖一种精确度量两个标签(结点)之间语义距离的计算方法,从而判别出两个标签在语义上是否足够接近,是则将其中一个移除推荐的候选标签列表。图谱中两个结点u,v之间的语义距离sim(u,v)由邻居集合的Jaccard系数决定,即
公式4:
sim(u,v)=|Nu∩Nv|/|Nu∪Nv|
其中Nu表示结点u的邻居集合,|Nu∩Nv|表示u和v的公共邻居数。
通过训练数据集能够判断一个合适阈值τ(经过实验发现是0.028),如果sim(u,v)>= τ,则认为u和v是同语义或高度近似语义的标签,应该取其一。如果u在上述的共现性标签扩展步骤中的得分
Figure 620362DEST_PATH_IMAGE006
(u)大于v的得分,则从最终的推荐标签组中移除v而保留u。如“旅游”和“旅行”,“基督”和“耶稣”经过该算法的建议发现就是同/近义词(标签)。
下面,以图3中的具体示例来描述产生候选推荐标签的三个步骤。一开始,用户u没有标签,他的三个邻居(微博互粉对象)用户v1,v2,v3都有自己的标签。根据上述步骤1的基本思想,因为“旅游”、“旅行”和“摄影”的标签在邻居群体中使用较为频繁,所有经过第1步会将这三个标签作为用户u的候选标签组。在步骤2中,因为“美食”标签经常和“旅游”标签一块使用(很多驴友喜欢品尝旅行地的美食),因此“美食”标签也会被扩展进入u的候选标签组。最后在步骤3中经过语义判定,“旅游”和“旅行”是同义词,“旅行”标签因为分值低被筛选掉。
模块二:标签主题聚类
经过上述步骤推荐出的标签既然能够准确、丰富地刻画微博用户的各种属性特征,那么对所有用户的标签集合进行主题分析后则能判断出该微博用户的用户群体分布。本发明在此所用的具体算法为利用LDA工具对标签集合中的主题分布进行聚类分析,为每个微博用户产生一个对应的主题分布向量[v1,v2,…vk]。其中,k是主题总数,向量的每一维0<=vi<=1,代表用户属于主题i的概率。利用用户的主题分布向量,既能判断用户所属的人群或兴趣爱好等特征,也可以量化地计算出任意用户之间的差异性距离,从而完成人群画像的目标。关于用户之间的差异性距离,可以使用Cosine距离、Pearson距离或者Jensen-Shannon距离。
参考文献
[1] T. Hofmann. Collaborative filtering via gaussian probabilistic latent semantic analysis. 
In Proc. of SIGIR, 2003
[2] D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent dirichlet allocation. Journal of Machine Learning Research, 3:993 - 1022, Jan. 2003.
[3] X.Zhu and Z.Ghahramani. Learning from labeledandunlabeleddata with label propagation. Technical Report, 2002。

Claims (8)

1.一种基于微博标签的用户人群画像***,其特征在于,该***包含微博用户标签推荐模块和标签主题聚类模块两个核心技术模块;其中:
所述微博用户标签推荐模块,分别利用微博用户的同质性和标签的共现性关联来产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户推荐;
所述标签主题聚类模块,通过对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,从而判断出用户所属的人群以及度量用户间的差异性距离用以刻画不同用户群体的特征,实现用户人群画像。
2.一种基于微博标签的用户人群画像方法,其特征在于其通过为微博用户推荐标签来精准刻画用户的属性特征,并利用LDA工具分析用户标签的主题分布后准确地判断用户所属的人群;具体步骤如下:
(1)分别利用微博用户的同质性和标签的共现性关联来推荐产生候选的标签,再利用中文知识图谱识别标签的语义冗余,进而消除候选标签中的冗余标签,实现微博用户标签推荐;
(2)对推荐出的每一个微博用户的标签进行LDA主题聚类分析,获得每个用户的主题分布向量,由此判断用户所属的人群以及度量用户间的差异性距离以刻画不同用户群体的特征,实现用户人群画像。
3.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于,步骤(1)中,利用微博用户的同质性推荐标签的方法具体如下:挖掘微博用户的好友使用最频繁的标签,为每个微博用户推荐其好友广泛使用的标签,并去除那些过于频繁使用的标签。
4.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于,步骤(1)中,利用标签的共现性推荐标签的方法具体如下:以同质性推荐的标签为基础,扩展出与其被共同使用较多的标签,使得推荐的标签更加丰富地刻画用户各方面的属性。
5.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于:步骤(1)中消除候选标签中的冗余标签步的方法具体如下:通过建立中文知识图谱,将百科类网站的词条映射成语义网络中的结点,词条间的超链接映射出网络边,使得网络的拓扑结构可以度量标签的语义范畴,从而判断出候选推荐的标签中是否存在语义冗余。
6.根据权利要求3所述的基于微博标签的用户人群画像方法,其特征在于:所述微博用户的好友为粉丝、关注或互粉对象。
7.根据权利要求3所述的基于微博标签的用户人群画像方法,其特征在于:挖掘时采用算法包括局部的多标签传播算法,以及frequency、tf-idf和tf-rw三种标签打分机制。
8.根据权利要求2所述的基于微博标签的用户人群画像方法,其特征在于,所述用户间的差异性距离是Cosine距离、Pearson距离或Jensen-Shannon距离。
CN201310481674.3A 2013-10-16 2013-10-16 一种基于微博标签的人群画像***和方法 Active CN103577549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310481674.3A CN103577549B (zh) 2013-10-16 2013-10-16 一种基于微博标签的人群画像***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310481674.3A CN103577549B (zh) 2013-10-16 2013-10-16 一种基于微博标签的人群画像***和方法

Publications (2)

Publication Number Publication Date
CN103577549A true CN103577549A (zh) 2014-02-12
CN103577549B CN103577549B (zh) 2017-02-15

Family

ID=50049325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310481674.3A Active CN103577549B (zh) 2013-10-16 2013-10-16 一种基于微博标签的人群画像***和方法

Country Status (1)

Country Link
CN (1) CN103577549B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970863A (zh) * 2014-05-08 2014-08-06 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及***
CN103995820A (zh) * 2014-03-06 2014-08-20 吉林大学 用户个人品性预测方法
CN104199838A (zh) * 2014-08-04 2014-12-10 浙江工商大学 一种基于标签消歧的用户模型建构方法
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN104778605A (zh) * 2015-04-09 2015-07-15 北京京东尚科信息技术有限公司 电商客户的分类方法及装置
CN105117449A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种用于生成内容项的标签的方法和装置
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
CN105719189A (zh) * 2016-01-15 2016-06-29 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
CN105893406A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 群体用户画像方法及***
CN106407239A (zh) * 2015-08-03 2017-02-15 阿里巴巴集团控股有限公司 用于推荐及辅助推荐信息的方法及装置
CN106484764A (zh) * 2016-08-30 2017-03-08 江苏名通信息科技有限公司 基于人群画像技术的用户相似度计算方法
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN107038261A (zh) * 2017-05-28 2017-08-11 海南大学 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法
CN107330001A (zh) * 2017-06-09 2017-11-07 国政通科技股份有限公司 一种多元化标签的创建方法及***
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN107402932A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 用户标签的扩展处理方法、文本推荐方法和装置
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN107562917A (zh) * 2017-09-12 2018-01-09 广州酷狗计算机科技有限公司 用户推荐方法及装置
CN107798141A (zh) * 2017-11-24 2018-03-13 广州数说故事信息科技有限公司 一种基于统计指标的迭代运算的确定用户标签方法
CN108121737A (zh) * 2016-11-29 2018-06-05 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和***
CN108287875A (zh) * 2017-12-29 2018-07-17 东软集团股份有限公司 人物共现关系确定方法、专家推荐方法、装置及设备
CN108537586A (zh) * 2018-03-30 2018-09-14 杭州米趣网络科技有限公司 基于用户画像的数据处理方法及装置
CN108804454A (zh) * 2017-04-28 2018-11-13 华为技术有限公司 一种群画像方法、群画像装置及服务器
CN109033101A (zh) * 2017-06-08 2018-12-18 华为软件技术有限公司 标签推荐方法及装置
CN109241273A (zh) * 2018-08-23 2019-01-18 云南大学 一种新媒体环境下少数民族主题数据的抽取方法
CN109753994A (zh) * 2018-12-11 2019-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
WO2019140703A1 (zh) * 2018-01-22 2019-07-25 华为技术有限公司 一种用户画像的生成方法及装置
CN110197389A (zh) * 2019-03-04 2019-09-03 腾讯科技(深圳)有限公司 一种用户识别方法及装置
CN110362741A (zh) * 2019-06-11 2019-10-22 新浪网技术(中国)有限公司 一种Feed流信息的智能下发方法与***
CN111488401A (zh) * 2020-03-06 2020-08-04 天津大学 一种基于多元化关系画像技术的在线社会关系搜索方法
CN111553145A (zh) * 2020-07-10 2020-08-18 支付宝(杭州)信息技术有限公司 主题生成方法、装置和电子设备
CN111709791A (zh) * 2020-06-19 2020-09-25 四川中电启明星信息技术有限公司 一种基于改进特征词权重算法的供电营销服务方法
CN111737400A (zh) * 2020-06-15 2020-10-02 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及***
CN112364171A (zh) * 2020-09-11 2021-02-12 东南大学 一种新型知识图谱实体画像方法
CN112784062A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN112800222A (zh) * 2021-01-26 2021-05-14 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
CN113076476A (zh) * 2021-04-01 2021-07-06 重庆邮电大学 一种微博异构信息的用户画像构建方法
TWI775305B (zh) * 2021-02-04 2022-08-21 康沛科技股份有限公司 保險商品篩選系統及保險商品篩選方法
CN116126947A (zh) * 2023-04-18 2023-05-16 西昌学院 应用于企业管理***的大数据分析方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008020663A1 (en) * 2006-08-17 2008-02-21 Olaworks, Inc. Methods for tagging person identification information to digital data and recommending additional tag by using decision fusion
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008020663A1 (en) * 2006-08-17 2008-02-21 Olaworks, Inc. Methods for tagging person identification information to digital data and recommending additional tag by using decision fusion
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
祁奇: "基于标签数据的用户协同过滤", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
葛艳艳: "基于社会标签***的推荐技术研究", 《中文优秀硕士学位论文全文数据库 信息科技辑》 *
许振亮,郭晓川: "国际技术创新研究前沿领域的知识图谱分析_作者共被引网络与聚类分析视角", 《科学学研究》 *
陈渊、林磊、孙承杰、刘秉权: "一种面向微博用户的标签推荐方法", 《智能计算机与应用》 *

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995820A (zh) * 2014-03-06 2014-08-20 吉林大学 用户个人品性预测方法
CN103970863A (zh) * 2014-05-08 2014-08-06 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及***
CN103970863B (zh) * 2014-05-08 2017-12-19 清华大学 基于lda主题模型的微博用户兴趣的挖掘方法及***
CN104199838B (zh) * 2014-08-04 2017-09-29 浙江工商大学 一种基于标签消歧的用户模型建构方法
CN104199838A (zh) * 2014-08-04 2014-12-10 浙江工商大学 一种基于标签消歧的用户模型建构方法
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN104598588B (zh) * 2015-01-19 2017-08-11 河海大学 基于双聚类的微博用户标签自动生成算法
CN104778605A (zh) * 2015-04-09 2015-07-15 北京京东尚科信息技术有限公司 电商客户的分类方法及装置
CN104778605B (zh) * 2015-04-09 2019-05-03 北京京东尚科信息技术有限公司 电商客户的分类方法及装置
CN106407239A (zh) * 2015-08-03 2017-02-15 阿里巴巴集团控股有限公司 用于推荐及辅助推荐信息的方法及装置
CN105117449A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种用于生成内容项的标签的方法和装置
CN105893406A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 群体用户画像方法及***
WO2017080170A1 (zh) * 2015-11-12 2017-05-18 乐视控股(北京)有限公司 群体用户画像方法及***
CN105574098B (zh) * 2015-12-11 2019-02-12 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
CN105719189A (zh) * 2016-01-15 2016-06-29 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
CN105719189B (zh) * 2016-01-15 2019-12-27 天津大学 一种社交网络中有效提高标签多样性的标签推荐方法
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN107357793B (zh) * 2016-05-10 2020-11-27 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN107402932A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 用户标签的扩展处理方法、文本推荐方法和装置
CN107402932B (zh) * 2016-05-20 2021-04-13 腾讯科技(深圳)有限公司 用户标签的扩展处理方法、文本推荐方法和装置
CN106484764A (zh) * 2016-08-30 2017-03-08 江苏名通信息科技有限公司 基于人群画像技术的用户相似度计算方法
TWI787196B (zh) * 2016-11-29 2022-12-21 香港商阿里巴巴集團服務有限公司 業務對象屬性標識的生成方法、裝置和系統
CN108121737A (zh) * 2016-11-29 2018-06-05 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和***
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN106649730B (zh) * 2016-12-23 2021-08-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN108804454B (zh) * 2017-04-28 2021-12-10 华为技术有限公司 一种群画像方法、群画像装置及服务器
CN108804454A (zh) * 2017-04-28 2018-11-13 华为技术有限公司 一种群画像方法、群画像装置及服务器
CN107038261A (zh) * 2017-05-28 2017-08-11 海南大学 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法
CN109033101A (zh) * 2017-06-08 2018-12-18 华为软件技术有限公司 标签推荐方法及装置
CN109033101B (zh) * 2017-06-08 2021-08-20 华为技术有限公司 标签推荐方法及装置
CN107330001A (zh) * 2017-06-09 2017-11-07 国政通科技股份有限公司 一种多元化标签的创建方法及***
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN107562917A (zh) * 2017-09-12 2018-01-09 广州酷狗计算机科技有限公司 用户推荐方法及装置
CN107562917B (zh) * 2017-09-12 2021-04-06 广州酷狗计算机科技有限公司 用户推荐方法及装置
CN107798141A (zh) * 2017-11-24 2018-03-13 广州数说故事信息科技有限公司 一种基于统计指标的迭代运算的确定用户标签方法
CN108287875A (zh) * 2017-12-29 2018-07-17 东软集团股份有限公司 人物共现关系确定方法、专家推荐方法、装置及设备
WO2019140703A1 (zh) * 2018-01-22 2019-07-25 华为技术有限公司 一种用户画像的生成方法及装置
CN108537586A (zh) * 2018-03-30 2018-09-14 杭州米趣网络科技有限公司 基于用户画像的数据处理方法及装置
CN109241273B (zh) * 2018-08-23 2022-02-18 云南大学 一种新媒体环境下少数民族主题数据的抽取方法
CN109241273A (zh) * 2018-08-23 2019-01-18 云南大学 一种新媒体环境下少数民族主题数据的抽取方法
CN109753994A (zh) * 2018-12-11 2019-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN109753994B (zh) * 2018-12-11 2024-05-14 东软集团股份有限公司 用户画像方法、装置、计算机可读存储介质及电子设备
CN110197389A (zh) * 2019-03-04 2019-09-03 腾讯科技(深圳)有限公司 一种用户识别方法及装置
CN112784062B (zh) * 2019-03-15 2024-06-04 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN112784062A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN110362741A (zh) * 2019-06-11 2019-10-22 新浪网技术(中国)有限公司 一种Feed流信息的智能下发方法与***
CN110362741B (zh) * 2019-06-11 2022-02-25 新浪网技术(中国)有限公司 一种Feed流信息的智能下发方法与***
CN111488401A (zh) * 2020-03-06 2020-08-04 天津大学 一种基于多元化关系画像技术的在线社会关系搜索方法
CN111488401B (zh) * 2020-03-06 2023-06-23 天津大学 一种基于多元化关系画像技术的在线社会关系搜索方法
CN111737400A (zh) * 2020-06-15 2020-10-02 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及***
CN111737400B (zh) * 2020-06-15 2023-06-20 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及***
CN111709791A (zh) * 2020-06-19 2020-09-25 四川中电启明星信息技术有限公司 一种基于改进特征词权重算法的供电营销服务方法
CN111553145A (zh) * 2020-07-10 2020-08-18 支付宝(杭州)信息技术有限公司 主题生成方法、装置和电子设备
CN112364171A (zh) * 2020-09-11 2021-02-12 东南大学 一种新型知识图谱实体画像方法
CN112800222A (zh) * 2021-01-26 2021-05-14 天津科技大学 利用共现信息的多任务辅助极限多标签短文本分类方法
TWI775305B (zh) * 2021-02-04 2022-08-21 康沛科技股份有限公司 保險商品篩選系統及保險商品篩選方法
WO2022206103A1 (zh) * 2021-04-01 2022-10-06 重庆邮电大学 一种微博异构信息的用户画像构建方法
CN113076476B (zh) * 2021-04-01 2021-11-30 重庆邮电大学 一种微博异构信息的用户画像构建方法
CN113076476A (zh) * 2021-04-01 2021-07-06 重庆邮电大学 一种微博异构信息的用户画像构建方法
CN116126947A (zh) * 2023-04-18 2023-05-16 西昌学院 应用于企业管理***的大数据分析方法及***
CN116126947B (zh) * 2023-04-18 2023-06-30 西昌学院 应用于企业管理***的大数据分析方法及***

Also Published As

Publication number Publication date
CN103577549B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103577549A (zh) 一种基于微博标签的人群画像***和方法
Cao et al. A cross-media public sentiment analysis system for microblog
Wan et al. Aminer: Search and mining of academic social networks
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
US9798820B1 (en) Classification of keywords
He et al. A spatial-temporal topic model for the semantic annotation of POIs in LBSNs
CN104572797A (zh) 基于主题模型的个性化服务推荐***和方法
Mehta et al. Sentiment analysis and influence tracking using twitter
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Ju et al. Relationship strength estimation based on Wechat Friends Circle
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Jiang et al. HyOASAM: A hybrid open API selection approach for mashup development
Servia-Rodríguez et al. Inferring contexts from Facebook interactions: A social publicity scenario
Guzmán de Núñez et al. A proposal for sentiment analysis on twitter for tourism-based applications
CN106383857A (zh) 一种信息处理方法及电子设备
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
KR101910424B1 (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
Alsini et al. Community aware personalized hashtag recommendation in social networks
AleEbrahim et al. Summarising customer online reviews using a new text mining approach
Liu et al. Detecting and tagging users’ social circles in social media
Saravia et al. Unsupervised graph-based pattern extraction for multilingual emotion classification
Kumarasiri et al. User centric mobile based decision-making system using natural language processing (nlp) and aspect based opinion mining (abom) techniques for restaurant selection
Tabarcea et al. Framework for location-aware search engine
Ahmad et al. Google maps data analysis of clothing brands in south punjab, pakistan

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant