CN108062385B - 用户兴趣挖掘的方法及*** - Google Patents

用户兴趣挖掘的方法及*** Download PDF

Info

Publication number
CN108062385B
CN108062385B CN201711334981.3A CN201711334981A CN108062385B CN 108062385 B CN108062385 B CN 108062385B CN 201711334981 A CN201711334981 A CN 201711334981A CN 108062385 B CN108062385 B CN 108062385B
Authority
CN
China
Prior art keywords
user
special user
interest
mined
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711334981.3A
Other languages
English (en)
Other versions
CN108062385A (zh
Inventor
董恭谨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201711334981.3A priority Critical patent/CN108062385B/zh
Publication of CN108062385A publication Critical patent/CN108062385A/zh
Application granted granted Critical
Publication of CN108062385B publication Critical patent/CN108062385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘技术领域,具体涉及用户兴趣挖掘的方法及***,所述方法包括:确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值。本发明可准确的挖掘社交网络用户的兴趣,使社交用户广告主可以精确投放广告。

Description

用户兴趣挖掘的方法及***
技术领域
本发明涉及数据挖掘技术领域,具体涉及用户兴趣挖掘的方法及***。
背景技术
随着生活、工作节奏的加快,人们越来越倾向于用简短的文字来沟通交流。以Twitter(国外一家社交网络网站)和微博为代表的以较小的内容碎片来生产、组织和传播信息的SNS网站,获得网友的青睐。这就为像Twitter和微博这样的社交平台带来巨大的流量,有着巨大的商业变现潜力。
互联网广告是一种成熟的商业变现方式,好的广告匹配算法会使用户、广告主、网络平台三方都从中获益,其中的核心问题就是提升广告主的ROI(投资回报率),只有ROI提升了,三方才能获取长期稳定的收益。因此提升ROI就成为了平台和广告主最关心的事情。
根据用户兴趣进行广告投放已被证明是一种行之有效的提升ROI的方法,不同的互联网平台有不同的兴趣挖掘方法,目前已知的微博兴趣挖掘方法主要聚焦在通过微博博文进行兴趣推断,忽视了用户级别的兴趣推断。微博博文属于短文本,短文本分类很难做到覆盖率和精准度都满意的效果。并且,博文内容表现的更多的是用户的能力,而非用户的兴趣。能力和兴趣是两种不同的东西,需要加以区分。在微博这种产品形式下,微博内容会受到热点事件的影响。热点事件是一些公共事件,代表了用户对公共事件的参与性,并不代表用户的兴趣。微博内容较短,分析微博内容本身就是一个非常具有挑战性的工作,由于信息量有限,甚至提取关键词这项任务的准确率都是很难保证的。
然而,至今对于用户级别的兴趣推断,现在尚无***性的算法方案。
发明内容
本发明要解决的技术问题在于,克服现有的技术的不足,提供用户兴趣挖掘的方法及***,其能够准确的挖掘社交网络用户的兴趣。
为达到上述技术目的,一方面,本发明所述的用户兴趣挖掘的方法,包括:
确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值。
另一方面,本发明所述的用户兴趣挖掘的***,包括:
确定单元,用于确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
获取单元,用于获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
计算单元,用于根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值。
在本发明中,是根据各特殊用户的各能力标签来挖掘用户的兴趣。特殊用户的能力标签是由特殊用户的粉丝(关注特殊用户的用户)根据对特殊用户能力属性为用户指定的。所以,特殊用户的能力标签往往代表了特殊用户影响力的领域。
能力标签,与兴趣标签和自标签是不同的,兴趣标签只能代表用户的兴趣领域,兴趣领域不代表能力领域,特别是在社交网络上,能力标签很多时候是其职业的映射,而兴趣标签只是单纯代表兴趣爱好;而自标签是用户为自己设置的标签,自标签往往混合了能力标签和兴趣标签的作用,很难将用户的影响力的领域从自标签中分离出来。既然特殊用户的能力标签代表了该特殊用户具有影响力的领域,则其余用户(这里包括普通用户和其他特殊用户)在与所述特殊用户发生互动行为时,是基于所述特殊用户的影响力的领域的。例如,特殊用户A的能力标签为美食,那么,特殊用户A的粉丝多数是对美食比较关注。所以借助特殊用户的能力标签挖掘各用户的兴趣是最准确的。从而是广告主根据各用户的兴趣可以进行有针对性的广告投放。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的另一种方法流程示意图;
图3为本发明实施例的***结构示意图;
图4为本发明实施例的另一种***结构示意图;
图5为本发明实施例中确定单元的结构示意图;
图6为本发明实施例中计算单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的用户兴趣挖掘的方法,包括:
101、确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
102、获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
103、根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值。
所谓特殊用户就是其粉丝(关注该特殊用户的用户)数量大于预定阈值的用户,这里的预定阈值设定为3000人,通常,特殊用户的社交网络账号称之为“大号”。在社交网络上,这些特殊用户的行为是具有一定影响力的。而这些特殊用户被关注,也许是因为其社交网络账号上表现的兴趣的影响,但更多时候是因为其社交网络上表现的能力的影响。举例说明,一个美食家,他的职业能力是关于美食,所以在社交网络账号上,他会更专业的表现出对美食的见解,为关注他的粉丝带来影响。也许,这位美食家也对电影感兴趣,但是他在电影方面造成的影响可能并不如在美食方面。
能力标签,就代表了该特殊用户影响力的领域。那么关注特殊用户的其余用户的兴趣就可以从该特殊用户的能力标签上反应。所以,通过分析特殊用户的能力标签,来挖掘各用户的兴趣是较为准确的。而本实施例所述的方法最终得到的各用户的各兴趣标签及对应权值就是各用户兴趣最直接的反映。
进一步地,所述确定每一个特殊用户的至少一个能力标签,具体包括::
获取当前特殊用户的各分组标签;所述当前特殊用户的分组标签为:关注当前特殊用户的各用户在自身账号下为当前特殊用户制定的标签;
确定当前特殊用户的各分组标签对应的互信息值;
按照各分组标签对应的互信息值,由大到小依次将当前特殊用户的各分组标签进行排序;
提取前n(n>0)个分组标签作为当前特殊用户的n个能力标签。
更进一步地,所述当前特殊用户的各分组标签对应的互信息值通过如下公式确定:
Figure BDA0001507184720000041
其中,PMIa为当前特殊用户的分组标签a对应的互信息值,p(a)为分组标签a在所有用户的账号下的概率分布,p(a|b)为分组标签a在当前特殊用户的账号下的概率分布。在上述公式中,“log”所指的对数函数一般采用的是以e为底的对数函数“ln”。
所谓标签也就是对用户的属性的概括,而能力标签也就是对用户具有影响力的能力的概括。特殊用户的能力标签其实是该特殊用户的粉丝为其概括归纳的。通常情况下,当一个用户A在浏览社交网络网页的时候,如果对用户B发表的文章感兴趣的话,会针对用户B产生一些互动行为,包括:点赞用户B发表的文章,转发用户B发表的文章,关注用户B等。在用户A专注用户B的时候,社交网络网站会让用户A对用户B进行分组,并需要用户A制定分组标签;每一类分组都会有一个分组标签来表示该分组内各用户的共同属性。所以用户B的分组标签往往就代表了用户A是为何关注用户B的。有时候,用户A关注用户B的原因可能是因为他们在线下就认识,例如用户A和用户B是朋友、同事等。但是这种情况下,用户A为用户B制定的分组标签(例如:同事)是少量的。如果用户B是特殊用户的话,那么大多数关注用户B的粉丝为其制定的分组标签应该反映的是用户B的具有影响力的领域,也就是用户B的能力,例如:旅游。
当然,作为拥有大量粉丝的特殊用户,其粉丝制定的分组标签可能不止一个,所以选取互信息值较高的几个分组标签作为该特殊用户的能力标签。
在上述技术方案中,所述根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值,具体包括:
将查找到的各特殊用户的所有能力标签作为待挖掘用户的各兴趣标签;
获取预设的各互动行为对应的权重,将待挖掘用户针对同一特殊用户的各互动行为对应的权重求和,得到同一特殊用户下各能力标签的权重;
将相同能力标签的权重相加,分别得到待挖掘用户的各兴趣标签的对应权值。
互动行为包括:关注用户、转发用户的文章、点赞用户的文章、评论用户的文章等。但是不同的互动行为表明用户的兴趣程度也是不同的。所以各互动行为都有对应的权重。
如图2所示,本发明提供的另一种用户兴趣挖掘的方法,包括:
201、确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
202、获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
203、根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值;
204、根据每一个待挖掘用户的各兴趣标签及对应权值,对各待挖掘用户进行分类。
在得到各用户的各兴趣标签及对应权值后,根据各用户的各兴趣标签及对应权值将各用户进行分类是为了方便社交网络的广告主对用户进行广告的投放。这样就可以使广告主对各用户做到精准投放广告了。
其中,所述确定每一个特殊用户的至少一个能力标签,具体包括:
获取当前特殊用户的各分组标签;所述当前特殊用户的分组标签为:关注当前特殊用户的各用户在自身账号下为当前特殊用户制定的标签;
确定当前特殊用户的各分组标签对应的互信息值;
按照各分组标签对应的互信息值,由大到小依次将当前特殊用户的各分组标签进行排序;
提取前n(n>0)个分组标签作为当前特殊用户的n个能力标签。
更进一步地,所述当前特殊用户的各分组标签对应的互信息值通过如下公式确定:
Figure BDA0001507184720000051
其中,PMIa为当前特殊用户的分组标签a对应的互信息值,p(a)为分组标签a在所有用户的账号下的概率分布,p(a|b)为分组标签a在当前特殊用户的账号下的概率分布。在上述公式中,“log”所指的对数函数一般采用的是以e为底的对数函数“ln”。
在上述技术方案中,所述根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值,具体包括:
将查找到的各特殊用户的所有能力标签作为待挖掘用户的各兴趣标签;
获取预设的各互动行为对应的权重,将待挖掘用户针对同一特殊用户的各互动行为对应的权重求和,得到同一特殊用户下各能力标签的权重;
将相同能力标签的权重相加,分别得到待挖掘用户的各兴趣标签的对应权值。
如图3所示,本发明提供的用户兴趣挖掘的***,包括:
确定单元11,用于确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
获取单元12,用于获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
计算单元13,用于根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值。
所谓特殊用户就是其粉丝(关注该特殊用户的用户)数量大于预定阈值的用户,这里的预定阈值设定为3000人,通常,特殊用户的社交网络账号称之为“大号”。在社交网络上,这些特殊用户的行为是具有一定影响力的。而这些特殊用户被关注,也许是因为其社交网络账号上表现的兴趣的影响,但更多时候是因为其社交网络上表现的能力的影响。举例说明,一个美食家,他的职业能力是关于美食,所以在社交网络账号上,他会更专业的表现出对美食的见解,为关注他的粉丝带来影响。也许,这位美食家也对电影感兴趣,但是他在电影方面造成的影响可能并不如在美食方面。
能力标签,就代表了该特殊用户影响力的领域。那么关注特殊用户的其余用户的兴趣就可以从该特殊用户的能力标签上反应。所以,通过分析特殊用户的能力标签,来挖掘各用户的兴趣是较为准确的。而本实施例所述的方法最终得到的各用户的各兴趣标签及对应权值就是各用户兴趣最直接的反映。
如图4所示,本发明提供的另一种用户兴趣挖掘的***,包括:
确定单元11,用于确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
获取单元12,用于获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
计算单元13,用于根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值;
分类单元14,用于根据每一个待挖掘用户的各兴趣标签及对应权值,对各待挖掘用户进行分类。
在得到各用户的各兴趣标签及对应权值后,根据各用户的各兴趣标签及对应权值将各用户进行分类是为了方便社交网络的广告主对用户进行广告的投放。这样就可以使广告主对各用户做到精准投放广告了。
如图5所示,作为一种可能竞购确定单元11,包括:
分组标签模块111,用于获取当前特殊用户的各分组标签;所述当前特殊用户的分组标签为:关注当前特殊用户的各用户在自身账号下为当前特殊用户制定的标签;
互信息值模块112,用于确定当前特殊用户的各分组标签对应的互信息值;
排序模块113,用于按照各分组标签对应的互信息值,由大到小依次将当前特殊用户的各分组标签进行排序;
选取模块114,用于提取前n(n>0)个分组标签作为当前特殊用户的n个能力标签。
所述当前特殊用户的各分组标签对应的互信息值通过如下公式确定:
Figure BDA0001507184720000071
其中,PMIa为当前特殊用户的分组标签a对应的互信息值,p(a)为分组标签a在所有用户的账号下的概率分布,p(a|b)为分组标签a在当前特殊用户的账号下的概率分布。在上述公式中,“log”所指的对数函数一般采用的是以e为底的对数函数“ln”。
如图6所示,作为一种可能结构,计算单元13,包括:
确定模块131,用于将查找到的各特殊用户的所有能力标签作为待挖掘用户的各兴趣标签;
计算权重模块132,用于获取预设的各互动行为对应的权重,将待挖掘用户针对同一特殊用户的各互动行为对应的权重求和,得到同一特殊用户下各能力标签的权重;
计算权值模块133,用于将相同能力标签的权重相加,分别得到待挖掘用户的各兴趣标签的对应权值。
下面列举实例,针对本发明进行说明:
以为微博为例:在微博中,特殊用户的微博账号成为“大号”,特殊用户一般成为“大V”。下面,以大号A代表特殊用户A为例,进行分析;
步骤1、确定大号A的各能力标签;确定方式如下:
获取大号A的各分组标签;大号A的分组标签为:大号A的所有粉丝在自己的账号下为大号A制定的标签;大号A被各粉丝制定的标签有:育儿、育儿专家、儿科医生、母婴、育儿知识、孕育、育儿经,等等。
计算出大号A的各分组标签对应的互信息值;得到的各互信息值:育儿5.3、育儿专家4.9、儿科医生5.1、母婴2.6、育儿知识3.5、孕育3.1、育儿经4.8……
按照各分组标签对应的互信息值,由大到小依次将当前特殊用户的各分组标签进行排序;
育儿5.3、儿科医生5.1、育儿专家4.9、育儿经4.8、育儿知识3.5、孕育3.1、母婴2.6……
取前n(n>0)个分组标签作为当前特殊用户的n个能力标签;
这里取3个分组标签作为特殊用户A的3个能力标签,所以大号A的能力标签有:育儿、儿科医生、育儿专家。
计算出大号A的各分组标签对应的互信息值的公式为:
Figure BDA0001507184720000081
其中,PMIa为大号A的分组标签a对应的互信息值,p(a)为分组标签a在所有微博用户的账号下的概率分布,p(a|b)为分组标签a在大号A下的概率分布。
步骤2、获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
按照上述方法,可以算出所有特殊用户的能力标签;
设大号B的能力标签有:旅游、出国、自由行;
设大号C的能力标签有:美食、食谱、减肥餐。
设用户a关注了大号A,点赞并评论过大号B的一篇文章;
设用户b关注了大号B,点赞过大号C的一篇文章,评论过大号A的一篇文章;
设用户c关注了大号C,转发过大号A的一篇文章,点赞过大号C的一篇文章。
步骤3、根据用户a、b、c针对大号A、B、C的各互动行为和对应的特殊用户的能力标签,得到用户a、b、c的各兴趣标签及对应权值;
获取各互动行为对应的权重;关注的权重为3,转发的权重为2,评论的权重为1,点赞的权重为0.5。当然,还有其他的互动行为,但是这里只举出上述互动行为,方便说明。
针对用户a,执行如下步骤:
根据用户a针对特殊用户的互动行为,查找所述互动行为对应的特殊用户;
按照上例,与用户a有互动关系的特殊用户为:特殊用户A和B,这里以他们的社交网络账号进行代表:大号A和大号B。
根据查找到的大号A和大号B,获取大号A和大号B的各能力标签;
大号A的能力标签有:育儿、儿科医生、育儿专家;
大号B的能力标签有:旅游、出国、自由行。
用户a的各兴趣标签为大号A和大号B的各能力标签;
那么,这里用户a的各兴趣标签为:育儿、儿科医生、育儿专家、旅游、出国、自由行。
将用户a针对同一特殊用户的各互动行为对应的权重求和,得到同一特殊用户下各能力标签的权重;
用户a针对育儿、儿科医生、育儿专家的权重为:3;
用户a针对旅游、出国、自由行的权重为:1.5(1+0.5)。
将相同能力标签的权重相加,分别得到用户a的各兴趣标签的对应权值;
用户a的各兴趣标签的对应权值呈现的形式为:育儿3、儿科医生3、育儿专家3、旅游1.5、出国1.5、自由行1.5。
因为这里举出的大号A、B和C的能力标签没有重复的,所以没有权重相加的情况,但是在实际情况中,各大号之间的能力标签重复的情况是很多的。
以上述相同的方式可以得到:
用户b的各兴趣标签的对应权值呈现的形式为:旅游3、出国3、自由行3、育儿1、儿科医生1、育儿专家1、美食0.5、食谱0.5、减肥餐0.5;
用户c的各兴趣标签的对应权值呈现的形式为:美食3.5、食谱3.5、减肥餐3.5、育儿2、儿科医生2、育儿专家2。
步骤4、根据用户a、b、c的各兴趣标签及对应权值,将用户a、b、c进行分类;
用户a的第一兴趣类别为育儿,第二兴趣类别为旅行;
用户b的第一兴趣类别为旅行,第二兴趣类别为育儿,第三兴趣类别为美食;
用户c第一兴趣类别为美食,第二兴趣类别为育儿。
上述的兴趣类别的排序是根据各类别兴趣标签的权值总和进行排序的。微博的广告主可以根据各用户的各兴趣类别,有针对性的进行广告投放。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用户兴趣挖掘的方法,其特征在于,所述方法包括:
确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值;
所述确定每一个特殊用户的至少一个能力标签,具体包括:
获取当前特殊用户的各分组标签;所述当前特殊用户的分组标签为:关注当前特殊用户的各用户在自身账号下为当前特殊用户制定的标签;
确定当前特殊用户的各分组标签对应的互信息值;
按照各分组标签对应的互信息值,由大到小依次将当前特殊用户的各分组标签进行排序;
提取前n(n>0)个分组标签作为当前特殊用户的n个能力标签。
2.根据权利要求1所述的用户兴趣挖掘的方法,其特征在于,所述当前特殊用户的各分组标签对应的互信息值通过如下公式确定:
Figure FDA0003230768960000011
其中,PMIa为当前特殊用户的分组标签a对应的互信息值,p(a)为分组标签a在所有用户的账号下的概率分布,p(a|b)为分组标签a在当前特殊用户的账号下的概率分布。
3.根据权利要求1至2中任一项所述的用户兴趣挖掘的方法,其特征在于,所述根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值,具体包括:
将查找到的各特殊用户的所有能力标签作为待挖掘用户的各兴趣标签;
获取预设的各互动行为对应的权重,将待挖掘用户针对同一特殊用户的各互动行为对应的权重求和,得到同一特殊用户下各能力标签的权重;
将相同能力标签的权重相加,分别得到待挖掘用户的各兴趣标签的对应权值。
4.根据权利要求3所述的用户兴趣挖掘的方法,其特征在于,所述得到待挖掘用户的各兴趣标签及对应权值之后,还包括:
根据每一个待挖掘用户的各兴趣标签及对应权值,对各待挖掘用户进行分类。
5.一种用户兴趣挖掘的***,其特征在于,所述***包括:
确定单元,用于确定每一个特殊用户的至少一个能力标签;所述特殊用户为被关注的用户量大于预定阈值的用户;
获取单元,用于获取待挖掘用户针对特殊用户的各互动行为,并查找每一个互动行为分别对应的特殊用户;
计算单元,用于根据查找到的各特殊用户的各能力标签,得到待挖掘用户的各兴趣标签及对应权值;
所述确定单元,包括:
分组标签模块,用于获取当前特殊用户的各分组标签;所述当前特殊用户的分组标签为:关注当前特殊用户的各用户在自身账号下为当前特殊用户制定的标签;
互信息值模块,用于确定当前特殊用户的各分组标签对应的互信息值;
排序模块,用于按照各分组标签对应的互信息值,由大到小依次将当前特殊用户的各分组标签进行排序;
选取模块,用于提取前n(n>0)个分组标签作为当前特殊用户的n个能力标签。
6.根据权利要求5所述的用户兴趣挖掘的***,其特征在于,所述当前特殊用户的各分组标签对应的互信息值通过如下公式确定:
Figure FDA0003230768960000021
其中,PMIa为当前特殊用户的分组标签a对应的互信息值,p(a)为分组标签a在所有用户的账号下的概率分布,p(a|b)为分组标签a在当前特殊用户的账号下的概率分布。
7.根据权利要求5-6中任一项所述的用户兴趣挖掘的***,其特征在于,所述计算单元,包括:
确定模块,用于将查找到的各特殊用户的所有能力标签作为待挖掘用户的各兴趣标签;
计算权重模块,用于获取预设的各互动行为对应的权重,将待挖掘用户针对同一特殊用户的各互动行为对应的权重求和,得到同一特殊用户下各能力标签的权重;
计算权值模块,用于将相同能力标签的权重相加,分别得到待挖掘用户的各兴趣标签的对应权值。
8.根据权利要求7所述的用户兴趣挖掘的***,其特征在于,所述***,还包括:
分类单元,用于根据每一个待挖掘用户的各兴趣标签及对应权值,对各待挖掘用户进行分类。
CN201711334981.3A 2017-12-14 2017-12-14 用户兴趣挖掘的方法及*** Active CN108062385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711334981.3A CN108062385B (zh) 2017-12-14 2017-12-14 用户兴趣挖掘的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711334981.3A CN108062385B (zh) 2017-12-14 2017-12-14 用户兴趣挖掘的方法及***

Publications (2)

Publication Number Publication Date
CN108062385A CN108062385A (zh) 2018-05-22
CN108062385B true CN108062385B (zh) 2021-10-08

Family

ID=62138642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711334981.3A Active CN108062385B (zh) 2017-12-14 2017-12-14 用户兴趣挖掘的方法及***

Country Status (1)

Country Link
CN (1) CN108062385B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969473B (zh) * 2018-09-30 2023-10-31 北京国双科技有限公司 一种用户标签生成方法及装置
CN109992723B (zh) * 2019-02-25 2023-06-20 平安科技(深圳)有限公司 一种基于社交网络的用户兴趣标签构建方法及相关设备
CN111309936A (zh) * 2019-12-27 2020-06-19 上海大学 一种电影用户画像的构建方法
CN113034191B (zh) * 2021-03-31 2024-05-21 平安直通咨询有限公司 基于用户标签的信息推送方法、***、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880691A (zh) * 2012-09-19 2013-01-16 北京航空航天大学深圳研究院 一种基于用户亲密度的混合推荐***及方法
CN103593393A (zh) * 2013-09-13 2014-02-19 微梦创科网络科技(中国)有限公司 基于微博互动关系挖掘社交圈的方法及装置
CN103870541A (zh) * 2014-02-24 2014-06-18 微梦创科网络科技(中国)有限公司 社交网络用户兴趣挖掘方法和***
CN105260410A (zh) * 2015-09-22 2016-01-20 天津大学 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130086063A1 (en) * 2011-08-31 2013-04-04 Trista P. Chen Deriving User Influences on Topics from Visual and Social Content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880691A (zh) * 2012-09-19 2013-01-16 北京航空航天大学深圳研究院 一种基于用户亲密度的混合推荐***及方法
CN103593393A (zh) * 2013-09-13 2014-02-19 微梦创科网络科技(中国)有限公司 基于微博互动关系挖掘社交圈的方法及装置
CN103870541A (zh) * 2014-02-24 2014-06-18 微梦创科网络科技(中国)有限公司 社交网络用户兴趣挖掘方法和***
CN105260410A (zh) * 2015-09-22 2016-01-20 天津大学 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置

Also Published As

Publication number Publication date
CN108062385A (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
US11533278B2 (en) Conditional automatic social posts
US10505884B2 (en) Entity classification and/or relationship identification
US8620718B2 (en) Industry specific brand benchmarking system based on social media strength of a brand
CN108062385B (zh) 用户兴趣挖掘的方法及***
US10628875B2 (en) Product page classification
US9311683B1 (en) Measuring engagement with a social networking platform
US10467282B2 (en) Suggesting tags on online social networks
US9450771B2 (en) Determining information inter-relationships from distributed group discussions
US10304066B2 (en) Providing relevant notifications for a user based on location and social information
CN109379416B (zh) 用于交换信息的方法、计算机可读非暂时性存储介质和***
US10223648B2 (en) Providing context relevant search for a user based on location and social information
US8751636B2 (en) Timing for providing relevant notifications for a user based on user interaction with notifications
US10515130B2 (en) Prioritizing items from different categories in a news stream
US10540692B2 (en) Presenting deals to a user of social networking system
US9607273B2 (en) Optimal time to post for maximum social engagement
US20160055541A1 (en) Personalized recommendation system and methods using automatic identification of user preferences
TWI549079B (zh) 用於導引內容至一社群網路引擎之使用者的系統及方法
US9401097B2 (en) Method and apparatus for providing emotion expression service using emotion expression identifier
US20130297694A1 (en) Systems and methods for interactive presentation and analysis of social media content collection over social networks
CN106168953B (zh) 面向弱关系社交网络的博文推荐方法
US9208503B2 (en) Information processing apparatus, information processing method, information processing program, and recording medium
US9355181B2 (en) Search result augmenting
US9436766B1 (en) Clustering of documents for providing content
CN111523923A (zh) 商家评论管理***、方法、服务器及存储介质
US20150269606A1 (en) Multi-source performance and exposure for analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant