CN107402932A - 用户标签的扩展处理方法、文本推荐方法和装置 - Google Patents

用户标签的扩展处理方法、文本推荐方法和装置 Download PDF

Info

Publication number
CN107402932A
CN107402932A CN201610341685.5A CN201610341685A CN107402932A CN 107402932 A CN107402932 A CN 107402932A CN 201610341685 A CN201610341685 A CN 201610341685A CN 107402932 A CN107402932 A CN 107402932A
Authority
CN
China
Prior art keywords
label
tag
text
candidate
expanded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610341685.5A
Other languages
English (en)
Other versions
CN107402932B (zh
Inventor
刘畅
刘安安
杨月奎
王迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610341685.5A priority Critical patent/CN107402932B/zh
Publication of CN107402932A publication Critical patent/CN107402932A/zh
Application granted granted Critical
Publication of CN107402932B publication Critical patent/CN107402932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用户标签的扩展处理方法,包括:获取用户标签和候选被扩展标签;进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度;根据所述关联度进行所述候选被扩展标签中扩展标签的筛选得到所述用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系。此外,还提供了一种与该方法匹配的用户标签的扩展处理装置、文本推荐方法和装置。上述用户标签的扩展处理方法和装置能够提高用户标签扩展的精准性,上述文本推荐方法和装置实现能够在实现用户标签精准扩展的基础上实现文本的精准推荐。

Description

用户标签的扩展处理方法、文本推荐方法和装置
技术领域
本发明涉及互联网应用技术领域,特别涉及一种用户标签的扩展处理方法、文本推荐方法和装置。
背景技术
随着互联网应用中大数据处理的实现,各用户都有其所对应的用户标签,以便基于用户标签来实现各种推荐应用,进而实现基于用户画像的个性化服务。
如果一用户的用户标签数量稀疏,将会导致基于用户标签的推荐只局限于用户本身的历史信息,所潜在的兴趣、喜好等方面的信息将被忽略,无法精准推荐用户感兴趣的信息。
因此需要进行用户标签的扩展处理。例如,在需要为推荐应用提供用户感兴趣的信息时,通过静态的数据库中的信息来扩展用户的喜好信息。如果用户最初感兴趣的信息存在于数据库中,与其在数据库中关联的其他信息可以作为关联信息来扩展用户的喜好信息,即实现用户标签扩展。
然而,更多的推荐应用的实现中是没有静态数据库作为支撑的。在此情况下,便只能直接根据两个标签共同出现在某一个场景下的次数或者以此作为基数计算两个标签的关联度,以此来实现用户标签的扩展。
但是,由于所进行的关联度计算是以两个标签共同出现的次数为依据的,因此,对于某些热点标签,其即便与用户标签并不具备关联性,也会被视为用户标签所扩展的,因此,用户标签扩展的精准性亟待提高。
发明内容
基于此,有必要提供一种用户标签的扩展处理方法,所述方法能够提高用户标签扩展的精准性。
此外,还有必要提供一种用户标签的扩展处理装置,所述装置能够提高用户标签扩展的精准性。
另外,还有必要提供一种文本推荐方法和装置,所述文本推荐方法和装置能够在实现用户标签精准扩展的基础上实现文本的精准推荐。
一种用户标签的扩展处理方法,所述方法包括如下步骤:
获取用户标签和候选被扩展标签;
进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度;
根据所述关联度进行所述候选被扩展标签中扩展标签的筛选得到所述用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系。
一种文本推荐方法,所述方法包括如下步骤:
获取文本推荐应用的用户标识,将用户标识发送至服务器;
获得所述服务器根据扩展关系推荐的推荐文本,所述扩展关系是服务器在如上所述的方法所生成的扩展关系中根据所述用户标识对应的用户标签获得的;
进行所述文本推荐应用中推荐文本的显示控制。
一种用户标签的扩展处理装置,所述包括:
获取模块,用于获取用户标签和候选被扩展标签;
关联度计算模块,用于进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度;
筛选模块,用于根据所述关联度进行所述候选被扩展标签中扩展标签的筛选得到所述用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系。
一种文本推荐装置,所述装置包括:
标识获取模块,用于获取文本推荐应用的用户标识,将用户标识发送至服务器;
推荐获得模块,用于获得所述服务器根据扩展关系推荐的推荐文本,所述扩展关系是服务器在如上所述的装置所生成的扩展关系中根据所述用户标识对应的用户标签获得的;
显示控制模块,用于进行所述文本推荐应用中推荐文本的显示控制。
为解决上述技术问题,将采用如下技术方案:
在进行用户标签的扩展处理中,首先进行用户标签和候选被扩展标签的获取,该候选被扩展标签用于为用户标签提供其所关联的扩展标签,在具体实现中,进行用户标签和候选被扩展标签之间的互信息计算得到候选被扩展标签相对用户标签的关联度,根据关联度进行候选被扩展标签中扩展标签的筛选得到用户标签关联的扩展标签,由此来获得用户标签和关联的扩展标签构成的扩展关系,由于候选被扩展标签相对用户标签的关联度是通过互信息计算而得到的,互信息计算中考虑了候选被扩展标签的出现概率,而不会被出现次数这一绝对数值影响,因此能够提高用户标签扩展的精准性,进而能够在此基础上实现文本的精准推荐。
附图说明
图1是本发明实施例提供的一种服务器的结构示意图;
图2是一个实施例中用户标签的扩展处理方法的流程图;
图3是图2中获取用户标签和候选被扩展标签的方法流程图;
图4是图2中进行用户标签和候选被扩展标签之间的互信息计算得到候选被扩展标签相对用户标签的关联度的方法流程图;
图5是图2中根据关联度进行候选被扩展标签中扩展标签的筛选得到用户标签关联的扩展标签,用户标签和关联的扩展标签构成扩展关系的方法流程图;
图6是图5中根据权威度和关联度在用户标签关联的候选被扩展标签中筛选得到用户标签关联的扩展标签,将关联的扩展标签和用户标签构成扩展关系的方法流程图;
图7是另一个实施例中用户标签的扩展处理方法的流程图;
图8是一个实施例中文本推荐方法的流程图;
图9是图8中进行文本推荐应用中推荐文本的显示控制的方法流程图;
图10是一个实施例中用户标签的扩展处理装置的结构示意图;
图11是图10中获取模块的结构示意图;
图12是图10中关联度计算模块的结构示意图;
图13是图10中筛选模块的结构示意图;
图14是图13中扩展标签筛选单元的结构示意图;
图15是另一个实施例中用户标签的扩展处理装置的结构示意图;
图16是一个实施例中文本推荐装置的结构示意图;
图17是图16中显示控制模块的结构示意图。
具体实施方式
体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化,其皆不脱离本发明的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本发明。
如前所述的,现有的用户标签扩展处理中,所涉及的关联度计算指是在多候选被扩展标签中,针对一候选被扩展标签,根据自身与用户标签共同出现的次数来进行关联度的计算,得到用户标签与此候选被扩展标签的关联度,计算过程如下所示:
confidence(tag1,tag2)=|News(tag1)∩News(tag2)|/|News(tag1)|
support(tag1,tag2)=|News(tag1)∪News(tag2)|/|Nall|
其中,tag1表示用户标签,tag2表示候选被扩展标签,|News(tag1)∩News(tag2)|代表用户标签和候选被扩展标签共同出现的次数,News(tag1)代表用户标签单独出现的次数,|Nall|代表所有标签出现的次数,confidence(tag1,tag2)代表用户标签和候选被扩展标签共同出现的次数在用户 标签单独出现次数的比例。
如果confidence(tag1,tag2)值达到某一设定阈值,即可认为这一候选被扩展标签和用户标签是相关联的。
support(tag1,tag2)则是判断这一候选被扩展标签占所有标签出现次数的比值,如果未达到support的预设阈值,则认为这一候选被扩展标签和用户标签所构成的关联并不重要,可将其过滤掉。
但是,此计算方式容易将热点标签当成与用户标签关联度高的扩展标签。例如,对于“范冰冰”这一候选被扩展标签,由于其出现次数高,因此会将其作为用户标签的扩展标签,只是因为这一候选被扩展标签和很多标签都容易出现在一起。
这将造成原本关联度非常高的标签之间关联度远小于用户标签与这一候选被扩展标签之间的关联度,即,用户标签和“范冰冰”这一候选被扩展标签之间的confidence(tag1,tag2)反而更高。
因此,现有的用户标签扩展处理过程存在着明显的不准确性,进而无法得到与用户潜在兴趣和喜好相符的扩展标签。
鉴于此,提供一种用户标签的扩展处理方法,以克服现有的用户标签处理过程中的不准确性,得到与用户潜在兴趣和喜好相符的扩展标签。
首先需要说明的是,用户标签的扩展处理实现于服务器,通过服务器进行用户标签的扩展处理,以使得各用户的用户标签都能够在服务器的作用下实现扩展,进而实现精准实现用户画像。
图1示出了本发明实施例提供的一种服务器的结构,该服务器100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)110(例如,一个或一个以上处理器)和存储器120,一个或一个以上存储应用程序131或数据133的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器120和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器110可以设置为与存储介质130通信,在服务器100上执行存储介质130中的一系列指令操作。服务器100还可以包括一个或一个以上电源150,一个或一个以上有线或无线网络接口170,一个或一个以上 输入输出接口180,和/或,一个或一个以上操作***135,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的结合。
具体的,一种用户标签的扩展处理方法,如图1所示,包括如下步骤:
步骤210,获取用户标签和候选被扩展标签。
用户标签可以是从用户浏览的语料中得到的,也可以是用户所设定的。所指的语料即为各种文本。例如,在文本推荐应用中,通过用户触发进行的点击,文本推荐应用将拉取各种文本进行内容显示,此时,所进行内容显示的文本便作为获得用户标签的语料;除此之外,用户也可通过在文本推荐应用进行的设置来添加或者删除用户标签,在此不进行限定。
需要说明的是,本发明实施中的用户均对应于一个用户标识,通过该用户标识可以区分用户标签扩展以及文本推荐中的不同用户。
候选被扩展标签则是也是由用户语料中获得,但是并不仅于于用户浏览的语料。将在获得的候选被扩展标签中得到用户标签扩展而得到的扩展关系。
所获取的用户标签和候选被扩展标签曾共同出现于文本中,与此用户标签同出现于文本中的候选被扩展标签被用来评估其作为用户标签的扩展的可能性。
步骤230,进行用户标签和候选被扩展标签之间的互信息计算得到候选被扩展标签相对用户标签的关联度。
互信息计算指的是使用互信息(pointwise mutual information)来计算用户标签和候选被扩展标签之间的关联度,互信息代表用户标签和候选被扩展标签共同出现的概率与它们各自随机出现在一起的概率两都之间的大小关系,由此便获得候选被扩展标签相对用户标签的关联度。
在此过程中所计算得到的关联度是通过用户标签和候选被扩展标签一起出现概率的基础进行计算的,而其它的一些计算方式,例如,consine相似度计算、jaccard相似度计算则无此基础,因此,相对现有的计算方式,通过互信息计算过程将能够得到准确的关联度。
步骤250,根据关联度进行候选被扩展标签中扩展标签的筛选得到用户标签关联的扩展标签,用户标签和关联的扩展标签构成扩展关系。
扩展标签指的是由用户标签进行扩展而得到的标签,扩展标签将标示了用户潜在的兴趣、喜好等原本忽略的信息。用户标签和扩展标签所构成的扩展关系将实现了更为精准的用户画像,进而使得各种文本推荐应用中由扩展关系所实现的推荐文本选取更为精准,文本推荐应用中推荐文本的有效性也得到相应提高。
与用户标签共同出现的候选被扩展标签都通过互信息计算得到了对应的关联度,因此,能够根据关联度在候选被扩展标签中筛选得到扩展标签。
换而言之,扩展标签来自于候选被扩展标签,此候选被扩展标签是与用户标签共同出现的标签。
进一步的,在本实施例中,如图3所示,步骤210包括:
步骤211,根据文本推荐应用触发的文本显示操作获得用户标签。
文本推荐应用指的是运行于用户的终端中,根据用户对应的用户标识实现文本推荐的应用。例如,文本推荐应用可以是资讯类应用等。
文本显示操作是指文本推荐应用中用户触发进行的文本显示操作。例如,针对文本推荐应用中一对象触发的点击操作;又例如,针对文本推荐应用所进行的推送通知触发的点击操作,无论文本显示操作是何种形式,其都有对应的对象,并且对文本显示操作所进行的响应过程即为此对象的内容显示过程。
因此,可由文本推荐应用中显示的内容抽取用户标签,并交由服务器来进行用户标签的扩展。
步骤213,获取用于进行用户标签扩展的候选被扩展标签,候选被扩展标签是与用户标签共同出现于文本中的标签。
候选被扩展标签是由语料,即海量的文本抽取得到的,并且必须与用户标签同出现于文本中。
通过此过程,能够得到用户标签和用于进行用户标签扩展的候选被扩展标签,由于用户标签是随着文本推荐应用中触发的文本显示操作获得的,因此,通过用户标签和扩展标签,将能够为文本推荐应用不断新增和修正用户画像,进而不断地提高精准性。
在一个实施例中,步骤230如图4所示,包括:
步骤231,根据文本中的出现次数进行候选被扩展标签的剔除。
在获得用于进行用户标签扩展的候选被扩展标签之后,统计每一候选被扩展标签在文本中的出现次数。
对所有的候选被扩展标签取平均值。在此基础上,将出现次数小于此平均值的候选被扩展标签剔除,而仅保留出现次数大于此平均值的候选被扩展标签。
步骤233,针对保留的每一候选被扩展标签,与共同出现于文本的用户标签进行互信息计算得到候选被扩展标签相对用户标签的关联度。
在保留下来的候选被扩展标签中,进行自身与用户标签之间的互信息计算,其中,详细计算过程如下述公式所示,即:
其中,x和y分别代表用户标签和候选被扩展标签,p(x,y)代表用户标签和候选被扩展标签在文本中共同出现的概率,其计算方式为用户标签和候选被扩展标签共同出现次数在所有标签频数中的比例;
P(x)和p(y)分别表示相应标签独立的概率,计算方式为单独出现次数在所有标签频数中的比例。
对于通过互信息计算所得到的关联度,如果大于0,则说明候选被扩展标签是与用户标签关联的。
在一个实施例中,步骤250如图5所示,包括:
步骤251,获取用户标签关联的候选被扩展标签。
在实现了候选被扩展标签相对用户标签的互信息计算,得到候选被扩展标签的关联度之后,就能够基于关联度来获得用户标签关联的候选被扩展标签。
其中,需要说明的是,用户标签关联的候选被扩展标签指的是与用户标签存在关联,且与用户标签不能是很少次数共同出现。
具体的,步骤251包括:根据相对于用户标签的关联度和共同出现次数进行候选被扩展标签的选取,获得与用户标签关联的候选被扩展标签。
在此过程中,获得的候选被扩展标签的关联度大于零,且与用户标签在文本的共同次数大于阈值。
该阈值是预先进行设置的,其数值大于可根据经验而定,例如其可为20。
步骤253,通过用户标签关联的候选被扩展标签构建标签图谱。
对于一用户标签而言,其通过前述过程将得到关联的多个候选被扩展标签,因此将以关联的多个候选被扩展标签作为节点来构建用户标签的标签图谱。
具体的,步骤253包括:以用户标签关联的候选被扩展标签作为节点,进行拓扑结构的构建得到用户标签的标签图谱。
标签图谱是以用户标签为顶点,其关联的候选被扩展标签为边建立的图,并且由于候选被扩展标签和用户标签所形成的关联关系都是相互的,因此,这一标签图片是一无权重的无向图。
步骤255,对标签图谱进行运算得到标签图谱中候选被扩展标签的权威度。
候选被扩展标签的权威度是计算标签图谱中节点权威度的算法。在具体实现中,其可采用pagerank算法来实现,利用标签图谱中每个节点在图中的拓扑结构来进行迭代计算,以得到每个节点的权威度。
具体的,迭代公式可如下所示:
其中,pi是一候选被扩展节点;d为阻尼系数,可设置为0.85;N是所有标签的数量,M(pi)是所有指向用户标签的关联候选被扩展标签的集合,L(pi)是某一个候选被扩展标签pj指向的其它关联的候选被扩展标签。
在标签图谱上运行上述算法,即可得到每一候选被扩展标签的权威度。
步骤257,根据权威度和关联度在用户标签关联的候选被扩展标签中筛选得到用户标签关联的扩展标签,将关联的扩展标签和用户标签构成扩展关系。
以权威度和关联度作用筛选的维度,在候选被扩展标签中进行扩展标签的选取,进而得到能够与用户标签构成扩展关系的扩展标签。
具体的,在本实施例中,步骤257如图6所示,包括:
步骤2571,根据候选被扩展标签的关联度和权威度进行融合计算得到候选被扩展标签的排序权值。
排序权值用于实现候选被扩展标签的选取,即确定哪一候选被扩展标签 可作为扩展标签。排序权值的大小是综合了关联度和权威度的因素而获得的。
具体的,对每一候选被扩展标签,都进行关联度和权威度的融合计算,进而得到候选被扩展标签的排序权值,详细计算过程可如下述公式所示:
Rank(tag1,tag2)=0.7*pmi(tag1,tag2)+0.3*pagerank(tag2)
其中,Rank(tag1,tag2)为排序权值,pmi(tag1,tag2)为候选被扩展标签相对用户标签的关联度,pagerank(tag2)为候选被扩展标签的关联度。0.7和0.3为系数,其可根据实际运营的需要做调整,但需要保证两个系数之和为1。
通过排序权值的计算,使得用户标签的扩展并不会仅限于一个维度进行评判,而融入了其它的一些维度,进而有利于提高用户标签扩展的精准性。
步骤2573,按照排序权值在用户标签关联的候选被扩展标签中筛选得到用户标签关联的扩展标签,用户关联的扩展标签和用户标签构成扩展关系。
在另一个实施例中,步骤257之后,如上所述的方法还包括:
根据扩展关系中用户标签和关联的扩展标签共同出现的时间分布进行扩展关系的稳定性评估,获得稳定的扩展关系,稳定的扩展关系中用户标签和关联的扩展标签用于进行推荐文本选取。
由文本所抽取得到的标签,例如各候被扩展标签,均是有其时效性的,例如,对于新闻浏览中,所抽取得到的某些标签在过了一段时间之后,由于此标签所对应的内容不再是热点,因此,此标签在后续的文本中不再出现,因此,需要考虑用户标签和关联的扩展标签共同出现的时间分布,进而获得在一段时间内稳定的扩展关系。
具体的,在实际运营中,不同时间段相同的用户标签所扩展得到的扩展标签是不一样的。
比如,用户标签“共识1”在2015年11月、2015年12月和2016年1月扩展得到的扩展标签各不相同,即如下所标示的:
2015年11月:目标A 原则B 地点C 关系D 人物E 目标F 人物G 人物H 人物I 人物J 人物K;
2015年12月:关系D 人物G 人物E 人物J;
2016年1月:法L 网站M 关系D 人物N 人物G 人物E 人物J;
由此可获得各扩展标签的时间分布,进而按照时间分布选取出稳定的扩 展关系即可。
上述例子中,只有“关系D”、“人物G”、“人物E”和“人物J”作能够与用户标签形成稳定的扩展关系,而“地点C”、“人物N”都是在一个时间段突发的,因此,并不能与用户标签构成普遍的稳定的扩展关系。
通过此过程得以识别出扩展关系中存在的短期关系,进而在时效性特别强的新闻推荐领域中,能够获得具备时效性的扩展关系,从而实现新闻这类文本的精准推荐。
在一个实施例中,如上所述的方法如图7所示,还包括如下步骤:
步骤310,进行推荐文本的选取得到包含扩展关系中用户标签和关联的扩展标签的文本。
服务器通过如上所述的用户标签扩展过程便得到了包含用户标签和扩展标签的扩展关系,在此基础上即可使用扩展关系为用户进行推荐文本的选取。
步骤330,向用户推荐包含用户标签和关联的扩展标签的文本。
在服务器选取得到包含了扩展关系中用户标签和扩展标签的推荐文本之后,将向用户所在的文本推荐应用进行推荐文本的推送,由此将使得文本推荐应用能够得到用户所期望的推荐文本,进而能够极大提高文本推荐应用中推荐文本的整体点击率。
如上所述的方法能够应用于广告、新闻等文本推荐领域,在基于精准丰富的扩展关系实现精准推荐的同时,也会不断为用户挖掘扩展关系,进而不断为用户提供丰富的扩展标签。
此外,还相应地提供了一种文本推荐方法,该方法如图8所示,包括:
步骤410,获取文本推荐应用的用户标识,将用户标识发送至服务器。
步骤430,获得服务器根据扩展关系推荐的推荐文本。
扩展关系是服务器在如上所述的用户标签扩展处理方法生成的扩展关系中根据用户标识对应的用户标签获得的。
如前所述的,扩展关系包括了用户标签和关联的扩展关系,用户标签是随着用户查看的文本而抽取得到的,并且用户唯一对应于一用户标识,因此,对于获取到用户标识的服务器而言,能够根据用户标识获得相应的扩展关系。
服务器根据获得的扩展关系为文本推荐应用中登录的用户选取推荐文 本,并向文本推荐应用返回,以便于文本推荐应用能够接收到推送的推荐文本。
步骤450,进行文本推荐应用中推荐文本的显示控制。
文本推荐应用中进行的推荐文本显示包括推送通知的实现以及推送通知被触发时相应推荐文本的内容显示。
在一个实施例中,文本推荐应用为资讯类应用,推荐文本为资讯文本,则步骤450如图9所示,包括:
步骤451,通过资讯类应用分别进行资讯文本的推送通知,资讯文本是服务器根据如上所述的用户标签扩展方法生成的稳定的扩展关系获得的。
所指的资讯类应用可以是各类具备新闻推荐功能的应用。资讯类应用在获得服务器的推荐时,将进行资讯文本的推送通知,以便于用户能够获悉当前所进行的推荐。
步骤453,推送通知被触发时,通过资讯类应用进行相应资讯文本的内容显示。
在一个实施例中,如上所述的方法还包括:
根据文本推荐应用触发的文本显示操作获得文本显示操作的对象,文本显示操作的对象用于获得用户标识对应的用户标签。
如前所述,文本显示操作可以是任意一文本显示对象的点击操作,该文本显示操作的对象,即文本显示对象可以是推送通知,也可以是文本推荐应用中显示的标题等对象,在此不进行限定。
通过如上所述的文本推荐方法,将使得用户能够获得精准的推荐服务,在此推荐服务中能够扩展用户本身的点击兴趣,即通过用户在文本推荐应用中的点击集合一批用户标签作为用户画像,再通过如上所述的用户标签扩展方法扩展出用户的潜在兴趣,从而使得通过这些潜在兴趣所获得的推荐文本在整体点击率之上。
此外,还相应地提供了一种用户标签的扩展处理装置,所述装置如图10所示,包括获取模块510、关联度计算模块530和筛选模块550,其中:
获取模块510,用于获取用户标签和候选被扩展标签。
关联度计算模块530,用于进行用户标签和候选被扩展标签之间的互信息计算得到候选被扩展标签相对用户标签的关联度。
筛选模块550,用于根据关联度进行候选被扩展标签中扩展标签的筛选得到用户标签关联的扩展标签,用户标签和关联的扩展标签构成扩展关系。
在一个实施例中,获取模块510如图11所示,包括用户标签获得单元511和候选获取单元513,其中:
用户标签获得单元511,用于根据文本推荐应用中触发的文本显示操作获得用户标签。
候选获取单元513,用于获取用于进行用户标签扩展的候选被扩展标签,候选被扩展标签是与用户标签共同出现于文本中的标签。
在一个实施例中,关联度计算模块530如图12所示,包括标签剔除单元531和互信息计算单元533,其中:
标签剔除单元531,用于根据文本的出现次数进行候选被扩展标签的剔除。
互信息计算单元533,用于针对保留的每一候选被扩展标签,与共同出现于文本的用户标签进行互信息计算得到候选被扩展标签相对用户标签的关联度。
在一个实施例中,筛选模块550如图13所示,包括关联标签获取单元551、图谱构建单元553、权威度运算单元555和扩展标签筛选单元557,其中:
关联标签获取单元551,用于获取用户标签关联的候选被扩展标签。
在一个实施例中,关联标签获取单元551进一步用于根据相对于用户标签的关联度和共同出现次数进行候选被扩展标签的选取,获得与用户标签关联的候选被扩展标签。
图谱构建单元553,用于通过用户标签关联的候选被扩展标签构建标签图谱。
在一个实施例中,图谱构建单元553进一步用于以用户标签关联的候选被扩展标签作为节点,进行拓扑结构的构建得到用户标签的标签图谱。
权威度运算单元555,用于对标签图谱进行运算得到标签图谱中候选被扩展标签的权威度。
扩展标签筛选单元557,用于根据权威度和关联度在用户标签关联的候选被扩展标签中筛选得到用户标签关联的扩展标签,将关联的扩展标签和用户标签构成扩展关系。
进一步的,在本实施例中,如图14所示,扩展标签筛选单元557包括融合计算子单元5571和权值筛选子单元5573,其中:
融合计算子单元5571,用于根据候选被扩展标签的关联度和权威度进行融合计算得到候选被扩展标签的排序权值。
权值筛选子单元5573,用于按照排序权值在用户标签关联的候选被扩展标签中筛选得到用户标签关联的扩展标签,用户标签关联的扩展标签和所述用户标签构成扩展关系。
在另一个实施例中,如上所述的装置还包括稳定性评估模块,该稳定性评估模块用于根据扩展关系中用户标识和关联的扩展标签共同出现的时间分布进行扩展关系的稳定性评估,获得稳定的扩展关系,稳定的扩展关系中的用户标签和关联的扩展标签用于进行推荐文本选取。
在另一个实施例中,如图15所示,如上所述的装置还包括推荐文本选取模块610和推荐执行模块630,其中:
推荐文本选取模块610,用于进行推荐文本的选取得到包含扩展关系中用户标签和关联的扩展标签的文本;
推荐执行模块630,用于向用户推荐包含用户标签和关联的扩展标签的文本。
另外,还有必要提供一种文本推荐装置,该装置如图16所示,包括标识获取模块710、推荐获得模块730和显示控制模块750,其中:
标识获取模块710,用于获取文本推荐应用的用户标识,将用户标识发送至服务器。
推荐获得模块730,用于获得服务器根据扩展关系推荐的推荐文本,扩展关系是服务器在上述的装置所生成的扩展关系中根据用户标识对应的用户标签获得的。
显示控制模块750,用于进行文本推荐应用中推荐文本的显示控制。
在一个实施例中,文本推荐应用为资讯类应用,推荐文本为资讯文本, 显示控制模块750如图17所示,包括推送通知单元751和内容显示单元753,其中:
推送通知单元751,用于通过资讯类应用进行资讯文本的推送通知,资讯文本是服务器根据如上装置生成的稳定的扩展关系获得的。
内容显示单元753,用于推送通知被触发时,通过资讯类应用进行相应资讯文本的内容显示。
在一个实施例中,上述装置还包括标签抽取模块。该标签抽取模块用于根据文本推荐应用触发的文本显示操作获得文本显示操作的对象,文本显示操作的对象用于获得用户标识对应的用户标签。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
虽然已参照几个典型实施方式描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施方式不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (24)

1.一种用户标签的扩展处理方法,其特征在于,所述方法包括如下步骤:
获取用户标签和候选被扩展标签;
进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度;
根据所述关联度进行所述候选被扩展标签中扩展标签的筛选得到所述用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系。
2.根据权利要求1所述的方法,其特征在于,所述获取用户标签和候选被扩展标签的步骤包括:
根据文本推荐应用中触发的文本显示操作获得用户标签;
获取用于进行用户标签扩展的候选被扩展标签,所述候选被扩展标签是与所述用户标签共同出现于文本中的标签。
3.根据权利要求1所述的方法,其特征在于,所述进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度的步骤包括:
根据文本中的出现次数进行候选被扩展标签的剔除;
针对保留的每一候选被扩展标签,与共同出现于文本的用户标签进行互信息计算得到所述候选被扩展标签相对所述用户标签的关联度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述关联度进行候选被扩展标签中扩展标签的筛选得到用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系的步骤包括:
获取所述用户标签关联的候选被扩展标签;
通过用户标签关联的候选被扩展标签构建标签图谱;
对所述标签图谱进行运算得到所述标签图谱中候选被扩展标签的权威度;
根据所述权威度和关联度在所述用户标签关联的候选被扩展标签中筛选得到所述用户标签关联的扩展标签,将所述关联的扩展标签和所述用户标签构成扩展关系。
5.根据权利要求4所述的方法,其特征在于,所述获取所述用户标签关联的候选被扩展标签的步骤包括:
根据相对于所述用户标签的关联度和共同出现次数进行候选被扩展标签的选取,获得与所述用户标签关联的候选被扩展标签。
6.根据权利要求4所述的方法,其特征在于,所述通过用户标签关联的候选被扩展标签构建标签图谱的步骤包括:
以所述用户标签关联的候选被扩展标签作为节点,进行拓扑结构的构建得到所述用户标签的标签图谱。
7.根据权利要求4所述的方法,其特征在于,所述根据所述权威度和关联度在所述用户标签关联的候选被扩展标签中筛选得到所述用户标签关联的扩展标签,将所述关联的扩展关系和所述用户标签构成扩展关系的步骤包括:
根据候选被扩展标签的关联度和权威度进行融合计算得到所述候选被扩展标签的排序权值;
按照所述排序权值在所述用户标签关联的候选被扩展标签中筛选得到所述用户标签关联的扩展标签,所述用户标签关联的扩展标签和所述用户标签构成扩展关系。
8.根据权利要求4所述的方法,其特征在于,所述根据所述权威度和关联度在所述用户标签关联的候选被扩展标签中筛选得到所述用户标签关联的扩展标签,将所述关联的扩展关系和所述用户标签构成扩展关系的步骤之后,所述方法还包括:
根据所述扩展关系中用户标识和关联的扩展标签共同出现的时间分布进行所述扩展关系的稳定性评估,获得稳定的扩展关系,所述稳定的扩展关系中的用户标签和关联的扩展标签用于进行推荐文本选取。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述方法还包括:
进行推荐文本的选取得到包含扩展关系中所述用户标签和关联的扩展标签的文本;
向用户推荐所述包含用户标签和关联的扩展标签的文本。
10.一种文本推荐方法,其特征在于,所述方法包括如下步骤:
获取文本推荐应用的用户标识,将用户标识发送至服务器;
获得所述服务器根据扩展关系推荐的推荐文本,所述扩展关系是服务器在如权利要求1至9任意一项所述的方法所生成的扩展关系中根据所述用户标识对应的用户标签获得的;
进行所述文本推荐应用中推荐文本的显示控制。
11.根据权利要求10所述的方法,其特征在于,所述文本推荐应用为资讯类应用,所述推荐文本为资讯文本,所述进行所述文本推荐应用中推荐文本的显示控制的步骤包括:
通过所述资讯类应用进行所述资讯文本的推送通知,所述资讯文本是服务器根据如权利要求8所述的方法生成的稳定的扩展关系获得的;
所述推送通知被触发时,通过所述资讯类应用进行相应资讯文本的内容显示。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
根据所述文本推荐应用触发的文本显示操作获得所述文本显示操作的对象,所述文本显示操作的对象用于获得所述用户标识对应的用户标签。
13.一种用户标签的扩展处理装置,其特征在于,所述包括:
获取模块,用于获取用户标签和候选被扩展标签;
关联度计算模块,用于进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度;
筛选模块,用于根据所述关联度进行所述候选被扩展标签中扩展标签的筛选得到所述用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系。
14.根据权利要求13所述的装置,其特征在于,所述获取模块包括:
用户标签获得单元,用于根据文本推荐应用中触发的文本显示操作获得用户标签;
候选获取单元,用于获取用于进行用户标签扩展的候选被扩展标签,所述候选被扩展标签是与所述用户标签共同出现于文本中的标签。
15.根据权利要求13所述的装置,其特征在于,所述关联度计算模块包括:
标签剔除单元,用于根据文本中的出现次数进行候选被扩展标签的剔除;
互信息计算单元,用于针对保留的每一候选被扩展标签,与共同出现于文本的用户标签进行互信息计算得到所述候选被扩展标签相对用户标签的关联度。
16.根据权利要求13所述的装置,其特征在于,所述筛选模块包括:
关联标签获取单元,用于获取所述用户标签关联的候选被扩展标签;
图谱构建单元,用于通过用户标签关联的候选被扩展标签构建标签图谱;
权威度运算单元,用于对所述标签图谱进行运算得到所述标签图谱中候选被扩展标签的权威度;
扩展标签筛选单元,用于根据所述权威度和关联度在所述用户标签关联的候选被扩展标签中筛选得到所述用户标签关联的扩展标签,将所述关联的扩展标签和所述用户标签构成扩展关系。
17.根据权利要求16所述的装置,其特征在于,所述关联标签获取单元进一步用于根据相对于所述用户标签的关联度和共同出现次数进行候选被扩展标签的选取,获得与所述用户标签关联的候选被扩展标签。
18.根据权利要求16所述的装置,其特征在于,所述图谱构建单元进一步用于以所述用户标签关联的候选被扩展标签作为节点,进行拓扑结构的构建得到所述用户标签的标签图谱。
19.根据权利要求16所述的装置,其特征在于,所述扩展标签筛选单元包括:
融合计算子单元,用于根据候选被扩展标签的关联度和权威度进行融合计算得到所述候选被扩展标签的排序权值;
权值筛选子单元,用于按照所述排序权值在所述用户标签关联的候选被扩展标签中筛选得到所述用户标签关联的扩展标签,所述用户标签关联的扩展标签和所述用户标签构成扩展关系。
20.根据权利要求16所述的装置,其特征在于,所述装置还包括:
稳定性评估模块,用于根据所述扩展关系中用户标识和关联的扩展标签共同出现的时间分布进行所述扩展关系的稳定性评估,获得稳定的扩展关系,所述稳定的扩展关系中的用户标签和关联的扩展标签用于进行推荐文本选取。
21.根据权利要求13至20任意一项所述的装置,其特征在于,所述装置还包括:
推荐文本选取模块,用于进行推荐文本的选取得到包含扩展关系中所述用户标签和关联的扩展标签的文本;
推荐执行模块,用于向用户推荐所述包含用户标签和关联的扩展标签的文本。
22.一种文本推荐装置,其特征在于,所述装置包括:
标识获取模块,用于获取文本推荐应用的用户标识,将用户标识发送至服务器;
推荐获得模块,用于获得所述服务器根据扩展关系推荐的推荐文本,所述扩展关系是服务器在如权利要求13至21任意一项所述的装置所生成的扩展关系中根据所述用户标识对应的用户标签获得的;
显示控制模块,用于进行所述文本推荐应用中推荐文本的显示控制。
23.根据权利要求22所述的装置,其特征在于,所述文本推荐应用为资讯类应用,所述推荐文本为资讯文本,所述显示控制模块包括:
推送通知单元,用于通过所述资讯类应用进行所述资讯文本的推送通知,所述资讯文本是服务器根据如权利要求20所述的装置生成的稳定的扩展关系获得的;
内容显示单元,用于所述推送通知被触发时,通过所述资讯类应用进行相应资讯文本的内容显示。
24.根据权利要求22所述的装置,其特征在于,所述装置还包括:
标签抽取模块,用于根据所述文本推荐应用触发的文本显示操作获得所述文本显示操作的对象,所述文本显示操作的对象用于获得所述用户标识对应的用户标签。
CN201610341685.5A 2016-05-20 2016-05-20 用户标签的扩展处理方法、文本推荐方法和装置 Active CN107402932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610341685.5A CN107402932B (zh) 2016-05-20 2016-05-20 用户标签的扩展处理方法、文本推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610341685.5A CN107402932B (zh) 2016-05-20 2016-05-20 用户标签的扩展处理方法、文本推荐方法和装置

Publications (2)

Publication Number Publication Date
CN107402932A true CN107402932A (zh) 2017-11-28
CN107402932B CN107402932B (zh) 2021-04-13

Family

ID=60389325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610341685.5A Active CN107402932B (zh) 2016-05-20 2016-05-20 用户标签的扩展处理方法、文本推荐方法和装置

Country Status (1)

Country Link
CN (1) CN107402932B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334632A (zh) * 2018-02-26 2018-07-27 深圳市腾讯计算机***有限公司 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN108876470A (zh) * 2018-06-29 2018-11-23 腾讯科技(深圳)有限公司 标签用户扩展方法、计算机设备及存储介质
CN109308332A (zh) * 2018-08-07 2019-02-05 腾讯科技(深圳)有限公司 一种目标用户获取方法、装置和服务器
CN110020156A (zh) * 2017-12-07 2019-07-16 深圳市腾讯计算机***有限公司 信息推荐方法、前端实现方法、装置、设备和存储介质
CN110378786A (zh) * 2019-07-29 2019-10-25 中国工商银行股份有限公司 模型训练方法、违约传导风险识别方法、装置及存储介质
CN111368141A (zh) * 2020-03-18 2020-07-03 腾讯科技(深圳)有限公司 视频标签的扩展方法、装置、计算机设备和存储介质
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN112035750A (zh) * 2020-09-17 2020-12-04 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置
CN113486237A (zh) * 2021-06-07 2021-10-08 海南太美航空股份有限公司 一种航班信息的推荐方法、***、存储介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN104036051A (zh) * 2014-07-04 2014-09-10 南开大学 一种基于标签传播的数据库模式摘要生成方法
US20140337272A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. Systems and methods for interactive displays based on associations for machine-guided rule creation
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN105138588A (zh) * 2015-07-31 2015-12-09 南开大学 一种基于多标签传播的数据库重叠模式摘要生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337272A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. Systems and methods for interactive displays based on associations for machine-guided rule creation
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置
CN104036051A (zh) * 2014-07-04 2014-09-10 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN105138588A (zh) * 2015-07-31 2015-12-09 南开大学 一种基于多标签传播的数据库重叠模式摘要生成方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020156A (zh) * 2017-12-07 2019-07-16 深圳市腾讯计算机***有限公司 信息推荐方法、前端实现方法、装置、设备和存储介质
CN110020156B (zh) * 2017-12-07 2022-10-14 深圳市腾讯计算机***有限公司 信息推荐方法、前端实现方法、装置、设备和存储介质
CN108334632A (zh) * 2018-02-26 2018-07-27 深圳市腾讯计算机***有限公司 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN108334632B (zh) * 2018-02-26 2021-03-23 深圳市腾讯计算机***有限公司 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN108876470A (zh) * 2018-06-29 2018-11-23 腾讯科技(深圳)有限公司 标签用户扩展方法、计算机设备及存储介质
CN109308332B (zh) * 2018-08-07 2022-05-20 腾讯科技(深圳)有限公司 一种目标用户获取方法、装置和服务器
CN109308332A (zh) * 2018-08-07 2019-02-05 腾讯科技(深圳)有限公司 一种目标用户获取方法、装置和服务器
CN110378786A (zh) * 2019-07-29 2019-10-25 中国工商银行股份有限公司 模型训练方法、违约传导风险识别方法、装置及存储介质
CN110378786B (zh) * 2019-07-29 2022-09-02 中国工商银行股份有限公司 模型训练方法、违约传导风险识别方法、装置及存储介质
CN111368141A (zh) * 2020-03-18 2020-07-03 腾讯科技(深圳)有限公司 视频标签的扩展方法、装置、计算机设备和存储介质
CN111680219A (zh) * 2020-06-09 2020-09-18 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN111680219B (zh) * 2020-06-09 2023-10-20 深圳市雅阅科技有限公司 内容推荐方法、装置、设备及可读存储介质
CN112035750A (zh) * 2020-09-17 2020-12-04 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置
CN113486237A (zh) * 2021-06-07 2021-10-08 海南太美航空股份有限公司 一种航班信息的推荐方法、***、存储介质和电子设备

Also Published As

Publication number Publication date
CN107402932B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN107402932A (zh) 用户标签的扩展处理方法、文本推荐方法和装置
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
CN108694223B (zh) 一种用户画像库的构建方法及装置
KR101511050B1 (ko) 상품 정보를 제공하고 표시하는 방법, 장치, 시스템 및 컴퓨터 프로그램
US10210453B2 (en) Behavioral prediction for targeted end users
US20130339350A1 (en) Ranking Search Results Based on Click Through Rates
US10198635B2 (en) Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics
US20170154116A1 (en) Method and system for recommending contents based on social network
US8700621B1 (en) Generating query suggestions from user generated content
US20200134689A1 (en) Product and content association
JP7387432B2 (ja) ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法
CN110503506B (zh) 基于评分数据的物品推荐方法、装置及介质
CN105915956A (zh) 视频内容的推荐方法、装置、服务器及***
CN111291765A (zh) 用于确定相似图片的方法和装置
CN106095738B (zh) 推荐表单片段
WO2017088496A1 (zh) 一种搜索推荐方法、装置、设备及计算机存储介质
CN104899236B (zh) 一种评论信息显示方法、装置及***
CN110019163A (zh) 对象特征的预测、推荐的方法、***、设备和存储介质
CN110580489B (zh) 一种数据对象的分类***、方法以及设备
US11568011B2 (en) System and method for improved searching across multiple databases
US20130204835A1 (en) Method of extracting named entity
US20180150534A1 (en) Job posting data normalization and enrichment
CN103559313B (zh) 搜索方法及装置
CN111400586A (zh) 群组展示方法、终端、服务器、***及存储介质
CN107636646B (zh) 利用地理定位的成像进行设施锚定

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant