CN103164463A - 推荐标签的方法和装置 - Google Patents

推荐标签的方法和装置 Download PDF

Info

Publication number
CN103164463A
CN103164463A CN2011104222657A CN201110422265A CN103164463A CN 103164463 A CN103164463 A CN 103164463A CN 2011104222657 A CN2011104222657 A CN 2011104222657A CN 201110422265 A CN201110422265 A CN 201110422265A CN 103164463 A CN103164463 A CN 103164463A
Authority
CN
China
Prior art keywords
label
user
similarity
scoring
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104222657A
Other languages
English (en)
Other versions
CN103164463B (zh
Inventor
赵石顽
包胜华
袁泉
吴贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201110422265.7A priority Critical patent/CN103164463B/zh
Priority to US13/706,727 priority patent/US9134957B2/en
Publication of CN103164463A publication Critical patent/CN103164463A/zh
Application granted granted Critical
Publication of CN103164463B publication Critical patent/CN103164463B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种为用户推荐标签的方法及装置,该技术方案包括:接收当前用户对当前对象的当前评分;根据所述当前用户以及所述当前评分确定候选标签集;根据所述候选标签集中每一个候选标签的指标值进行排序;根据所述排序为所述当前用户推荐标签。利用本发明的技术方案,可以进一步改善标签的推荐。

Description

推荐标签的方法和装置
技术领域
本发明涉及一种推荐标签的方法及装置,特别涉及一种根据用户的评分进行标签推荐的方法和装置。
背景技术
通过标签(tag)允许用户用关键词或术语来标注各种对象(例如图片,文章,视频等)。对于网站来说,标签可以扩大资源的标签集,从而增加检索资源时的索引集;而对于用户来说,标签推荐的目的是增强用户在标注过程中的用户体验,方便用户快速进行标签标注。
作为web2.0的一个重要特性,标签推荐对如何改进标签推荐使其更好的帮助用户分类整理和查询各类信息,以及对网络搜索、个性化搜索、网络资源分类和聚类等方面都有着很大的价值。
在一些现有技术中,可以推荐个性化的标签,例如,根据用户桌面或历史信息进行推荐。在另外一些采用协同过滤的现有技术中,可根据相同社区的人具有相似兴趣的原理,为相同社区的用户推荐相似的标签。
此外,现有技术中,还允许用户给对象的某一方面或在总体上进行评价,通常用打分的形式进行,通常用星数表示。例如,用户对于某篇文章的整体打了5分表示非常满意,或者,用户在某电子商务网站购书交易成功后,可以对商家服务的质量打3分表示一般。
但并没有任何现有技术公开或教导根据评分进行标签的推荐,因此,现有技术仍然存在改进的空间。
发明内容
根据本发明的第一方面,提供了一种为用户推荐标签的方法,该方法包括:接收当前用户对当前对象的当前评分;根据所述当前用户以及所述当前评分确定候选标签集;根据所述候选标签集中候选标签的指标值进行排序;根据所述排序为所述当前用户推荐标签。
根据本发明的第二方面,提供了一种为用户推荐标签的装置,该装置包括:评分部件,配置为接收当前用户对当前对象的当前评分;确定部件,配置为根据所述当前用户以及所述当前评分确定候选标签集;排序部件,配置为根据所述候选标签集中候选标签的指标值进行排序;推荐部件,根据所述排序为所述当前用户推荐标签。
通过采用本发明所提供的方法和装置,可以实现根据用户的评分进行标签的推荐。
附图说明
从以下结合附图对各种示例性实施例的描述中,将进一步理解本发明的多个方面,在附图中:
图1示出用来实现本发明实施方式的示例性计算***100的框图。
图2示出了在一个实施方式进行标签推荐的方法流程。
图3示出了在第一个实施例中,为当前用户u针对对象i推荐标签时的流程图。
图4示出了在另一个实施例通过概率生成模型的方式实现图2中步骤202、203的流程图。
图5示出了现有技术中LDA图模型的示意图。
图6示出了在一个实施例的用户标签概率生成模型示意图。
图7示出了在一个实施例中LDA图模型的示意图。
图8示出了在一个实施例中通过Gibbs采样进行参数推断的流程。
图9示出了本申请公开的一种为用户推荐标签的装置示意图。
具体实施方式
下面对本发明的具体实施方式进行详细描述。所属技术领域的技术人员知道,本发明可以体现为***、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“***”的软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质,计算机可读存储介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的***、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行***、装置或器件使用的或与指令执行***、装置或器件相联系的程序的有形介质。
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式,包括-但不限于-电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行***、装置或器件使用的或与指令执行***、装置或器件相联系的程序的任何一种计算机可读介质。
包含在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括-但不限于-无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
以下参照按照本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。要明白的是,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
现参看图1,示出了适于用来实现本发明实施方式的示例性计算***100的框图。如所示,计算机***100可以包括:CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、***总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中,与***总线104耦合的有CPU 101、RAM102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。
图2示出了按照本申请的一个实施方式进行标签推荐的方法流程,主要包括以下步骤:
在步骤201中,接收当前用户对当前对象评分等级的当前评分。在该步骤中,评分可是对某一方面的评价,例如服务、产品质量等,也可是总体评价。
在步骤202中,根据所述当前用户以及所述当前评分确定候选标签集。在一个实施例中,根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集。所属领域技术人员可以采用多种方式实现该步骤,在一个实施例中,将对象间两两相似度作为所述用户在不同评分下与历史标签内容的关联关系,所述对象间两两相似度是根据对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的;在另一个实施例中,所述用户在不同评分下与历史标签的关联关系是用户在不同评分下的标签生成概率p(t|u,r),所述指标值是所述候选标签的生成概率。上述预先确定的关联关系既可以根据所有用户和所有历史标签确定,也可以根据部分用户和部分历史标签确定。以下,将结合图3至图8对其做进一步的介绍。
在步骤203中,根据所述候选标签集中候选标签的指标值进行排序。在一个实施例中,所述指标值是候选标签的权重,在另一个实施例中,所述指标值候选标签的生成概率。
在步骤204中,根据所述排序推荐标签。可以根据排序结果推荐排序最靠前的一个或多个候选标签供用户选择。
图3示出了按照本申请的第一个实施例中,为当前用户u针对对象i推荐标签时的流程图,该实施例是以协同过滤为基础的一种实现方式,至少包括以下步骤:
在步骤301中,计算所有对象标签之间的两两相似度。所述对象间两两相似度是根据对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。
所述每个对象具有第一向量和第二向量,所述第一向量是所述每个对象在相应的历史标签上的词频/逆向文件频率(TF/IDF)值,所述第二向量是所述每个对象上的历史评分。
在该步骤中,需要根据所述第一向量之间的相似度确定所述内容相似度Sim1(i,j),所述第一向量中的每一维是所述每个对象在相应的历史标签上的词频/逆向文件频率(TF/IDF)值。TF/IDF(term frequency-inversedocument frequency)是用于信息检索与文本挖掘的常用加权技术,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在这个实施例中,把对象视为文档,对象上的标签视为文档中的单词。通过词频/逆向文件频率(TF/IDF)计算文档在每个单词上的权值,然后每个对象可以表示成一个向量,向量中的每一维表示该文档在相应的单词上的TF/IDF值,进而,计算两个向量之间的相似度作为第一内容相似度Sim1(i,j)。
在一个实施例中,用向量空间余弦相似度(Cosine Similarity)计算两个向量之间的内容相似度Sim(i,j),余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。所属领域技术人员还可采用其它方式,例如欧几里得距离(Euclidean Distance)。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题。
还需要根据所述第二向量之间的相似度确定所述评分相似度Sim2(i,j)。所述第二向量是所述每个对象上的历史评分,换句话说,就是把每个对象上的用户评分作为一个向量,该向量中的每一维对应一个用户的评分。
然后综合标签内容和评分,确定所述对象间两两相似度Sim(i,j)=Sim1(i,j)*a+Sim2(i,j)*(1-a),其中0<a<1,参数a用于调节内容相似度和评分相似度的权重,a趋近于1时,表示增加内容相似度权重,a趋近于0时,表示增加评分相似度的权重。
在步骤302中,确定K个对象,所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签。在该步骤中,作为替代的实施方式,还可进一步限制所述当前用户评分也为r.
在步骤303中,以该当前用户u在该K个对象上使用过的标签作为所述候选标签集。
在步骤304中,计算所述候选标签集合中每个标签的权值作为指标值,选择权值最高的N个标签推荐给用户u。在一个实施例中,所述权值是
Figure BDA0000121061030000071
其中,如果用户u给对象k使用过标签t,则vt=1,否则vt=0。
图4示出了按照本申请的另一个实施例通过概率生成模型的方式实现图2中步骤202、203的流程图,包括步骤如下:
在步骤401中,根据概率p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt=0),以及是主观类标签的概率p(Xt=1)。
其中,客观类标签是一种事实上的描述,涉及的是对事物本身;主观类标签,是用户的主观感受,表达了用户观点、态度等信息。以电影为例,导演、演员、电影的类别等就属于客观类标签,很好看、沉闷、演技很差等,就属于主观类标签。但标签并不是绝对属于某一类,而是以一定概率与主观相关,以一定概率与客观相关,是一种二元分布,例如标签可能是某个导演名字,如果概率参数=0.9,则有90%的概率是一种客观类标签,但还有10%的概率是主观标签(有时用户说出导演的名字就表达了一种情感),所属领域技术人员可以采用现有的机器学习的方式得到所述分布。
分数通常反映的是用户主观上的感受,因此可认为客观类标签跟评分的关系不大,而主观类标签跟评分有着密切的关系。在这个实施例中,通过引入评分,通过对主观类标签推荐权重的考虑,可以更准确的预测并推荐用户所要打的标签。
在步骤402中,计算每个所述候选标签的生成概率p(t|u,i,r)=p(Xt=0)*p(t|i)+p(Xt=1)*p(t|u,r),其中i取值为当前对象。因此,在给定一个当前用户和一个当前对象,以及该当前用户给该当前对象的评分r时,将候选标签t的生成概率p(t|u,i,r)作为指标值。在这个实施例中,就是p(t|u,r)作为用户在不同评分下与历史标签的关联关系。由于用户在不同评分条件下的标签分布
Figure BDA0000121061030000081
该公式中考虑了用户在不同评分条件下的所采用历史标签主题的分布p(z|u,r),从而p(t|u,r)也体现了用户在不同评分下与历史标签的关联关系,其中,K是主题的数目,p(t|z)是主题在标签上的概率分布。
在步骤403中,按照每个所述标签t的生成概率进行排序,推荐概率较高的N个标签。
由上可见,为了计算p(t|u,i,r),需要确定出如下概率分布:确定标签属性分布p(Xt),所述标签属性包括主观类和为客观类,所述p(Xt)用于确定候选标签为主观类标签的概率p(Xt=1)以及为客观类标签的概率p(Xt=0);确定根据对象生成标签t的条件概率p(t|i);根据公式确定所述p(t|u,r),其中,K是所述历史标签主题的数目,p(t|z)是主题在历史标签上的概率分布,所述p(z|u,r)是用户在不同评分等级下在所采用的历史标签的主题上的分布。
相关领域的从业人员可用离线或在线的方式来得到p(Xt),p(t|i),p(t|u,r),接下来在一个实施例中,以潜在狄利克雷分配(LatentDirichlet Allocation,LDA)模型为例进行说明。
图5示出的是现有技术中LDA图模型。LDA是现有技术中常用的概率生成模型(generative model),属于非监督机器学习技术,通常用来识别大规模文档集中潜藏的主题信息,与直接根据观察到的文档来进行预测不同,LDA首先假设了产生文档的过程,然后根据观察到文档,来预测背后的产生过程是怎样的。LDA假设所有的文档存在K个主题,而每个主题又是词的分布。对于每篇文档,LDA定义的生成过程是:从主题分布中抽取一个主题;从上述被抽到的主题所对应的单词分布中抽取一个单词;重复上述过程直至遍历文档中的每一个单词。
在图5中,每一篇文档与T(通过反复试验等方法事先给定)个主题的一个多项分布相对应,将该多项分布记为θ。每个主题又与词汇表(vocabulary)中的V个单词的一个多项分布相对应,将这个多项分布记为φ。词汇表是由语料库中所有文档中的所有互异单词组成。θ和φ分别有一个带有超参数(hyperparameter)α和β的Dirichlet先验分布。对于一篇文档d中的每一个单词,从该文档所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的多项分布φ抽取一个单词w。将这个过程重复Nd次,就产生了文档d,Nd是文档d的单词总数。这个生成过程可以用如下的图模型表示:
图5中的阴影圆圈表示可观测变量(observed variable),非阴影圆圈表示潜在变量(latent variable),箭头表示两变量间的条件依赖性(conditional dependency),方框表示重复抽样,重复次数在方框的右下角。该模型有两个参数需要推断(infer):一个是”文档-主题“分布θ,另外是T个”主题-单词“分布φ。推断方法主要有LDA模型作者David M.Blei等提出的变分EM算法,还有现在常用的Gibbs抽样法。
具体到该实施例,用LDA模型模拟了用户输入标签的过程,将用户视为文档,用户使用过的标签视为文档中的单词。同理,将对象也视为文档,对象上加的标签视为文档中的单词。可根据LDA算法计算用户在不同分数下的主题分布p(z|u,r),对象的主题分布p(z|i),以及每个主题z在tag上的概率分布p(t|z)。在该实施例中,为LDA引入了用户所响应的评分,由于每个用户所关心的主题是一个概率分布,用户在打不同分数时,会有不同的主题分布。在这个改进的实施例中,可将用户的评分信息加入原始的LDA中,进行更细的建模,从而提高预测精度。
图6示出了按照本申请的一个实施例的用户标签概率生成模型的示意图。图7示出了按照本申请的一个实施例的图模型,其中涉及如下参数:
αU,αI,β,γ:超参数,先验分布的参数;
θur:用户u在评分r条件下的主题分布p(z|u,r);
θi:对象i的主题分布p(z |i);
λt:标签t在<客观、主观>上的分布p(X);
φk:主题k在标签词汇表上的分布p(t |z);
rui:用户u给对象i打的评分;
x=0:客观标签,由对象上的主题生成;
x=1:主观标签,由用户的主题生成;
p/z:主题实例,为了区分:p代表用户主题,z代表对象主题;
t:标签实例;
Tui:用户u给对象i打的标签数目;
U,I,T:用户数目,对象数目,标签数目(词汇表大小);
R:评分等级数目(打分1,2,3,4,5,则等级数目为5);
K:主题数目。
参看图6所示的流程,以及图7的图模型,基于评分的用户标签概率生成模型步骤如下:
在步骤601中,为每个用户u,根据概率分布p(z|u,r)~Dirichlet(αU)采样得到一个在不同评分条件r下的主题分布θur
在步骤602中,为每个对象i,根据概率分布p(z|i)~Dirichlet(αI)采样一个在主题上的分布θi
在步骤603中,为每个主题z,根据概率分布p(t|z)~Dirichlet(β)采样一个在标签词汇表上的分布φk
在步骤604中,为每个标签词汇表里的标签t,根据概率分布p(λt)~Beta(γ)采样一个标签在客观、主观上的分布系数λt
在步骤605中,为用户u在评分r条件下,给对象i打的每个标签t确定是由用户或者对象的哪个主题生成。
在该步骤中,根据概率分布p(X)~Binomial(λt)采样得到该标签是客观的标签(X=0),还是主观的标签(X=1):
如果是客观的标签(X=0),则:根据对象的主题分布zt~p(z|i),采样得到一个主题;根据主题在标签词汇表上的分布p(t|zt),从主题zt采样得到一个标签。
如果是主观的标签(X=1),则:根据用户在评分r条件下的主题分布zt~p(z|u,r),采样得到一个主题;根据主题在标签词汇表上的分布p(t|zt),从主题zt采样得到一个标签。
对于其中的超参数αU,αI,β,γ,本领域技术人员可以根据经验进行选择及调整,例如可以设置为:αU=αI=50/K,β=0.01,γ=0.5。
相关领域的从业人员可根据上述概率生成模型通过Gibbs采样进行参数估计。生成模型描述的是按照假想的模型及参数,生成观察数据的过程,而Gibbs采样,是对生成模型出的一些概率分布进行进行反向推导。
图8示出在一个实施例中通过Gibbs采样进行参数推断的流程,包括如下步骤:
在步骤801中,确定多组先验分布的参数。假设topic的个数为K,标签词汇表的大小为V,
Figure BDA0000121061030000111
Figure BDA0000121061030000112
都是K维的向量。
在步骤802中,采样得到对应每个标签,是由用户或者对象的哪个主题生成。通过该步骤对每个标签都可得知X和Z的取值,(X=0,Z=j)表明是对象的第j个主题,(X=1,Z=m)表明是用户的第m个主题。
在步骤803中,迭代多次直到收敛。在一个实施例中,是直接迭代足够的次数,所属领域技术人员可以根据经验确定,比如1000次。
在步骤804中,根据先验分布以及观察到的现象对模型的参数进行估计。通过步骤702收敛后所得到的P(X,Z)分布,可推导出四类参数的分布:
θur:p(z|u,r)~Dirichlet
Figure BDA0000121061030000121
其中,
Figure BDA0000121061030000122
是K维的向量,每一维k的值,等于用户u在评分r条件下的主观标签里面,由主题k生成的次数。
θi:p(z|i)~Dirichlet
Figure BDA0000121061030000123
其中,
Figure BDA0000121061030000124
是K维的向量,每一维k的值,等于对象i的所有标签里面,由主题k生成的次数。
φk:p(t|z)~Dirichlet
Figure BDA0000121061030000125
其中,
Figure BDA0000121061030000126
是V维的向量,每一维v的值,等于所有标签里面,由主题z生成标签t的次数。
λt:p(λt)~Beta
Figure BDA0000121061030000127
其中,
Figure BDA0000121061030000128
是2维的向量,分别是标签t是客观和主观标签的次数。
进而,得到由对象i生成t的分布:
Figure BDA0000121061030000129
其中,P(t|i)是给定对象i,生成标签t的条件概率;P(z=k|i)是给定对象i,选择主题z=k的概率;P(t|z=k)是给定主题z=k,生成标签t的概率。
引入评分信息后,用户在不同评分条件下的主题分布是不一样的:p(z|u,r)。因此,
Figure BDA00001210610300001210
其中,P(t|u,r)是给定用户u,在评分为r时生成标签t的条件概率;P(z=k|u,r)是给定用户u,在评分为r时选择主题z=k的概率;P(t|z=k)是给定主题z=k,生成标签t的概率。
图9示出了本申请公开的一种为用户推荐标签的装置,该装置包括:评分部件901,配置为接收当前用户对当前对象的当前评分;确定部件902,配置为根据所述当前用户以及所述当前评分确定候选标签集;排序部件903,配置为根据所述候选标签的指标值进行排序;推荐部件904,根据所述排序为所述当前用户推荐标签。
在一个实施例中,确定部件902包括:配置为根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集的部件。
在一个实施中,所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度,所述对象间两两相似度同时考虑所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度。
在另一个改进的实施例中,所述每个对象具有第一向量和第二向量,所述第一向量是所述每个对象在相应的历史标签上的TF/IDF值,所述第二向量是所述每个对象上的历史评分,其中,确定部件包括:配置为根据所述第一向量之间的相似度确定所述内容相似度Sim1(i,j)的部件;配置为根据所述第二向量之间的相似度确定所述评分相似度Sim2(i,j)的部件;配置为确定所述对象间两两相似度Sim(i,j)=Sim1(i,j)*a+Sim2(i,j)*(1-a),其中0<a<1,参数a用于调节权重的部件。
其中,所述确定部件902还包括:配置为确定K个对象的部件,所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签;配置为以该当前用户在该K个对象上使用过的标签作为所述候选标签集的部件。在一个改进的实施例中,所述K个对象进一步限制所述当前用户评分也为r。其中,所述指标值包括权值
Figure BDA0000121061030000131
其中,所述当前用户给第k个对象使用过标签t,则vt=1,否则vt=0。
在另一个实施例中,用户在不同评分等级下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率p(t|u,r),所述指标值包括所述候选标签的生成概率。
在一个改进的实施例中,还包括:配置为确定定标签属性分布p(Xt)的部件,所述标签属性包括主观类和为客观类;配置为确定根据对象i生成所述候选标签t的条件概率p(t|i)的部件;配置为根据公式确定所述p(t|u,r)的部件,其中,k是所述历史标签主题的数目,p(t|z)是主题在标签上的概率分布,所述p(z|u,r)是用户在不同评分条件下的历史标签的在主题上的分布。
在一个改进的实施例中,包括:配置为根据所述概率p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt=0),以及是主观类标签的概率p(Xt=1)的部件;配置为计算每个所述候选标签的生成概率p(t|u,i,r)=p(Xt=0)*p(t|i)+p(Xt=1)*p(t|u,r)的部件。
对于以上各个单元、装置和设备的具体执行方式,可以参照之前结合方法流程和具体例子进行的详细描述,在此不再赘述。
以上所描述的标签推荐的方法和装置可以利用计算***来实现。附图中的流程图和框图,图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
虽然以上结合具体实施例,对本发明的方法、装置以及各个单元进行了详细描述,但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解,所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。

Claims (20)

1.一种为用户推荐标签的方法,该方法包括:
接收当前用户对当前对象的当前评分;
根据所述当前用户以及所述当前评分确定候选标签集;
根据所述候选标签集中候选标签的指标值进行排序;
根据所述排序为所述当前用户推荐标签。
2.根据权利要求1所述的方法,其中,根据所述当前用户以及所述当前评分确定候选标签集包括:根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集。
3.如权利要求2所述的方法,其中,所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度,所述对象间两两相似度是根据所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。
4.如权利要求3所述的方法,其中,每个对象具有第一向量和第二向量,所述第一向量是所述对象在相应的历史标签上的词频/逆向文件频率值,所述第二向量是所述对象上的历史评分,所述对象间两两相似度的确定包括:
根据所述第一向量之间的相似度确定所述内容相似度Sim1(i,j);
根据所述第二向量之间的相似度确定所述评分相似度Sim2(i,j);
确定所述对象间两两相似度Sim(i,j)=Sim1(i,j)*a+Sim2(i,j)*(1-a),其中0<a<1,参数a用于调节权重。
5.如权利要求4所述的方法,其中,根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集包括:
确定K个对象,所述K个对象是根据所述对象间两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签;
以该当前用户在该K个对象上使用过的标签作为所述候选标签集。
6.如权利要求5所述的方法,其中,所述确定K个对象包括:进一步限制所述当前用户评分也为r。
7.如权利要求5或6所述的方法,其中,所述指标值包括所述候选标签的权值
Figure FDA0000121061020000021
其中,所述当前用户给第k个对象使用标签t,则vt=1,否则vt=0。
8.根据权利要求2所述的方法,所述用户在不同评分下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率p(t|u,r),所述指标值包括所述候选标签的生成概率。
9.根据权利要求8所述的方法,还包括:
确定标签属性分布p(Xt),所述标签属性包括主观类和客观类;
确定对象i在标签t上的分布p(t|i);
确定所述
Figure FDA0000121061020000022
其中,K是所述历史标签的主题z的数目,p(t|z)是所述主题z在所述历史标签上的分布,所述p(z|u,r)是用户在不同评分等级下在所述历史标签的主题z上的分布。
10.如权利要求9所述的方法,其特征在于:
根据所述标签属性分布p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt=0),以及是主观类标签的概率p(Xt=1);
根据公式p(Xt=0)*p(t|i)+p(Xt=1)*p(t|u,r)计算所述候选标签的生成概率。
11.一种为用户推荐标签的装置,该装置包括:
评分部件,配置为接收当前用户对当前对象的当前评分;
确定部件,配置为根据所述当前用户以及所述当前评分确定候选标签集;
排序部件,配置为根据所述候选标签集中候选标签的指标值进行排序;
推荐部件,根据所述排序为所述当前用户推荐标签。
12.根据权利要求11所述的装置,其中,所述确定部件包括:配置为根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集的部件。
13.如权利要求12所述的装置,其中,所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度,所述对象间两两相似度是根据所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。
14.如权利要求13所述的装置,其中,每个对象具有第一向量和第二向量,所述第一向量是所述对象在相应的历史标签上的词频/逆向文件频率值,所述第二向量是所述对象上的历史评分,其中,所述装置还包括:
配置为根据所述第一向量之间的相似度确定所述内容相似度Sim1(i,j)的部件;
配置为根据所述第二向量之间的相似度确定所述评分相似度Sim2(i,j)的部件;
配置为确定所述对象间两两相似度Sim(i,j)=Sim1(i,j)*a+Sim2(i,j)*(1-a),其中0<a<1,参数a用于调节权重的部件。
15.如权利要求14所述的装置,其中,所述确定部件还包括:
配置为确定K个对象的部件,所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高,且所述当前用户使用过的标签;
配置为以该当前用户在该K个对象上使用过的标签作为所述候选标签集的部件。
16.如权利要求15所述的装置,其中,所述K个对象进一步限制所述当前用户评分也为r。
17.如权利要求15或16所述的装置,其中,所述指标值包括权值
Figure FDA0000121061020000041
其中,所述当前用户给第k个对象使用过标签t,则vt=1,否则vt=0。
18.根据权利要求12所述的装置,所述用户在不同评分等级下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率p(t|u,r),所述指标值包括所述候选标签的生成概率。
19.根据权利要求18所述的装置,还包括:
配置为确定定标签属性分布p(Xt)的部件,所述标签属性包括主观类和客观类;
配置为确定根据对象i生成所述候选标签t的条件概率p(t|i)的部件;
配置为确定所述
Figure FDA0000121061020000042
的部件,其中,K是所述历史标签的主题数目,p(t|z)是所述主题在所述历史标签上的分布,所述p(z|u,r)是用户在不同评分等级下在主题上的分布。
20.如权利要求19所述的装置,包括:
配置为根据所述标签属性分布p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt=0),以及是主观类标签的概率p(Xt=1)的部件;
配置为根据公式p(Xt=0)*p(t|i)+p(Xt=1)*p(t|u,r)计算每个所述候选标签的生成概率的部件。
CN201110422265.7A 2011-12-16 2011-12-16 推荐标签的方法和装置 Expired - Fee Related CN103164463B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110422265.7A CN103164463B (zh) 2011-12-16 2011-12-16 推荐标签的方法和装置
US13/706,727 US9134957B2 (en) 2011-12-16 2012-12-06 Recommending tags based on user ratings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110422265.7A CN103164463B (zh) 2011-12-16 2011-12-16 推荐标签的方法和装置

Publications (2)

Publication Number Publication Date
CN103164463A true CN103164463A (zh) 2013-06-19
CN103164463B CN103164463B (zh) 2017-03-22

Family

ID=48587557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110422265.7A Expired - Fee Related CN103164463B (zh) 2011-12-16 2011-12-16 推荐标签的方法和装置

Country Status (2)

Country Link
US (1) US9134957B2 (zh)
CN (1) CN103164463B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103337028A (zh) * 2013-06-21 2013-10-02 中国科学院深圳先进技术研究院 一种推荐方法、装置
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和***
CN105654125A (zh) * 2015-12-29 2016-06-08 山东大学 一种视频相似度的计算方法
CN105740468A (zh) * 2016-03-07 2016-07-06 达而观信息科技(上海)有限公司 一种结合内容发布方信息的个性化推荐方法及***
CN105760544A (zh) * 2016-03-16 2016-07-13 合网络技术(北京)有限公司 视频推荐方法和装置
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN107092616A (zh) * 2016-11-02 2017-08-25 北京小度信息科技有限公司 一种对象排序方法及装置
CN107145541A (zh) * 2017-04-24 2017-09-08 安徽师范大学 基于超图结构的社交网络推荐模型构建方法
CN107251011A (zh) * 2015-02-17 2017-10-13 微软技术许可有限责任公司 用于序列标签器的训练***和方法
CN108733824A (zh) * 2018-05-22 2018-11-02 合肥工业大学 考虑专家知识的交互式主题建模方法及装置
CN108960907A (zh) * 2018-06-21 2018-12-07 聚好看科技股份有限公司 评价页面显示方法及装置
WO2019041524A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN109791554A (zh) * 2016-08-12 2019-05-21 艾奎菲股份有限公司 用于自动地生成用于媒体文档的元数据的***和方法
CN110222268A (zh) * 2019-06-10 2019-09-10 阿里巴巴集团控股有限公司 确定业务推送对象的方法和装置
WO2022048289A1 (zh) * 2020-09-04 2022-03-10 上海哔哩哔哩科技有限公司 内容筛选方法及装置
CN114338586A (zh) * 2021-12-21 2022-04-12 中国农业银行股份有限公司 一种消息推送方法、装置、电子设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611015B (zh) * 2015-10-27 2020-08-28 北京百度网讯科技有限公司 标签的处理方法及装置
CN106372123B (zh) * 2016-08-23 2020-05-08 达而观信息科技(上海)有限公司 一种基于标签的相关内容推荐方法和***
US11947978B2 (en) 2017-02-23 2024-04-02 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
US10831509B2 (en) 2017-02-23 2020-11-10 Ab Initio Technology Llc Dynamic execution of parameterized applications for the processing of keyed network data streams
CN108363821A (zh) * 2018-05-09 2018-08-03 深圳壹账通智能科技有限公司 一种信息推送方法、装置、终端设备及存储介质
CN111061979B (zh) * 2018-10-17 2023-04-21 北京字节跳动网络技术有限公司 一种用户标签的推送方法、装置、电子设备和介质
CN111506775B (zh) * 2019-01-29 2023-04-25 阿里巴巴集团控股有限公司 标签处理方法、装置、电子设备及可读存储介质
CN110232137B (zh) * 2019-05-10 2021-09-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
US11095573B2 (en) * 2019-12-06 2021-08-17 Micro Focus Llc Recommendation engine for resource tagging
CN111177541B (zh) * 2019-12-20 2023-08-22 上海淇玥信息技术有限公司 基于用户标签生成时间的数据分析方法及装置
CN113407859B (zh) * 2021-08-20 2021-11-02 武汉卓尔数字传媒科技有限公司 一种资源推荐方法、装置、电子设备及存储介质
US11704371B1 (en) * 2022-02-07 2023-07-18 Microsoft Technology Licensing, Llc User centric topics for topic suggestions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078832A1 (en) * 2005-09-30 2007-04-05 Yahoo! Inc. Method and system for using smart tags and a recommendation engine using smart tags
US20090150786A1 (en) * 2007-12-10 2009-06-11 Brown Stephen J Media content tagging on a social network
US20100114996A1 (en) * 2008-10-31 2010-05-06 International Business Machines Corporation Apparatus and Method for Transmitting File and Apparatus and Method for Receiving File
CN102004774A (zh) * 2010-11-16 2011-04-06 清华大学 基于统一概率模型的个性化用户标签建模与推荐方法
CN102231166A (zh) * 2011-07-12 2011-11-02 浙江大学 基于社会上下文的协同推荐方法
CN102262653A (zh) * 2011-06-09 2011-11-30 华中科技大学 一种基于用户动机倾向性的标签推荐方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332333B2 (en) * 2006-10-19 2012-12-11 Massachusetts Institute Of Technology Learning algorithm for ranking on graph data
US20100070509A1 (en) * 2008-08-15 2010-03-18 Kai Li System And Method For High-Dimensional Similarity Search

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078832A1 (en) * 2005-09-30 2007-04-05 Yahoo! Inc. Method and system for using smart tags and a recommendation engine using smart tags
US20090150786A1 (en) * 2007-12-10 2009-06-11 Brown Stephen J Media content tagging on a social network
US20100114996A1 (en) * 2008-10-31 2010-05-06 International Business Machines Corporation Apparatus and Method for Transmitting File and Apparatus and Method for Receiving File
CN102004774A (zh) * 2010-11-16 2011-04-06 清华大学 基于统一概率模型的个性化用户标签建模与推荐方法
CN102262653A (zh) * 2011-06-09 2011-11-30 华中科技大学 一种基于用户动机倾向性的标签推荐方法及***
CN102231166A (zh) * 2011-07-12 2011-11-02 浙江大学 基于社会上下文的协同推荐方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103337028A (zh) * 2013-06-21 2013-10-02 中国科学院深圳先进技术研究院 一种推荐方法、装置
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和***
CN107251011A (zh) * 2015-02-17 2017-10-13 微软技术许可有限责任公司 用于序列标签器的训练***和方法
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN105654125A (zh) * 2015-12-29 2016-06-08 山东大学 一种视频相似度的计算方法
CN105740468B (zh) * 2016-03-07 2019-10-18 达而观信息科技(上海)有限公司 一种结合内容发布方信息的个性化推荐方法及***
CN105740468A (zh) * 2016-03-07 2016-07-06 达而观信息科技(上海)有限公司 一种结合内容发布方信息的个性化推荐方法及***
CN105760544A (zh) * 2016-03-16 2016-07-13 合网络技术(北京)有限公司 视频推荐方法和装置
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN109791554A (zh) * 2016-08-12 2019-05-21 艾奎菲股份有限公司 用于自动地生成用于媒体文档的元数据的***和方法
CN107092616A (zh) * 2016-11-02 2017-08-25 北京小度信息科技有限公司 一种对象排序方法及装置
CN107145541A (zh) * 2017-04-24 2017-09-08 安徽师范大学 基于超图结构的社交网络推荐模型构建方法
CN107145541B (zh) * 2017-04-24 2020-07-28 安徽师范大学 基于超图结构的社交网络推荐模型构建方法
WO2019041524A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN108733824A (zh) * 2018-05-22 2018-11-02 合肥工业大学 考虑专家知识的交互式主题建模方法及装置
CN108733824B (zh) * 2018-05-22 2020-07-03 合肥工业大学 考虑专家知识的交互式主题建模方法及装置
CN108960907A (zh) * 2018-06-21 2018-12-07 聚好看科技股份有限公司 评价页面显示方法及装置
CN110222268A (zh) * 2019-06-10 2019-09-10 阿里巴巴集团控股有限公司 确定业务推送对象的方法和装置
CN110222268B (zh) * 2019-06-10 2023-08-25 创新先进技术有限公司 确定业务推送对象的方法和装置
WO2022048289A1 (zh) * 2020-09-04 2022-03-10 上海哔哩哔哩科技有限公司 内容筛选方法及装置
CN114338586A (zh) * 2021-12-21 2022-04-12 中国农业银行股份有限公司 一种消息推送方法、装置、电子设备及存储介质
CN114338586B (zh) * 2021-12-21 2024-05-28 中国农业银行股份有限公司 一种消息推送方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US9134957B2 (en) 2015-09-15
US20130159323A1 (en) 2013-06-20
CN103164463B (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN103164463A (zh) 推荐标签的方法和装置
Xing et al. Cognitive-inspired domain adaptation of sentiment lexicons
Al-Ghuribi et al. Multi-criteria review-based recommender system–the state of the art
Moghaddam et al. On the design of LDA models for aspect-based opinion mining
CN111079028B (zh) 基于多源辅助信息的协同过滤推荐***及方法
Chen et al. Preference-based clustering reviews for augmenting e-commerce recommendation
Moreno et al. Talmud: transfer learning for multiple domains
Zhang Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation
Chen et al. Comparison of feature-level learning methods for mining online consumer reviews
CN112313697A (zh) 用于生成描述角度增强的可解释的基于描述的推荐的***和方法
US20190179915A1 (en) Method and apparatus for recommending item using metadata
Wang et al. Social recommendation with optimal limited attention
Norinder et al. Predicting Amazon customer reviews with deep confidence using deep learning and conformal prediction
Wang et al. Research on hybrid collaborative filtering recommendation algorithm based on the time effect and sentiment analysis
Ayoub et al. Analyzing customer needs of product ecosystems using online product reviews
Xie et al. A probabilistic recommendation method inspired by latent Dirichlet allocation model
Zhou A novel movies recommendation algorithm based on reinforcement learning with DDPG policy
Qi et al. Multiple attributes group decision‐making approaches based on interval‐valued dual hesitant fuzzy unbalanced linguistic set and their applications
Wang et al. Multi‐label emotion recognition of weblog sentence based on Bayesian networks
Najafabadi et al. Tag recommendation model using feature learning via word embedding
Mahadevan et al. Review rating prediction using combined latent topics and associated sentiments: an empirical review
Verma et al. Web mining: opinion and feedback analysis for educational institutions
Pourgholamali Mining information for the cold-item problem
Zhu et al. Intelligent product redesign strategy with ontology-based fine-grained sentiment analysis
Lu et al. Semantic similarity assessment using differential evolution algorithm in continuous vector space

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170322

CF01 Termination of patent right due to non-payment of annual fee