CN103164463A

CN103164463A - 推荐标签的方法和装置

Info

Publication number: CN103164463A
Application number: CN2011104222657A
Authority: CN
Inventors: 赵石顽; 包胜华; 袁泉; 吴贤
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2013-06-19
Anticipated expiration: 2031-12-16
Also published as: US9134957B2; US20130159323A1; CN103164463B

Abstract

本发明提供了一种为用户推荐标签的方法及装置，该技术方案包括：接收当前用户对当前对象的当前评分；根据所述当前用户以及所述当前评分确定候选标签集；根据所述候选标签集中每一个候选标签的指标值进行排序；根据所述排序为所述当前用户推荐标签。利用本发明的技术方案，可以进一步改善标签的推荐。

Description

推荐标签的方法和装置

技术领域

本发明涉及一种推荐标签的方法及装置，特别涉及一种根据用户的评分进行标签推荐的方法和装置。

背景技术

通过标签(tag)允许用户用关键词或术语来标注各种对象(例如图片，文章，视频等)。对于网站来说，标签可以扩大资源的标签集，从而增加检索资源时的索引集；而对于用户来说，标签推荐的目的是增强用户在标注过程中的用户体验，方便用户快速进行标签标注。

作为web2.0的一个重要特性，标签推荐对如何改进标签推荐使其更好的帮助用户分类整理和查询各类信息，以及对网络搜索、个性化搜索、网络资源分类和聚类等方面都有着很大的价值。

在一些现有技术中，可以推荐个性化的标签，例如，根据用户桌面或历史信息进行推荐。在另外一些采用协同过滤的现有技术中，可根据相同社区的人具有相似兴趣的原理，为相同社区的用户推荐相似的标签。

此外，现有技术中，还允许用户给对象的某一方面或在总体上进行评价，通常用打分的形式进行，通常用星数表示。例如，用户对于某篇文章的整体打了5分表示非常满意，或者，用户在某电子商务网站购书交易成功后，可以对商家服务的质量打3分表示一般。

但并没有任何现有技术公开或教导根据评分进行标签的推荐，因此，现有技术仍然存在改进的空间。

发明内容

根据本发明的第一方面，提供了一种为用户推荐标签的方法，该方法包括：接收当前用户对当前对象的当前评分；根据所述当前用户以及所述当前评分确定候选标签集；根据所述候选标签集中候选标签的指标值进行排序；根据所述排序为所述当前用户推荐标签。

根据本发明的第二方面，提供了一种为用户推荐标签的装置，该装置包括：评分部件，配置为接收当前用户对当前对象的当前评分；确定部件，配置为根据所述当前用户以及所述当前评分确定候选标签集；排序部件，配置为根据所述候选标签集中候选标签的指标值进行排序；推荐部件，根据所述排序为所述当前用户推荐标签。

通过采用本发明所提供的方法和装置，可以实现根据用户的评分进行标签的推荐。

附图说明

从以下结合附图对各种示例性实施例的描述中，将进一步理解本发明的多个方面，在附图中：

图1示出用来实现本发明实施方式的示例性计算***100的框图。

图2示出了在一个实施方式进行标签推荐的方法流程。

图3示出了在第一个实施例中，为当前用户u针对对象i推荐标签时的流程图。

图4示出了在另一个实施例通过概率生成模型的方式实现图2中步骤202、203的流程图。

图5示出了现有技术中LDA图模型的示意图。

图6示出了在一个实施例的用户标签概率生成模型示意图。

图7示出了在一个实施例中LDA图模型的示意图。

图8示出了在一个实施例中通过Gibbs采样进行参数推断的流程。

图9示出了本申请公开的一种为用户推荐标签的装置示意图。

具体实施方式

下面对本发明的具体实施方式进行详细描述。所属技术领域的技术人员知道，本发明可以体现为***、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“***”的软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，计算机可读存储介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的***、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行***、装置或器件使用的或与指令执行***、装置或器件相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式，包括-但不限于-电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行***、装置或器件使用的或与指令执行***、装置或器件相联系的程序的任何一种计算机可读介质。

包含在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括-但不限于-无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。要明白的是，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

现参看图1，示出了适于用来实现本发明实施方式的示例性计算***100的框图。如所示，计算机***100可以包括：CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、***总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中，与***总线104耦合的有CPU 101、RAM102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

图2示出了按照本申请的一个实施方式进行标签推荐的方法流程，主要包括以下步骤：

在步骤201中，接收当前用户对当前对象评分等级的当前评分。在该步骤中，评分可是对某一方面的评价，例如服务、产品质量等，也可是总体评价。

在步骤202中，根据所述当前用户以及所述当前评分确定候选标签集。在一个实施例中，根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集。所属领域技术人员可以采用多种方式实现该步骤，在一个实施例中，将对象间两两相似度作为所述用户在不同评分下与历史标签内容的关联关系，所述对象间两两相似度是根据对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的；在另一个实施例中，所述用户在不同评分下与历史标签的关联关系是用户在不同评分下的标签生成概率p(t|u，r)，所述指标值是所述候选标签的生成概率。上述预先确定的关联关系既可以根据所有用户和所有历史标签确定，也可以根据部分用户和部分历史标签确定。以下，将结合图3至图8对其做进一步的介绍。

在步骤203中，根据所述候选标签集中候选标签的指标值进行排序。在一个实施例中，所述指标值是候选标签的权重，在另一个实施例中，所述指标值候选标签的生成概率。

在步骤204中，根据所述排序推荐标签。可以根据排序结果推荐排序最靠前的一个或多个候选标签供用户选择。

图3示出了按照本申请的第一个实施例中，为当前用户u针对对象i推荐标签时的流程图，该实施例是以协同过滤为基础的一种实现方式，至少包括以下步骤：

在步骤301中，计算所有对象标签之间的两两相似度。所述对象间两两相似度是根据对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。

所述每个对象具有第一向量和第二向量，所述第一向量是所述每个对象在相应的历史标签上的词频/逆向文件频率(TF/IDF)值，所述第二向量是所述每个对象上的历史评分。

在该步骤中，需要根据所述第一向量之间的相似度确定所述内容相似度Sim1(i，j)，所述第一向量中的每一维是所述每个对象在相应的历史标签上的词频/逆向文件频率(TF/IDF)值。TF/IDF(term frequency-inversedocument frequency)是用于信息检索与文本挖掘的常用加权技术，用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。在这个实施例中，把对象视为文档，对象上的标签视为文档中的单词。通过词频/逆向文件频率(TF/IDF)计算文档在每个单词上的权值，然后每个对象可以表示成一个向量，向量中的每一维表示该文档在相应的单词上的TF/IDF值，进而，计算两个向量之间的相似度作为第一内容相似度Sim1(i，j)。

在一个实施例中，用向量空间余弦相似度(Cosine Similarity)计算两个向量之间的内容相似度Sim(i，j)，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。所属领域技术人员还可采用其它方式，例如欧几里得距离(Euclidean Distance)。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题。

还需要根据所述第二向量之间的相似度确定所述评分相似度Sim2(i，j)。所述第二向量是所述每个对象上的历史评分，换句话说，就是把每个对象上的用户评分作为一个向量，该向量中的每一维对应一个用户的评分。

然后综合标签内容和评分，确定所述对象间两两相似度Sim(i，j)＝Sim1(i，j)*a+Sim2(i，j)*(1-a)，其中0＜a＜1，参数a用于调节内容相似度和评分相似度的权重，a趋近于1时，表示增加内容相似度权重，a趋近于0时，表示增加评分相似度的权重。

在步骤302中，确定K个对象，所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高，且所述当前用户使用过的标签。在该步骤中，作为替代的实施方式，还可进一步限制所述当前用户评分也为r.

在步骤303中，以该当前用户u在该K个对象上使用过的标签作为所述候选标签集。

在步骤304中，计算所述候选标签集合中每个标签的权值作为指标值，选择权值最高的N个标签推荐给用户u。在一个实施例中，所述权值是

其中，如果用户u给对象k使用过标签t，则v_t＝1，否则v_t＝0。

图4示出了按照本申请的另一个实施例通过概率生成模型的方式实现图2中步骤202、203的流程图，包括步骤如下：

在步骤401中，根据概率p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt＝0)，以及是主观类标签的概率p(Xt＝1)。

其中，客观类标签是一种事实上的描述，涉及的是对事物本身；主观类标签，是用户的主观感受，表达了用户观点、态度等信息。以电影为例，导演、演员、电影的类别等就属于客观类标签，很好看、沉闷、演技很差等，就属于主观类标签。但标签并不是绝对属于某一类，而是以一定概率与主观相关，以一定概率与客观相关，是一种二元分布，例如标签可能是某个导演名字，如果概率参数＝0.9，则有90％的概率是一种客观类标签，但还有10％的概率是主观标签(有时用户说出导演的名字就表达了一种情感)，所属领域技术人员可以采用现有的机器学习的方式得到所述分布。

分数通常反映的是用户主观上的感受，因此可认为客观类标签跟评分的关系不大，而主观类标签跟评分有着密切的关系。在这个实施例中，通过引入评分，通过对主观类标签推荐权重的考虑，可以更准确的预测并推荐用户所要打的标签。

该公式中考虑了用户在不同评分条件下的所采用历史标签主题的分布p(z|u，r)，从而p(t|u，r)也体现了用户在不同评分下与历史标签的关联关系，其中，K是主题的数目，p(t|z)是主题在标签上的概率分布。

在步骤403中，按照每个所述标签t的生成概率进行排序，推荐概率较高的N个标签。

相关领域的从业人员可用离线或在线的方式来得到p(Xt)，p(t|i)，p(t|u，r)，接下来在一个实施例中，以潜在狄利克雷分配(LatentDirichlet Allocation，LDA)模型为例进行说明。

图5示出的是现有技术中LDA图模型。LDA是现有技术中常用的概率生成模型(generative model)，属于非监督机器学习技术，通常用来识别大规模文档集中潜藏的主题信息，与直接根据观察到的文档来进行预测不同，LDA首先假设了产生文档的过程，然后根据观察到文档，来预测背后的产生过程是怎样的。LDA假设所有的文档存在K个主题，而每个主题又是词的分布。对于每篇文档，LDA定义的生成过程是：从主题分布中抽取一个主题；从上述被抽到的主题所对应的单词分布中抽取一个单词；重复上述过程直至遍历文档中的每一个单词。

在图5中，每一篇文档与T(通过反复试验等方法事先给定)个主题的一个多项分布相对应，将该多项分布记为θ。每个主题又与词汇表(vocabulary)中的V个单词的一个多项分布相对应，将这个多项分布记为φ。词汇表是由语料库中所有文档中的所有互异单词组成。θ和φ分别有一个带有超参数(hyperparameter)α和β的Dirichlet先验分布。对于一篇文档d中的每一个单词，从该文档所对应的多项分布θ中抽取一个主题z，然后再从主题z所对应的多项分布φ抽取一个单词w。将这个过程重复N_d次，就产生了文档d，N_d是文档d的单词总数。这个生成过程可以用如下的图模型表示：

图5中的阴影圆圈表示可观测变量(observed variable)，非阴影圆圈表示潜在变量(latent variable)，箭头表示两变量间的条件依赖性(conditional dependency)，方框表示重复抽样，重复次数在方框的右下角。该模型有两个参数需要推断(infer)：一个是”文档-主题“分布θ，另外是T个”主题-单词“分布φ。推断方法主要有LDA模型作者David M.Blei等提出的变分EM算法，还有现在常用的Gibbs抽样法。

具体到该实施例，用LDA模型模拟了用户输入标签的过程，将用户视为文档，用户使用过的标签视为文档中的单词。同理，将对象也视为文档，对象上加的标签视为文档中的单词。可根据LDA算法计算用户在不同分数下的主题分布p(z|u，r)，对象的主题分布p(z|i)，以及每个主题z在tag上的概率分布p(t|z)。在该实施例中，为LDA引入了用户所响应的评分，由于每个用户所关心的主题是一个概率分布，用户在打不同分数时，会有不同的主题分布。在这个改进的实施例中，可将用户的评分信息加入原始的LDA中，进行更细的建模，从而提高预测精度。

图6示出了按照本申请的一个实施例的用户标签概率生成模型的示意图。图7示出了按照本申请的一个实施例的图模型，其中涉及如下参数：

α_U，α_I，β，γ：超参数，先验分布的参数；

θ_ur：用户u在评分r条件下的主题分布p(z|u，r)；

θ_i：对象i的主题分布p(z |i)；

λ_t：标签t在<客观、主观>上的分布p(X)；

φ_k：主题k在标签词汇表上的分布p(t |z)；

r_ui：用户u给对象i打的评分；

x＝0：客观标签，由对象上的主题生成；

x＝1：主观标签，由用户的主题生成；

p/z：主题实例，为了区分：p代表用户主题，z代表对象主题；

t：标签实例；

T_ui：用户u给对象i打的标签数目；

U，I，T：用户数目，对象数目，标签数目(词汇表大小)；

R：评分等级数目(打分1，2，3，4，5，则等级数目为5)；

K：主题数目。

参看图6所示的流程，以及图7的图模型，基于评分的用户标签概率生成模型步骤如下：

在步骤601中，为每个用户u，根据概率分布p(z|u，r)～Dirichlet(α_U)采样得到一个在不同评分条件r下的主题分布θ_ur。

在步骤602中，为每个对象i，根据概率分布p(z|i)～Dirichlet(α_I)采样一个在主题上的分布θ_i。

在步骤603中，为每个主题z，根据概率分布p(t|z)～Dirichlet(β)采样一个在标签词汇表上的分布φ_k。

在步骤604中，为每个标签词汇表里的标签t，根据概率分布p(λ_t)～Beta(γ)采样一个标签在客观、主观上的分布系数λ_t。

在步骤605中，为用户u在评分r条件下，给对象i打的每个标签t确定是由用户或者对象的哪个主题生成。

在该步骤中，根据概率分布p(X)～Binomial(λ_t)采样得到该标签是客观的标签(X＝0)，还是主观的标签(X＝1)：

如果是客观的标签(X＝0)，则：根据对象的主题分布z_t～p(z|i)，采样得到一个主题；根据主题在标签词汇表上的分布p(t|z_t)，从主题z_t采样得到一个标签。

如果是主观的标签(X＝1)，则：根据用户在评分r条件下的主题分布z_t～p(z|u，r)，采样得到一个主题；根据主题在标签词汇表上的分布p(t|z_t)，从主题z_t采样得到一个标签。

对于其中的超参数α_U，α_I，β，γ，本领域技术人员可以根据经验进行选择及调整，例如可以设置为：α_U＝α_I＝50/K，β＝0.01，γ＝0.5。

相关领域的从业人员可根据上述概率生成模型通过Gibbs采样进行参数估计。生成模型描述的是按照假想的模型及参数，生成观察数据的过程，而Gibbs采样，是对生成模型出的一些概率分布进行进行反向推导。

图8示出在一个实施例中通过Gibbs采样进行参数推断的流程，包括如下步骤：

在步骤801中，确定多组先验分布的参数。假设topic的个数为K，标签词汇表的大小为V，

都是K维的向量。

在步骤802中，采样得到对应每个标签，是由用户或者对象的哪个主题生成。通过该步骤对每个标签都可得知X和Z的取值，(X＝0，Z＝j)表明是对象的第j个主题，(X＝1，Z＝m)表明是用户的第m个主题。

在步骤803中，迭代多次直到收敛。在一个实施例中，是直接迭代足够的次数，所属领域技术人员可以根据经验确定，比如1000次。

在步骤804中，根据先验分布以及观察到的现象对模型的参数进行估计。通过步骤702收敛后所得到的P(X，Z)分布，可推导出四类参数的分布：

θ_ur：p(z|u，r)～Dirichlet

其中，

是K维的向量，每一维k的值，等于用户u在评分r条件下的主观标签里面，由主题k生成的次数。

θ_i：p(z|i)～Dirichlet

其中，

是K维的向量，每一维k的值，等于对象i的所有标签里面，由主题k生成的次数。

φ_k：p(t|z)～Dirichlet

其中，

是V维的向量，每一维v的值，等于所有标签里面，由主题z生成标签t的次数。

λ_t：p(λ_t)～Beta

其中，

是2维的向量，分别是标签t是客观和主观标签的次数。

进而，得到由对象i生成t的分布：

其中，P(t|i)是给定对象i，生成标签t的条件概率；P(z＝k|i)是给定对象i，选择主题z＝k的概率；P(t|z＝k)是给定主题z＝k，生成标签t的概率。

引入评分信息后，用户在不同评分条件下的主题分布是不一样的：p(z|u，r)。因此，

其中，P(t|u，r)是给定用户u，在评分为r时生成标签t的条件概率；P(z＝k|u，r)是给定用户u，在评分为r时选择主题z＝k的概率；P(t|z＝k)是给定主题z＝k，生成标签t的概率。

图9示出了本申请公开的一种为用户推荐标签的装置，该装置包括：评分部件901，配置为接收当前用户对当前对象的当前评分；确定部件902，配置为根据所述当前用户以及所述当前评分确定候选标签集；排序部件903，配置为根据所述候选标签的指标值进行排序；推荐部件904，根据所述排序为所述当前用户推荐标签。

在一个实施例中，确定部件902包括：配置为根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集的部件。

在一个实施中，所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度，所述对象间两两相似度同时考虑所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度。

在另一个改进的实施例中，所述每个对象具有第一向量和第二向量，所述第一向量是所述每个对象在相应的历史标签上的TF/IDF值，所述第二向量是所述每个对象上的历史评分，其中，确定部件包括：配置为根据所述第一向量之间的相似度确定所述内容相似度Sim1(i，j)的部件；配置为根据所述第二向量之间的相似度确定所述评分相似度Sim2(i，j)的部件；配置为确定所述对象间两两相似度Sim(i，j)＝Sim1(i，j)*a+Sim2(i，j)*(1-a)，其中0＜a＜1，参数a用于调节权重的部件。

其中，所述确定部件902还包括：配置为确定K个对象的部件，所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高，且所述当前用户使用过的标签；配置为以该当前用户在该K个对象上使用过的标签作为所述候选标签集的部件。在一个改进的实施例中，所述K个对象进一步限制所述当前用户评分也为r。其中，所述指标值包括权值

其中，所述当前用户给第k个对象使用过标签t，则v_t＝1，否则v_t＝0。

在另一个实施例中，用户在不同评分等级下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率p(t|u，r)，所述指标值包括所述候选标签的生成概率。

在一个改进的实施例中，还包括：配置为确定定标签属性分布p(Xt)的部件，所述标签属性包括主观类和为客观类；配置为确定根据对象i生成所述候选标签t的条件概率p(t|i)的部件；配置为根据公式确定所述p(t|u，r)的部件，其中，k是所述历史标签主题的数目，p(t|z)是主题在标签上的概率分布，所述p(z|u，r)是用户在不同评分条件下的历史标签的在主题上的分布。

在一个改进的实施例中，包括：配置为根据所述概率p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt＝0)，以及是主观类标签的概率p(Xt＝1)的部件；配置为计算每个所述候选标签的生成概率p(t|u，i，r)＝p(Xt＝0)*p(t|i)+p(Xt＝1)*p(t|u，r)的部件。

对于以上各个单元、装置和设备的具体执行方式，可以参照之前结合方法流程和具体例子进行的详细描述，在此不再赘述。

以上所描述的标签推荐的方法和装置可以利用计算***来实现。附图中的流程图和框图，图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

虽然以上结合具体实施例，对本发明的方法、装置以及各个单元进行了详细描述，但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解，所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。

Claims

1.一种为用户推荐标签的方法，该方法包括：

接收当前用户对当前对象的当前评分；

根据所述当前用户以及所述当前评分确定候选标签集；

根据所述候选标签集中候选标签的指标值进行排序；

根据所述排序为所述当前用户推荐标签。

2.根据权利要求1所述的方法，其中，根据所述当前用户以及所述当前评分确定候选标签集包括：根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集。

3.如权利要求2所述的方法，其中，所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度，所述对象间两两相似度是根据所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。

4.如权利要求3所述的方法，其中，每个对象具有第一向量和第二向量，所述第一向量是所述对象在相应的历史标签上的词频/逆向文件频率值，所述第二向量是所述对象上的历史评分，所述对象间两两相似度的确定包括：

根据所述第一向量之间的相似度确定所述内容相似度Sim1(i，j)；

根据所述第二向量之间的相似度确定所述评分相似度Sim2(i，j)；

确定所述对象间两两相似度Sim(i，j)＝Sim1(i，j)*a+Sim2(i，j)*(1-a)，其中0＜a＜1，参数a用于调节权重。

5.如权利要求4所述的方法，其中，根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集包括：

确定K个对象，所述K个对象是根据所述对象间两两相似度所确定的与所述当前对象相似度最高，且所述当前用户使用过的标签；

以该当前用户在该K个对象上使用过的标签作为所述候选标签集。

6.如权利要求5所述的方法，其中，所述确定K个对象包括：进一步限制所述当前用户评分也为r。

7.如权利要求5或6所述的方法，其中，所述指标值包括所述候选标签的权值

其中，所述当前用户给第k个对象使用标签t，则v_t＝1，否则v_t＝0。

8.根据权利要求2所述的方法，所述用户在不同评分下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率p(t|u，r)，所述指标值包括所述候选标签的生成概率。

9.根据权利要求8所述的方法，还包括：

确定标签属性分布p(Xt)，所述标签属性包括主观类和客观类；

确定对象i在标签t上的分布p(t|i)；

确定所述

其中，K是所述历史标签的主题z的数目，p(t|z)是所述主题z在所述历史标签上的分布，所述p(z|u，r)是用户在不同评分等级下在所述历史标签的主题z上的分布。

10.如权利要求9所述的方法，其特征在于：

根据所述标签属性分布p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt＝0)，以及是主观类标签的概率p(Xt＝1)；

根据公式p(Xt＝0)*p(t|i)+p(Xt＝1)*p(t|u，r)计算所述候选标签的生成概率。

11.一种为用户推荐标签的装置，该装置包括：

评分部件，配置为接收当前用户对当前对象的当前评分；

确定部件，配置为根据所述当前用户以及所述当前评分确定候选标签集；

排序部件，配置为根据所述候选标签集中候选标签的指标值进行排序；

推荐部件，根据所述排序为所述当前用户推荐标签。

12.根据权利要求11所述的装置，其中，所述确定部件包括：配置为根据预先确定的用户在不同评分等级下与历史标签的关联关系确定所述当前用户在所述当前评分下的历史标签作为所述候选标签集的部件。

13.如权利要求12所述的装置，其中，所述用户在不同评分等级下与历史标签内容的关联关系包括对象间两两相似度，所述对象间两两相似度是根据所述对象历史标签的内容相似度以及不同用户对同一对象的评分相似度确定的。

14.如权利要求13所述的装置，其中，每个对象具有第一向量和第二向量，所述第一向量是所述对象在相应的历史标签上的词频/逆向文件频率值，所述第二向量是所述对象上的历史评分，其中，所述装置还包括：

配置为根据所述第一向量之间的相似度确定所述内容相似度Sim1(i，j)的部件；

配置为根据所述第二向量之间的相似度确定所述评分相似度Sim2(i，j)的部件；

配置为确定所述对象间两两相似度Sim(i，j)＝Sim1(i，j)*a+Sim2(i，j)*(1-a)，其中0＜a＜1，参数a用于调节权重的部件。

15.如权利要求14所述的装置，其中，所述确定部件还包括：

配置为确定K个对象的部件，所述K个对象是根据所述对象间的两两相似度所确定的与所述当前对象相似度最高，且所述当前用户使用过的标签；

配置为以该当前用户在该K个对象上使用过的标签作为所述候选标签集的部件。

16.如权利要求15所述的装置，其中，所述K个对象进一步限制所述当前用户评分也为r。

17.如权利要求15或16所述的装置，其中，所述指标值包括权值

18.根据权利要求12所述的装置，所述用户在不同评分等级下与历史标签的关联关系包括用户在不同评分等级下的标签生成概率p(t|u，r)，所述指标值包括所述候选标签的生成概率。

19.根据权利要求18所述的装置，还包括：

配置为确定定标签属性分布p(Xt)的部件，所述标签属性包括主观类和客观类；

配置为确定根据对象i生成所述候选标签t的条件概率p(t|i)的部件；

配置为确定所述

的部件，其中，K是所述历史标签的主题数目，p(t|z)是所述主题在所述历史标签上的分布，所述p(z|u，r)是用户在不同评分等级下在主题上的分布。

20.如权利要求19所述的装置，包括：

配置为根据所述标签属性分布p(Xt)确定每个所述候选标签是客观类标签的概率p(Xt＝0)，以及是主观类标签的概率p(Xt＝1)的部件；

配置为根据公式p(Xt＝0)*p(t|i)+p(Xt＝1)*p(t|u，r)计算每个所述候选标签的生成概率的部件。