CN107357793A

CN107357793A - 信息推荐方法和装置

Info

Publication number: CN107357793A
Application number: CN201610305668.6A
Authority: CN
Inventors: 郑子彬
Original assignee: Tencent Technology Shenzhen Co Ltd; Sun Yat Sen University
Current assignee: Tencent Technology Shenzhen Co Ltd; Sun Yat Sen University
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2017-11-17
Anticipated expiration: 2036-05-10
Also published as: CN107357793B

Abstract

本发明涉及一种信息推荐方法和装置，所述方法包括：根据跨领域的用户数据提取用户标签；将相同用户的所述用户标签形成用于描述所述用户的用户标签集；根据主题生成模型和所述用户标签集确定所述用户标签集所属主题，并将所述用户标签集所属主题作为用户所属用户社区；根据所述用户所属用户社区进行信息推荐。本发明提供的信息推荐方法和装置，在数据稀疏度高的情况下可根据跨领域的用户数据，利用主题生成模型准确地确定用户所属用户社区，从而再利用用户所属用户社区进行信息推荐，可以在数据稀疏度高的情况下仍然进行准确的信息推荐。

Description

信息推荐方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种信息推荐方法和装置。

背景技术

随着互联网的发展，信息快速增长，如何对信息进行有效的筛选和过滤，将用户感兴趣的信息，比如电影、商品或者食物等信息，准确地推荐给用户是一个重要的研究题目。

目前普遍使用的推荐算法包括基于相似性的协同过滤算法、矩阵分解等，此类算法基于相似用户或者相似项目等各种类型信息，实现某用户对某项目的个性化喜爱程度的预测，从而达到个性化推荐的效果。

然而，目前的推荐算法只使用用户的单个活动场景的数据，具有局限性，特别是在数据稀疏度高的情况下，推荐效果差。比如购物网站上的物品可以达到上百万件，但是与某一用户有关系(比如浏览、购买等)的商品可能只有几十件。以用户和物品这两个维度来构建关系矩阵的话，横轴代表用户，纵轴代表商品。如果用户浏览或购买某一个商品，其矩阵中对应值为1，否则为0，那么这个矩阵几乎都是0。这样的情况下用协同过滤等一些传统的算法就非常的低效，预测不准确，导致推荐结果也不准确。

发明内容

基于此，有必要针对目前的推荐算法在数据稀疏度高的情况下推荐结果不准确的问题，提供一种信息推荐方法和装置。

一种信息推荐方法，所述方法包括：

根据跨领域的用户数据提取用户标签；

将相同用户的所述用户标签形成用于描述所述用户的用户标签集；

根据主题生成模型和所述用户标签集确定所述用户标签集所属主题，并将所述用户标签集所属主题作为用户所属用户社区；

将概率最大的主题确定为用户所属用户社区；

根据所述用户所属用户社区进行信息推荐。

一种信息推荐装置，所述装置包括：

用户标签提取模块，用于根据跨领域的用户数据提取用户标签；将相同用户的所述用户标签形成用于描述所述用户的用户标签集；

用户所属用户社区确定模块，用于根据主题生成模型和所述用户标签集确定所述用户标签集所属主题，并将所述用户标签集所属主题作为用户所属用户社区；将概率最大的主题确定为用户所属用户社区；

信息推荐模块，用于根据所述用户所属用户社区进行信息推荐。

上述信息推荐方法和装置，利用跨领域的用户数据来提取用户标签，同一用户的用户标签构成描述用户画像的用户标签集，这样每个用户标签集都可以准确地代表相应的用户。主题生成模型是处理自然语言的一种工具，利用该主题生成模型确定的用户所属用户社区，可准确表示出用户所在的用户社区，可表达用户与其它用户共有的特征。再利用用户所属用户社区进行信息推荐，便可以在数据稀疏度高的情况下仍然进行准确的信息推荐。

附图说明

图1为一个实施例中信息推荐***的应用环境图；

图2为一个实施例中服务器的内部结构示意图；

图3为一个实施例中信息推荐方法的流程示意图；

图4为一个实施例中根据跨领域的用户数据提取用户标签的步骤的流程示意图；

图5为一个实施例中信息推荐方法的流程以及数据流向示意图；

图6为一个实施例中根据主题生成模型和用户标签集确定用户标签集所属主题，并将用户标签集所属主题作为用户所属用户社区的步骤的流程示意图；

图7为一个实施例中LDA主题生成模型中生成文档过程的图模型示意图；

图8为一个实施例中根据用户所属用户社区进行信息推荐的步骤的流程示意图；

图9为一个实施例中输入的用户属性信息、跨领域的用户数据以及用户所属用户社区的特征向量以及输出的用户评价分值关系的示意图；

图10为一个实施例中信息推荐装置的结构框图；

图11为一个实施例中用户标签提取模块的结构框图；

图12为一个实施例中用户所属用户社区确定模块的结构框图；

图13为一个实施例中信息推荐模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供了一种信息推荐***，包括服务器110和用户终端120。服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群。用户终端120可以是台式计算机或者移动终端，移动终端比如手机、平板电脑、可穿戴设备或者个人数字助理(PDA)等。

如图2所示，在一个实施例中，提供了一种服务器110，包括通过***总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中处理器具有计算功能和控制服务器110工作的功能，该处理器被配置为执行一种信息推荐方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种，非易失性存储介质存储有操作***和信息推荐装置，该信息推荐装置用于实现一种信息推荐方法。网络接口用于连接到网络进行通信。

如图3所示，在一个实施例中，提供了一种信息推荐方法，本实施例以该方法应用于上述图1和图2中的服务器110来举例说明。该方法具体包括如下步骤：

步骤302，根据跨领域的用户数据提取用户标签。

其中，领域是指用户的活动场景，比如购物场景、发微博消息场景或者评论场景等。跨领域的用户数据则是在用户的不同活动场景下的行为所产生的数据，比如购物场景下产生的购买物品的信息、发微博消息场景下产生的微博消息以及评论场景下产生的评论信息。

用户标签是指可反映用户与其它用户的特性和共性的标记，比如用户喜欢看恐怖片、喜欢海鲜等。服务器具体可对跨领域的用户数据进行分词，并通过语义分析或者词频分析，查找出能够代表用户的关键词，从而根据该关键词形成用户标签。具体可对关键词进行聚类，将获得的每一类作为一个用户标签；或者可将关键词与已经分类的用户标签比较，从而将关键词映射到用户标签。

步骤304，将相同用户的用户标签形成用于描述用户的用户标签集。

具体地，服务器将相同用户的所有用户标签构成该用户的用户标签集，该用户标签集保留用户标签的词频。具体可按照从跨领域的用户数据中提取出相同用户标签的次数将该用户标签重复地出现在用户标签集中，也可以用词袋(Bag-of-words)模型的方式来表示用户标签集。

用户标签集是对用户的用户画像，是用户的特有标识。用户画像是针对产品或服务目标群体真实特征的勾勒，是真实用户的综合原型。一般而言，用户画像在计算机中可以表现为一组描述用户特征的用户标签集。基于用户画像，服务器可以从不同领域的用户数据中抽取出描述用户的各种用户标签，并将不同领域的用户标签进行融合和整理，生成用户标签集，从而构建出完整的用户画像。

步骤306，根据主题生成模型和用户标签集确定用户标签集所属主题，并将用户标签集所属主题作为用户所属用户社区。

在自然语言处理中，主题生成模型是指一篇文章中的每个词都是按照一定概率选择了某个主题并从选择的主题中选择了某个词这样一个过程得到的。在自然语言中主题表示的是若干词所表达的一个概念，在数学上表示为词汇表上词语的条件概率分布。主题生成模型一般是用户自然语言处理，本实施例则创新性地将其应用到用户社区的定位以及信息推荐中。

本实施例中，用户标签集中的每个用户标签都是按照一定的概率选择了某个主题并从选择的主题中选择了相应的用户标签。其中主题是指用户社区，而用户社区是一群有着相同或者相近的关系、偏好的用户构成的用户集合。基于主题生成模型，存在以下公式(1)：

其中，tag表示用户标签，tags表示用户标签集，topic表示主题，p(tag|tags)表示标签集中每个用户标签出现的概率，p(tag|topic)表示各个主题中的用户标签出现的概率，p(topic|tags)则表示各个用户标签集中的主题出现的概率。

主题生成模型可采用pLSA(Probabilistic Latent Semantic Analysis)或者LDA(Latent Dirichlet Allocation)，pLSA主题生成模型训练推理主要使用的是EM(期望最大化)算法；LDA主题生成模型训练推理采用的是Gibbs sampling(吉布斯采样)方法。

步骤308，根据用户所属用户社区进行信息推荐。

具体地，确定了用户所属用户社区，也就是确定了用户所在的用户社区，属于相同用户社区的用户可以认为是兴趣相近的用户，因此服务器可以向属于相同主题的用户推荐相同的信息。服务器还可以计算各种待推荐物品与用户所属用户社区的相似度，从而向用户推荐相似度高于预设值的待推荐物品。

上述信息推荐方法，参照图5，利用跨领域的用户数据来提取用户标签，同一用户的用户标签构成描述用户画像的用户标签集，这样每个用户标签集都可以准确地代表相应的用户。主题生成模型是处理自然语言的一种工具，利用该主题生成模型确定的用户所属用户社区，可准确表示出用户所在的用户社区，可表达用户与其它用户共有的特征。再利用用户所属用户社区进行信息推荐，便可以在数据稀疏度高的情况下仍然进行准确的信息推荐。

如图4所示，在一个实施例中，步骤302具体包括如下步骤：

步骤402，获取跨领域的每份用户数据的词在相应用户数据中的词频。

具体地，服务器可将跨领域的用户数据进行分词处理，将所有用户数据中分词后获得的词构成词集合，并遍历词集合，统计遍历的每个词在每份用户数据中出现的次数，进而根据以下公式(2)计算词频：

其中，TF表示词频，N_T表示词在相应用户数据中出现的次数，N_sum则表示相应用户数据中出现的词的总数量。

在一个实施例中，服务器还可以从词集合中过滤掉停用词后再执行步骤402至步骤410。停用词包括语气助词、感叹词或者其它对提取用户标签无意义的词。

步骤404，获取跨领域的各份用户数据中包括词的用户数据份数。

具体地，服务器可遍历跨领域的用户数据，确定包括了上述词的用户数据，从而统计出包括该词的用户数据份数。若将每份用户数据存储为单独的文件，则服务器可遍历存储用户数据的每个文件，从而确定包括了上述词的文件，并统计包括该词的文件数量也就是用户数据份数。

步骤406，获取词的重要度评分，重要度评分与词频正相关，且与用户数据份数负相关。

具体地，服务器根据词的词频和包括该词的用户数据份数计算该词的重要度评分，且该词的重要度评分随着该词的词频的增大而增大，随着该词的词频的减小而减小；且该词的重要度评分随着包括该词的用户数据份数的增大而减小，随着包括该词的用户数据份数的减小而增大。

在一个实施例中，步骤406包括：将跨领域的用户数据总份数除以用户数据份数与正的常数的和后取对数，再乘以词频，获得词的重要度评分。具体地，服务器可采用以下公式(3)计算词的重要度评分：

其中，ImScore表示词的重要度评分，TF表示词在相应用户数据中的词频，File_sum表示跨领域的用户数据总份数，File_include表示跨领域的用户数据中包括当前的词的用户数据份数，A是正的常数。对数的底数可取任意合理的底数。A可避免词在用户数据中未出现时导致计算出错，A可取1，也可以去除A。

在其它实施例中，服务器还可以按照以下公式(4)计算重要度评分：

其中，ImScore表示词的重要度评分，TF表示词在相应用户数据中的词频，File_sum表示跨领域的用户数据总份数，File_include表示跨领域的用户数据中包括当前的词的用户数据份数，A是正的常数。

在其它实施例中，服务器还可以按照以下公式(5)计算重要度评分：

其中，ImScore表示词的重要度评分，TF表示词在相应用户数据中的词频，File_include表示跨领域的用户数据中包括当前的词的用户数据份数，A是正的常数。

步骤408，根据重要度评分筛选出关键词。

具体地，服务器可选取重要度评分高于预设阈值的词作为筛选出的关键词。服务器也可以将各词按照重要度评分降序排序，将排在靠前的预设比例的词作为筛选出的关键词。

其中，词的重要度评分反映了词在相应的用户数据中的重要程度，如果词的词频高，而且在其它用户数据中出现的少，那么这个词就很重要，在描述用户特征时具有很好的区分度，可作为关键词。如果词频低，而且在其它用户数据中经常出现，那么这个词就无法很好地描述用户特征，可直接过滤掉。

步骤410，根据关键词确定用户标签。

具体地，服务器可将关键词直接作为用户标签；服务器可对关键词进行聚类，将获得的每一类作为一个用户标签；服务器可将关键词与已经分类的用户标签比较，从而将关键词映射到用户标签。

本实施例中，获取词的重要度评分，该重要度评分与词频正相关而与包括该词的用户数据份数负相关，这样重要度评分就可以表达出一个词对于一份用户数据的重要程度，从而根据重要度评分便可以筛选出能够准确地描述用户特征的关键词，这样提取出的用户标签形成的用户标签集对用户的描述也更加准确，使得最终的推荐结果也更加准确。

用户画像的构建是在大量数据中提取出能够描述用户特征的信息，为不同的用户形成不同的用户标签集，从而构成用户的特有标识。由于用户在不同的领域下有不同的行为数据，这些数据存在于不同的***，数据异构多样，因此在构建用户画像的过程中，需要整合不同领域的用户数据，从中筛选出最能体现用户特征的标签，从而构建准确的跨领域用户画像。

在用户画像的构建过程中，需要提取出对于描述用户最有效的关键词。这些关键词要能有效地描述用户的特征，还需要具备区分性。比如，“人类”这个词就不是一个很好的描述词语，虽然它准确的描述了用户，但是每一个用户都是“人类”，导致这个词不具有区分度。而上述步骤402至步骤410提取的关键词就能够避免这种过于大众化的词语，使得生成的用户标签能够更好地反映用户的特征。

如图6所示，在一个实施例中，步骤306具体包括如下步骤：

步骤602，根据主题生成模型，对于用户标签集中的每个用户标签，按照预设数量的主题与用户标签的多项式分布选择当前用户标签所属的主题，并且按照用户标签集与主题的多项式分布生成在选择的主题条件下的当前用户标签，以构建用户标签生成概率函数。

其中，主题生成模型的主要功能是提取可以理解、相对稳定的潜在语义结构。主题模型采用了词袋模型，将每一篇文档视为一个词频向量，从而将文本信息转化为易于建模的数字信息。主题生成模型的主要前提假设是，一系列的主题链接了一系列词和文档集合，主题则可以视为字和词的一种概率分布。

本实施例采用LDA主题生成模型来确定用户所属用户社区。与其他生成式概率模型相比，LDA主题生成模型使用了Dirichlet(狄利克雷)分布作为主题分布信息的先验信息，很好的刻画了文档生成过程，近年来被越来越多的应用于文本挖掘和信息检索领域。

对于语料库中的每篇文档，LDA主题生成模型定义了如下生成过程：给定包括M篇文档的语料库，语料库中的每一篇文档与K(K通过反复试验等方法事先给定)个主题的一个多项式分布相对应，将该多项分布记为φ。每个主题又与词汇表中的V个单词的一个多项式分布相对应，将这个多项分布记为φ和分别是带有超参数α和β的Dirichlet先验分布。对于一篇文档m中的每一个词w，从该文档m所对应的多项分布φ中抽取一个主题z，然后再从主题z所对应的多项分布中抽取一个词w，将这个过程重复N_m次，就产生了文档m，这里的N_m是文档m中的词总数。这个生成过程可以用图7所示的图模型表示。其中m∈[1,M]，k∈[1,K]。

本实施例中，服务器基于LDA主题生成模型，将M个用户标签集作为语料库输入LDA主题生成模型；将用户标签集m中的每一个用户标签作为LDA主题生成模型中的词w；而描述用户所有特征的用户标签集m作为LDA主题生成模型中的文档；LDA主题生成模型生成的用户所属用户社区z，相当于用户所属的用户社区。以此创新性的将用户画像的信息映射到LDA主题生成模型的文档-词项模型。

具体地，对于所有的用户社区即主题k∈[1,K]，生成“用户社区-用户标签”分布，即预设数量的主题与用户标签的多项式分布其中表示服从以β为超参数的Dirichlet分布。

对于用户m所有的用户标签构成的文档即用户标签集m∈[1,M]，生成当前用户标签集m对应的“用户标签集-用户社区”分布，即用户标签集与主题的多项式分布φ_m～Dirichlet(α)。其中φ_m～Dirichlet(α)表示φ_m服从以α为超参数的Dirichlet分布。

进一步地，获取当前用户标签集m的长度N_m，表示当前用户标签集m中的用户标签数量。对于当前用户标签集m的所有用户标签n∈[1,N_m]，根据生成的“用户标签集-用户社区”分布φ_m生成当前的用户标签n所属的用户社区z_m,n～φ_m。根据生成的“用户社区-用户标签”分布生成当前用户标签可知，第m个用户标签集中第n个用户标签t的生成概率可用如下公式(6)表示：

其中，m是用户标签集的标识，n是用户标签集中的用户标签的标识，t表示用户标签集m中的用户标签n的值，k表示主题的标识，K是主题的预设数量；w_m,n表示用户标签集m中的用户标签n，z_m,n表示用户标签集m中第n个用户标签的主题；表示用户标签w_m,n是t的概率，p(z_m,n＝k|φ_m)表示在φ_m的条件下当前用户标签所属的主题z_m,n是k的概率，表示在的条件下当前用户标签w_m,n是t的概率。

步骤604，获取用户标签集中各个用户标签的出现概率。

具体地，上述公式(6)等式左边的等于当前用户标签t在用户标签集m中的出现概率，也就是当前用户标签t在用户标签集m中的词频。

步骤606，根据获取的出现概率和用户标签生成概率函数，获得用户标签集属于预设数量的主题中各主题的概率。

具体地，M个用户标签集是已知的，其中的各个用户标签的出现概率也是已知的，可通过吉布斯采样法训练获得p(z_m,n＝k|φ_m)以及的值，通过便可以获得用户标签集m属于主题k的概率。

步骤608，将概率最大的主题确定为用户所属用户社区。

具体地，服务器可将用户标签集属于预设数量的主题中各主题的概率按照降序排序，从而得到概率最大的概率对应的主题，将该主题确定为用户标签集所属的主题，也就是用户所属用户社区。

在其它实施例中，还可以选取概率较大的多个主题作为候选用户所属用户社区，后续在预测用户评分值时可分别利用每个候选用户所属用户社区进行预测，最终取可取使得用户评分值最大的候选用户所属用户社区进行信息推荐。

本实施例中，创新性地将处理自然语言的主题生成模型运用到对用户画像进行用户社区定位，确定用户所属用户社区后，便可以基于用户社区进行精确预测和信息推荐，提高了推荐准确性。

在一个实施例中，步骤308具体包括：根据用户属性信息和跨领域的用户数据中的至少一种以及用户所属用户社区进行信息推荐。

其中，用户属性信息与跨领域的用户数据不同，是用户本身具备的信息，比如年龄、性别、信仰、学历或者籍贯等描述用户本身的属性信息。服务器可根据用户属性信息和用户所属用户社区进行信息推荐，也可以根据跨领域的用户数据与用户所属用户社区进行信息推荐，还可以根据用户属性信息、跨领域的用户数据以及用户所属用户社区进行信息推荐。

本实施例中，将用户属性信息和跨领域的用户数据中的至少一种与用户所属用户社区结合来进行信息推荐，可使得推荐结果与用户的需求更加匹配，使得匹配结果更加准确。

如图8所示，在一个实施例中，步骤308具体包括如下步骤：

步骤802，将用户属性信息、跨领域的用户数据以及用户所属用户社区进行二值化处理，获得相应的特征向量。

具体地，服务器可将用户属性信息、跨领域的用户数据以及用户所属用户社区中不为空的数据记为1，为空的数据置为0，从而获得用户属性信息的特征向量、跨领域的用户数据的特征向量以及用户所属用户社区的特征向量。参照图9，将三种特征向量拼接可获得一个大的融合所有数据的综合矩阵，该综合矩阵的每一行描述一个用户的所有数据构成的特征向量，对应的输出为用户评分值。

步骤804，计算各种特征向量彼此之间的关联性。

步骤806，根据各种特征向量及各种特征向量彼此之间的关联性预测用户评分值。

具体地，服务器可根据以下公式(7)预测用户评分值：

其中，y是用户评分值，w₀表示全局偏值，w_i表示用户属性信息u的权重，w_i表示跨领域的用户数据i的权重，w_m表示用户所属用户社区m的权重；v_u表示用户属性信息u的特征向量，v_i表示跨领域的用户数据i的特征向量，v_m表示用户所属用户社区m的特征向量；LDA_u表示用户标签集与主题的多项式分布中的主题集合，|LDA_u|表示LDA_u的大小；< >符号表示求取内积，用于表示特征向量之间的关联性。

<v_u,v_i>表示用户属性信息u的特征向量与跨领域的用户数据i的特征向量的关联性；<v_u,v_m>表示用户属性信息u的特征向量与用户所属用户社区m的特征向量的关联性；<v_i,v_m>表示跨领域的用户数据i的特征向量与用户所属用户社区m的特征向量的关联性。

公式(7)中的权重可通过训练获得，具体可通过已知的用户评分值和相应的各种特征向量进行机器学习获得。机器学习的过程中，通过不断调整各权重的大小，来使得调整后的权重与各种特征向量构成的函数输出的目标值与已知的用户评分值的差异最小化来调整权重，最终获得公式(7)中的各个权重。

步骤808，根据用户评分值进行信息推荐。

具体地，服务器可选取用户评分值大于预设评分值的用户进行信息推荐。服务器还可以将各个用户按照用户评分值降序进行，从而选取排序靠前的预设数量或者预设比例的用户进行信息推荐。

本实施例中，用户属性信息以及跨领域的用户数据可以反映出用户在各个方面的共性，最终的用户评分值是反映这种共性的量化值。比如要预测用户的信用程度，那么就需要全面的了解用户的个人信息，还需要了解用户的银行存款、债务信息、个人社交信息以及个人喜好信息等不同领域的信息，最终量化出的用户评分值就可以反映出用户的信用程度。

本实施例中，综合了用户属性信息、跨领域的用户数据以及用户所属用户社区的信息，通过用户属性信息、跨领域的用户数据以及用户所属用户社区的权重来进行有效的预测及推荐，可以有效地解决数据稀疏问题和冷启动问题。而且，通过各种特征向量之间的内积，可以描述出用户属性信息、跨领域的用户数据以及用户所属用户社区彼此之间的关联性，既考虑了各方面信息的权重，又考虑了每个特征向量之间的关联性，从而能够做出准确有效的推荐。

再者，上述公式(7)中将所有特征向量的权重都转换为一个大的矩阵w(n*n)，n为特征总数，该矩阵w分解为v(n*k)和其转置的内积，其形式如公式(7)中的<v_u,v_i>、<v_u,v_m>以及<v_i,v_m>。这样每个数据的特征就用一个1*k的向量来描述，也就是公式(7)中的v_u、v_i以及v_m。这种转变带来的好处是克服数据稀疏问题，使得特征关联挖掘更加深入。从公式(7)来看，算法复杂度为O(kn)，为线性时间复杂度，从而很好地解决了传统算法时间复杂度高的问题。

如图10所示，在一个实施例中，提供了一种信息推荐装置1000，包括：用户标签提取模块1010、用户所属用户社区确定模块1020和信息推荐模块1030。

用户标签提取模块1010，用于根据跨领域的用户数据提取用户标签。将相同用户的用户标签形成用于描述用户的用户标签集。

用户标签是指可反映用户与其它用户的特性和共性的标记，比如用户喜欢看恐怖片、喜欢海鲜等。用户标签提取模块1010具体可对跨领域的用户数据进行分词，并通过语义分析或者词频分析，查找出能够代表用户的关键词，从而根据该关键词形成用户标签。用户标签提取模块1010具体可对关键词进行聚类，将获得的每一类作为一个用户标签；或者可将关键词与已经分类的用户标签比较，从而将关键词映射到用户标签。

用户所属用户社区确定模块1020，用于根据主题生成模型和用户标签集确定用户标签集所属主题，并将用户标签集所属主题作为用户所属用户社区。

具体地，用户所属用户社区确定模块1020将相同用户的所有用户标签构成该用户的用户标签集，该用户标签集保留用户标签的词频。用户所属用户社区确定模块1020具体可按照从跨领域的用户数据中提取出相同用户标签的次数将该用户标签重复地出现在用户标签集中，也可以用词袋模型的方式来表示用户标签集。

主题生成模型可采用pLSA或者LDA，pLSA主题生成模型训练推理主要使用的是EM算法；LDA主题生成模型训练推理采用的是Gibbs sampling方法。

信息推荐模块1030，用于根据用户所属用户社区进行信息推荐。

具体地，确定了用户所属用户社区，也就是确定了用户所在的用户社区，属于相同用户社区的用户可以认为是兴趣相近的用户，因此信息推荐模块1030可以向属于相同主题的用户推荐相同的信息。信息推荐模块1030还可以计算各种待推荐物品与用户所属用户社区的相似度，从而向用户推荐相似度高于预设值的待推荐物品。

上述信息推荐装置1000，利用跨领域的用户数据来提取用户标签，同一用户的用户标签构成描述用户画像的用户标签集，这样每个用户标签集都可以准确地代表相应的用户。主题生成模型是处理自然语言的一种工具，利用该主题生成模型确定的用户所属用户社区，可准确表示出用户所在的用户社区，可表达用户与其它用户共有的特征。再利用用户所属用户社区进行信息推荐，便可以在数据稀疏度高的情况下仍然进行准确的信息推荐。

如图11所示，在一个实施例中，用户标签提取模块1010包括：重要度评分获取模块1011、关键词筛选模块1012和用户标签确定模块1013。

重要度评分获取模块1011，用于获取跨领域的每份用户数据的词在相应用户数据中的词频；获取跨领域的各份用户数据中包括词的用户数据份数；获取词的重要度评分；重要度评分与词频正相关，且与用户数据份数负相关。

具体地，重要度评分获取模块1011可将跨领域的用户数据进行分词处理，将所有用户数据中分词后获得的词构成词集合，并遍历词集合，统计遍历的每个词在每份用户数据中出现的次数，进而根据上述公式(2)计算词频。重要度评分获取模块1011还可以从词集合中过滤掉停用词后再获取跨领域的每份用户数据的词在相应用户数据中的词频。停用词包括语气助词、感叹词或者其它对提取用户标签无意义的词。

重要度评分获取模块1011可遍历跨领域的用户数据，确定包括了上述词的用户数据，从而统计出包括该词的用户数据份数。若将每份用户数据存储为单独的文件，则服务器可遍历存储用户数据的每个文件，从而确定包括了上述词的文件，并统计包括该词的文件数量也就是用户数据份数。

重要度评分获取模块1011可根据词的词频和包括该词的用户数据份数计算该词的重要度评分，且该词的重要度评分随着该词的词频的增大而增大，随着该词的词频的减小而减小；且该词的重要度评分随着包括该词的用户数据份数的增大而减小，随着包括该词的用户数据份数的减小而增大。

关键词筛选模块1012，用于根据重要度评分筛选出关键词。

具体地，关键词筛选模块1012可选取重要度评分高于预设阈值的词作为筛选出的关键词。服务器也可以将各词按照重要度评分降序排序，将排在靠前的预设比例的词作为筛选出的关键词。

用户标签确定模块1013，用于根据关键词确定用户标签。

具体地，用户标签确定模块1013可将关键词直接作为用户标签；用户标签确定模块1013可对关键词进行聚类，将获得的每一类作为一个用户标签；用户标签确定模块1013可将关键词与已经分类的用户标签比较，从而将关键词映射到用户标签。

在用户画像的构建过程中，需要提取出对于描述用户最有效的关键词。这些关键词要能有效地描述用户的特征，还需要具备区分性。比如，“人类”这个词就不是一个很好的描述词语，虽然它准确的描述了用户，但是每一个用户都是“人类”，导致这个词不具有区分度。而本实施例中提取的关键词就能够避免这种过于大众化的词语，使得生成的用户标签能够更好地反映用户的特征。

在一个实施例中，重要度评分获取模块1011具体用于将跨领域的用户数据总份数除以用户数据份数与正的常数的和后取对数，再乘以词频，获得词的重要度评分。

如图12所示，在一个实施例中，用户所属用户社区确定模块1020包括：用户标签生成概率函数构建模块1021、概率计算模块1022和主题确定模块1023。

用户标签生成概率函数构建模块1021，用于根据主题生成模型，对于用户标签集中的每个用户标签，按照预设数量的主题与用户标签的多项式分布选择当前用户标签所属的主题，并且按照用户标签集与主题的多项式分布生成在选择的主题条件下的当前用户标签，以构建用户标签生成概率函数。

本实施例中，用户标签生成概率函数构建模块1021基于LDA主题生成模型，将M个用户标签集作为语料库输入LDA主题生成模型；将用户标签集m中的每一个用户标签作为LDA主题生成模型中的词w；而描述用户所有特征的用户标签集m作为LDA主题生成模型中的文档；LDA主题生成模型生成的用户所属用户社区z，相当于用户所属的用户社区。以此创新性的将用户画像的信息映射到LDA主题生成模型的文档-词项模型。

进一步地，用户标签生成概率函数构建模块1021获取当前用户标签集m的长度N_m，表示当前用户标签集m中的用户标签数量。对于当前用户标签集m的所有用户标签n∈[1,N_m]，根据生成的“用户标签集-用户社区”分布φ_m生成当前的用户标签n所属的用户社区z_m,n～φ_m。根据生成的“用户社区-用户标签”分布生成当前用户标签可知，第m个用户标签集中第n个用户标签t的生成概率可用上述公式(6)表示：

概率计算模块1022，用于获取用户标签集中各个用户标签的出现概率；根据获取的出现概率和用户标签生成概率函数，获得用户标签集属于预设数量的主题中各主题的概率。

具体地，上述公式(6)等式左边的等于当前用户标签t在用户标签集m中的出现概率，也就是当前用户标签t在用户标签集m中的词频。M个用户标签集是已知的，其中的各个用户标签的出现概率也是已知的，概率计算模块1022可通过吉布斯采样法训练获得p(z_m,n＝k|φ_m)以及的值，通过便可以获得用户标签集m属于主题k的概率。

主题确定模块1023，用于将概率最大的主题确定为用户所属用户社区。

具体地，主题确定模块1023可将用户标签集属于预设数量的主题中各主题的概率按照降序排序，从而得到概率最大的概率对应的主题，将该主题确定为用户标签集所属的主题，也就是用户所属用户社区。

在其它实施例中，主题确定模块1023还可以选取概率较大的多个主题作为候选用户所属用户社区，后续在预测用户评分值时可分别利用每个候选用户所属用户社区进行预测，最终取可取使得用户评分值最大的候选用户所属用户社区进行信息推荐。

在一个实施例中，信息推荐模块1030具体用于根据用户属性信息和跨领域的用户数据中的至少一种以及用户所属用户社区进行信息推荐。

如图13所示，在一个实施例中，信息推荐模块1030包括：特征向量提取模块1031、用户评分值预测模块1032和推荐执行模块1033。

特征向量提取模块1031，用于将用户属性信息、跨领域的用户数据以及用户所属用户社区进行二值化处理，获得相应的特征向量。

具体地，信息推荐模块1030可将用户属性信息、跨领域的用户数据以及用户所属用户社区中不为空的数据记为1，为空的数据置为0，从而获得用户属性信息的特征向量、跨领域的用户数据的特征向量以及用户所属用户社区的特征向量。参照图9，将三种特征向量拼接可获得一个大的融合所有数据的综合矩阵，该综合矩阵的每一行描述一个用户的所有数据构成的特征向量，对应的输出为用户评分值。

用户评分值预测模块1032，用于计算各种特征向量彼此之间的关联性；根据各种特征向量及各种特征向量彼此之间的关联性预测用户评分值。

具体地，用户评分值预测模块1032可根据以下公式(7)预测用户评分值：

推荐执行模块1033，用于根据用户评分值进行信息推荐。

具体地，推荐执行模块1033可选取用户评分值大于预设评分值的用户进行信息推荐。服务器还可以将各个用户按照用户评分值降序进行，从而选取排序靠前的预设数量或者预设比例的用户进行信息推荐。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种信息推荐方法，所述方法包括：

根据跨领域的用户数据提取用户标签；

根据所述用户所属用户社区进行信息推荐。

2.根据权利要求1所述的方法，其特征在于，所述根据跨领域的用户数据提取用户标签，包括：

获取跨领域的每份用户数据的词在相应用户数据中的词频；

获取跨领域的各份用户数据中包括所述词的用户数据份数；

获取所述词的重要度评分；所述重要度评分与所述词频正相关，且与所述用户数据份数负相关；

根据所述重要度评分筛选出关键词；

根据所述关键词确定用户标签。

3.根据权利要求2所述的方法，其特征在于，所述获取所述词的重要度评分，包括：

将跨领域的用户数据总份数除以所述用户数据份数与正的常数的和后取对数，再乘以所述词频，获得所述词的重要度评分。

4.根据权利要求1所述的方法，其特征在于，所述根据主题生成模型和所述用户标签集确定所述用户标签集所属主题，并将所述用户标签集所属主题作为用户所属用户社区，包括：

根据主题生成模型，对于所述用户标签集中的每个用户标签，按照预设数量的主题与用户标签的多项式分布选择当前用户标签所属的主题，并且按照用户标签集与主题的多项式分布生成在选择的主题条件下的当前用户标签，以构建用户标签生成概率函数；

获取所述用户标签集中各个用户标签的出现概率；

根据获取的出现概率和所述用户标签生成概率函数，获得所述用户标签集属于预设数量的主题中各主题的概率；

将概率最大的主题确定为用户所属用户社区。

5.根据权利要求1所述的方法，其特征在于，所述根据所述用户所属用户社区进行信息推荐，包括：

根据用户属性信息和所述跨领域的用户数据中的至少一种以及所述用户所属用户社区进行信息推荐。

6.根据权利要求1所述的方法，其特征在于，所述根据所述用户所属用户社区进行信息推荐，包括：

将用户属性信息、所述跨领域的用户数据以及所述用户所属用户社区进行二值化处理，获得相应的特征向量；

计算各种特征向量彼此之间的关联性；

根据各种特征向量及各种特征向量彼此之间的关联性预测用户评分值；

根据所述用户评分值进行信息推荐。

7.根据权利要求6所述的方法，其特征在于，所述用户评分值具体按照以下公式计算：

<mrow> <mi>y</mi> <mo>=</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>+</mo> <msub> <mi>w</mi> <mi>u</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>+</mo> <mo><</mo> <msub> <mi>v</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>></mo> <mo>+</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>LDA</mi> <mi>u</mi> </msub> <mo>|</mo> </mrow> </mfrac> <msub> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>&Element;</mo> <msub> <mi>LDA</mi> <mi>u</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>m</mi> </msub> <mo>+</mo> <mo><</mo> <msub> <mi>v</mi> <mi>u</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>></mo> <mo>+</mo> <mo><</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>></mo> <mo>)</mo> </mrow> </mrow>

其中，y是用户评分值，w₀表示全局偏值，w_i表示用户属性信息u的权重，w_i表示跨领域的用户数据i的权重，w_m表示用户所属用户社区m的权重；v_u表示用户属性信息u的特征向量，v_i表示跨领域的用户数据i的特征向量，v_m表示用户所属用户社区m的特征向量；LDA_u表示用户标签集与主题的多项式分布中的主题集合，|LDA_u|表示LDA_u的大小；<>符号表示求取内积，用于表示特征向量之间的关联性。

8.一种信息推荐装置，其特征在于，所述装置包括：

用户所属用户社区确定模块，用于根据主题生成模型和所述用户标签集确定所述用户标签集所属主题，并将所述用户标签集所属主题作为用户所属用户社区；

9.根据权利要求8所述的装置，其特征在于，所述用户标签提取模块包括：

重要度评分获取模块，用于获取跨领域的每份用户数据的词在相应用户数据中的词频；获取跨领域的各份用户数据中包括所述词的用户数据份数；获取所述词的重要度评分；所述重要度评分与所述词频正相关，且与所述用户数据份数负相关；

关键词筛选模块，用于根据所述重要度评分筛选出关键词；

用户标签确定模块，用于根据所述关键词确定用户标签。

10.根据权利要求9所述的装置，其特征在于，所述重要度评分获取模块具体用于将跨领域的用户数据总份数除以所述用户数据份数与正的常数的和后取对数，再乘以所述词频，获得所述词的重要度评分。

11.根据权利要求8所述的装置，其特征在于，所述用户所属用户社区确定模块包括：

用户标签生成概率函数构建模块，用于根据主题生成模型，对于所述用户标签集中的每个用户标签，按照预设数量的主题与用户标签的多项式分布选择当前用户标签所属的主题，并且按照用户标签集与主题的多项式分布生成在选择的主题条件下的当前用户标签，以构建用户标签生成概率函数；

概率计算模块，用于获取所述用户标签集中各个用户标签的出现概率；根据获取的出现概率和所述用户标签生成概率函数，获得所述用户标签集属于预设数量的主题中各主题的概率；

主题确定模块，用于将概率最大的主题确定为用户所属用户社区。

12.根据权利要求8所述的装置，其特征在于，所述信息推荐模块具体用于根据用户属性信息和所述跨领域的用户数据中的至少一种以及所述用户所属用户社区进行信息推荐。

13.根据权利要求8所述的装置，其特征在于，所述信息推荐模块包括：

特征向量提取模块，用于将用户属性信息、所述跨领域的用户数据以及所述用户所属用户社区进行二值化处理，获得相应的特征向量；

用户评分值预测模块，用于计算各种特征向量彼此之间的关联性；根据各种特征向量及各种特征向量彼此之间的关联性预测用户评分值；

推荐执行模块，用于根据所述用户评分值进行信息推荐。

14.根据权利要求8所述的装置，其特征在于，所述用户评分值预测模块具体用于按照以下公式计算用户评分值：