CN111831890B

CN111831890B - 用户相似度生成方法、装置、存储介质和计算机设备

Info

Publication number: CN111831890B
Application number: CN201910306528.4A
Authority: CN
Inventors: 杨毅; 李冰锋; 冯晓强; 李彪; 范欣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2024-02-13
Anticipated expiration: 2039-04-17
Also published as: CN111831890A

Abstract

本申请涉及一种用户相似度生成方法、装置、存储介质和计算机设备，所述方法包括：获取多于一个内容类别下分别与用户标识对应的查看次数；根据所述查看次数生成与所述用户标识对应的用户特征向量；分别确定所述多于一个内容类别中任意两个内容类别之间的相关度；组合各所述相关度得到所述多于一个内容类别之间的相关度矩阵；根据所述相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。本申请提供的方案可以提高生成的用户相似度的准确性。

Description

用户相似度生成方法、装置、存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种用户相似度生成方法、装置、存储介质和计算机设备。

背景技术

随着计算机技术的飞速发展，越来越多的内容需要通过计算机来获取，而且越来越多的场景下需要对用户进行内容推荐。比如新闻、视频或者广告的推荐等。目前的内容推荐通常是基于用户相似度，将与目标用户相似的用户所喜欢的内容推荐给目标用户。

然而，传统的内容推荐过程中生成的用户相似度，通常是基于用户间最近浏览内容中的相同点击内容的数量占比来计算的；由于用户的个性化差异，不同用户浏览内容不同，这样在不同样本空间计算得到的用户相似度精确度较低。

发明内容

基于此，有必要针对传统方式生成的用户相似度精确度较低的技术问题，提供一种用户相似度生成方法、装置、存储介质和计算机设备。

一种用户相似度生成方法，包括：

获取多于一个内容类别下分别与用户标识对应的查看次数；

根据所述查看次数生成与所述用户标识对应的用户特征向量；

分别确定所述多于一个内容类别中任意两个内容类别之间的相关度；

组合各所述相关度得到所述多于一个内容类别之间的相关度矩阵；

根据所述相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。

一种用户相似度生成装置，包括：

获取模块，用于获取多于一个内容类别下分别与用户标识对应的查看次数；

第一生成模块，用于根据所述查看次数生成与所述用户标识对应的用户特征向量；

确定模块，用于分别确定所述多于一个内容类别中任意两个内容类别之间的相关度；

组合模块，用于组合各所述相关度得到所述多于一个内容类别之间的相关度矩阵；

第二生成模块，用于根据所述相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述用户相似度生成方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述用户相似度生成方法的步骤。

上述用户相似度生成方法、装置、存储介质和计算机设备，在获取多于一个内容类别下分别与用户标识对应的查看次数后，即根据查看次数生成与用户标识对应的用户特征向量，从宏观的内容分类上构建解释性强的用户特征向量，以点击频次为用户特征向量的向量元素，规避了个性化差异带来的影响；然后分别确定多于一个内容类别中任意两个内容类别之间的相关度，组合各相关度得到多于一个内容类别之间的相关度矩阵，并根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。这样，将用户的相似度计算放大到宏观的内容分类层面，并将不同内容类别之间的关联纳入考量，使得生成的用户相似度更精确更可靠。

附图说明

图1为一个实施例中用户相似度生成方法的应用环境图；

图2为一个实施例中用户相似度生成方法的流程示意图；

图3为一个实施例中内容展示的界面示意图；

图4为一个实施例中基于用户相似度进行内容推荐的原理示意图；

图5为一个实施例中基于用户相似度进行内容推荐的界面示意图；

图6为一个实施例中生成用户相似度的原理示意图；

图7为一个实施例中基于用户相似度进行内容推荐的流程示意图；

图8为一个实施例中用户相似度生成装置的结构框图；

图9为另一个实施例中用户相似度生成装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中用户相似度生成方法的应用环境图。参照图1，该用户相似度生成方法应用于用户相似度生成***。该用户相似度生成***包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可独立用于执行该用户相似度生成方法，终端110和服务器120也可协同用于执行该用户相似度生成方法。终端10还可通过其上运行的应用程序执行该用户相似度生成方法。

如图2所示，在一个实施例中，提供了一种用户相似度生成方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上述图1中的终端110或服务器120。参照图2，该用户相似度生成方法具体包括如下步骤：

S202，获取多于一个内容类别下分别与用户标识对应的查看次数。

其中，内容类别是指内容所属的类别，是对内容进行划分得到的类型。对内容的划分可以是基于内容自身固有的属性进行划分。比如在数据格式上的划分，可以将新闻划分为文本类新闻、视频类类新闻或者图片类新闻等。再比如，在内容所表达的语义上划分，可以将新闻划分为娱乐类新闻、体育类新闻或者社会类新闻等。对内容的划分也可以是自定义的人工划分。比如新闻应用程序中人工划分出的新闻站点：视频、电影、体育、两会、北京以及娱乐等。

内容是指通过计算机设备显示给用户的信息，具体可以是文字、图像或者视频及结合的资讯，如图3中所展示的内容。内容具体比如推广信息、应用程序、视频、音频、新闻、文章或者商品等。通常一个内容类别下可以包括大量的内容。比如，娱乐新闻站点下可包括大量的娱乐新闻。

可以理解，多于一个内容类别所覆盖的内容范围更大，这样，后续在基于用户在各内容类别下的查看次数来生成用户特征向量，便可以尽可能扩宽生成用户特征向量的数据来源，得到真正反映用户兴趣偏好的用户特征向量。

在一个实施例中，一个内容类别下的查看次数，可以包括该内容类别下的内容在显示后，经过用户操作被进一步查看的次数。这里的用户操作包括点击操作、触控操作、语音操作、物理按键操作或者晃动操作等可以触发进一步查看容的操作。一个内容类别下的查看次数也可以包括进入该内容类别的次数。

可以理解，在诸如智能手机或者平板电脑等的终端上，用户通过应用程序查看感兴趣的内容时，应用程序通常是将内容按照内容类别分组展示。用户可先选择进入感兴趣的内容类别，这样应用程序即可再以标题和缩略图组合的方式显示该内容类别下的内容，将多条内容组成瀑布流列表的样式显示，如图3所示。用户可通过点击感兴趣的内容，进一步查看该内容的详细信息。也就是说，用户选择进入的内容类别也可以在一定程度上反映用户的兴趣偏好。

具体地，计算机设备可以在一个统计周期内，统计各用户在多于一个内容类别下各自的查看次数。其中，统计周期是进行查看次数统计的时间段，具体可以是一个或多于一个的自然周，或者，一个或多于一个的自然月等。

举例说明，计算机设备可统计一个月内用户A、用户B和用户C分别在某个新闻应用程序中各新闻站点下的对新闻的查看次数。

在一个实施例中，计算机设备也可以对统计周期进行时间区间划分，对不同时间区间内的查看次数赋予不同的权重，再将各时间区间下的查看次数按相应的权重进行加权求和，从而得到统计周期内的查看次数。

本领域技术人员可以理解，由于用户的兴趣偏好可能随时间迁移而发生变化，而用户的兴趣偏好则会影响用户对内容的查看行为。那么用户对内容的查看行为也会随时间的变化而发生变化。考虑到这种时间衰减效应，那么近期的查看次数更能能反映用户当前的兴趣偏好，那么，计算机设备在统计一个统计周期的查看次数时，可以为不同时间区间的查看次数赋予不同的权重，这样可以侧重于某一时间区间的查看次数来提高数据统计的准确性。

S204，根据查看次数，生成与用户标识对应的用户特征向量。

其中，用户特征向量是以数学形式表示用户兴趣偏好的数据。具体地，计算机设备可将文本形式的查看次数向量化，得到与用户标识对于的用户特征向量。比如，文本形式的“XXX”表示为数学形式“[0 0 0 1 0 0 0 0 0 0 0...]”，此时，“[0 0 0 1 0 0 0 0 0 00...]”即为对“XXX”进行向量化的结果，即为“XXX”的向量。可以理解，这里不限定将其他形式的数据转换为何种表示的向量，只要能够将其他形式的数据进行数学化表示即可。

可以理解，用户对不同内容类别下内容的查看行为可以很好的反映用户不同的兴趣偏好。例如用户A更多地查看娱乐类别和明星类别下的新闻，而用户B更多地查看军事类别和财经类别下的新闻，那么明显可以看出用户A和用户B的兴趣偏好差异较大。基于此，可以认为通过挖掘不同用户对不同内容类别下内容的查看活跃程度，能够较好地表征用户的兴趣偏好，进而对用户进行区分。

具体地，计算机设备可根据每个内容类别下的查看次数，生成一个向量元素，然后将这些向量元素组合起来，作为与用户标识对应的用户特征向量。

在一个实施例中，S204包括：将各内容类别下与用户标识对应的查看次数作为向量元素；组合各向量元素得到与用户标识对应的初始特征向量；归一化初始特征向量得到与用户标识对应的用户特征向量。

其中，向量元素是组成向量的单元。具体地，计算机设备可将各内容类别下与用户标识对应的查看次数直接作为向量元素，然后将这些向量元素组合起来得到与用户标识对应的初始特征向量。

举例说明，对于用户u，计算机设备可在一个统计周期内，统计该用户在多于一个内容类别下各自的查看次数，再将这些查看次数作为用户的特征表达。假设多于一个内容类别的数量为n，则用户u的兴趣偏好可以表示为一个n维向量：(u₁,u₂,...,u_i,...,u_n)。其中，u_i,i∈[1,n]为用户u在内容类别i下的查看次数。

可以理解，由于用户的兴趣偏好一般较为集中，较多关注几个特定的内容类别下的内容，而较少关注其他内容类别下的内容。这样可能会导致初始特征向量中某些维度的向量元素的数值很大，而某些维度的向量元素的数值则很小。为了平滑较大向量元素的影响，可以对初始特征向量进行归一化处理。

具体地，计算机设备对初始特征向量归一化后得到的用户特征向量如下式所示：

其中，表示用户特征向量是维度为n*1的行向量。

需要说明的是，本申请实施例中得到的用户特征向量是可解释性的向量。所谓可解释性的向量，是指向量的每一个维度都有一个具体的含义。比如，对于本申请实施例中的用户特征向量，其每一个维度代表着一个内容类别下的查看次数被归一化后的权重。其中，可以设定用户特征向量的第一维为娱乐类别下的查看次数权重，第二维为体育别下的查看次数权重等。基于此，按照本申请实施例构建用户特征向量时，若对某用户推荐娱乐类的新闻资讯，而该用户意图了解向他推荐娱乐类的新闻资讯的理由时，可以解释为该用户历史的对各内容类别的查看次数中对娱乐类别下的内容查看次数最多。

在本实施例中，在构建用户特征向量时，将用户查看行为映射到维度为内容类别的向量上，每一维代表了用户查看该内容类别下内容的次数，从宏观的内容分类层面构建了解释性强的用户特征向量，规避了内容时效性和用户个性化差异带来的问题，有助于后续的用户相似度计算。

S206，分别确定多于一个内容类别中任意两个内容类别之间的相关度。

通常情况下，计算机设备在构建用户的用户特征向量后，即对任意的两个用户，将这两个用户的用户特征向量的相似度作为这两个用户的相似度。显然，这种相似度的计算方式只考虑了用户在不同内容类别下的查看行为而忽略了不同内容类别之间的关联，这样可能会导致得到不可靠的用户相似度。例如，用户A关注时尚类别而不关注娱乐类别，而用户B相反，关注娱乐类别而不关注时尚类别，那么直接使用用户特征向量的相似度来作为用户A与B的相似度时，由于时尚类别与娱乐类别是两个不同的内容类别，则对这两个用户的相似度所做贡献将为零。而实际上，娱乐与时尚具有很强的相关性，如果从两个内容类别之间关联性的角度出发，这两个用户的相似度不应为零。基于此，有必要在生成用户相似度时，将各内容类别之间的关联性纳入考量。

具体地，计算机设备可分别确定多于一个内容类别中任意两个内容类别之间的相关度。比如，多于一个内容类别包括：娱乐类别、体育类别、财经类别和社会类别这四个内容类别。计算机设备在获取了这四个内容类别下的查看次数后，需要确定娱乐类别、体育类别、财经类别和社会类别这四个内容类别中两两之间的相关度。

在一个实施例中，S206包括：对于多于一个内容类别中的任意两个内容类别，依据任意两个内容类别下内容的重叠程度，确定任意两个内容类别之间的相关度。

其中，任意两个内容类别下内容的重叠程度，是指这两个内容类别下的内容中相同内容的占比。可以理解，每个内容类别下均包括大量的内容，在两个内容类别所覆盖的内容范围固定时，这两个内容列类别下包括的内容中相同内容越多，说明这两个内容类别越相关。那么，在本实施例中，选择依据任意两个内容类别下内容的重叠程度，来确定任意两个内容类别之间的相关度，可以使得得到的任意两个内容类别之间的相关度既准确又可具有较强的可解释性。

在一个实施例中，对于多于一个内容类别中的任意两个内容类别，依据任意两个内容类别下内容的重叠程度，确定任意两个内容类别之间的相关度，包括：对于多于一个内容类别中的任意两个内容类别，确定任意两个内容类别下内容的交集，以及任意两个内容类别下内容的并集；将交集与并集的比值作为任意两个内容类别之间的相关度。

其中，任意两个内容类别下内容的交集，是指这两个内容类别下的内容中的相同内容。任意两个内容类别下内容的并集，是指这两个内容类别下的内容的组合。具体地，计算机设备可通过下式计算任意两个内容类别之间的相关度：

其中，c_i和c_j为多于一个内容类别中的任意两个内容类别，d_i为内容类别c_i下的内容的集合，d_j为内容类别c_j下的内容的集合。

可以理解，式(2)所计算得到的任意两个内容类别之间的相关度，也可以称为任意两个内容类别之间的杰卡德(Jaccard)距离。

在本实施例中，借助杰卡德距离计算任意两个内容类别之间的相关度，既运算方便，又有较强的可解释性。

在一个实施例中，对于多于一个内容类别中的任意两个内容类别，计算机设备还可以确定任意两个内容类别下内容的交集，以及任意两个内容类别下内容的几何平均；将交集与集合平均的比值作为任意两个内容类别之间的相关度。

上述实施例中，选择依据任意两个内容类别下内容的重叠程度，来确定任意两个内容类别之间的相关度，可以使得得到的任意两个内容类别之间的相关度既准确又可具有较强的可解释性。

在一个实施例中，S206包括：对于多于一个内容类别中的任意两个内容类别，分别确定任意两个内容类别下内容各自对应的内容向量；根据任意两个内容类别下内容各自对应的内容向量，计算任意两个内容类别各自对应的内容类别向量；将任意两个内容类别各自对应的内容类别向量之间的相关度，作为任意两个内容类别之间的相关度。

其中，内容向量是以数学形式表示内容特性的数据。内容类别向量则是以数学形式表示内容类别特性的数据。

具体地，计算机设备可以根据每个内容的语义将每个内容映射为一个内容向量，内容向量每一维的值代表一个具有一定的语义和语法上解释的特征。对于每个内容类别，计算机设备则可根据该内容类别下内容的内容向量得到该内容类别的内容类别向量。这里，计算机设备可将每个内容类别下内容的内容向量进行融合，得到相应内容类别的内容类别向量。这里的融合可以是向量的维度拼接，也可以是向量按向量元素求平均或者加权求平均等。

进一步地，计算机设备在得到各内容类别的内容类别向量后，可将任意两个内容类别各自对应的内容类别向量之间的相关度，作为任意两个内容类别之间的相关度。这里，向量之间的相关度可以是向量之间的距离，具体可以通过余弦相似度、皮尔逊相关系数、欧式距离以及Jaccard距离等方式获得。

在一个具体的实施例中，当内容为文章时，计算机设备可以通过主题模型将一篇文章映射为一个主题向量。该主题向量中的每一维代表一种主题。那么对于一个文章类别下，则可将该文章类别下的文章的主题向量进行融合，得到相应文章类别的类别主题向量。计算机设备可再将任意两个文章类别各自对应的类别主题向量之间的相关度，作为这任意两个文章类别之间的相关度。其中，主题模型比如LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)模型等。

在一个具体的实施例中，计算机设备也可利用嵌入模型将内容映射为相应的内容向量。这里嵌入模型比如word2vec或者doc2vec等。

上述实施例中，将类别映射到向量空间从而计算向量空间的类别间的相似度，这样既宏观地构建了可解释性的用户特征向量，又兼顾了隐语义模型带来的性能提升。

S208，组合各相关度得到多于一个内容类别之间的相关度矩阵。

具体地，计算机设备可按照矩阵的元素组成形式，将多于一个内容类别中两两内容类别之间的相关度组织为多于一个内容类别之间的相关度矩阵。

举例说明，假设多于一个内容类别的数量为n，多于一个内容类别中任意的内容类别i与内容类别j的相关度为r_ij。那么组织得到的多于一个内容类别之间的相关度矩阵为

假设，内容为新闻，那么r_ij为同时属于新闻类别i与新闻类别j的新闻的数量，除以新闻类别i与新闻类别j下所有不同的新闻的数据，其取值为[0,1]。r_ij取值为0时，表示新闻类别i与新闻类别j之间没有交叉的新闻。r_ij取值为1时，表示新闻类别i与新闻类别j下的新闻完全相同。

S210，根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。

其中，用户相似度用于衡量用户之间相似的程度，相似度越大，则用户越相似。可以理解，前述步骤中得到的相关度矩阵，反映了多于一个内容类别中两两内容类别之间的关联性；同时前述步骤中得到的用户特征向量，反映了用户单独在多于一个内容类别中各内容类别下的行为特性。为了得到更可靠的用户相似度，应当将用户单独在各内容类别下的行为特性和各内容类别之间的关联性均纳入考量；那么，计算机设备可根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成任意两个用户之间的用户相似度。

在一个实施例中，S210包括：对于任意两个不同的用户标识，将其中一个用户标识所对应的用户特征向量与相关度矩阵相乘后，再与另一个用户标识所对应的用户特征向量的转置相乘，得到与任意两个不同的用户标识对应的用户相似度。

可以理解，用户特征向量为行向量，相关度矩阵中列的数量与用户特征向量中列的数量相同。用户相似度是用于衡量用户之间相似的程度的数据，应当是一个标量。那么在基于两个行向量和一个与该行向量的列数相同的矩阵进行运算意图得到为标量的运算结果时，基于矩阵运算的原理，可以将其中一个行向量与矩阵相乘后，再与另一个行向量的转置(即列向量)相乘，便可以得到一个为标量的运算结果。

具体地，计算机设备可按照以下公式生成用户相似度：

其中，为任意两个不同的用户标识中一个用户标识(第一用户标识)所对应的用户特征向量，/>为/>的转置，/>为任意两个不同的用户标识中另一个用户标识(第二用户标识)所对应的用户特征向量，/>为/>的转置，R为相关度矩阵。

计算机设备可按照矩阵乘法的定义对式(3)进行拆分得到下式：

其中，u_1i为内容类别i下与第一用户标识对应的查看次数，r_ij为内容类别i与内容类别j的相关度，u_2j为内容类别j下与第二用户标识对应的查看次数。

从式(4)可以看出，在计算用户A(第一用户标识所标识的用户)和用户B(第二用户标识所标识的用户)的相似度时，不再仅仅关注于孤立的内容类别，任意两个内容类别之间的关联将会被考虑，通过计算的内容类别之间的相关度进行加权来计算两个用户之间的相似度，这样得到的用户相似度更可靠。

这样，对于大量用户进行用户相似度生成时，即可根据本申请实施例生成这些用户中两两用户之间的用户相似度。

上述用户相似度生成方法，在获取多于一个内容类别下分别与用户标识对应的查看次数后，即根据查看次数生成与用户标识对应的用户特征向量，从宏观的内容分类上构建解释性强的用户特征向量，以点击频次为用户特征向量的向量元素，规避了个性化差异带来的影响；然后分别确定多于一个内容类别中任意两个内容类别之间的相关度，组合各相关度得到多于一个内容类别之间的相关度矩阵，并根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。这样，将用户的相似度计算放大到宏观的内容分类层面，并将不同内容类别之间的关联纳入考量，使得生成的用户相似度更精确更可靠。

在一个实施例中，用户相似度生成方法还包括：当用户相似度达到预设用户相似度阈值时，则根据任意两个不同的用户标识中一个用户标识，推荐另一个用户标识所对应的内容。

其中，预设用户相似度阈值是预先设置的划分用户是否相似的分界值。可以认为，当两个用户之间的用户相似度达到预设相似度阈值，则可以判定这两个用户互为相似用户，也就是说这两个用户的兴趣偏好相似；当两个用户之间的用户相似度未达到预设相似度阈值，则可以判定这两个用户不相似，也就是说这两个用户的兴趣偏好存在差异。

具体地，计算机设备在对于任意两个不同的用户计算得到的用户相似度达到预设用户相似度阈值时，则可以判定这两个用户是相似的。由此，可以认为其中一个用户感兴趣的内容，另一个用户很可能也会感兴趣；那么可以将其中一个用户所对应的内容推荐给另一个用户。这种内容推荐方式也可以称为基于用户的协同过滤算法(User BasedCollaborative Filtering，UserCF)的推荐方式。

举例说明，图4示出了一个实施例中基于用户相似度进行内容推荐的原理示意图。参考图4，计算机设备可对用户1和用户2按照本申请实施例提供的用户相似度生成方式计算两者之间的用相似度。在两者之间的用户相似度达到预设用户相似度阈值时，则可认为这两个用户是相似用户。那么，这两个用户查看过的新闻之间可以相互推荐，也就是将用户1查看过的新闻推荐给用户2，将用户2查看过的新闻推荐给用户1。

其中，相似用户之间进行内容推荐时，推荐给用户的内容可以是该用户未查看的、但其相似用户查看过的内容。参考图5，假设用户1在浏览到新闻510时，对该新闻510产生兴趣，进行了进一步点击查看。那么当需要对用户2进行内容推荐时，若用户2为用户1的相似用户，则可将新闻510推荐给用户2。

另外，本申请实施例提供的用户相似度生成方法应用于推荐应用的线上推荐测试中，召回率得到的极大地提升，具体从40％提升到了90％。

在本实施例中，由于将用户单独在各内容类别下的行为特性和各内容类别之间的关联性均纳入考量所得到用户相似度更加准确可靠，后续在基于该用户相似度进行内容推荐时，极大地提高了内容推荐的效果。

在一个实施例中，其特征在于，S210包括：对相关度矩阵进行奇异值分解，得到空间变化矩阵；通过空间变化矩阵将稀疏的用户特征向量映射为稠密化的目标向量；根据至少两个用户标识各自对应的目标向量，生成用户相似度。

其中，空间变化矩阵是用于对一个空间内的向量映射为另一空间中向量的矩阵。在本实施例中，则是将用户特征向量映射到以空间变化矩阵的各列为基向量的向量空间中，得到新的目标向量。

具体地，计算机设备在得到多于一个内容类别之间的相关度矩阵后，由于该相关度矩阵是对称矩阵，那么可以对相关度矩阵进行奇异值分解如下式所示：

R＝QΛQ^T (5)

其中，R为相关度矩阵，Q为特征向量组成的正交矩阵，Λ为实对角矩阵且对角线元素为特征值。若S202中多于一个内容类别的数量为n，那么R、Q和Λ均为维度为n*n的矩阵。

进一步地，计算机设备可以基于矩阵的运算规则，对式(5)进行如下式所示的分解：

其中，为空间变化矩阵。那么，将式(3)与式(6)结合可以得到下式：

本领域技术人员可以理解，两个向量进行内积运算，可以看作是其中一个向量在另一个向量上的投影。例如，二维空间中向量(2,3)在向量(1,0)上投影为(2,3)·(1,0)＝2×1+3×0＝2，向量(2,3)在向量(0,1)上投影为(2,3)·(0,1)＝2×0+3×1＝3，所以向量(2,3)在(1,0)和(0,1)张成的坐标系中坐标为(2,3)。

假设S202中的多于一个内容类别的数量为n，那此时构成的向量空间即为n维空间。式(7)中的表示/>分别和Δ的各列向量进行内积运算，那么得到的新向量(即)中的各向量元素则可以认为是向量/>分别在Δ的各列向量上的投影，/>也就是/>在新的基向量(Δ的各列向量)下的新坐标。

基于此，可以发现，由式(3)所定义的用户相似度实际上为利用矩阵Δ对式(1)所计算出的用户特征向量进行了向量空间映射后而得到的新向量的点积。也就是基于空间映射的用户相似度度量(User Similarity Measure based on Space Mapping,USMSM)，即先计算任意两个内容类别之间的相关度，得到多于一个内容类别之间的相关度矩阵；然后对该相关度矩阵进行分解，利用分解得到的矩阵将用户特征向量映射到新空间；最后利用在新空间的新向量进行用户相似度的计算。

举例说明，图6示出了一个实施例中生成用户相似度的原理示意图。参考图6，假设基于某推荐应用程序，将内容划分为n个内容类别，那么计算机设备可基于该推荐应用程序对用户1和用户2在这n个内容类别下的查看次数进行统计，并将统计的数据归一化，得到用户1的用户特征向量用户2的用户特征向量/>计算机设备可对这n个内容类别中任意两个内容类别计算相关度，并组合得到这n个内容类别之间的相关度矩阵R。计算机设备可继续对该相关度矩阵R进行分解，得到空间变化矩阵Δ；通过该空间变化矩阵Δ将/>和/>映射到新空间，得到新空间的新向量/>和/>然后再基于式/>计算用户1和用户2之间的用户相似度，也就时基于式/>计算用户1和用户2之间的用户相似度。

可以理解，本实施例是对采用式(3)定义用户相似度的合理性的解释。在实际生成用户相似度的过程中，可以在得到任意两个用户各自对应的用户特征向量以及多于一个内容类别之间的相关度矩阵后，即可采用式(3)计算这两个用户之间的相似度，无需计算出将用户特征向量映射到新空间的矩阵Δ。

综合本申请实施例的描述，首先基于空间映射的用户相似度度量可以将各内容类别的关联性融合到用户相似度的计算中，相较于基于孤立的内容类别的计算方式，可以得到更精确更可靠的用户相似度。

其次，基于各内容类别下查看次数的用户特征向量是稀疏的。这是由于用户的兴趣一般很集中，只关注几个特定内容类别下的内容，而不关注其他内容类别下的内容。那么在用户特征向量中这些不关注的内容类别所对应的向量元素的值很可能为0。例如一个热爱运动用户，他可能比较关注体育和健身等内容类别，而不关注时尚、综艺以及宠物等内容类别；那么在他的用户特征向量中，这些内容类别所对应的向量元素的值很大程度上为0，而含0较多的向量无疑是稀疏的。而通过矩阵Δ对用户特征向量映射得到的/>中第i维的值为/>与矩阵Δ的第i列的乘积，那么只要/>与矩阵Δ的第i列不垂直，则乘积不为0，也就是说/>是稠密的。而稠密化的向量对于用户相似度的计算更加鲁棒。

另外，对相关度矩阵R分解得到的矩阵Q为正交矩阵，Λ为实对角矩阵。那么矩阵Δ为满秩矩阵。这样由矩阵Δ映射得到的新向量则包括了尽可能多的信息。

在一个具体的实施例中，本实施例在新闻推荐应用程序中的新闻推荐场景下进行举例说明。参考图7，计算机设备可在需要对目标用户进行新闻推荐时，执行S702，获取目标用户标识(用于标识目标用户)，以及新闻推荐应用程序中的各新闻站点下分别与目标用户标识对应的查看次数。基于用户访问站点的协同过滤算法(Site-Access UserCollaborative Filtering，SiteUCF)，执行S704，将各新闻站点下与目标用户标识对应的查看次数作为向量元素；组合各向量元素得到与目标用户标识对应的初始特征向量；归一化初始特征向量得到与目标用户标识对应的用户特征向量。

计算机设备可并行地执行S706，选取多于一个的参考用户标识，以及新闻推荐应用程序中的各新闻站点下分别与各参考用户标识对应的查看次数。基于用户访问站点的协同过滤算法(Site-Access User Collaborative Filtering，SiteUCF)，执行S708，将各新闻站点下与各参考用户标识对应的查看次数作为向量元素；组合各向量元素得到与各参考用户标识对应的初始特征向量；归一化各初始特征向量得到与各参考用户标识对应的用户特征向量。

计算机设备还可并行地执行S710，对于新闻推荐应用程序中的各新闻站点中的任意两个新闻站点，确定任意两个新闻站点下新闻的交集，以及任意两个新闻站点下新闻的并集；并继续执行S712，将交集与并集的比值作为任意两个新闻站点之间的相关度；再组合各相关度得到新闻推荐应用程序中的各新闻站点之间的相关度矩阵。

这样，计算机设备可执行S714，根据与目标用户标识对应的用户特征向量、各新闻站点之间的相关度矩阵，及与任一参考用户标识对应的用户特征向量，生成目标用户标识和参考用户标识共同对应的用户相似度(即目标用户与参考用户的用户相似度)。然后，计算机设备可执行S716，将各用户相似度中达到预设用户相似度阈值的用户相似度所对应的参考用户标识所对应的新闻推荐给与目标用户标识对应的终端。

其中，任意两个用户特征向量与相关度矩阵之间的运算，可以分解为这两个用户特征向量被相同的矩阵映射到另一向量空间中得到的新向量之间的运算。从原理上可以理解为：基于用户访问站点的协同过滤算法和基于空间映射的用户相似度度量方法，也就是通过对站点间的相关度矩阵进行分解将用户站点层面的向量映射成新的向量进行相似度计算。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图8所示，在一个实施例中，提供了一种用户相似度生成装置800。参照图8，该用户相似度生成装置800包括：获取模块801、第一生成模块802、确定模块803、组合模块804和第二生成模块805。

获取模块801，用于获取多于一个内容类别下分别与用户标识对应的查看次数。

第一生成模块802，用于根据查看次数生成与用户标识对应的用户特征向量。

确定模块803，用于分别确定多于一个内容类别中任意两个内容类别之间的相关度。

组合模块804，用于组合各相关度得到多于一个内容类别之间的相关度矩阵。

第二生成模块805，用于根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。

在一个实施例中，第一生成模块802还用于将各内容类别下与用户标识对应的查看次数作为向量元素；组合各向量元素得到与用户标识对应的初始特征向量；归一化初始特征向量得到与用户标识对应的用户特征向量。

在一个实施例中，确定模块803还用于对于多于一个内容类别中的任意两个内容类别，依据任意两个内容类别下内容的重叠程度，确定任意两个内容类别之间的相关度。

在一个实施例中，确定模块803还用于对于多于一个内容类别中的任意两个内容类别，确定任意两个内容类别下内容的交集，以及任意两个内容类别下内容的并集；将交集与并集的比值作为任意两个内容类别之间的相关度。

在一个实施例中，确定模块803还用于对于多于一个内容类别中的任意两个内容类别，分别确定任意两个内容类别下内容各自对应的内容向量；根据任意两个内容类别下内容各自对应的内容向量，计算任意两个内容类别各自对应的内容类别向量；将任意两个内容类别各自对应的内容类别向量之间的相关度，作为任意两个内容类别之间的相关度。

在一个实施例中，第二生成模块805还用于对于任意两个不同的用户标识，将其中一个用户标识所对应的用户特征向量与相关度矩阵相乘后，再与另一个用户标识所对应的用户特征向量的转置相乘，得到与任意两个不同的用户标识对应的用户相似度。

在一个实施例中，第二生成模块805还用于按照以下公式生成用户相似度：

其中，为任意两个不同的用户标识中一个用户标识所对应的用户特征向量，/>为/>的转置，/>为任意两个不同的用户标识中另一个用户标识所对应的用户特征向量，/>为/>的转置，R为相关度矩阵。/>

如图9所示，在一个实施例中，用户相似度生成装置800还包括：推荐模块806，用于当用户相似度达到预设用户相似度阈值时，则根据任意两个不同的用户标识中一个用户标识，推荐另一个用户标识所对应的内容。

在一个实施例中，第二生成模块805还用于对相关度矩阵进行奇异值分解，得到空间变化矩阵；通过空间变化矩阵将稀疏的用户特征向量映射为稠密化的目标向量；根据至少两个用户标识各自对应的目标向量，生成用户相似度。

上述用户相似度生成装置800，在获取多于一个内容类别下分别与用户标识对应的查看次数后，即根据查看次数生成与用户标识对应的用户特征向量，从宏观的内容分类上构建解释性强的用户特征向量，以点击频次为用户特征向量的向量元素，规避了个性化差异带来的影响；然后分别确定多于一个内容类别中任意两个内容类别之间的相关度，组合各相关度得到多于一个内容类别之间的相关度矩阵，并根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。这样，将用户的相似度计算放大到宏观的内容分类层面，并将不同内容类别之间的关联纳入考量，使得生成的用户相似度更精确更可靠。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现用户相似度生成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行用户相似度生成方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的用户相似度生成装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该用户相似度生成装置的各个程序模块，比如，图8所示的获取模块801、第一生成模块802、确定模块803、组合模块804和第二生成模块805。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的用户相似度生成方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的用户相似度生成装置中获取模块801执行获取多于一个内容类别下分别与用户标识对应的查看次数。通过第一生成模块802执行根据查看次数生成与用户标识对应的用户特征向量。通过确定模块803执行分别确定多于一个内容类别中任意两个内容类别之间的相关度。通过组合模块804执行组合各相关度得到多于一个内容类别之间的相关度矩阵。通过第二生成模块805执行根据相关度矩阵以及至少两个用户标识各自对应的用户特征向量，生成用户相似度。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用户相似度生成方法的步骤。此处用户相似度生成方法的步骤可以是上述各个实施例的用户相似度生成方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用户相似度生成方法的步骤。此处用户相似度生成方法的步骤可以是上述各个实施例的用户相似度生成方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用户相似度生成方法，包括：

获取多于一个内容类别下分别与用户标识对应的查看次数；

将每个内容类别下与所述用户标识对应的查看次数作为向量元素，组合各所述向量元素得到与所述用户标识对应的初始特征向量，归一化所述初始特征向量得到与所述用户标识对应的用户特征向量；

对于所述多于一个内容类别中的任意两个内容类别，依据所述任意两个内容类别下内容的重叠程度，确定所述任意两个内容类别之间的相关度；

对于任意两个不同的用户标识，将其中一个用户标识所对应的用户特征向量与所述相关度矩阵相乘后，再与另一个用户标识所对应的用户特征向量的转置相乘，得到与所述任意两个不同的用户标识对应的用户相似度。

2.根据权利要求1所述的方法，其特征在于，所述对于所述多于一个内容类别中的任意两个内容类别，依据所述任意两个内容类别下内容的重叠程度，确定所述任意两个内容类别之间的相关度，包括：

对于所述多于一个内容类别中的任意两个内容类别，确定所述任意两个内容类别下内容的交集，以及所述任意两个内容类别下内容的并集；

将所述交集与所述并集的比值作为所述任意两个内容类别之间的相关度。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于所述多于一个内容类别中的任意两个内容类别，分别确定所述任意两个内容类别下内容各自对应的内容向量；

根据所述任意两个内容类别下内容各自对应的内容向量，计算所述任意两个内容类别各自对应的内容类别向量；

将所述任意两个内容类别各自对应的内容类别向量之间的相关度，作为所述任意两个内容类别之间的相关度。

4.根据权利要求1所述的方法，其特征在于，按照以下公式生成用户相似度：

其中，为所述任意两个不同的用户标识中一个用户标识所对应的用户特征向量，/>为/>的转置，/>为所述任意两个不同的用户标识中另一个用户标识所对应的用户特征向量，/>为/>的转置，R为相关度矩阵。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述用户相似度达到预设用户相似度阈值时，则根据所述任意两个不同的用户标识中一个用户标识，推荐另一个用户标识所对应的内容。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述相关度矩阵进行奇异值分解，得到空间变化矩阵；

通过所述空间变化矩阵将稀疏的用户特征向量映射为稠密化的目标向量；

根据至少两个用户标识各自对应的目标向量，生成用户相似度。

7.一种用户相似度生成装置，包括：

第一生成模块，用于将每个内容类别下与所述用户标识对应的查看次数作为向量元素，组合各所述向量元素得到与所述用户标识对应的初始特征向量，归一化所述初始特征向量得到与所述用户标识对应的用户特征向量；

确定模块，用于对于所述多于一个内容类别中的任意两个内容类别，依据所述任意两个内容类别下内容的重叠程度，确定所述任意两个内容类别之间的相关度；

第二生成模块，用于对于任意两个不同的用户标识，将其中一个用户标识所对应的用户特征向量与所述相关度矩阵相乘后，再与另一个用户标识所对应的用户特征向量的转置相乘，得到与所述任意两个不同的用户标识对应的用户相似度。

8.根据权利要求7所述的装置，其特征在于，所述确定模块，还用于对于所述多于一个内容类别中的任意两个内容类别，确定所述任意两个内容类别下内容的交集，以及所述任意两个内容类别下内容的并集；将所述交集与所述并集的比值作为所述任意两个内容类别之间的相关度。

9.根据权利要求7所述的装置，其特征在于，所述确定模块，还用于对于所述多于一个内容类别中的任意两个内容类别，分别确定所述任意两个内容类别下内容各自对应的内容向量；根据所述任意两个内容类别下内容各自对应的内容向量，计算所述任意两个内容类别各自对应的内容类别向量；将所述任意两个内容类别各自对应的内容类别向量之间的相关度，作为所述任意两个内容类别之间的相关度。

10.根据权利要求7所述的装置，其特征在于，所述确定模块，还用于按照以下公式生成用户相似度：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

推荐模块，用于当所述用户相似度达到预设用户相似度阈值时，则根据所述任意两个不同的用户标识中一个用户标识，推荐另一个用户标识所对应的内容。

12.根据权利要求7所述的装置，其特征在于，所述第二生成模块，用于对所述相关度矩阵进行奇异值分解，得到空间变化矩阵；通过所述空间变化矩阵将稀疏的用户特征向量映射为稠密化的目标向量；根据至少两个用户标识各自对应的目标向量，生成用户相似度。

13.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。