CN108984551A

CN108984551A - 一种基于多类别联合软聚类的推荐方法及***

Info

Publication number: CN108984551A
Application number: CN201710400994.XA
Authority: CN
Inventors: 胡建国; 郑慧琳; 李仕仁
Original assignee: GUANGZHOU SYSUR MICROELECTRONICS Inc; Guangzhou Smart City Development Research Institute; Sun Yat Sen University
Current assignee: GUANGZHOU SYSUR MICROELECTRONICS Inc; Guangzhou Smart City Development Research Institute; Sun Yat Sen University
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2018-12-11

Abstract

本发明公开了一种基于多类别联合软聚类的推荐方法及***，其中，所述推荐方法包括：获取用户‑物品交互信息，根据所述用户‑物品交互信息构建评分矩阵和分类矩阵；对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，获取多类别软聚类结果；采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，获取预测结果；根据所述预测结果向用户推荐预测分数最高的物品。在本发明实施例中，可以根据用户对物品的喜爱程度对进行评分预测，根据评分预测向用户推荐物品，预测准确度较高。

Description

一种基于多类别联合软聚类的推荐方法及***

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于多类别联合软聚类的推荐方法及***。

背景技术

个性化推荐目前应用于我们生活的方方面面，它能从大量的文章、物品、电影、音乐、网络等等中筛选出用户用户感兴趣的部分。目前比较热门的推荐***包括Amazon等各电商平台，音乐推荐***，电影***。一个好的推荐***对于推荐***拥有者和用户都能从中受益。

根据推荐方法的不同推荐***大致上可以分为以下几种：

①基于内容(Content-based)的推荐

②基于协同过滤(Collaborative Filtering-Based)的推荐

③混合型(Hybrid)推荐***。

基于内容的推荐算法完成的是原始的协同过滤任务。它们所使用数据处理技术去建立一个用户的邻居关系，然后通常使用的是一个评分的加权求和去预测没有评分的用户-物品对。基于内容的推荐算法最重要的一个环节就是相似度的计算。其中比较著名的处理方法包括皮尔逊相关系数，矢量相似度以及他们的一些拓展。

基于协同过滤的推荐***是目前应用最广泛也是最成功的推荐算法。和基于内容的推荐***不同的是，它无需处理用户和物品的属性，只需要知道用户-物品的交互信息。用户-物品的交互信息可以是显式的，也可以是隐式的。显式的信息，包括比如用户对物品的打分等等，隐藏的信息可以是用户的行为，比如购买、点击次数、标签等等。两种形式的信息一般都可以存储在一个大但是很稀疏的数据矩阵中，其中行代表的是用户，列代表的是物品。事实上，多数的基于协同过滤的推荐算法都是对这个矩阵进行操作。

由于用户隐私保护、商品属性繁多等原因，完全基于内容的推荐应用较少，目前多数推荐算法是往基于协同过滤的推荐的方向研究，也有不少结合了基于内容和基于协同过滤两个方向的算法。基于协同过滤的推荐，又可以分为多个子类别，分别是基于用户(User-Based)的推荐，基于商品(Item-Based)的推荐，基于社交网络(Social-Based)的推荐以及基于模型(Model-based)的推荐等等。在以上所述基于协同过滤的推荐***的分类中，基于模型的推荐是指利用***已有的数据，学习构建一个模型，进而利用该模型进行推荐，比如可以是矩阵分解，也可以是利用贝叶斯分类器、决策树、神经网络等模型转化为分类问题，或者是基于聚类技术对数据进行预处理的结果。

经典的基于协同过滤的推荐，存在着两个主要的需要解决的问题：

①数据稀疏性。在现实生活应用中，用户和商品的数量非常庞大，用户评价过的商品数量对于整体商品数量是非常少的，购买过相同商品的用户中评论者的数量也很少，评分矩阵极度稀疏的。假如仅仅利用评分矩阵，做基于用户或基于商品的协同过滤推荐，预测推荐效果会比较差。

②冷启动，包括了用户和商品的冷启动。新用户没有历史行为数据，所以无法得知该用户的喜好并进行个性化推荐。新商品由于没有相关的用户评分数据，因此也很难通过协同过滤的方式进行推荐。

③数据的动态扩展。在现实的推荐***中，评分矩阵不会一成不变，新用户对已有物品的评价，已有用户对新物品的评价，或者是已有用户对已有物品的新评价都有可能出现。

对于数据稀疏的问题，目前的一些研究工作主要采取的是矩阵分解进行向量的特征提取，或是对数据利用聚类技术进行预处理。对于用户冷启动，一般采取的是利用用户的信息，或者通过引导性询问，或者使用全局热门推荐处理，在用户产生了行为数据之后再进行基于协同过滤的个性化推荐。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于多类别联合软聚类的推荐方法及***，可以根据用户对物品的喜爱程度对进行评分预测，根据评分预测向用户推荐物品，预测准确度较高。

为了解决上述技术问题，本发明实施例提供了一种基于多类别联合软聚类的推荐方法，所述推荐方法包括：

获取用户-物品交互信息，根据所述用户-物品交互信息构建评分矩阵和分类矩阵；

对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，获取多类别软聚类结果；

采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，获取预测结果；

根据所述预测结果向用户推荐预测分数最高的物品。

优选地，所述根据所述用户-物品交互信息构建评分矩阵和分类矩阵，包括：

根据所述用户-物品交互信息获取用户-物品关系、用户-用户关系、物品-物品关系；

根据所述用户-物品关系、所述用户-用户关系、所述物品-物品关系构建所述评分矩阵和所述分类矩阵；

所述分类矩阵包括用户分类矩阵和物品分类矩阵。

优选地，所述对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，包括：

根据所述评分矩阵和所述分类矩阵构建共享的低阶空间矩阵；

采用最小化目标函数对所述低阶空间矩阵进行多类别聚类迭代计算处理，获取所述目标函数迭代值；

采用所述目标函数迭代值与迭代阈值进行比较，若所述目标函数迭代值小于迭代阈值，则停止迭代，获取聚类低阶空间矩阵；反之，则继续进行迭代计算；

对所述聚类低阶空间矩阵的每一行进行归一化处理，获取多类别软聚类结果。

优选地，所述采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，包括：

对所述多类别软聚类结果进行子类矩阵划分出来，获取子类矩阵；

对所述子类矩阵进行非负矩阵分解预测处理，获取子类矩阵预测结果；

采用所述加权求和对所述子类矩阵预测结果进去计算，获取预测结果。

优选地，所述根据所述预测结果向用户推荐预测分数最高的物品，包括：

将获取的所述预测结果进行预测分数从搞到低排序，获取排序结果；

将排序最高的前10个物品推荐给用户。

另外，本发明实施例还提供了一种基于多类别联合软聚类的推荐***，所述推荐***包括：

矩阵构建模块：用于获取用户-物品交互信息，根据所述用户-物品交互信息构建评分矩阵和分类矩阵；

聚类模块：用于对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，获取多类别软聚类结果；

预测模块：用于采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，获取预测结果；

推荐模块：用于根据所述预测结果向用户推荐预测分数最高的物品。

优选地，所述矩阵构建模块包括：

关系获取单元：用于根据所述用户-物品交互信息获取用户-物品关系、用户-用户关系、物品-物品关系；

矩阵构建单元：用于根据所述用户-物品关系、所述用户-用户关系、所述物品-物品关系构建所述评分矩阵和所述分类矩阵；

所述分类矩阵包括用户分类矩阵和物品分类矩阵。

优选地，所述聚类模块包括：

第二矩阵构建单元：用于根据所述评分矩阵和所述分类矩阵构建共享的低阶空间矩阵；

聚类迭代单元：用于采用最小化目标函数对所述低阶空间矩阵进行多类别聚类迭代计算处理，获取所述目标函数迭代值；

判断单元：用于采用所述目标函数迭代值与迭代阈值进行比较，若所述目标函数迭代值小于迭代阈值，则停止迭代，获取聚类低阶空间矩阵；反之，则继续进行迭代计算；

归一化单元：用于对所述聚类低阶空间矩阵的每一行进行归一化处理，获取多类别软聚类结果。

优选地，所述预测模块包括：

矩阵划分单元：用于对所述多类别软聚类结果进行子类矩阵划分出来，获取子类矩阵；

子类矩阵预测单元：用于对所述子类矩阵进行非负矩阵分解预测处理，获取子类矩阵预测结果；

加权计算单元：用于采用所述加权求和对所述子类矩阵预测结果进去计算，获取预测结果。

优选地，所述推荐模块包括：

排序单元：用于将获取的所述预测结果进行预测分数从搞到低排序，获取排序结果；

推荐单元：用于将排序最高的前10个物品推荐给用户。

在本发明实施例中，通过使用多类别软聚类，将用户和物品分类到多个可重叠的子类中，用户和物品共享相同的聚类空间，进行多类别软聚类，实际上是一个兴趣域的发现过程，将某一类型的物品和喜欢该类型的用户分到一个类别中，比如将电子产品和喜欢电子产品的用户归类到一个子类，将生活用品和喜欢生活用品的用户归于一个子类；同时，一个客户可以存在于多个子类，既喜欢生活用品类物品，也喜欢电子产品；产生的子类能很好地表征用户的兴趣域；通过这些子类，从原始矩阵中生成子矩阵，并将矩阵分解算法应用于这些子矩阵，一方面大大减少了矩阵的稀疏度，提高矩阵分解预测性能；另一方面，由于使用的是同一兴趣域的用户的评分来预测，其可靠性比考虑所有用户的评分要高，因为购买了用户不感兴趣的物品的评价，对于用户-兴趣域物品的评分预测有一定干扰性；可以根据多类别软聚类对用户和物品的喜爱程度对进行评分预测，根据评分预测向用户推荐物品，预测准确度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于多类别联合软聚类的推荐方法的方法流程示意图；

图2是本发明实施例中的基于多类别联合软聚类的推荐***的***结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本发明实施例中的基于多类别联合软聚类的推荐方法的方法流程示意图，如图1所示，所述推荐方法包括：

S11：获取用户-物品交互信息，根据所述用户-物品交互信息构建评分矩阵和分类矩阵；

S12：对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，获取多类别软聚类结果；

S13：采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，获取预测结果；

S14：根据所述预测结果向用户推荐预测分数最高的物品。

对S11作进一步说明：

根据所述用户-物品交互信息获取用户-物品关系、用户-用户关系、物品-物品关系；根据所述用户-物品关系、所述用户-用户关系、所述物品-物品关系构建所述评分矩阵和所述分类矩阵；所述分类矩阵包括用户分类矩阵和物品分类矩阵。

在用户-物品交互信息中，存在着三种不同类型的内在关系：用户-物品关系，用户-用户关系，物品-物品关系。

假设有n个用户和m个物品，此外我们已知的信息只有用户-物品评分矩阵，其中T_ij代表的是用户i对物品j的评分，u_i代表的是第i个用户，y_j代表的是第j个物品。

我们的目标是同时将用户和物品分到c个子类中，其中用户/物品可以出现在多个子类中。

MCoC的结果可以用一个分类矩阵表示，其中P_ij代表的是一个元素(用户或者物品)对第j个子类的指示值,P_ij∈[0,1]。若P_ij>0就代表这第i个元素属于第j个子类，P_ij＝0则不属于；P_ij的大小则代表了属于该子类的相关权重，其中每一行的所有权重大小之和为1。如果固定每个元素所在的子类数量，比如为k(1<k<c)，那么每一行就有k个非零值。若k＝1则为经典的联合聚类问题，每个对象只存在于其中一个类中。联合聚类结果矩阵可以用以下形式表示：

其中是用户分类矩阵，是物品分类矩阵。

对S12作进一步说明：

根据所述评分矩阵和所述分类矩阵构建共享的低阶空间矩阵；采用最小化目标函数对所述低阶空间矩阵进行多类别聚类迭代计算处理，获取所述目标函数迭代值；采用所述目标函数迭代值与迭代阈值进行比较，若所述目标函数迭代值小于迭代阈值，则停止迭代，获取聚类低阶空间矩阵；反之，则继续进行迭代计算；对所述聚类低阶空间矩阵的每一行进行归一化处理，获取多类别软聚类结果。

首先是构建共享的低阶空间矩阵，将同时考虑这三个关系，提出损失函数的表示，将聚类问题转化为损失函数最小化问题：

1)用户-物品关系

若一个用户对一个物品做出了高的评分，那么就越可能同时出现在同一个子类中；为了使这些具有强联系的元素放在一起，对用户-物品关系提出了以下损失函数：

其中q_i是Q的第i行，r_j是R的第j行，为用户的度数对角线矩阵，是物品的度数对角线矩阵

这个损失函数是非常容易理解的，因为已知的只有用户-物品信息，最小化这个损失函数意味着取高评分的用户-物品对，在结果矩阵P中，用户i的指示向量和物品j的指示向量必须非常接近。

2)用户-用户关系

这一步做的是利用评分矩阵T对用户-用户关系进行建模。首先需要计算两两用户之间的相似度，这里可以使用欧氏距离，皮尔逊相关系数等距离计算方法；使用和上面用户-物品相似的损失函数计算方法，有：

其中这个损失函数意味着两个相似度高的用户，在结果矩阵中具有更相似的指示向量。

3)物品-物品关系

这一步做的是利用评分矩阵T对物品-物品关系进行建模，做法和上面的用户-用户关系建模类似；首先需要计算两两物品之间的相似度，有损失函数：

其中这个损失函数意味着两个相似度高的物品，在结果矩阵中具有更相似的指示向量。

4)目标函数

综合上述三个损失函数，得到求解分类矩阵P的损失函数：

∈(P)＝∈(Q，R)+∈(Q)+∈(R)

s.t.

|P_i|＝k，i＝1，...，(m+n)

参数c是所有子类自己的数量，k是每个用户或者物品允许存在的子类数量(1≤k≤c)，|·|是基数约束，代表一个矢量的非零值的数量。

由于这些条件约束，使得最小化目标函数非常难解决，所以采取一个近似的方法去得到一个近似解；做法和谱聚类类似，分成两个阶段

a)将所有的用户和物品映射到一个共享的低阶空间，构建共享的低阶空间矩阵：

这一步是要得到P的一个r维近似表达；首先将损失函数化简得到：

其中L_Q为用户的度数对角线矩阵其余为0和用户之间权重矩阵W之差，L_R为物品的度数对角线矩阵其余为0和用户之间权重矩阵W之差；矩阵S：

Tr()计算矩阵对角线之和；将结果矩阵的近似解压缩至一个r维空间，并将约束条件放松，转化为最小化以下目标函数：

通过求解MX＝λX的r个最小特征值，得到X＝[x₁，...，x_r]。

b)对类别聚类迭代：

聚类可以采用两种聚类方式，分别是硬聚类和软聚类；在本发明实施例中，采用软聚类，一个对象可出现在多个类别中，因此选择fuzzy c-means进行聚类；做法是最小化以下目标函数：

其中P_ij是结果矩阵P中对象i(用户或商品)与子类j的关系，v_j是该子类的类中心，d()为距离函数，l是模糊化程度的参数；迭代更新P和V：

每次迭代之后计算目标函数，目标函数改善的值小于一个阈值的时候停止迭代；停止迭代之后，对P的每一行，只保留最大的k个元素，并进行归一化，保证每一行的和为1；在本发明实施例中中，迭代阈值可以为0.5，具体阈值可以根据用户的需求而制定，在本方面实施例中不做强制要求。

对S13作进一步说明：

对所述多类别软聚类结果进行子类矩阵划分出来，获取子类矩阵；对所述子类矩阵进行非负矩阵分解预测处理，获取子类矩阵预测结果；采用所述加权求和对所述子类矩阵预测结果进去计算，获取预测结果。

通过上面划分出的子类，从原始评分矩阵得到一些小的矩阵。在每一个子矩阵中进行加权NMF矩阵(非负矩阵)分解。

对加权NMF矩阵作一个简单的改良；一般来说，NMF的初始值常采用随机初始化方法；但是发现存在着这样的现象：在已有评分中用户A评分多数较低，用户B评分多数较高的情况下，随机初始化进行WNMF的结果往往是A的其他评分高于B的其他评分，原因主要是随机初始化对所有用户/物品的兴趣矢量在向量矩的角度来说是相似的，因此当用户i对应物品j有较低评分的时候，矩阵分解倾向于正交化相应的用户向量和物品向量。因此，在初始化矩阵分解的两个矩阵的时候，考虑用户和物品已有评分的平均评分。

在每个子矩阵中进行预测之后，使用加权求和的方法计算出最终的预测分数：

其中，Pr(u_i，y_j，k)代表的是在子类k中用户i对物品j的预测评分。

对S14作进一步说明：

将获取的所述预测结果进行预测分数从搞到低排序，获取排序结果；将排序最高的前10个物品推荐给用户。

在本发明实施例中，采用自高到底的排序方法进行评分排序，然后根据排序结果将排序最靠前的10个物品推荐给用户；这里的排序方法可以为多种多样，可以根据用户的喜好选择不同的排序方式。

图2是本发明实施例中的基于多类别联合软聚类的推荐***的***结构组成示意图，如图2所示，所述推荐***包括：

矩阵构建模块11：用于获取用户-物品交互信息，根据所述用户-物品交互信息构建评分矩阵和分类矩阵；

聚类模块12：用于对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，获取多类别软聚类结果；

预测模块13：用于采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，获取预测结果；

推荐模块14：用于根据所述预测结果向用户推荐预测分数最高的物品。

优选地，所述矩阵构建模块11包括：

所述分类矩阵包括用户分类矩阵和物品分类矩阵。

优选地，所述聚类模块12包括：

优选地，所述预测模块13包括：

优选地，所述推荐模块14包括：

推荐单元：用于将排序最高的前10个物品推荐给用户。

具体地，本发明实施例的***相关功能模块的工作原理可参见方法实施例的相关描述，这里不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于多类别联合软聚类的推荐方法及***进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多类别联合软聚类的推荐方法，其特征在于，所述推荐方法包括：

根据所述预测结果向用户推荐预测分数最高的物品。

2.根据权利要求1所述的基于多类别联合软聚类的推荐方法，其特征在于，所述根据所述用户-物品交互信息构建评分矩阵和分类矩阵，包括：

所述分类矩阵包括用户分类矩阵和物品分类矩阵。

3.根据权利要求1所述的基于多类别联合软聚类的推荐方法，其特征在于，所述对所述评分矩阵和所述分类矩阵进行多类别软聚类处理，包括：

4.根据权利要求1所述的基于多类别联合软聚类的推荐方法，其特征在于，所述采用加权非负矩阵分解对所述多类别软聚类结果进行用户喜好度预测，包括：

5.根据权利要求1所述的基于多类别联合软聚类的推荐方法，其特征在于，所述根据所述预测结果向用户推荐预测分数最高的物品，包括：

将排序最高的前10个物品推荐给用户。

6.一种基于多类别联合软聚类的推荐***，其特征在于，所述推荐***包括：

7.根据权利要求6所述的基于多类别联合软聚类的推荐***，其特征在于，所述矩阵构建模块包括：

所述分类矩阵包括用户分类矩阵和物品分类矩阵。

8.根据权利要求6所述的基于多类别联合软聚类的推荐***，其特征在于，所述聚类模块包括：

9.根据权利要求6所述的基于多类别联合软聚类的推荐***，其特征在于，所述预测模块包括：

10.根据权利要求6所述的基于多类别联合软聚类的推荐***，其特征在于，所述推荐模块包括：

推荐单元：用于将排序最高的前10个物品推荐给用户。