CN108363804A

CN108363804A - 基于用户聚类的局部模型加权融合Top-N电影推荐方法

Info

Publication number: CN108363804A
Application number: CN201810169922.3A
Authority: CN
Inventors: 汤颖; 孙康高
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-08-03
Anticipated expiration: 2038-03-01
Also published as: CN108363804B

Abstract

基于用户聚类的局部模型加权融合Top‑N电影推荐方法，包括：步骤1：数据预处理；对不活跃用户以及流行度很小的电影进行数据清洗；构造用户电影标签文档；把显式的评分信息转换成隐式反馈信息，构造用户‑电影隐式反馈矩阵A；步骤2：用户聚类；利用电影标签信息，通过LDA主题模型训练得到用户特征向量，用谱聚类算法实现用户聚类；步骤3确定局部推荐模型和进行全局推荐模型训练；步骤4模型加权融合推荐阶段；步骤5.通过留一法交叉验证来证明模型的有效性。

Description

基于用户聚类的局部模型加权融合Top-N电影推荐方法

技术领域

本发明涉及一种网络上的电影推荐方法。

背景技术

随着信息科技和社交网络的快速发展，互联网产生的数据近来呈指数式暴涨，大数据时代来临。随着数据量的增多，人们越来越难以从海量数据中发现自己真正想要的信息。此时，推荐***则能发挥它的最大应用价值。根据用户资料、物品信息以及用户历史行为数据，推荐算法能够准确预测用户的喜好，个性化地为用户推荐他们可能感兴趣的东西，大大降低了用户发现目标信息的成本。

推荐算法可分为基于内容的推荐以及协同过滤推荐。现代化的推荐***主要有两个任务，一个是评分预测，另一个是在现实商业场景中应用最多的Top-N推荐。Top-N推荐算法通过给用户推荐一个经过排名且大小为n的物品列表的方式让用户选择自己感兴趣的东西。Top-N推荐模型主要分为两种类型，分别是基于邻域的协同过滤和基于模型的协同过滤。前者又可细分为基于用户的邻域模型(UserKNN)和基于物品的邻域模型(ItemKNN)，后者则以隐因子模型为代表。

俗话说“物以类聚人以群分”，不同用户群体内部往往会形成各自独特的行为模式，使得两个相同的物品在不同的人群中相似度发生改变。而单一推荐算法模型往往捕捉不到这些局部的相似度差别，它们认为两个相同的物品在任何场景中的相似度都是一致的，这些模型无法准确捕获用户的真实偏好，降低了个性化推荐的质量。通过训练多个局部推荐模型，再融合局部模型来提升总体推荐效果的推荐算法在一定程度上能解决以上问题，但是这些算法往往没有充分利用推荐场景提供的数据，利用到的数据比较单一，最终的推荐效果也一般。

发明内容

为了克服现有技术的单一模型无法准确捕获用户偏好以及多模型融合算法使用训练数据单一的问题，本发明提供一种新的基于用户聚类的局部模型加权融合电影推荐算法来实现电影的Top-N个性化推荐。

本发明利用电影的文本内容信息，通过LDA主题模型计算语义层次用户特征向量，并基于此通过谱聚类算法来实现用户聚类，构造局部人群。本发明进一步利用用户对电影的评分信息，通过稀疏线性模型构造局部推荐模型和全局推荐模型，通过局部模型和全局模型的线性加权融合来实现最终的电影Top-N个性化推荐。

基于用户聚类的局部模型加权融合Top-N电影推荐方法，总体流程如图1所示，具体包括如下步骤：

步骤1：数据预处理阶段。对一些不活跃用户以及流行度很小的电影进行数据清洗；构造用户电影标签文档；把显式的评分信息转换成隐式反馈信息，构造用户-电影隐式反馈矩阵A；

1.1对原始数据集进行数据清洗工作，剔除观影数小于20部电影的用户，同时剔除被评分次数小于20次的电影，得到新的训练数据集；

1.2统计新数据集里所有用户给电影打的标签生成一个标签字典，把用户看过的所有电影的标签组成的文档来表示当前用户，所有用户的文档组成一个语料库，计算文档中每个词在语料库中的TF-IDF值。词频TF，逆文档频IDF以及词频-逆文档频TF-IDF的计算公式如公式(1)(2)(3)所示；

TFIDF_i,j＝TF_i,j×IDF_i (3)

其中TF_i,j表示词语t_i在文档d_j中的词频，n_i,j表示词语t_i在文档d_j中出现的次数，∑_kn_k,j表示文档d_j中所有词语的出现次数之和。IDF_i表示词t_i的逆文档频，|D|表示语料库中文档的总数，|{j:t_i∈d_j}|表示包含词语t_i的文档数目。TFIDF_i,j表示文档d_j中词语t_i的词频逆文档频；

1.3把显式的评分信息如1-5分，转换成用0-1表示的隐式反馈信息，若当前用户对当前电影打过分则记为1，没打过分的电影即待推荐的电影记为0，得到一个n×m的用户-电影隐式反馈矩阵，用户数为n，电影数为m；

步骤2：用户聚类阶段。利用电影标签信息，通过LDA主题模型训练得到用户特征向量，用谱聚类算法实现用户聚类；

2.1LDA主题模型是一个文档-主题-单词的三层贝叶斯网络，给定一个语料库，该模型可以分析该语料库中每篇文档的主题分布，以及每个主题的词分布。它的联合概率如公式(4)所示；

θ表示一篇文档的主题分布，z表示一个主题，w表示一篇文档，α表示每篇文档下主题的多项分布的Dirichlet先验参数，β表示每个主题下词的多项分布的Dirichlet先验参数，N表示语料库中的文档数，z_n表示一篇文档中第n个词的主题，w_n表示一篇文档的第n个单词；

每部电影都有多个用户给它赋予的标签，把一个电影标签映射成一个单词w_n，把一个用户看过的所有电影的标签组成的集合映射成一篇文档w，把用户所偏好的一类特定的电影类型映射成一个主题z。若数据集里共有n个用户，则可生成一个含有n篇文档的语料库以及一个字典，语料库中的每篇文档用字典长度的向量表示，向量中的每个值是对应字典中标签在该用户文档及语料库中的TF-IDF值；

为了能区分出更加独特的用户群体，不同主题之间的差异性越大越好。为了确定最佳主题个数，通过设置多个主题数训练多个LDA模型，计算每个LDA模型训练得到的主题向量之间的平均相似度，取主题向量平均相似度最小的模型对应的主题数作为模型最佳主题个数。通过LDA模型训练，得到每一篇文档的主题分布θ，用它来表示每一个用户的特征向量；

2.2利用以上步骤得到的用户特征向量(共n个)，使用谱聚类算法实现对用户的聚类；

在聚类之前首先需要确定聚类个数。因为训练得到的每个用户向量的每一维度表示该用户属于对应主题的隶属度，故为了确定每个主题在当前用户群体中的重要性，把所有用户特征向量按维度做累加后再取平均，得到一个代表整体的主题强度向量，通过观察主题强度向量的值分布来确定最佳聚类个数。例如，在某次主题数为10的LDA训练过程中，按以上方法得到一个10维的主题强度向量，可视化如图2所示(纵轴表示主题强度，横轴为主题)，通过观察可以看到主题2、9、3、8、6在当前数据集中强度最大，说明喜欢看这些类型电影的人最多，故当前情况使用谱聚类算法把用户聚成5类较适宜。谱聚类算法具体步骤如下：

(1)计算n×n的相似度矩阵W和度矩阵D；

(2)计算拉普拉斯矩阵L＝D-W；

(3)计算L的前k个特征向量t₁,t₂,…,t_k；

(4)将k个列向量t₁,t₂,…,t_k组成矩阵T，T∈R^n×k；

(5)对于i＝1,…,n，令y_i∈R^k是T的第i行向量；

(6)使用K-Means算法将用户(y_i)_{i＝1,2,…,n}聚类成簇C₁,C₂,…,C_k；

对于每个用户聚类，把原始隐式反馈训练矩阵A中不属于该聚类的用户行向量都置为0，每个聚类都生成一个对应的局部隐式反馈训练矩阵P_u表示聚类编号，且P_u∈{1,…,k}；

步骤3确定局部推荐模型和进行全局推荐模型训练。稀疏线性模型SLIM的损失函数如公式(5)所示；

其中，A表示原始的用户-电影隐式反馈矩阵，α和ρ控制L1和L2范数的权重，通过最小化该损失函数可以获得一个大小为m×m的电影相似度稀疏矩阵W。该模型中L1范数控制W稀疏程度，L2范数控制模型的复杂度，防止模型过拟合。该模型通过随机梯度下降法，并行训练W矩阵的每一列w_j来得到最终的W矩阵，如公式(6)所示；

其中，a_j表示矩阵A中的第j列。用户i关于电影j的预测推荐度计算公式如公式(7)所示；

使用稀疏线性模型SLIM作为基本推荐模型构建全局推荐模型和局部推荐模型，利用全局隐式反馈训练矩阵A训练得到全局电影相似度矩阵W，利用局部隐式反馈训练矩阵训练得到每个聚类对应的局部电影相似度矩阵

步骤4模型加权融合推荐阶段。局部模型加权融合推荐度计算公式如公式(8)所示；

其中表示电影j对于用户u的加权融合推荐度，R_u为与用户u发生过交互的所有电影的集合，w_lj为电影l和电影j在全局模型中的相似度，为电影l和电影j在用户u所属的聚类P_u对应的局部模型中的相似度，参数g为全局模型的权重参数。通过调节参数g来控制全局模型和局部模型在融合模型中的权重比例，通过确定最优权重参数g获得融合模型的最佳推荐效果。可以通过实验来确定在当前数据集中最佳的全局模型权重参数。在确定了模型中的所有参数之后，通过计算所有电影关于当前用户u的加权融合推荐度，按从大到小的排序，同时删除已经与当前用户发生过交互的电影，取排在前N位的电影推荐给当前用户；

步骤5.该推荐方法可通过留一法交叉验证来证明模型的有效性。可以从每个用户的电影评分集合中随机抽取一部电影放入测试集中，其他电影用来作为模型的训练集。然后用训练好的模型为每个用户推荐一个Top-N的电影列表，观察测试集里该用户的对应那一部电影是否出现在推荐列表中以及其出现在列表中的具***置p_i。最后，可以用命中率(HR)和平均排名命中率(ARHR)两个指标来衡量模型的推荐质量，其中#hits表示推荐命中数，#users表示用户总数，它们的定义如公式(9)、(10)所示；

推荐方法流程步骤至此结束。

本发明综合上述技术提出了基于用户聚类的局部模型加权融合Top-N电影推荐算法。为了解决传统单一推荐模型无法准确估计物品的局部差异性，导致无法准确捕获用户偏好的问题，提出了分别训练全局推荐模型和基于用户聚类的局部推荐模型，通过模型之间的线性加权融合来实现电影的Top-N推荐。另外，为了充分使用电影推荐场景中的数据，从多个维度来提升推荐的质量，本发明利用电影标签信息，通过LDA主题模型来实现对用户在语义层次的特征向量的计算，实现用户在语义层次族群的划分。

本发明的优点是：(1)算法思路新颖。使用稀疏线性模型作为基本推荐模型，分别训练全局推荐模型和基于用户聚类的局部推荐模型，最后通过线性加权融合生成最终的融合模型，这一思路能够处理电影的在不同人群中的相似度差异，有效克服了单一模型无法准确捕获用户偏好的问题。(2)多维度提升推荐质量。除了使用传统的评分数据来训练推荐模型，在用户聚类阶段，本发明通过引入电影标签数据，利用LDA主题模型分析人群在语义层次上的主题属性，得到用户特征向量并用谱聚类算法实现人群聚类，进一步提升了推荐的质量。(3)算法实现简单快速。在局部模型和全局模型训练阶段，由于各模型之间互相独立，各模型相似度矩阵的每一列之间也相互独立，故可采用并行训练的方法，极大降低了模型的训练时间，提升了模型训练的效率。(4)推荐质量较优。本发明提出的局部模型加权融合推荐算法是内容推荐、基于邻域的协同过滤、基于模型的协同过滤三者的有效结合，充分利用了每种推荐算法的优点，又弥补了互相之间的不足，相比于单一使用某种推荐算法，在推荐质量上有了极大的提升。

附图说明

图1是本发明方法的总流程图；

图2是本发明方法的主题强度分布图。

具体实施方式

参照图1技术方案总流程图，本发明共有四个阶段，分别是：数据预处理阶段、用户聚类阶段、全局推荐模型和局部推荐模型训练阶段以及推荐模型线性加权融合阶段。数据预处理阶段是对数据集进行清洗，剔除掉一些不活跃用户和冷门电影，构造用于LDA主题模型训练的语料库和用于稀疏线性模型训练的用户电影隐式反馈训练矩阵；用户聚类阶段，使用第一阶段得到的用户语料库通过训练LDA主题模型，得到用户特征向量，通过谱聚类算法实现对用户的聚类，每个聚类生成一个局部隐式反馈训练矩阵；全局推荐模型和局部推荐模型训练阶段，用原始隐式反馈矩阵和局部隐式反馈矩阵分别通过稀疏线性模型训练得到全局模型和局部模型；模型线性加权融合推荐阶段，把前一步得到的全局模型和局部模型通过线性加权的方式融合得到最终的推荐模型。

本发明的输入为用户观影的评分数据、以及电影的标签数据，输出为针对用户的Top-N个性化电影推荐列表。

具体步骤如下：

1.2统计新数据集里所有用户给电影打的标签生成一个标签字典，把用户看过的所有电影的标签组成的文档来表示当前用户，所有用户的文档组成一个语料库，计算文档中每个词在语料库中的TF-IDF值。TF(词频)，IDF(逆文档频)以及TF-IDF(词频-逆文档频)的计算公式如公式(1)(2)(3)所示；

TFIDF_i,j＝TF_i,j×IDF_i (3)

(1)计算n×n的相似度矩阵W和度矩阵D；

(2)计算拉普拉斯矩阵L＝D-W；

(3)计算L的前k个特征向量t₁,t₂,…,t_k；

(4)将k个列向量t₁,t₂,…,t_k组成矩阵T，T∈R^n×k；

(5)对于i＝1,…,n，令y_i∈R^k是T的第i行向量；

推荐方法流程步骤至此结束。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于用户聚类的局部模型加权融合Top-N电影推荐方法，具体包括如下步骤：

步骤1：数据预处理；对不活跃用户以及流行度很小的电影进行数据清洗；构造用户电影标签文档；把显式的评分信息转换成隐式反馈信息，构造用户-电影隐式反馈矩阵A；

1.2统计新数据集里所有用户给电影打的标签生成一个标签字典，把用户看过的所有电影的标签组成的文档来表示当前用户，所有用户的文档组成一个语料库，计算文档中每个词在语料库中的TF-IDF值；词频TF，逆文档频IDF以及词频-逆文档频TF-IDF的计算公式如公式(1)(2)(3)所示；

TFIDF_i,j＝TF_i,j×IDF_i (3)

其中TF_i，j表示词语t_i在文档d_j中的词频，n_i，j表示词语t_i在文档d_j中出现的次数，∑_kn_k，j表示文档d_j中所有词语的出现次数之和；IDF_i表示词t_i的逆文档频，|D|表示语料库中文档的总数，|{j：t_i∈d_j}|表示包含词语t_i的文档数目；TFIDF_i，j表示文档d_j中词语t_i的词频逆文档频；

1.3把显式的评分信息如1—5分，转换成用0-1表示的隐式反馈信息，若当前用户对当前电影打过分则记为1，没打过分的电影即待推荐的电影记为0，得到一个n×m的用户-电影隐式反馈矩阵，用户数为n，电影数为m；

步骤2：用户聚类；利用电影标签信息，通过LDA主题模型训练得到用户特征向量，用谱聚类算法实现用户聚类；

2.1 LDA主题模型是一个文档-主题-单词的三层贝叶斯网络，给定一个语料库，LDA主题模型分析该语料库中每篇文档的主题分布，以及每个主题的词分布；主题的词分布的联合概率如公式(4)所示；

每部电影都有多个用户给它赋予的标签，把一个电影标签映射成一个单词w_n，把一个用户看过的所有电影的标签组成的集合映射成一篇文档w，把用户所偏好的一类特定的电影类型映射成一个主题z；若数据集里共有n个用户，则可生成一个含有n篇文档的语料库以及一个字典，语料库中的每篇文档用字典长度的向量表示，向量中的每个值是对应字典中标签在该用户文档及语料库中的TF-IDF值；

为了能区分出更加独特的用户群体，不同主题之间的差异性越大越好；为了确定最佳主题个数，通过设置多个主题数训练多个LDA模型，计算每个LDA模型训练得到的主题向量之间的平均相似度，取主题向量平均相似度最小的模型对应的主题数作为模型最佳主题个数；通过LDA模型训练，得到每一篇文档的主题分布θ，用它来表示每一个用户的特征向量；

2.2利用以上步骤得到的n个用户特征向量，使用谱聚类算法实现对用户的聚类；

在聚类之前首先需要确定聚类个数；因为训练得到的每个用户向量的每一维度表示该用户属于对应主题的隶属度，故为了确定每个主题在当前用户群体中的重要性，把所有用户特征向量按维度做累加后再取平均，得到一个代表整体的主题强度向量，通过观察主题强度向量的值分布来确定最佳聚类个数；；谱聚类算法具体步骤如下：

(1)计算n×n的相似度矩阵W和度矩阵D；

(2)计算拉普拉斯矩阵L＝D-W；

(3)计算L的前k个特征向量t₁,t₂,…,t_k；

(4)将k个列向量t₁,t₂,…,t_k组成矩阵T，T∈R^n×k；

(5)对于i＝1,…,n，令y_i∈R^k是T的第i行向量；

(6)使用K-Means算法将用户(y_i)_{i＝1，2，...，n}聚类成簇C₁,C₂,…,C_k；

对于每个用户聚类，把原始隐式反馈训练矩阵A中不属于该聚类的用户行向量都置为0，每个聚类都生成一个对应的局部隐式反馈训练矩阵P_u表示聚类编号，且P_u∈{1，...，k}；

步骤3确定局部推荐模型和进行全局推荐模型训练；稀疏线性模型SLIM的损失函数如公式(5)所示；

其中，A表示原始的用户-电影隐式反馈矩阵，α和ρ控制L1和L2范数的权重，通过最小化该损失函数可以获得一个大小为m×m的电影相似度稀疏矩阵W；该模型中L1范数控制W稀疏程度，L2范数控制模型的复杂度，防止模型过拟合；该模型通过随机梯度下降法，并行训练W矩阵的每一列w_j来得到最终的W矩阵，如公式(6)所示；

其中，a_j表示矩阵A中的第j列；用户i关于电影j的预测推荐度计算公式如公式(7)所示；

步骤4模型加权融合推荐阶段；局部模型加权融合推荐度计算公式如公式(8)所示；

其中表示电影j对于用户u的加权融合推荐度，R_u为与用户u发生过交互的所有电影的集合，w_lj为电影l和电影j在全局模型中的相似度，为电影l和电影j在用户u所属的聚类P_u对应的局部模型中的相似度，参数g为全局模型的权重参数；通过调节参数g来控制全局模型和局部模型在融合模型中的权重比例，通过确定最优权重参数g获得融合模型的最佳推荐效果；通过实验来确定在当前数据集中最佳的全局模型权重参数；在确定了模型中的所有参数之后，通过计算所有电影关于当前用户u的加权融合推荐度，按从大到小的排序，同时删除已经与当前用户发生过交互的电影，取排在前N位的电影推荐给当前用户；

步骤5.通过留一法交叉验证来证明模型的有效性；从每个用户的电影评分集合中随机抽取一部电影放入测试集中，其他电影用来作为模型的训练集；然后用训练好的模型为每个用户推荐一个Top-N的电影列表，观察测试集里该用户的对应那一部电影是否出现在推荐列表中以及其出现在列表中的具***置p_i；最后，用命中率HR和平均排名命中率ARHR两个指标来衡量模型的推荐质量，其中#hits表示推荐命中数，#users表示用户总数，如公式(9)、(10)所示；