CN110059257B

CN110059257B - 基于评分修正的项目推荐方法

Info

Publication number: CN110059257B
Application number: CN201910348064.3A
Authority: CN
Inventors: 于海; 李佳霖; 王超; 张赛赛; 朱志良
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-02-19
Anticipated expiration: 2039-04-28
Also published as: CN110059257A

Abstract

本发明提供一种基于评分修正的项目推荐方法。根据用户的体验对项目进行评分，基于线性回归进行第一次修正，第一次修正后的用户项目评分矩阵。需要保留用户需求的变化并且防止过度拟合，于是需要进行第二次修正，计算相应的原始评分的权重。用特征向量描述活动用户对项目的偏好特征。根据活动用户已知评分项目的K个最近邻居预测未知评分。对所得到的结果进行相应的评估。本发明可以消除主观特征，使评分具有客观性，可以更准确的表达用户的偏好。本发明采用二次修正，对于兴趣随着时间的变化更加敏感，使得***能够更加准确地识别出用户当前的兴趣偏好，从而是产生的推荐结果的准确性得到大幅度的提高。

Description

基于评分修正的项目推荐方法

技术领域

本发明涉及推荐***领域，特别涉及一种基于评分修正的项目推荐方法。

背景技术

近些年来，随着在线社交网络和互联网技术带来的信息革命，网络信息已一种近乎恐怖的趋势进行不断地攀升式增长，网络信息如***般席卷全球。新闻信息、科技信息、体育信息、娱乐信息等各式各样的网络信息，开始从四面八方铺天盖地的向我们砸来。人类近30所产生的信息总量已超过了过去5000年的信息量总和，但其信息的价度密度却很低，其中不乏包含很多无用信息和不真实信息，面对互联网带来的这种“信息过剩”和“信息混沌空间”，人们很难依靠个人或单一的***的力量来定位和获取所需要的信息。为了解决信息过载这一难题，推荐***(Recommender system)出现。如今，这个技术已经完全深入到了人们的日常生活中，无处不在。推荐***通过对用户的个体特征进行分析，向每个用户展示其个性化的推荐结果。推荐***不同于搜索引擎的被动查找，是一种主动地检索匹配的过程。

其中，推荐***一个常用的方式是协同过滤(collaborative filtering)，即利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息。例如,你和另外-一个人都喜欢看电影,而你们所喜欢的电影类型都差不多,那个人对于某一部电影的评价很高,而这部电影你没有看过。那么,我是不是就能将这部电影推荐给你呢？基于协同过滤的推荐,有基于用户和基于物品。包括(1)相似度的计算(2)基于用户的协同过滤(3)基于项目的协同过滤(4) 基于内容的过滤算法(5)混合推荐***等。推荐***在现在的生活中随处可见,淘宝天猫的商品推荐,音乐软件的每日歌曲推荐等,协同过滤就是一种很受欢迎的推荐算法。

基于项目的协同过滤(IBCF)推荐***是当今世界最著名的推荐***之一。相比其他的经典的推荐***，它具有很高的预测准确性，但仍然具有一些需要改进的重要缺点：(1)因为用户评分少而产生的数据的稀疏问题,即在数据集中绝大多数数值缺失或者为零的数据。 (2)可扩展性问题，即适应***规模不断扩大的问题(3)新用户的冷启动问题，初始时间推荐质量差(4)历史数据会决定推荐质量，会令推荐的时效性降低(5)新项目没有用户评价而新用户评价很少项目造成的预测准确性不够高等重要问题需要解决。

发明内容

虽然传统的基于项目的协同过滤推荐算法预测具有较高的准确性。但是由于真实数据的稀疏性导致传统方法仍然具有预测准确性不够高的严重问题急需解决。为了大幅度提高推荐***预测的准确性，本发明借鉴基于项目的协同过滤的准确度较好的特征，融合了原始评分修正这一新的思想理论，进一步提升了推荐***的准确性。

为了克服现有技术的不足，本发明提供了一种基于评分修正的项目推荐方法，所采用的技术方案为：

步骤1：用户根据自身当时的体验对项目进行评分，根据用户评分得到一个大小为N×M 的矩阵R＝(r_n,m)，其中，元素r_n,m表示用户n对项目m的评分；其中n＝1、2、3...N，表示用户的人数，m＝1、2、3...M，表示项目的个数；

步骤2：对矩阵R＝(r_n,m)进行一次修正，一次修正矩阵为R′＝(r′_n,m)。

其中，u,v∈n，i,j∈m，

I_u,v表示被用户u和v同时评价过的项目的集合，dev_u,v表示用户u和v的偏差，r_u,i是指用户u评价第i个项目的得分，r_v,i是指用户v评价第i个项目的得分，U_i＝{v|v∈U_i,|I_u,v|＞0}表示评价过第i个项目i的用户的集合；

步骤3：对一次修正矩阵R′＝(r′_n,m)进行二次修正；

令R″＝(r″_n,m)标记二次修正后的用户项目评分矩阵，对评分进行的二次修正方法，如公式(3)所示：

R″＝λR+(1-λ)R′ (2)

其中，λ是原始评分的权重；

λ∝lg K (3)

其中，K为特征向量i_i的个数，特征向量为由K个最近邻居构成的项目i的(K维)特征向量i_i＝(i_i1,...,i_iK)^T；

步骤4：根据活动用户已知评分项目的K个最近邻居预测未知评分；

步骤4.1：找到项目的最近邻居，二次修正后的项目i和j之间的相似度如公式(5)所示：

其中，U_i,j标记评价过项目i或j的用户的集合，U_i标记评价过项目i的用户的集合，U_j标记评价过项目j的用户的集合，r″_u,i是指经过二次修正后用户u评价第i个项目的得分，r″_v,i是指经过二次修正后用户v评价第i个项目的得分，sim(i,j)∈[0,1]；

步骤4.2：令KNN(i)表示项目i的K个最近邻居，

和

分别表示项目i和j的平均分。使用二次修正后的评分预测未知评分，公式(5)所示。

步骤4.3：将计算得出的未知评分进行从大到小的排序，选取前L个项目作为推荐项目， L为大于等于1的正整数；

步骤5：对二次修正后的用户项目评分矩阵进行评估,具体包括：

计算平均绝对误差MAE

MAE是预测结果与真实数据的绝对误差的平均值。平均绝对误差的值越小，算法的预测准确度越高。

其中，E^P是测试集，r_u,i表示用户u对项目i的真实评分，

表示用户u对项目i的预测评分；

计算均方根误差RMSE

其中，MSE是平均平方根误差，即预测值与真值之差平方的期望值，RMSE是MSE的算术平方根。它定义如公式(7)所示。

计算召回率Recall与准确率Precision

召回率衡量了在用户真正认同并接受的项目中，被推荐***所推荐的项目所占的比例。 Recall的值越大，推荐的召回率越高，准确性越大。如公式(8)所示。

其中，集合R为测试集中项目的集合，集合S表示应该被推荐给用户的项目的集合。

准确率衡量了推荐结果中，真正被用户所认同并接受的项目的比例。这里使用集合R 为测试集中项目的集合，集合S表示应该被推荐给用户的项目的集合。准确率研究了推荐的准确性，Precision的值越大，推荐的准确率越高。

利用F₁衡量指标衡量推荐的召回率和准确率，且F₁的值越大，推荐准确性越高；如公式 (10)所示；

本发明的有益技术效果为：

(1)提出了一个新的思想：修正原始评分。本发明认为人们的评分具有当前状态的很多主观意识，缺少客观性和准确性。修正后的评分可以消除主观特征，使评分具有客观性，可以更准确的表达用户的偏好。

(2)用户偏好会随着时间的推移发生变化，这种变化会在第一次修正时发生部分丢失。为了保留这种变化，且避免过度拟合，设计了二次修正评分，以便更准确的描述用户偏好。

通过二次修正的过程，二次修正后的评分能够更加准确地描述出用户的兴趣偏好。而且对于兴趣随着时间的变化更加敏感，使得***能够更加准确地识别出用户当前的兴趣偏好，从而是产生的推荐结果的准确性得到大幅度的提高。

附图说明

图1为本发明具体实施方式的方法流程图；

图2为本发明具体实施方式的一次修正模型图；

图3为本发明具体实施方式的评分修正实例图；

图4为本发明具体实施方式的λ和最近邻数K的关系图；

图5为本发明具体实施方式的数据集ML-100k上的MAE；

图6为本发明具体实施方式的数据集ML-100k上的RMSE；

图7为本发明具体实施方式的数据集ML-1M上的MAE；

图8为本发明具体实施方式的数据集ML-1M上的RMSE；

图9为本发明具体实施方式的数据集ML-100k上的F₁；

图10为本发明具体实施方式的数据集ML-1M上的F₁。

具体实施方式

下面结合附图对本发明作进一步说明。

很多的因素会影响用户的判断。致使原始评分会具有很多用户自身的主观意识，不能客观地准确地反映出用户对项目的真实偏好。例如，当天阳光明媚你，用户会对给出5分的评定。但是如果当天阴雨绵绵，用户也许会对同一个项目给出3分的评定。为了解决这一问题，我们提出了一个新的推荐步骤，修正原始评分，它能够更加准确地表示出用户的兴趣偏好，使预测质量更好；

分析本发明方法的预测质量和推荐质量，来评估本章算法的有效性。我们将在两个的真实世界的数据集上，对我们的方法和传统的基于项目的协同过滤方法进行对比实验；

使用两个著名的真实世界的数据集来评估本章的推荐方法。第一个是MovieLens(ML-100k)，它包含由943个用户和1682个项目所产生的100000条评分。在该数据集上使用5折交叉验证进行实验。第二个是MovieLens(ML-1M)，它包含由6040个用户和3952个项目所产生的1,000,209条评分。表1显示了这些实验数据的基本信息。

表1实验数据集

	用户数	电影数	评分数	数据密度
					MovieLens 100k	943	1682	100000	6.3％
MovieLens 1M	6040	3952	1,000,209	4.2％

对于两个数据集ML-100k和ML-1M，评分属于集合{1,2,3,4,5,NA}。如果评分为未知评分，则r_nm＝NA。在每个数据集中，80％的评分作为训练集，剩余的20％作为测试集。

如图1所示，步骤1：用户根据自身当时的体验对项目进行评分，根据用户评分得到一个大小为N×M的矩阵R＝(r_n,m)，其中，元素r_n,m表示用户n对项目m的评分，其中n＝1、2、3...N，表示用户的人数，m＝1、2、3...M，表示项目的个数；

步骤2：对矩阵R＝(r_n,m)进行一次修正，一次修正背后的关键思想是，基于线性回归进行评分的修正。修正器采用f(x)＝x+b的形式，自由参数b为两个用户间的偏差。根据用户的评分数据以及用户间的偏差，我们可以大致过滤出当前活动用户的项目评分中所存在的误差。一次修正矩阵为R′＝(r′_n,m)。如图3所示，

其中，u,v∈n，i,j∈m，

得到相应的一次修正矩阵，获得一次修正模型图2；

集合U_i中的每个用户都对应一个权重。考虑到两个用户所共同评价的项目的数量越多，所计算的这两个用户间的偏差越逼近真实世界。也就是说，该用户修正的值也越接近活动用户的真实偏好。因此，所对应的权重也就越大。一次修正的过程是有魅力的，它的修正方法简单，易于实现和维护，而且执行效率高；

步骤3：对一次修正矩阵R′＝(r′_n,m)进行二次修正；用户兴趣偏好总是会随着时间不断发生变化，这种变化中的部分信息会在第一次修正时因过度拟合，而导致发生部分信息的丢失。为了保留这种变化，且避免过度拟合的现象的发生，我们对用户的评分进行了二次修正；

令R″＝(r″_n,m)标记二次修正后的用户项目评分矩阵，对评分进行的二次修正方法，如公式(2)所示：

R″＝λR+(1-λ)R′ (2)

其中，λ是原始评分的权重；

λ∝lg K (3)

其中，K为特征向量i_i的个数，特征向量表示由K个最近邻居构成的项目i的(K维)特征向量i_i＝(i_i1,...,i_iK)^T，图4为λ和最近邻数K的关系图；用向量i_i＝(i_i1,...,i_iK)^T表示由K个最近邻居构成的项目i的(K维)特征向量。特征向量i_i描述了活动用户对项目i的偏好特征。随着取的最近邻居越多，特征向量i_i对用户偏好的描述也越准确。此时，λ的值也就越大。当K大到一定值时，特征向量i_i对用户偏好的描述将无限趋近于真实情况。此时，λ→1。

通过实验结果可知，如图4所示，当推荐***达到最好的推荐效果时，λ的值随***所取的最近邻居个数K值变化的情况。根据实验结果，这里取λ＝0.7lgK-0.3。当K≤3时，λ＝0；当K≥70时，λ＝1；

值得注意的是，二次修正也是非常有魅力的。二次修正后的评分能够更加准确地体现出用户的个人偏好信息。它不同于第一次修正后的评分，它拥有很多一次修正后的评分中丢失的用户信息。同时，也解决了一次修正中存在的过度拟合的现象。它也不同于原始评分，它比较与原始评分更加具有客观性。此步骤是非常重要的，它是使得我们的预测的准确性更加优异的关键步骤；

步骤4.1：利用原始评分不能准确地找到项目的最近邻居。因为，原始评分不能客观准确地表现用户的真实偏好。为了解决这一问题，我们提出使用二次修正后的评分确定项目i和j 之间的相似度，如公式(5)所示：

其中，U_i,j标记评价过项目i或j的用户的集合，U_i标记评价过项目i的用户的集合，U_j标记评价过项目j的用户的集合，r″_u,i是指经过二次修正后用户u评价第i个项目的得分，r″_v,i是指经过二次修正后用户v评价第i个项目的得分，sim(i,j)∈[0,1]，项目i和j越相似，sim(i,j) 的值越接近于1；

步骤4.2：令KNN(i)表示项目i的K个最近邻居，

和

分别表示项目i和j的平均分。使用二次修正后的评分预测未知评分，公式4.6所示。

重要的是公式(4)和(5)都依赖于二次修正后的评分。这使得预测的结果更加准确。因为，二次修正后的评分能够更加准确地描述用户的偏好，以及项目的特征；

步骤4.3：将计算得出的未知评分进行从大到小的排序，选取前L个项目作为推荐项目， L为大于等于1的正整数，L根据实际具体的推荐项目自行确定。

用一种基于未知评分预测的推荐算法，基于评分修正的推荐算法。其中，预测的准确度、推荐准确度、推荐召回率等，都是评价基于评分预测的推荐算法的性能优劣所不可缺少的重要评估指标。使用平均绝对误差(Mean Absolute Error，即MAE)、均方根误差(RootMean Square Error，即RMSE)、F₁衡量指标，对算法的进行评估。

计算平均绝对误差

其中，E^P是测试集，r_u,i表示用户u对项目i的真实评分，

表示用户u对项目i的预测评分；

计算均方根误差

均方根误差和平均平方根误差(mean squared error，简称MSE)是评价预测准确性的两种评价标准。其中，MSE是预测值与真值之差平方的期望值。RMSE是MSE的算术平方根。它定义如公式(7)所示。

计算召回率与准确率

召回率衡量了在用户真正认同并接受的项目中，被推荐***所推荐的项目所占的比例。这里使用集合R为测试集中项目的集合，集合S表示应该被推荐给用户的项目的集合。召回率研究了推荐的准确性，Recall的值越大，推荐的召回率越高，准确性越大。如公式(8)所示。

其中，集合R为测试集中项目的集合，集合S表示应该被推荐给用户的项目的集合

准确率衡量了推荐结果中，真正被用户所认同并接受的项目的比例。这里使用集合R为测试集中项目的集合，集合S表示应该被推荐给用户的项目的集合。准确率研究了推荐的准确性，Precision的值越大，推荐的准确率越高。

引入F₁衡量指标

召回率和准确率均不能很好的反应推荐的准确性。通过观察可以发现，随着推荐结果的集合的规模的扩大，召回率和准确率之间会发生相应的变化。即推荐结果中的项目被活动用户选择的数量会随之增大，进而召回率也会随之升高，相反的是准确率则会随之下降。为了平衡这种变化，F₁衡量指标综合衡量了推荐的召回率和准确率，使其偏向较小的方向。且F₁的值越大，推荐准确性越高。如公式(10)所示

在图5和图6中，比较了本章的方法和经典的基于项目的协同过滤推荐***在ML-100k 数据集上的预测质量。图5显示了MAE的评估结果，图6显示了RMSE的计算结果。从图 5和图6中，可以注意到，本章的方法具有很好的预测准确性。与经典的基于项目的协同过滤推荐***相比，本章的方法大幅度降低了预测的误差。此外，惊喜的是在邻居的数量很少的时候，本章的方法就达到了很小的预测误差。而经典的基于项目的协同过滤推荐***则无法做到。甚至，在邻居的数量只有20的时候，MAE就降低到了大约0.73，RMSE就降低到了大约0.94。当邻居的数量很少的时候，这都要归功于本章方法中的两次评分修正。两次评分的修正，使得符合用户兴趣偏好的项目就能够在所取邻居数很小时就能被准确地定位。

图7和图8显示了本章方法和经典的基于项目的协同过滤推荐***在ML-1M数据集上的预测质量。ML-100k数据集上的实验说明了我们的方法较经典的基于项目协同过滤，在预测准确性上有很大的提高。ML-1M数据集比ML-100k数据集更大、更新。比ML-100k数据集更有说服力。图7是关于ML-1M数据集的MAE评估结果，图8是关于ML-1M数据集的RMSE 评估结果。从图7和图8中可以看到，本章的方法的预测质量要远远优于经典的推荐***，像ML-100k数据集一样。这证实了我们的方法的稳定性。

图9以及图10显示了本章算法与经典的基于基于项目的协同过滤推荐算法在推荐性能上的比较。图9显示了ML-100k数据集在F₁衡量指标上的评估结果，图10显示了ML-1M数据集在F₁衡量指标上的计算结果。从图9和图10中，可以观察到，本章的方法在大幅度提高预测准确性的同时，也保持了较高的推荐准确性。与经典的基于项目的协同过滤推荐***相比，本章的方法在推荐的准确性上也有一定程度上提高，始终保持较高的推荐准确性。同时，两个真实世界的数据集上的实验结果，也证实了我们的方法在推荐准确性上所具有的稳定性。