CN108897790B

CN108897790B - 基于鲁棒协同过滤算法的推荐方法

Info

Publication number: CN108897790B
Application number: CN201810594764.6A
Authority: CN
Inventors: 刘斌; 田力
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2022-09-20
Anticipated expiration: 2038-06-11
Also published as: CN108897790A

Abstract

一种基于鲁棒协同过滤算法的推荐方法，包括如下步骤：S1、根据数据集构建用户评分矩阵R_m×n以及用户评分时间矩阵T_m×n；S2、根据T_m×n计算用户的兴趣衰减权重；S3、根据R_m×n以及用户的兴趣衰减权重将R_m×n标准化为Z‑scores，然后计算用户之间的相似度sim；S4、计算用户之间的敏感性，根据用户之间的敏感性产生拉普拉斯噪声，将该噪声加上用户原本的相似度sim，得到新的相似度sim″；S5、根据sim″，求得用户的最相似的N个邻居；S6、根据N个邻居的评分信息，使用Z‑socres标准化后的协同过滤预测评分公式，预测评分。本发明在拥有较高推荐精确度的同时还具备抵御攻击的能力，实现了推荐精确度和抵御攻击能力之间的平衡。

Description

基于鲁棒协同过滤算法的推荐方法

技术领域

本发明涉及一种推荐算法，尤其涉及一种能抵御攻击的基于鲁棒协同过滤算法的推荐方法，属于推荐算法领域。

背景技术

推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西。目前较为主流的推荐算法有：基于内容推荐算法、基于规则推荐算法、基于效用推荐算法、基于知识推荐算法以及协同过滤推荐算法等。

以协同推荐算法为例，现在的协同过滤推荐算法能够在海量的数据里，快速的找出用户感兴趣的信息、并将信息推荐给用户。但是由于协同过滤推荐算法是以一种依赖用户的历史行为数据的推荐算法，因此一旦用户的历史行为数据发生泄露，就会有不谋好意的攻击者通过往整个***的数据库里***大量的虚假信息，来扰乱整个推荐***，甚至控制整个***，从而达到虚假推荐的目的。这样一来，不仅会影响整个推荐***的正常使用，而且还会对用户信息的安全性产生重大影响。

综上所述，如何提出一种基于鲁棒协同过滤算法的推荐方法，在保证原本的推荐精确度的同时，又能够抵御攻击者的攻击，就成为了当下推荐算法的研究难点。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种能抵御攻击的基于鲁棒协同过滤算法的推荐方法。

具体而言，一种基于鲁棒协同过滤算法的推荐方法，包括如下步骤：

S1、根据数据集构建用户评分矩阵R_m×n以及用户评分时间矩阵T_m×n；

S2、根据用户评分时间矩阵T_m×n计算用户的兴趣衰减权重；

S3、根据用户的评分矩阵R_m×n以及用户的兴趣衰减权重将用户评分矩阵标准化为Z-scores，然后计算用户之间的相似度sim；

S4、计算用户之间的敏感性，根据用户之间的敏感性产生拉普拉斯噪声，将该噪声加上用户原本的相似度sim，得到新的相似度sim″；

S5、根据新的相似度sim″，求得用户的最相似的N个邻居；

S6、根据N个邻居的评分信息，使用Z-socres标准化后的协同过滤预测评分公式，预测评分。

优选地，S1所述数据集的每一行包括四个字段，分别为用户ID、物品ID、用户对该物品的评分以及评分时间。

优选地，S1所述用户评分矩阵R_m×n及用户评分时间矩阵T_m×n二者均有m行、n列，所述用户评分矩阵R_m×n及用户评分时间矩阵T_m×n二者的行下标表示用户ID，列下标表示物品ID。

优选地，S2所述根据用户评分时间矩阵T_m×n计算用户的兴趣衰减权重，包括如下步骤：使用用户的评分时间矩阵T_m×n，构建一个衰减函数作为用户的兴趣衰减权重，衰减函数表达式为，

其中，T_ui为用户u对物品i的评分时间，Tu为用户u对物品的评分时间的集合，Tu_max为用户u在该集合里的最近评分时间，Tu_min为用户u在该集合里的最远评分时间。

优选地，S3所述根据用户的评分矩阵R_m×n以及用户的兴趣衰减权重将用户评分矩阵标准化为Z-scores，然后计算用户之间的相似度sim，包括如下步骤：

S31、使用Z-scores进行标准化数据转化，Z-scores计算公式为，

其中，R_ui为用户u对物品i的评分，

为用户u所做评分的均值，σ_u为用户u所做评分的标准差；

S32、计算经过Z-scores标准化后的用户相似度，计算公式为，

其中，u，n表示两个用户，集合C为两个用户共同打分的物品集合，C.length为该集合的长度，length_u为用户u评分集合的长度，length_n为用户n评分集合的长度，R_uk为用户u对物品k的评分，R_nk为用户n对物品k的评分，R_nj为用户n对物品j的评分，

为用户n所做评分的均值，σ_n为用户n所做评分的标准差；

S33、计算用户之间的相似度sim，计算公式为，

其中，函数g()为S2中所述衰减函数。

优选地，S4所述计算用户之间的敏感性，根据用户之间的敏感性产生拉普拉斯噪声，将该噪声加上用户原本的相似度sim，得到新的相似度sim″，包括如下步骤：

S41、计算用户之间的敏感性，计算公式为，

Sensitivity(u,n)＝max||sim(u,n)-sim(u,n)′||₁，

其中，sim(u,n)为根据只有一条记录不同的数据库R所计算出来两个用户u和n的相似度，sim(u,n)′为根据只有一条记录不同的数据库R′所计算出来两个用户u和n的相似度，R代表整个评分数据库，每次只从R中删除一条用户u和用户n的共同打分的数据得到R′；

S42、计算前后的相似度之差，最后取最大的差值，即为用户u和用户n的敏感性；

S43、根据该敏感性产生相应满足拉普拉斯分布的噪声，拉普拉斯分布的均值为0，方差为该敏感性的值，最后将产生的噪声加上S3中得出的相似度sim，得到新的相似度sim″,计算公式为，

其中，u和n代表两个用户，ε为差分隐私算子。

优选地，S5所述根据新的相似度sim″，求得用户的最相似的N个邻居，包括如下步骤：将S4计算出的相似度sim″进行排序，相似度与用户之间的相似度成正比，选取用户最相似的N个邻居用户。

优选地，S6所述根据N个邻居的评分信息，使用Z-socres标准化后的协同过滤预测评分公式，预测评分，包括如下步骤：根据用户最相似的N个邻居的评分信息，使用Z-scores标准化后协同过滤预测评分公式，计算用户对物品的预测评分，预测评分公式为，

其中，N代表N个邻居，sim为S3中得出的相似度，

为用户u所做评分的均值，σ_u为用户u所做评分的标准差，R_ni为用户n对物品i的评分，

为用户n所做评分的均值，σ_n为用户n所做评分的标准差，sim(u,n)为根据只有一条记录不同的数据库R所计算出来两个用户u和n的相似度。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明通过结合数据标准化技术、用户的兴趣衰减权重以及拉普拉斯加噪机制来预测用户对物品的评分，保证了整个推荐***拥有较好的推荐精确度。同时，本发明还拥有较好的抵御攻击者攻击的能力，实现了推荐精确度和抵御攻击能力之间的平衡。此外，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于领域内的其他算法、分析项目中，具有十分广阔的应用前景。

综上所述，本发明提出了一种能抵御攻击的基于鲁棒协同过滤算法的推荐方法，具有很高的使用及推广价值。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明方法的流程图；

图2为本发明方法和已有的协同过滤推荐算法的推荐精确度对比图；

图3为本发明方法和已有的协同过滤推荐算法的抵御攻击能力的对比图。

具体实施方式

如图1所示，本发明揭示了一种能抵御攻击的基于鲁棒协同过滤算法的推荐方法。

S2、根据用户评分时间矩阵T_m×n计算用户的兴趣衰减权重；

S5、根据新的相似度sim″，求得用户的最相似的N个邻居；

S1所述数据集的每一行包括四个字段，分别为用户ID、物品ID、用户对该物品的评分以及评分时间。S1所述用户评分矩阵R_m×n及用户评分时间矩阵T_m×n二者均有m行、n列，所述用户评分矩阵R_m×n及用户评分时间矩阵T_m×n二者的行下标表示用户ID，列下标表示物品ID。

以movie lens数据集为例，该数据集每一行的有四个字段，分别为用户ID，电影ID，用户对该电影的评分(评分范围为1-5分)，以及评分的时间(时间戳)，根据这四个字段，分别构建用户的评分表(如表1)，以及用户的评分时间表(格式同表1)，再根据这两个表，构建用户评分矩阵R_m×n，以及用户评分时间矩阵T_m×n，两个矩阵(都有m行，n列)的行下标都代表了用户的ID，列下标都代表了物品的ID,两个矩阵的值分别为用户对物品的评分、评分时间。

表1用户物品评分表

S2所述根据用户评分时间矩阵T_m×n计算用户的兴趣衰减权重，包括如下步骤：使用用户的评分时间矩阵T_m×n，构建一个衰减函数作为用户的兴趣衰减权重，衰减函数表达式为，

S3所述根据用户的评分矩阵R_m×n以及用户的兴趣衰减权重将用户评分矩阵标准化为Z-scores，然后计算用户之间的相似度sim，包括如下步骤：

S31、使用Z-scores进行标准化数据转化，Z-scores计算公式为，

其中，R_ui为用户u对物品i的评分，

为用户u所做评分的均值，σ_u为用户u所做评分的标准差；

S32、计算经过Z-scores标准化后的用户相似度，计算公式为，

其中，u，n表示两个用户，集合C为两个用户共同打分的物品集合，C.length为该集合的长度，length_u为用户u评分集合的长度，length_n为用户n评分集合的长度，其余符号的定义均与之前的公式中的定义一致，即R_uk为用户u对物品k的评分，R_nk为用户n对物品k的评分，R_nj为用户n对物品j的评分，

为用户n所做评分的均值，σ_n为用户n所做评分的标准差；

S33、计算用户之间的相似度sim，计算公式为，

其中，函数g()为S2中所述衰减函数。

S4所述计算用户之间的敏感性，根据用户之间的敏感性产生拉普拉斯噪声，将该噪声加上用户原本的相似度sim，得到新的相似度sim″，包括如下步骤：

S41、计算用户之间的敏感性，计算公式为，

Sensitivity(u,n)＝max||sim(u,n)-sim(u,n)′||₁，

其中，u和n代表两个用户，ε为差分隐私算子，在本实施例中，取ε＝1。

S5所述根据新的相似度sim″，求得用户的最相似的N个邻居，包括如下步骤：将S4计算出的相似度sim″进行排序，相似度与用户之间的相似度成正比，相似度越大，用户之间越相似，选取用户最相似的N个邻居用户。

S6所述根据N个邻居的评分信息，使用Z-socres标准化后的协同过滤预测评分公式，预测评分，包括如下步骤：根据用户最相似的N个邻居的评分信息，使用Z-scores标准化后协同过滤预测评分公式，计算用户对物品的预测评分，预测评分公式为，

其中，N代表N个邻居，sim为S3中得出的相似度，其余符号的定义均与之前公式中的定义一致，即

图2为本发明方法和已有的协同过滤推荐算法的推荐精确度对比图，图例中的六种算法分别为:

1、baseCF(user base Collaborative Filtering)代表的是传统的基于用户的协同过滤推荐算法【F.Ricci,L.Rokach,B.Shapira,and P.B.Kantor,Recommender systemshandbook,Springer,2015】；

2、Z_CF(Z-scores Collaborative Filtering)代表的是Z-scores标准化后的baseCF【Herlocker,Jonathan L.,et al."An algorithmic framework for performingcollaborative filtering."Proceedings of the 22nd annual international ACMSIGIR conference on Research and development in information retrieval.ACM,1999】；

3、Z-T_CF(Z-scores Time Collaborative Filtering)代表的是在Z_CF的基础上引入用户兴趣衰减函数【Huai-Zhen,Yang,and Li Lei."An enhanced collaborativefiltering algorithm based on time weight."Information Engineering andElectronic Commerce,2009.IEEC'09.International Symposium on.IEEE,2009】；

4、RACF(Resist Attack Collaborative Filtering)代表的是Tianqing Zhu等人提出的一种基于拉普拉斯机制的抵御攻击的协同过滤推荐算法【Zhu,Tianqing,et al."Privacy preserving collaborative filtering for KNN attack resisting."Socialnetwork analysis and mining 4.1(2014):196.】；

5、Z_RRACF(Z-scores Robust Resist Attack Collaborative Filtering)代表的是本发明方法中的一部分，即基于拉普拉斯机制，引入Z-scores标准化技术；

6、Z-T_RRACF(Z-scores Time Robust Resist Attack CollaborativeFiltering)即为本发明方法。

如图2所示，实验以movie lens数据集为例，movie lens数据集包含10,000条评分信息，拥有943个用户以及1682部电影，并且每个用户至少评分过20部电影。采用简单的交叉验证，将数据按照8/2的比例划分为训练集和测试集，进行100次实验取平均得出最后的结果。图的横坐标代表了用户的相似邻居的数目，纵坐标代表的是均值误差(MAE)，MAE的计算公式为：

这里的P_i指的是预测的评分，r_i指的是真实的评分，n指的是测试集的数量。MAE越低就代表了预测评分与真实评分越接近，推荐越精确。从图2中我们可以很明显的看出，本方法与几种已有的协同过滤推荐算法相比，拥有较好的推荐精确度。

图3即为将图2中的六种算法分别进行攻击实验，用来验证算法的抵御攻击的能力。攻击实验使用Bamshad Mobasher,Robin Burke等人提出的random attack【MobasherB,Burke R,Bhaumik R,et al.Attacks and remedies in collaborativerecommendation[J].IEEE Intelligent Systems,2007,22(3)】，实验选取五十个targetitem，攻击范围(attack size)为总用户数的15％，每一个攻击者随机选取总物品(除去50个target item)的15％进行随机的评分(1-5分)，然后对target item进行push/nukeattack(统计所有对target item的评分的均值，如果小于2.5那么攻击者就对target item评分5分(push attack)，否则1分(nuke attack))。这样就完成了攻击者的注入。实验分别选择30、40、50个最近邻居，实验进行100次攻击后取平均。

如图3所示，本发明(Z-T_RRACF)和已有的协同过滤推荐算法的抵御攻击能力的对比图。图的横坐标代表了用户的相似邻居的数目，纵坐标代表的是预测漂移(简称PS)，PS(prediction shift)的计算公式为：

PS＝p′-p，

这里的p′代表了攻击后的MAE，p代表了未攻击时的MAE，PS的值越低，就代表了抵御攻击的能力越强。从图3中我们可以很明显的看出，本发明与几种已有的协同过滤推荐算法相比，拥有较好的抵御攻击者攻击的能力。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于鲁棒协同过滤算法的推荐方法，其特征在于，包括如下步骤：

所述用户评分矩阵R_m×n及用户评分时间矩阵T_m×n二者均有m行、n列，所述用户评分矩阵R_m×n及用户评分时间矩阵T_m×n二者的行下标表示用户ID，列下标表示物品ID；

S2、根据用户评分时间矩阵T_m×n计算用户的兴趣衰减权重；

所述根据用户评分时间矩阵T_m×n计算用户的兴趣衰减权重，包括如下步骤：使用用户的评分时间矩阵T_m×n，构建一个衰减函数作为用户的兴趣衰减权重，衰减函数表达式为，

其中，T_ui为用户u对物品i的评分时间，Tu为用户u对物品的评分时间的集合，Tu_max为用户u在该集合里的最近评分时间，Tu_min为用户u在该集合里的最远评分时间；

所述根据用户的评分矩阵R_m×n以及用户的兴趣衰减权重将用户评分矩阵标准化为Z-scores，然后计算用户之间的相似度sim，包括如下步骤：

S31、使用Z-scores进行标准化数据转化，Z-scores计算公式为，

其中，R_ui为用户u对物品i的评分，

为用户u所做评分的均值，σ_u为用户u所做评分的标准差；

S32、计算经过Z-scores标准化后的用户相似度，计算公式为，

为用户n所做评分的均值，σ_n为用户n所做评分的标准差；

S33、计算用户之间的相似度sim，计算公式为，

其中，函数g()为S2中所述衰减函数；

所述计算用户之间的敏感性，根据用户之间的敏感性产生拉普拉斯噪声，将该噪声加上用户原本的相似度sim，得到新的相似度sim″，包括如下步骤：

S41、计算用户之间的敏感性，计算公式为，

Sensitivity(u，n)＝max||sim(u，n)-sim(u，n)′||₁，

其中，sim(u，n)为根据只有一条记录不同的数据库R所计算出来两个用户u和n的相似度，sim(u，n)′为根据只有一条记录不同的数据库R′所计算出来两个用户u和n的相似度，R代表整个评分数据库，每次只从R中删除一条用户u和用户n 的共同打分的数据得到R′；

S43、根据该敏感性产生相应满足拉普拉斯分布的噪声，拉普拉斯分布的均值为0，方差为该敏感性的值，最后将产生的噪声加上S3中得出的相似度sim，得到新的相似度sim″，计算公式为，

其中，u和n代表两个用户，ε为差分隐私算子；

S5、根据新的相似度sim″，求得用户的最相似的N个邻居；

S6、根据N个邻居的评分信息，使用Z-socres标准化后的协同过滤预测评分公式，预测评分；

所述根据N个邻居的评分信息，使用Z-socres标准化后的协同过滤预测评分公式，预测评分，包括如下步骤：根据用户最相似的N个邻居的评分信息，使用Z-scores标准化后协同过滤预测评分公式，计算用户对物品的预测评分，预测评分公式为，

其中，N代表N个邻居，sim为S3中得出的相似度，

为用户n所做评分的均值，σ_n为用户n所做评分的标准差，sim(u，n)为根据只有一条记录不同的数据库R所计算出来两个用户u和n的相似度。

2.根据权利要求1所述的基于鲁棒协同过滤算法的推荐方法，其特征在于：S1所述数据集的每一行包括四个字段，分别为用户ID、物品ID、用户对该物品的评分以及评分时间。

3.根据权利要求1所述的基于鲁棒协同过滤算法的推荐方法，其特征在于，S5所述根据新的相似度sim″，求得用户的最相似的N个邻居，包括如下步骤：将S4计算出的相似度sim″进行排序，相似度与用户之间的相似度成正比，选取用户最相似的N个邻居用户。