CN101320461A

CN101320461A - 基于电阻网络和稀疏数据预测的协同过滤方法

Info

Publication number: CN101320461A
Application number: CNA2008100627421A
Authority: CN
Inventors: 庄越挺; 吴江琴; 马骋; 张寅�
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-07-01
Filing date: 2008-07-01
Publication date: 2008-12-10

Abstract

本发明公开了一种基于电阻网络和稀疏数据预测的协同过滤方法。包括如下步骤：1)通过电阻网络计算用户之间或物品之间的相似度；2)根据预先设定的标准提取相似用户或物品的集合；3)对评分矩阵中的稀疏数据进行有选择性地预测；4)根据实际应用的需要进行评分预测。本发明采用了一种新颖的基于电阻网络模型的相似度计算方法，更多的利用了评分矩阵中的有益信息。给出相似邻居的判断标准，抽取有益的信息。给出一种有效的稀疏数据预测算法：集成使用物品间相似度与用户间相似度，有选择性地预测有益的缺失评分，减轻了数据稀疏性的负面影响，在扩大后的评分集合基础上预测最终的用户评分，提高了预测的准确性。

Description

基于电阻网络和稀疏数据预测的协同过滤方法

技术领域

本发明涉及一种基于电阻网络和稀疏数据预测的协同过滤方法，是个性化推荐技术中一个非常重要的研究方向，在数字图书馆，电子商务及社会网络等领域有着广泛的应用。

背景技术

协同过滤基于这样的基本假设：当前用户会喜欢那些和他相似的用户喜欢的东西。对协同过滤的研究是从基于记忆的方法开始的。协同过滤技术的基本思想是通过比较用户过去的兴趣和行为的相似程度，找出和目标用户具有相同或相似兴趣的用户组，再根据他们对资源的评价来预测目标用户的兴趣，达到向目标用户推荐数字资源的目的。协同过滤的本质是根据用户对信息的评价得到用户的兴趣，判断相似用户，从而向用户推荐新信息。在这一过程中，***作了两次推断：从用户对一些信息的评价推断出用户的兴趣；从用户的兴趣推断出相似用户群。已有的协同过滤***在这两次推断中所用的信息通常为用户对一些信息条目的显式评价。

这种方法利用整个用户-物品矩阵来生成基于用户或物品相似度的预测。有两种基于记忆的方法：基于用户的协同过滤和基于物品的协同过滤。基于用户的方法首先寻找那些与当前用户有着相似评分风格的用户，这些用户被称为相似用户，然后根据相似用户已有的评分信息来为当前用户进行评分预测。基于物品的方法在想法上与基于用户的方法是一致的。唯一不同的是基于用户的方法是为当前用户寻找相似的用户，而基于物品的方法却是为当前物品寻找相似的物品。无论是基于用户还是基于物品的方法，对相似度的计算都是该算法中的关键步骤。著名的相似度算法包括Pearson Correlation Coefficient(PCC)和Vector Space Similarity(VSS)算法。

与传统文本过滤相比，协同过滤有下列优点：

1)能够过滤难以进行机器自动内容分析(Content based)的信息，像艺术品、音乐。

2)共享其他人的经验，避免了内容分析的不完全和不精确，并且能够基于一些复杂的，难以表述的概念(如信息质量、品味)进行过滤。

3)可以有效的使用其他相似用户的反馈信息，减少用户的反馈量，加快个性化学习的速度。

4)具有推荐新信息的能力。

协同过滤还有很大的不足，这是由协同过滤的本质决定：要获得满意的效果，必须得到准确的用户信息，一般而言，这需要建立在拥有大量的用户信息数据的基础上，所以很难做到。这使得协同过滤技术应用领域较为狭窄(几乎都集中在娱乐方面：音乐、电影......)，在更广的领域(如在基于内容过滤相当成功的文本相关性领域)的应用还很不够。

解决的途径不外乎两条：

1)发展信息获取技术：利用各种途径，合理有效的获得、使用更多的用户信息。

2)发展信息挖掘技术：在有限的原始数据中最大程度的找出有用的信息。

虽然基于记忆的协同过滤算法已经被广泛应用在推荐***中，但是无论是基于用户的还是基于物品的方法，推荐结果的不准确问题依然存在。基于记忆的协同算法会存在这样的问题，根源在于用户-物品矩阵的稀疏性。最近已经提出了很多算法来减轻数据的稀疏性问题。在相似度计算方面，基于PCC的算法虽然被普遍应用，但它还是不能充分利用用户-物品矩阵中的信息，而且该算法需要有相似的用户或物品，在这两者都缺失的情况下就不起作用了。

发明内容

本发明的目的在于针对现有技术存在的不足，提供一种基于电阻网络和系数数据预测的协同过滤方法，能够提高个性化推荐的质量，达到理想的实用效果。

基于电阻网络和稀疏数据预测的协同过滤方法包括如下步骤：

1)通过电阻网络计算用户之间或物品之间的相似度；

2)根据预先设定的标准提取相似用户或物品的集合；

3)对评分矩阵中的稀疏数据进行有选择性地预测；

4)根据实际应用的需要进行评分预测。

所述通过电阻网络计算用户之间或物品之间的相似度步骤：由评分矩阵得到评分图，相似度的计算对应于评分图中的相应节点的电阻距离计算，抽取相应节点的评分子图，使用电导来衡量节点之间的相似度，在两个节点上加上一个单位电压后，这个网络中的电流就等价于总的电导值，设xa＝0，xb＝1，对于每个节点V，以及它的相邻节点V1～Vk，流入节点V的总电流为0，根据这一点得到以下一组方程：

\underset{i}{Σ} I_{i} = 0

\underset{i}{Σ} r_{i} (x_{V} - x_{Vi}) = 0

\underset{i}{Σ} r_{i} \cdot x_{V} - r_{i} \cdot x_{Vi} = 0

(\underset{i}{Σ} r_{i}) x_{V} = \underset{i}{Σ} r_{i} \cdot x_{Vi}

方程组解得评分子图中每个节点的电势，从节点A流向节点B的电流值也就是与节点A相邻的各条边上的电流值的总和，用数学公式可以表示如下：

I_{AB} = \underset{i}{Σ} I_{AVi} = \underset{i}{Σ} r_{AVi} \cdot (x_{Vi} - x_{A}) = \underset{i}{Σ} r_{AVi} \cdot x_{Vi}

最后电阻距离表示为：

所述根据预先设定的标准提取相似用户或物品的集合步骤：引入阈值η和θ，如果某个用户与当前用户之间的相似度大于η，那么这个用户是当前用户的相似用户，如果某个物品与当前物品之间的相似度大于θ，那么这个物品是当前物品的相似物品，对于每一个缺失的评分信息r_(u，i)，选取用户u为目标用户，生成一个相似用户的集合：

S(u)＝{u_a|Sim(u_a，u)＞η，u_a≠u}

同样的，选取物品i为目标物品，生成一个相似物品的集合：

S(i)＝{i_k|Sim(i_k，i)＞θ，i_k≠i}

所述对评分矩阵中的稀疏数据进行有选择性地预测步骤：利用来自用户和物品的信息，并且在处理用户-物品矩阵中的稀疏数据的问题上是有选择性地进行预测，预测的方法为：给定一个评分矩阵中的稀疏信息P_(u，i)，如果那么这个稀疏信息P_(u，i)的计算如下：

P_{(u, i)} = λ \times (\overset{&OverBar;}{u} + \frac{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u)})

+ (1 - λ) \times (\overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)})

如果

P_{(u, i)} = \overset{&OverBar;}{u} + \frac{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u)}

如果

P_{(u, i)} = \overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)}

如果

P_(u，i)＝0

λ为线性拟和系数，值域为[0，1]，u为目标用户，i为目标物品，用户u_a属于相似用户集合S(u)，物品i_k属于相似物品集合S(i)，u为用户u的平均值，i为物品i的平均值，u_a为用户u_a的平均值，i_k为物品i_k的平均值，Sim(u_a，u)表示用户u_a和u的相似度，Sim(i_k，i)表示物品i_k和i的相似度，r_(ua，i)表示用户u_a对物品i的评分值，r_(u，ik)表示用户u对物品i_k的评分值

所述根据实际应用的需要进行评分预测步骤：在稀疏数据预测完成之后，评分矩阵得到了扩展，给定一个需要预测的评分信息P_(a，i)，生成相似用户集合S(a)与相似物品集合S(i)，如果

那么P_(a，i)的计算如下：

P_{(a, i)} = λ \times (\overset{&OverBar;}{a} + \frac{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a)})

+ (1 - λ) \times (\overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)})

如果

P_{(a, i)} = \overset{&OverBar;}{a} + \frac{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a)}

如果

P_{(a, i)} = \overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(a, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)}

如果

P_(a，i)＝λ×r_a+(1-λ)×r_i

λ为线性拟和系数，值域为[0，1]，a为目标用户，i为目标物品，用户u_a属于相似用户集合S(a)，物品i_k属于相似物品集合S(i)，a为用户a的平均值，i为物品i的平均值，u_a为用户u_a的平均值，i_k为物品i_k的平均值，Sim(u_a，a)表示用户u_a和u的相似度，Sim(i_k，i)表示物品i_k和i的相似度，r_(ua，i)表示用户u_a对物品i的评分值，r_(a，ik)表示用户a对物品i_k的评分值。

本发明与现有技术相比具有的有益效果：

1)采用了一种新颖的基于电阻网络模型的相似度计算方法，更多的利用了评分矩阵中的有益信息；

2)给出相似邻居的判断标准，抽取有益的信息；

3)给出一种有效的稀疏数据预测算法：集成使用物品间相似度与用户间相似度，有选择性地预测有益的缺失评分，减轻了数据稀疏性的负面影响，在扩大后的评分集合基础上预测最终的用户评分，提高了预测的准确性。

附图说明

图1为本发明的评分矩阵和相应的评分图；

图2为本发明的评分子图；

图3为本发明的计算AB两点的电阻距离的实例；

图4为本发明的稀疏数据预测前后的评分矩阵。

具体实施方法

1)通过电阻网络计算用户之间或物品之间的相似度；

2)根据预先设定的标准提取相似用户或物品的集合；

3)对评分矩阵中的稀疏数据进行有选择性地预测；

4)根据实际应用的需要进行评分预测。

所述通过电阻网络计算用户之间或物品之间的相似度步骤：如图1所示，由评分矩阵得到评分图，相似度的计算对应于评分图中的相应节点的电阻距离计算，在具体的计算时抽取相应节点的评分子图(如图2)。所抽取的评分子图有如下性质：

a)一条有若干条边组成的路径(类似电阻的串联)必须对应较低的相似度值。

b)并行的路径的相似度值是各条路径值的总和。

使用电导来衡量节点之间的相似度，在两个节点上加上一个单位电压后，这个网络中的电流就等价于总的电导值，设xa＝0，xb＝1(如图3)，对于每个节点V，以及它的相邻节点V1～Vk，流入节点V的总电流为0，根据这一点得到以下一组方程：

\underset{i}{Σ} I_{i} = 0

\underset{i}{Σ} r_{i} (x_{V} - x_{Vi}) = 0

\underset{i}{Σ} r_{i} \cdot x_{V} - r_{i} \cdot x_{Vi} = 0

(\underset{i}{Σ} r_{i}) x_{V} = \underset{i}{Σ} r_{i} \cdot x_{Vi}

I_{AB} = \underset{i}{Σ} I_{AVi} = \underset{i}{Σ} r_{AVi} \cdot (x_{Vi} - x_{A}) = \underset{i}{Σ} r_{AVi} \cdot x_{Vi}

最后电阻距离表示为：

下面根据图3举例说明：

需要就是那A，B两点的相似度，也就是这两点的等价电导值，首先计算个点的电势，根据流入各节点的总电流为0，得到如下一组方程：

x_A＝0

x_B＝1

2·x_C＝x_A+x_D

3·x_D＝x_A+x_B+x_C

解得：

r_{eq} = x_{C} + x_{D} = \frac{1}{5} + \frac{2}{5} = \frac{3}{5}

S(u)＝{u_a|Sim(u_a，u)＞η，u_a≠u}

同样的，选取物品i为目标物品，生成一个相似物品的集合：

S(i)＝{i_k|Sim(i_k，i)＞θ，i_k≠i}

所述对评分矩阵中的稀疏数据进行有选择性地预测步骤：利用来自用户和物品的信息，并且在处理用户-物品矩阵中的稀疏数据的问题上是有选择性地进行预测，预测的方法为：给定一个评分矩阵中的稀疏信息P_(u，i)，如果

那么这个稀疏信息P_(u，i)的计算如下：

P_{(u, i)} = λ \times (\overset{&OverBar;}{u} + \frac{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u)})

+ (1 - λ) \times (\overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)})

如果

P_{(u, i)} = \overset{&OverBar;}{u} + \frac{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u)}

如果

P_{(u, i)} = \overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)}

如果

P_(u，i)＝0

那么P_(a，i)的计算如下：

P_{(a, i)} = λ \times (\overset{&OverBar;}{a} + \frac{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a)})

+ (1 - λ) \times (\overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)})

如果

P_{(a, i)} = \overset{&OverBar;}{a} + \frac{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a)}

如果

P_{(a, i)} = \overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(a, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)}

如果

P_(a，i)＝λ×r_a+(1-λ)×r_i

Claims

1.一种基于电阻网络和稀疏数据预测的协同过滤方法，其特征在于包括如下步骤：

1)通过电阻网络计算用户之间或物品之间的相似度；

2)根据预先设定的标准提取相似用户或物品的集合；

3)对评分矩阵中的稀疏数据进行有选择性地预测；

4)根据实际应用的需要进行评分预测。

2.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法，其特征在于：所述通过电阻网络计算用户之间或物品之间的相似度步骤：由评分矩阵得到评分图，相似度的计算对应于评分图中的相应节点的电阻距离计算，抽取相应节点的评分子图，使用电导来衡量节点之间的相似度，在两个节点上加上一个单位电压后，这个网络中的电流就等价于总的电导值，设xa＝0，xb＝1，对于每个节点V，以及它的相邻节点V1～Vk，流入节点V的总电流为0，根据这一点得到以下一组方程：

\underset{i}{Σ} I_{i} = 0

\underset{i}{Σ} r_{i} (x_{V} - x_{Vi}) = 0

\underset{i}{Σ} r_{i} \cdot x_{V} - r_{i} \cdot x_{Vi} = 0

(\underset{i}{Σ} r_{i}) x_{V} = \underset{i}{Σ} r_{i} \cdot x_{Vi}

I_{AB} = \underset{i}{Σ} I_{AVi} = \underset{i}{Σ} r_{AVi} (x_{Vi} - x_{A}) = \underset{I}{Σ} r_{AVi} \cdot x_{Vi}

最后电阻距离表示为：

3.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法，其特征在于：所述根据预先设定的标准提取相似用户或物品的集合步骤：引入阈值η和θ，如果某个用户与当前用户之间的相似度大于η，那么这个用户是当前用户的相似用户，如果某个物品与当前物品之间的相似度大于θ，那么这个物品是当前物品的相似物品，对于每一个缺失的评分信息r_(u，i)，选取用户u为目标用户，生成一个相似用户的集合：

S(u)＝{u_a|Sim(u_a，u)＞η，u_a≠u}

同样的，选取物品i为目标物品，生成一个相似物品的集合：

S(i)＝{i_k|Sim(i_k，i)＞θ，i_k≠i}。

4.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法，其特征在于：所述对评分矩阵中的稀疏数据进行有选择性地预测步骤：利用来自用户和物品的信息，并且在处理用户-物品矩阵中的稀疏数据的问题上是有选择性地进行预测，预测的方法为：给定一个评分矩阵中的稀疏信息P_(u，i)，如果

那么这个稀疏信息P_(u，i)的计算如下：

P_{(u, i)} = λ \times (\overset{&OverBar;}{u} + \frac{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u)})

+ (1 - λ) \times (\overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)})

如果

P_{(u, i)} = \overset{&OverBar;}{u} + \frac{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (u)}{Σ} Sim (u_{a}, u)}

如果

P_{(u, i)} = \overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)}

如果

P_(u，i)＝0

λ为线性拟和系数，值域为[0，1]，u为目标用户，i为目标物品，用户u_a属于相似用户集合S(u)，物品i_k属于相似物品集合S(i)，u为用户u的平均值，i为物品i的平均值，u_a为用户u_a的平均值，i_k为物品i_k的平均值，Sim(u_a，u)表示用户u_a和u的相似度，Sim(i_k，i)表示物品i_k和i的相似度，r_(ua，i)表示用户u_a对物品i的评分值，r_(u，ik)表示用户u对物品i_k的评分值。

5.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法，其特征在于：所述根据实际应用的需要进行评分预测步骤：在稀疏数据预测完成之后，评分矩阵得到了扩展，给定一个需要预测的评分信息P_(a，i)，生成相似用户集合S(a)与相似物品集合S(i)，如果

那么P_(a，i)的计算如下：

P_{(a, i)} = λ \times (\overset{&OverBar;}{a} + \frac{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a)})

+ (1 - λ) \times (\overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(u, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)})

如果

P_{(a, i)} = \overset{&OverBar;}{a} + \frac{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a) \cdot (r_{(ua, i)} - \overset{&OverBar;}{u_{a}})}{\underset{ua &Element; S (a)}{Σ} Sim (u_{a}, a)}

如果

P_{(a, i)} = \overset{&OverBar;}{i} + \frac{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i) \cdot (r_{(a, ik)} - \overset{&OverBar;}{i_{k}})}{\underset{ik &Element; S (i)}{Σ} Sim (i_{k}, i)}

如果

P_(a，i)＝λ×r_a+(1-λ)×r_i