CN101320461A - 基于电阻网络和稀疏数据预测的协同过滤方法 - Google Patents
基于电阻网络和稀疏数据预测的协同过滤方法 Download PDFInfo
- Publication number
- CN101320461A CN101320461A CNA2008100627421A CN200810062742A CN101320461A CN 101320461 A CN101320461 A CN 101320461A CN A2008100627421 A CNA2008100627421 A CN A2008100627421A CN 200810062742 A CN200810062742 A CN 200810062742A CN 101320461 A CN101320461 A CN 101320461A
- Authority
- CN
- China
- Prior art keywords
- article
- sigma
- sim
- user
- overbar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于电阻网络和稀疏数据预测的协同过滤方法。包括如下步骤:1)通过电阻网络计算用户之间或物品之间的相似度;2)根据预先设定的标准提取相似用户或物品的集合;3)对评分矩阵中的稀疏数据进行有选择性地预测;4)根据实际应用的需要进行评分预测。本发明采用了一种新颖的基于电阻网络模型的相似度计算方法,更多的利用了评分矩阵中的有益信息。给出相似邻居的判断标准,抽取有益的信息。给出一种有效的稀疏数据预测算法:集成使用物品间相似度与用户间相似度,有选择性地预测有益的缺失评分,减轻了数据稀疏性的负面影响,在扩大后的评分集合基础上预测最终的用户评分,提高了预测的准确性。
Description
技术领域
本发明涉及一种基于电阻网络和稀疏数据预测的协同过滤方法,是个性化推荐技术中一个非常重要的研究方向,在数字图书馆,电子商务及社会网络等领域有着广泛的应用。
背景技术
协同过滤基于这样的基本假设:当前用户会喜欢那些和他相似的用户喜欢的东西。对协同过滤的研究是从基于记忆的方法开始的。协同过滤技术的基本思想是通过比较用户过去的兴趣和行为的相似程度,找出和目标用户具有相同或相似兴趣的用户组,再根据他们对资源的评价来预测目标用户的兴趣,达到向目标用户推荐数字资源的目的。协同过滤的本质是根据用户对信息的评价得到用户的兴趣,判断相似用户,从而向用户推荐新信息。在这一过程中,***作了两次推断:从用户对一些信息的评价推断出用户的兴趣;从用户的兴趣推断出相似用户群。已有的协同过滤***在这两次推断中所用的信息通常为用户对一些信息条目的显式评价。
这种方法利用整个用户-物品矩阵来生成基于用户或物品相似度的预测。有两种基于记忆的方法:基于用户的协同过滤和基于物品的协同过滤。基于用户的方法首先寻找那些与当前用户有着相似评分风格的用户,这些用户被称为相似用户,然后根据相似用户已有的评分信息来为当前用户进行评分预测。基于物品的方法在想法上与基于用户的方法是一致的。唯一不同的是基于用户的方法是为当前用户寻找相似的用户,而基于物品的方法却是为当前物品寻找相似的物品。无论是基于用户还是基于物品的方法,对相似度的计算都是该算法中的关键步骤。著名的相似度算法包括Pearson Correlation Coefficient(PCC)和Vector Space Similarity(VSS)算法。
与传统文本过滤相比,协同过滤有下列优点:
1)能够过滤难以进行机器自动内容分析(Content based)的信息,像艺术品、音乐。
2)共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、品味)进行过滤。
3)可以有效的使用其他相似用户的反馈信息,减少用户的反馈量,加快个性化学习的速度。
4)具有推荐新信息的能力。
协同过滤还有很大的不足,这是由协同过滤的本质决定:要获得满意的效果,必须得到准确的用户信息,一般而言,这需要建立在拥有大量的用户信息数据的基础上,所以很难做到。这使得协同过滤技术应用领域较为狭窄(几乎都集中在娱乐方面:音乐、电影......),在更广的领域(如在基于内容过滤相当成功的文本相关性领域)的应用还很不够。
解决的途径不外乎两条:
1)发展信息获取技术:利用各种途径,合理有效的获得、使用更多的用户信息。
2)发展信息挖掘技术:在有限的原始数据中最大程度的找出有用的信息。
虽然基于记忆的协同过滤算法已经被广泛应用在推荐***中,但是无论是基于用户的还是基于物品的方法,推荐结果的不准确问题依然存在。基于记忆的协同算法会存在这样的问题,根源在于用户-物品矩阵的稀疏性。最近已经提出了很多算法来减轻数据的稀疏性问题。在相似度计算方面,基于PCC的算法虽然被普遍应用,但它还是不能充分利用用户-物品矩阵中的信息,而且该算法需要有相似的用户或物品,在这两者都缺失的情况下就不起作用了。
发明内容
本发明的目的在于针对现有技术存在的不足,提供一种基于电阻网络和系数数据预测的协同过滤方法,能够提高个性化推荐的质量,达到理想的实用效果。
基于电阻网络和稀疏数据预测的协同过滤方法包括如下步骤:
1)通过电阻网络计算用户之间或物品之间的相似度;
2)根据预先设定的标准提取相似用户或物品的集合;
3)对评分矩阵中的稀疏数据进行有选择性地预测;
4)根据实际应用的需要进行评分预测。
所述通过电阻网络计算用户之间或物品之间的相似度步骤:由评分矩阵得到评分图,相似度的计算对应于评分图中的相应节点的电阻距离计算,抽取相应节点的评分子图,使用电导来衡量节点之间的相似度,在两个节点上加上一个单位电压后,这个网络中的电流就等价于总的电导值,设xa=0,xb=1,对于每个节点V,以及它的相邻节点V1~Vk,流入节点V的总电流为0,根据这一点得到以下一组方程:
方程组解得评分子图中每个节点的电势,从节点A流向节点B的电流值也就是与节点A相邻的各条边上的电流值的总和,用数学公式可以表示如下:
最后电阻距离表示为:
所述根据预先设定的标准提取相似用户或物品的集合步骤:引入阈值η和θ,如果某个用户与当前用户之间的相似度大于η,那么这个用户是当前用户的相似用户,如果某个物品与当前物品之间的相似度大于θ,那么这个物品是当前物品的相似物品,对于每一个缺失的评分信息r(u,i),选取用户u为目标用户,生成一个相似用户的集合:
S(u)={ua|Sim(ua,u)>η,ua≠u}
同样的,选取物品i为目标物品,生成一个相似物品的集合:
S(i)={ik|Sim(ik,i)>θ,ik≠i}
所述对评分矩阵中的稀疏数据进行有选择性地预测步骤:利用来自用户和物品的信息,并且在处理用户-物品矩阵中的稀疏数据的问题上是有选择性地进行预测,预测的方法为:给定一个评分矩阵中的稀疏信息P(u,i),如果那么这个稀疏信息P(u,i)的计算如下:
如果
P(u,i)=0
λ为线性拟和系数,值域为[0,1],u为目标用户,i为目标物品,用户ua属于相似用户集合S(u),物品ik属于相似物品集合S(i),u为用户u的平均值,i为物品i的平均值,ua为用户ua的平均值,ik为物品ik的平均值,Sim(ua,u)表示用户ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用户ua对物品i的评分值,r(u,ik)表示用户u对物品ik的评分值
所述根据实际应用的需要进行评分预测步骤:在稀疏数据预测完成之后,评分矩阵得到了扩展,给定一个需要预测的评分信息P(a,i),生成相似用户集合S(a)与相似物品集合S(i),如果那么P(a,i)的计算如下:
P(a,i)=λ×ra+(1-λ)×ri
λ为线性拟和系数,值域为[0,1],a为目标用户,i为目标物品,用户ua属于相似用户集合S(a),物品ik属于相似物品集合S(i),a为用户a的平均值,i为物品i的平均值,ua为用户ua的平均值,ik为物品ik的平均值,Sim(ua,a)表示用户ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用户ua对物品i的评分值,r(a,ik)表示用户a对物品ik的评分值。
本发明与现有技术相比具有的有益效果:
1)采用了一种新颖的基于电阻网络模型的相似度计算方法,更多的利用了评分矩阵中的有益信息;
2)给出相似邻居的判断标准,抽取有益的信息;
3)给出一种有效的稀疏数据预测算法:集成使用物品间相似度与用户间相似度,有选择性地预测有益的缺失评分,减轻了数据稀疏性的负面影响,在扩大后的评分集合基础上预测最终的用户评分,提高了预测的准确性。
附图说明
图1为本发明的评分矩阵和相应的评分图;
图2为本发明的评分子图;
图3为本发明的计算AB两点的电阻距离的实例;
图4为本发明的稀疏数据预测前后的评分矩阵。
具体实施方法
基于电阻网络和稀疏数据预测的协同过滤方法包括如下步骤:
1)通过电阻网络计算用户之间或物品之间的相似度;
2)根据预先设定的标准提取相似用户或物品的集合;
3)对评分矩阵中的稀疏数据进行有选择性地预测;
4)根据实际应用的需要进行评分预测。
所述通过电阻网络计算用户之间或物品之间的相似度步骤:如图1所示,由评分矩阵得到评分图,相似度的计算对应于评分图中的相应节点的电阻距离计算,在具体的计算时抽取相应节点的评分子图(如图2)。所抽取的评分子图有如下性质:
a)一条有若干条边组成的路径(类似电阻的串联)必须对应较低的相似度值。
b)并行的路径的相似度值是各条路径值的总和。
使用电导来衡量节点之间的相似度,在两个节点上加上一个单位电压后,这个网络中的电流就等价于总的电导值,设xa=0,xb=1(如图3),对于每个节点V,以及它的相邻节点V1~Vk,流入节点V的总电流为0,根据这一点得到以下一组方程:
方程组解得评分子图中每个节点的电势,从节点A流向节点B的电流值也就是与节点A相邻的各条边上的电流值的总和,用数学公式可以表示如下:
最后电阻距离表示为:
下面根据图3举例说明:
需要就是那A,B两点的相似度,也就是这两点的等价电导值,首先计算个点的电势,根据流入各节点的总电流为0,得到如下一组方程:
xA=0
xB=1
2·xC=xA+xD
3·xD=xA+xB+xC
解得:
所述根据预先设定的标准提取相似用户或物品的集合步骤:引入阈值η和θ,如果某个用户与当前用户之间的相似度大于η,那么这个用户是当前用户的相似用户,如果某个物品与当前物品之间的相似度大于θ,那么这个物品是当前物品的相似物品,对于每一个缺失的评分信息r(u,i),选取用户u为目标用户,生成一个相似用户的集合:
S(u)={ua|Sim(ua,u)>η,ua≠u}
同样的,选取物品i为目标物品,生成一个相似物品的集合:
S(i)={ik|Sim(ik,i)>θ,ik≠i}
所述对评分矩阵中的稀疏数据进行有选择性地预测步骤:利用来自用户和物品的信息,并且在处理用户-物品矩阵中的稀疏数据的问题上是有选择性地进行预测,预测的方法为:给定一个评分矩阵中的稀疏信息P(u,i),如果那么这个稀疏信息P(u,i)的计算如下:
P(u,i)=0
λ为线性拟和系数,值域为[0,1],u为目标用户,i为目标物品,用户ua属于相似用户集合S(u),物品ik属于相似物品集合S(i),u为用户u的平均值,i为物品i的平均值,ua为用户ua的平均值,ik为物品ik的平均值,Sim(ua,u)表示用户ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用户ua对物品i的评分值,r(u,ik)表示用户u对物品ik的评分值
所述根据实际应用的需要进行评分预测步骤:在稀疏数据预测完成之后,评分矩阵得到了扩展,给定一个需要预测的评分信息P(a,i),生成相似用户集合S(a)与相似物品集合S(i),如果那么P(a,i)的计算如下:
如果
P(a,i)=λ×ra+(1-λ)×ri
λ为线性拟和系数,值域为[0,1],a为目标用户,i为目标物品,用户ua属于相似用户集合S(a),物品ik属于相似物品集合S(i),a为用户a的平均值,i为物品i的平均值,ua为用户ua的平均值,ik为物品ik的平均值,Sim(ua,a)表示用户ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用户ua对物品i的评分值,r(a,ik)表示用户a对物品ik的评分值。
Claims (5)
1.一种基于电阻网络和稀疏数据预测的协同过滤方法,其特征在于包括如下步骤:
1)通过电阻网络计算用户之间或物品之间的相似度;
2)根据预先设定的标准提取相似用户或物品的集合;
3)对评分矩阵中的稀疏数据进行有选择性地预测;
4)根据实际应用的需要进行评分预测。
2.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法,其特征在于:所述通过电阻网络计算用户之间或物品之间的相似度步骤:由评分矩阵得到评分图,相似度的计算对应于评分图中的相应节点的电阻距离计算,抽取相应节点的评分子图,使用电导来衡量节点之间的相似度,在两个节点上加上一个单位电压后,这个网络中的电流就等价于总的电导值,设xa=0,xb=1,对于每个节点V,以及它的相邻节点V1~Vk,流入节点V的总电流为0,根据这一点得到以下一组方程:
方程组解得评分子图中每个节点的电势,从节点A流向节点B的电流值也就是与节点A相邻的各条边上的电流值的总和,用数学公式可以表示如下:
最后电阻距离表示为:
3.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法,其特征在于:所述根据预先设定的标准提取相似用户或物品的集合步骤:引入阈值η和θ,如果某个用户与当前用户之间的相似度大于η,那么这个用户是当前用户的相似用户,如果某个物品与当前物品之间的相似度大于θ,那么这个物品是当前物品的相似物品,对于每一个缺失的评分信息r(u,i),选取用户u为目标用户,生成一个相似用户的集合:
S(u)={ua|Sim(ua,u)>η,ua≠u}
同样的,选取物品i为目标物品,生成一个相似物品的集合:
S(i)={ik|Sim(ik,i)>θ,ik≠i}。
4.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法,其特征在于:所述对评分矩阵中的稀疏数据进行有选择性地预测步骤:利用来自用户和物品的信息,并且在处理用户-物品矩阵中的稀疏数据的问题上是有选择性地进行预测,预测的方法为:给定一个评分矩阵中的稀疏信息P(u,i),如果那么这个稀疏信息P(u,i)的计算如下:
如果
P(u,i)=0
λ为线性拟和系数,值域为[0,1],u为目标用户,i为目标物品,用户ua属于相似用户集合S(u),物品ik属于相似物品集合S(i),u为用户u的平均值,i为物品i的平均值,ua为用户ua的平均值,ik为物品ik的平均值,Sim(ua,u)表示用户ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用户ua对物品i的评分值,r(u,ik)表示用户u对物品ik的评分值。
5.根据权利要求1所述的一种基于电阻网络和稀疏数据预测的协同过滤方法,其特征在于:所述根据实际应用的需要进行评分预测步骤:在稀疏数据预测完成之后,评分矩阵得到了扩展,给定一个需要预测的评分信息P(a,i),生成相似用户集合S(a)与相似物品集合S(i),如果那么P(a,i)的计算如下:
如果
P(a,i)=λ×ra+(1-λ)×ri
λ为线性拟和系数,值域为[0,1],a为目标用户,i为目标物品,用户ua属于相似用户集合S(a),物品ik属于相似物品集合S(i),a为用户a的平均值,i为物品i的平均值,ua为用户ua的平均值,ik为物品ik的平均值,Sim(ua,a)表示用户ua和u的相似度,Sim(ik,i)表示物品ik和i的相似度,r(ua,i)表示用户ua对物品i的评分值,r(a,ik)表示用户a对物品ik的评分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100627421A CN101320461A (zh) | 2008-07-01 | 2008-07-01 | 基于电阻网络和稀疏数据预测的协同过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100627421A CN101320461A (zh) | 2008-07-01 | 2008-07-01 | 基于电阻网络和稀疏数据预测的协同过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101320461A true CN101320461A (zh) | 2008-12-10 |
Family
ID=40180495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100627421A Pending CN101320461A (zh) | 2008-07-01 | 2008-07-01 | 基于电阻网络和稀疏数据预测的协同过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101320461A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184460A (zh) * | 2011-03-31 | 2011-09-14 | 河南理工大学 | 基于协同过滤的煤矿瓦斯涌出量预测方法 |
CN102541920A (zh) * | 2010-12-24 | 2012-07-04 | 华东师范大学 | 联合基于用户和项目的协同过滤提高准确度的方法及装置 |
CN102640141A (zh) * | 2009-12-18 | 2012-08-15 | 丰田自动车株式会社 | 协同过滤***以及协同过滤方法 |
CN102789499A (zh) * | 2012-07-16 | 2012-11-21 | 浙江大学 | 基于物品间情景化隐式关系的协同过滤方法 |
CN103500228A (zh) * | 2013-10-23 | 2014-01-08 | 苏州大学 | 一种协同过滤推荐算法中改进的相似性度量方法 |
CN109389447A (zh) * | 2017-08-04 | 2019-02-26 | 北京京东尚科信息技术有限公司 | 项目推荐方法、项目推荐***以及计算机可读介质 |
CN111026974A (zh) * | 2019-11-21 | 2020-04-17 | 华南理工大学 | 一种基于过滤融合的预测方法 |
CN111063227A (zh) * | 2019-12-17 | 2020-04-24 | 河南科技学院 | 一种基于移动终端的思政答题方法及*** |
CN115631660A (zh) * | 2022-12-07 | 2023-01-20 | 南通翔昇人工智能科技有限公司 | 一种基于云计算的无人机安防监管*** |
-
2008
- 2008-07-01 CN CNA2008100627421A patent/CN101320461A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102640141B (zh) * | 2009-12-18 | 2015-05-13 | 丰田自动车株式会社 | 协同过滤***以及协同过滤方法 |
CN102640141A (zh) * | 2009-12-18 | 2012-08-15 | 丰田自动车株式会社 | 协同过滤***以及协同过滤方法 |
US9087123B2 (en) | 2009-12-18 | 2015-07-21 | Toyota Jidosha Kabushiki Kaisha | Collaborative filtering using evaluation values of contents from users |
CN102541920A (zh) * | 2010-12-24 | 2012-07-04 | 华东师范大学 | 联合基于用户和项目的协同过滤提高准确度的方法及装置 |
CN102184460A (zh) * | 2011-03-31 | 2011-09-14 | 河南理工大学 | 基于协同过滤的煤矿瓦斯涌出量预测方法 |
CN102789499A (zh) * | 2012-07-16 | 2012-11-21 | 浙江大学 | 基于物品间情景化隐式关系的协同过滤方法 |
CN102789499B (zh) * | 2012-07-16 | 2015-08-12 | 浙江大学 | 基于物品间情景化隐式关系的协同过滤方法 |
CN103500228A (zh) * | 2013-10-23 | 2014-01-08 | 苏州大学 | 一种协同过滤推荐算法中改进的相似性度量方法 |
CN109389447A (zh) * | 2017-08-04 | 2019-02-26 | 北京京东尚科信息技术有限公司 | 项目推荐方法、项目推荐***以及计算机可读介质 |
CN111026974A (zh) * | 2019-11-21 | 2020-04-17 | 华南理工大学 | 一种基于过滤融合的预测方法 |
CN111026974B (zh) * | 2019-11-21 | 2023-04-28 | 华南理工大学 | 一种基于过滤融合的预测方法 |
CN111063227A (zh) * | 2019-12-17 | 2020-04-24 | 河南科技学院 | 一种基于移动终端的思政答题方法及*** |
CN111063227B (zh) * | 2019-12-17 | 2021-05-07 | 河南科技学院 | 一种基于移动终端的思政答题方法及*** |
CN115631660A (zh) * | 2022-12-07 | 2023-01-20 | 南通翔昇人工智能科技有限公司 | 一种基于云计算的无人机安防监管*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101320461A (zh) | 基于电阻网络和稀疏数据预测的协同过滤方法 | |
Räsänen et al. | Data-based method for creating electricity use load profiles using large amount of customer-specific hourly measured electricity use data | |
CN103559262B (zh) | 基于社区的作者及其学术论文推荐***和推荐方法 | |
CN105574003B (zh) | 一种基于评论文本和评分分析的信息推荐方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及*** | |
CN108733798A (zh) | 一种基于知识图谱的个性化推荐方法 | |
CN103106535B (zh) | 一种基于神经网络解决协同过滤推荐数据稀疏性的方法 | |
CN102841929A (zh) | 一种综合用户和项目评分及特征因素的推荐方法 | |
CN105630946B (zh) | 一种基于大数据的领域交叉推荐方法及装置 | |
CN103412948A (zh) | 基于聚类的协同过滤的商品推荐方法及*** | |
CN106021329A (zh) | 基于用户相似度的稀疏数据协同过滤推荐方法 | |
CN104268271A (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN106897914A (zh) | 一种基于主题模型的商品推荐方法及*** | |
CN104268648B (zh) | 融合用户多种交互信息和用户主题信息的用户排名*** | |
CN102541920A (zh) | 联合基于用户和项目的协同过滤提高准确度的方法及装置 | |
CN106708953A (zh) | 基于离散粒子群优化的局部社区检测协同过滤推荐方法 | |
CN103617289A (zh) | 基于用户特征及网络关系的微博推荐方法 | |
CN107562947A (zh) | 一种移动时空感知下动态即时推荐服务模型建立方法 | |
CN102609854A (zh) | 一种基于统一相似度计算的客户划分方法及装置 | |
CN110197404A (zh) | 可降低流行度偏差的个性化长尾商品推荐方法和*** | |
CN103294812A (zh) | 一种基于混合模型的商品推荐方法 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN104239496A (zh) | 一种结合模糊权重相似性度量和聚类协同过滤的方法 | |
CN110046228A (zh) | 短文本主题识别方法和*** | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081210 |