CN105740444A - 基于用户评分的项目推荐方法 - Google Patents

基于用户评分的项目推荐方法 Download PDF

Info

Publication number
CN105740444A
CN105740444A CN201610072088.7A CN201610072088A CN105740444A CN 105740444 A CN105740444 A CN 105740444A CN 201610072088 A CN201610072088 A CN 201610072088A CN 105740444 A CN105740444 A CN 105740444A
Authority
CN
China
Prior art keywords
user
project
interest
potential interest
potential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610072088.7A
Other languages
English (en)
Inventor
邓珍荣
朱益立
邓星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201610072088.7A priority Critical patent/CN105740444A/zh
Publication of CN105740444A publication Critical patent/CN105740444A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户评分的项目推荐方法,首先针对推荐***中用户兴趣的动态性和多样性,综合时间因子对用户兴趣的全局影响,基于用户项目评分有效融入保持量函数,采用概率主题模型完成用户潜在兴趣的全局学习;然后针对其学习过程对潜在情景变化的敏感性,再次综合时间因子对用户潜在兴趣局部的影响,基于概念漂移问题的对兴趣进行面向用户个性化的二次更新学习,最后通过分析用户兴趣计算其对项目的支持度,并进行排序生成项目推荐列表。本发明能够在充分挖掘用户潜在兴趣的条件下,有效避免概念漂移问题对推荐性能的影响,提高***的整体推荐质量。

Description

基于用户评分的项目推荐方法
技术领域
本发明涉及网络推荐方法,尤其涉及基于时间序列信息的用户评分数据的推荐方法。
背景技术
随着Web2.0新型互联网服务模式的展开,用户逐渐从信息群体中的被动角色,转变成网络活动中的主体。即用户在接受网络信息的同时,也发布并传播消息,这种模式正是互联网向多对多的服务形式过渡的体现。同时,在互联网用户强烈的信息需求刺激之下,信息服务的企业也通过不断为用户提供海量信息资源的方式,来提高用户的满意程度。面对海量的信息资源,用户难以在人工条件下从大量的信息中有效提取出自身需求的资源。而信息的提供方也难以在服务的过程中挖掘并分析用户的行为习惯,从而进一步改善自身的服务,这也就产生了所谓的“信息过载”(InformationOverload)问题。
搜索引擎(SearchEngine)技术的出现,已经成为解决信息过载问题的首选方案。目前,主流的搜索引擎主要是基于用户关键词,通过信息检索的相关技术为用户获取需求信息。然而,由于搜索引擎技术内部机制的限制,使得搜索引擎无法从知识层面对用户的需求进行描述,搜索空间大,智能化程度低。同时,这种模式需要用户以人工的方式对搜索结果进行信息过滤,搜索引擎需被动等待用户请求,无法主动分析用户的信息需求以提高智能决策。随着用户对信息服务智能化水平要求的不断提高,这种“人拉信息”的服务模式已经不能满足用户,而理想的一种模式是经过过滤和个性化定制的信息推送。
推荐***正是出于信息过载问题以及搜索引擎与信息被动服务模式的局限性而诞生的。作为一种人机交互的智能化动态***,它可以依据用户的历史行为记录建立相应的用户偏好,主动为用户提供满足其需求以及兴趣的信息资源。推荐***目前逐渐成为机器学习、数据挖掘以及人机接口相关领域的热门研究方向,如美国明尼苏达大学的GroupLens团队、美国纽约大学AlexanderTuzhilin教授、美国密歇根大学PaulResnick教授、微软研究院等都对推荐***及其算法进行了大量的基础研究工作。同时,推荐***在数字信息内容服务、电子商务和数字图书馆等应用领域也得到了广泛应用和实践,如淘宝网、当当网、亚马逊等主流电子商务网站都已经部署了相应的推荐***,帮助用户获得个性化的项目信息。
此外,在推荐***中,由于用户兴趣的多样性和动态性,导致在交互过程中很难明确用户的主观兴趣,即用户兴趣的潜在性。同时,不失客观性,伴随着交互过程的进行,***整体的运行状态往往受到多种因素的影响。例如,常见的影响因子包括用户或者项目数据规模的变化,这些显式的变化对于***是可感知的,可以通过协调参数等方式来更改推荐策略,从而适应新的状态变化。然而,同时也存在着其他潜在的影响因子,诸如特殊事件的产生、周围环境的变化、热门效应的触发,甚至包括用户自身行为模式的迁移等。伴随各种触发情景的多元化,推荐***很难把握这些因素的综合影响,从而造成***在自适应能力和可扩展性上的局限,这也被业界称为概念漂移问题。换言之,用户需求在信息获取的过程中极易受到一些客观存在的潜在情景(HiddenContexts)的影响,而与此同时,推荐***最终的目的在于将用户需求视为整个***建模学习的目标概念。当用户的真实信息需求随着这些潜在情景的作用发生变化时,如果***无法从中发现并感知需求模式的变化,并且做出新的推荐策略,那么就会使得***推荐结果的动态适应性降低。
发明内容
本发明的目的在于克服上述推荐***现有方法中存在的问题和不足,提供一种基于用户评分的项目推荐方法,解决推荐方法中存在的概念漂移问题,此外,基于更新后的用户兴趣向量,结合协同过滤方法对项目进行评分预测,对数据具有更好的抗稀疏性。
本发明基于用户评分的项目推荐方法,包括以下步骤:
步骤1:从互联网中采集数据并对其进行预处理,生成用户行为数据存放到用户行为信息数据库;
步骤2:通过分析用户的历史行为记录,构建用户对项目的偏好评分,并将评分数据划分为训练集和测试集;
步骤3:基于训练集构建用户-项目的原始偏好评分矩阵,并从时间特性对用户兴趣的全局影响考虑,对原始评分进行改进,生成新的用户-项目评分矩阵;
步骤4:基于新的用户评分矩阵,从概率的角度完成用户潜在兴趣的抽取过程,生成用户的潜在兴趣向量,完成用户兴趣的第一阶段的全局学习;
步骤5:从用户个性化角度考出发,对用户潜在兴趣向量进行第二阶段更新学习;
步骤6:基于更新后新的用户潜在兴趣向量,计算用户对于项目的支持度,并根据支持度将项目进行排序,选择支持度高的前N个项目推荐给用户;
步骤7:对比测试集中的数据计算第二阶段更新学***衡参数变化的数据,并绘制曲线;
步骤8:从曲线中选择出曲线峰值点对应的最优平衡参数,并对比测试集中的数据完成***方法的可视化评估,便于***的人工决策;
步骤9:基于最优平衡参数,对完整用户-项目评分矩阵,即没有划分训练集和测试集的数据进行全局学习和更新学习,并按照3-6步骤为用户进行项目推荐。
作为本发明的进一步改进,步骤1中,采集的数据至少包括用户唯一ID、项目唯一ID、用户对项目的偏好评分以及用户对项目的行为时间的相关信息,存放于用户行为记录数据库中。
作为本发明的进一步改进,步骤3中,从时间特性的全局影响考虑,基于艾宾浩斯遗忘曲线,针对每个用户对每个项目设计一种新的指数形式的保持量函数:
J ( t ) u i = e - M a x ( t u ) - t u i M a x ( t u ) - M i n ( t u ) - - - ( 1 )
其中,tu表示用户U所有的行为时间,tui表示用户U对项目I的行为时间,保持量函数中指数的设置,能保证信息量在时间衰减过程始终不为零,即保证信息的存在性,其中J(t)∈[e-1,1]。
使用公式(1)来改变用户对项目的评分,实际的评分权值会随着时间的改变而发生改变。即模拟了人的遗忘过程,换言之,随着时间的推移,用户对项目的评分会逐渐衰减到最后趋向于稳定,而此时,意味着该用户对项目的偏好信息量就从渐渐遗忘到最后处于稳定的遗忘状态。
基于新的保持量函数,融合时间特性计算改进的用户对项目的评分权值,即若改进的评分Rui是通过保持量函数对用户-项目原始评分rui进行时间衰减得到的,则计算公式为:
Rui=rui×J(t)ui(2)。
作为本发明的进一步改进,步骤4中,主要融合狄利克雷分配的思想,从概率的角度完成用户潜在兴趣的抽取过程,其具体做法是:
步骤4.1生成用户-项目词袋模型:基于用户-项目改进后的评分矩阵,以具体评分值作为具体项目的词频。其具体表示方法如下所示:
Um={I1×Ru1,I2×Ru2,…,Ii×Rui}(3)
其中Ii×Rui代表项目Ii在用户Um的项目词袋模型中共出现了Rui次。
步骤4.2生成用户的潜在兴趣分布向量和兴趣项目分布向量:融合狄利克雷分配的思想,把各个用户的行为记录转化为用户潜在兴趣的混合分布,同时又把各个用户的潜在兴趣模型转化为项目集合的概率分布,从而把挖掘用户的潜在兴趣的问题转化为在给定条件的情况下求潜在变量的条件分布的问题,从而构建用户-潜在兴趣-项目的三层贝叶斯模型。最后采用GibbsSampling方法初始时随机给用户行为记录中的每个项目分配一个所隶属的潜在兴趣T(0),然后统计每个潜在兴趣T中项目的出现次数,以及每个用户中出现潜在兴趣T中项目的次数。每一次迭代依据Gibbsupdatingrule计算条件分布公式如下:
p ( T j i | T - i , U i , I i , · ) ∝ C i j N K + β Σ n = 1 N C n j N K + N β C i j M K + α Σ k = 1 K C i k M K + N α - - - ( 4 )
其中,分别是N×K、M×K维的矩阵,分别代表项目Ii被赋予潜在兴趣Tj的次数、用户Ui的所有项目中被赋予兴趣Tj的次数。N为项目的个数,M为用户的个数,K为潜在兴趣的个数。T-i表示除当前项目外的其他所有项目的潜在兴趣赋值,Ui表示用户索引,Ii表示项目索引,·代表其他所有已知或可见的信息,α和β是超参数,需提前进行指定。即排除当前项目的潜在兴趣分配,根据其他所有项目的潜在兴趣分配估计当前项目分配到各个潜在兴趣上的概率值。当得到当前项目属于所有潜在兴趣T的概率分布后,根据这个概率分布重新为该项目采样一个新的潜在兴趣T(1)。以此类推,用相同的方式不断更新下一目的待定状态。此过程中,由于是赋予每个项目的T估计,通过对于T的统计,最终近似的计算公式如下:
θ i j = P ( T j | U i ) = C i j M K + α Σ k = 1 K C i k M K + K α - - - ( 5 )
其中θij即可认为是用户Ui在潜在兴趣Tj上的偏好概率值,可认为是潜在兴趣Tj在项目Ii上的概率权重值。
本发明项目推荐方法中,步骤3和4中是整个方法中面向用户兴趣的第一阶段的全局学习,初步可以获取用户潜在的兴趣。其中步骤3中保持量函数的提出是面向所有用户的,并且步骤4.2中采用的GibbsSampling过程具有全局特性。而步骤5则是针对用户个性化,进行用户兴趣的第二阶段更新学习。
作为本发明的进一步改进,步骤5中用户兴趣的第二阶段更新学习的具体做法是:
首先,近似计算每个潜在兴趣存在的概率;
然后,计算每个项目在所有兴趣上的概率分布并提取每个项目所隶属的最大概率兴趣;
其次,基于用户的行为项目,按行为时间进行排序,并提取对应的用户最大时序兴趣序列;
最后,针对每个用户,按照其最大时序兴趣序列,对其潜在兴趣进行更新,其具体更新的原则在于:
(1)用户的历史行为中出现次数越多的兴趣,在最终用户兴趣分布中所占的权重越大。相反,次数较少的兴趣,则所占的权重会降低。且这种调节机制是基于用户的行为记录自动进行的。
(2)结合时序的特性,随着时间的过渡,在用户行为时序中一直没有出现的兴趣,其影响权重会逐渐降低,且这符合人的遗忘规律。
(3)保证最终用户的兴趣分布向量中各个兴趣的权值加和等于1。
本发明针对推荐***中的第一个隐式问题,即用户兴趣的潜在性,直接基于用户的历史行为数据,采用概率主题模型对用户的兴趣进行抽取,克服传统推荐方法中用户兴趣建模的复杂性和数据稀疏性。同时正是考虑了用户兴趣的不明确性,即用户的真实兴趣也许只有用户自身理解的客观事实,方法最终建立的是用户的隐式兴趣模型。同时,针对推荐***中第二个隐式问题,即用户需求在信息获取的过程中极易受到一些客观存在的潜在情景(HiddenContexts)的影响,考虑到时间因素与概念漂移问题的紧密关系,进行时间特性的相关分析并将之有效地融入到用户建模学***稳的变化。虽然推荐***很难从潜在情景的角度对引起兴趣漂移的根源进行追踪,但是其概念漂移所产生的***变化是可以被感知的。对此提出针对概念漂移的“二阶段学习”的思想,即首先在概率主题模型的基础上,通过第一阶段融合时间特性的全局学习,建立用户的全局概念模型;同时鉴于全局学习在概念漂移中缺乏个性化因素的考虑,对用户模型进行第二阶段的个性化学习。
本发明方法主要考虑用户行为的时序性对其兴趣的影响,实际意义在于解决推荐方法中存在的概念漂移问题,此外,基于更新后的用户兴趣向量,结合协同过滤方法对项目进行评分预测,对数据具有更好的抗稀疏性。
附图说明
图1为本发明推荐方法的整体流程图;
图2为本发明推荐方法第一阶段的全局学习流程图;
图3为本发明推荐方法第一阶段的狄利克雷分配概率图模型;
图4描述了具体实施例电影推荐基于平衡λ参数对推荐准确率的影响;
图5描述了具体实施例电影推荐方法的时序性评估结果图;
图6描述了具体实施例电影推荐性能效果图;
图7描述了具体实施例电影推荐RSME的抗稀疏性对比结果图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步详细说明,但不是对本发明的限定。
参照图1,基于用户评分的项目推荐方法,包括如下步骤:
ST1:从互联网中采集数据并对其进行预处理,生成用户行为数据存放到用户行为信息数据库。
ST2:通过分析用户的历史行为记录,构建用户对项目的偏好评分,并将评分数据划分为训练集和测试集。
ST3:基于训练集构建用户-项目的原始偏好评分矩阵,并从时间特性对用户兴趣的全局影响考虑,通过公式(1)和公式(2),对原始评分进行改进。
ST4:基于新的用户评分矩阵,从概率的角度完成用户潜在兴趣的抽取过程,生成用户的潜在兴趣向量,完成用户兴趣的第一阶段的全局学习,具体步骤参照图2。
ST401:基于改进的评分矩阵生成用户-项目的词袋模型,主要依据不同时间权重的评分对每个用户的行为记录采用相应比例的项目词袋模型进行表示。例如,用户Um对项目{I1,I2,I3,I5,In}的改进后的评分分别为{1,2,2,3,3},那么对应的用户-项目的词袋模型可以表示为Um={I1,I2,I2,I3,I3,I5,I5,I5,In,In,In}。
ST402:基于用户-项目词袋模型,通过融合狄利克雷分配的思想,构建用户-潜在兴趣-项目的三层贝叶斯模型,具体狄利克雷分配的概率图模型参考图3,其中所有空白圆表示不可预知的隐藏变量,而阴影圆则代表可观察变量,每个矩形代表着步骤的重复。θm表示第m个用户的兴趣概率分布,表示兴趣中的项目概率分布;k代表预先设置的兴趣数目,M代表***的中用户数目,Nm表示第m个用户产生行为的项目个数,Im,n和Tm,n分别表示第m个用户行为记录中的第n个项以及该项目所属兴趣。α和β是整个模型的两个超参数,α反映了用户行为项目集合中兴趣的相对强弱,β则反映了兴趣中项目的概率密度。同时,内层矩形表示从兴趣分布中反复抽样生成用户Um的项目{I1,I2,…,In}的过程,而外层矩阵表示从Dirichlet分布为各个用户反复抽取兴趣分布θm的过程。
通过模型学习抽取用户的潜在兴趣,具体采用GibbsSampling方法,通过公式(5)和公式(6)分别生成用户的潜在兴趣分布向量以及兴趣上项目的分布向量。至此,从时间特性对所有用户行为的全局影响考虑,对用户的兴趣进行全局概念建模,已完成用户兴趣的第一阶段学习。
ST5:从用户个性化角度考出发,对用户潜在兴趣向量进行第二阶段更新学习,个性化代表着该阶段的学习是面向每个用户的。
首先完成每个用户最大兴趣序列的提取过程,分为四步:
ST501:基于GibbsSampling过程,并采用公式(7)对每个兴趣存在的概率进行近似估计。
ST502:基于概率论中的条件概率公式(8)计算每个项目在所有兴趣上的概率分布。
ST503:针对每个项目In提取其所隶属于的最大概率兴趣Tnk。具体计算方法如公式(9)所示
Tnk=argMax(φnk)=argMax(P(Tk|In))(9)
ST504:针对每个用户对其历史行为记录按时序信息进行排序,例如将用户Ui的行为记录按时序进行排序以后为同时,基于公式(9)提取用户的最大时序兴趣序列。例如,Ui的最大时序兴趣序列为 U i T = { T 1 k , T 2 k , T 5 k , T 4 k , T 3 k } .
ST505:采用的二阶段兴趣个性化学习方法如下描述:
输入:目标用户Ui,用户Ui的初始兴趣分布向量θi
输出:用户Ui的更新后新的兴趣分布向量
步骤:
01:初始化 θ i n e w = θ i
02:依次按照上述步骤ST501-ST504计算用户Ui的最大时序兴趣
序列为
03:对于中的每个兴趣Tj(循环1)
04:对于中每个兴趣Tk(循环2)
05:如果Tk!=Tj,那么
06: T k = T k 1 + λ 1 t o p i c N u m - - - ( 10 )
07:否则
08:
T k = T k + λ 1 t o p i c N u m 1 + λ 1 t o p i c N u m - - - ( 11 )
09:结束循环2
10:结束循环1
其中方法中λ代表平衡因子,是需要在具体业务中通过观察其对推荐准确率的影响确定的;topicNum代表***中设置的潜在兴趣个数。该算法的核心思想在于依据用户的最大时序兴趣序列,对用户的原始兴趣分布向量进行再次更新。
ST6:最后在输出目标用户Ui新的兴趣分布向量以后,采用公式(12)计算该用户对项目Ij的支持度。并按照用户对项目的支持度进行排序,选择前N个作为该用户的Top-N推荐项目;
P ( I j | U i ) = Σ k = 1 t o p i c N u m P ( I j | T k ) × P n e w ( T k | U i ) = Σ k = 1 t o p i c N u m φ j k θ i k n e w - - - ( 12 )
不失一般性,在获取了目标用户新的兴趣分布向量以后,***可以结合协同过滤完成用户对项目的评分预测。
其中两个用户的相似度可采用公式(13)进行计算
S i m ( U i , U j ) = θ i n e w × θ j n e w | | θ i n e w | | × | | θ j n e w | | - - - ( 13 ) .
依据用户之间的相似度,提取目标用户Ui的近邻用户集N'i,目标用户Ui对目标项目Ij的评分pi,j则可以按公式(14)进行预测,其中代表用户Ui的平均评分,rm,j代表用户Um对项目Ij的真实评分;
p i , j = r ‾ i + Σ m ∈ N ′ i S i m ( m , i ) × ( r m , j - r ‾ m ) Σ m ∈ N ′ i | S i m ( m , i ) | - - - ( 14 ) .
ST7:对比测试集中的数据计算第二阶段更新学***衡参数变化的数据,并绘制曲线。
ST8:从曲线中选择出曲线峰值点对应的最优平衡参数,并对比测试集中的数据完成***方法的可视化评估,便于***的人工决策。
ST9:基于最优平衡参数,对完整用户-项目评分矩阵,即没有划分训练集和测试集的数据,重新按照3-6步骤对用户兴趣向量进行学习,最后基于公式(12)的计算结果为用户生成推荐列表,或基于公式(13)、(14)为用户对项目进行评分预测。
实施例:
基于用户评分的电影推荐方法,参照图4-7。
数据集包含了943个用户对1682部电影的100000条评分记录和相应的行为时间,且每个用户至少有20条行为记录,其评分在1-5分之间。用户和电影的评分矩阵密度为:
参数预估:
为了简便起见,本实施例中,α和β采用α=50/K和β=0.01作为缺省值,其中迭代次数默认为L=500。
如图4所示描述了在将数据集分成8:2的训练集和测试集的情况下,平衡因子λ对推荐准确率的影响,其中准确率(Precision)被定义为在Top-N推荐列表中,真正被正确做出推荐的项目所占的比例。计算公式如公式(15)所示:
Pr e c i s i o n = | T o p - N ∩ T e s t | N - - - ( 15 )
由图4可见,***整体推荐准确率会随着平衡因子λ的增大而呈现先增后减,最后趋向于稳定的趋势。并且当λ处于低数量级和高数量级位置时,准确率的变化不大,主要原因在于本实施例中该数量级的λ的变化对于用户兴趣的影响力度渐近趋向于稳定。而λ在0-1之间的取值,***会在整体上表现出较好的推荐性能。本实施例选择λ=0.2。
实施例方法时序性影响评估:
针对本发明方法第二阶段中时序的重要性,本实施例采用以下评估方法:
(1)按照原始步骤提取用户Ui的最大时序兴趣序列为
(2)在二阶段兴趣个性化更新算法中的03步骤中,对中的每个兴趣Tj,采用逆向提取。假若,原始算法是按时序兴趣序列从左到右依次提取兴趣,并作二层循环的计算,而此时则从右到左依次提取兴趣并作相同的二层循环计算。
在其他步骤和原始方法相同的基础上,将本发明方法与上述方法法(定义为Time-reverse)在潜在兴趣维度K不同的情况下进行Top-5推荐实验对比。鉴于GibbsSampling过程的随机性,实验共涉及十次评估数据,并取其平均值作为最后结果,具体结果如图5所示。
由图可见,本发明方法中采用正向时序的推荐方式确实在提高***推荐性能上有很大的意义,这也是本发明在解决概念漂移问题上的一种重要的性能表现。即在时间的变迁过程中,用户的兴趣会随着一些隐式的情景发生变化,只有通过把握和分析用户行为的时序特性,以及所产生的***变化,才能有效提高推荐效果。
实施例推荐性能综合评估:
如图6分别描述了在不同比例训练集的情况下,本实施例在推荐性能上准确率、召回率以及F值的推荐效果图,其中召回率(Recall)则被定义为在全部测试集中,被正确做出推荐的项目所占的比例,计算公式如公式(16)所示:
Re c a l l = | T o p - N ∩ T e s t | | T e s t | - - - ( 16 )
由于在一些情况下,准确率和召回率只能反映单一的方面,具有矛盾的特性,即一高一低的情况。故采用F值的度量方法,对二者进行综合。计算公式如公式(17)所示:
F - m e a s u r e = 2 × Pr e c i s i o n × Re c a l l Pr e c i s i o n × Re c a l l - - - ( 17 )
实施例评分预测的抗稀疏性评估:
如图7所示,是本发明方法在该实施例中与协同过滤相结合形成的协同推荐方法(Proposed_CF)和采用皮尔逊相似性度量的基于用户的协同过滤(UserBased_CF)方法的对比结果。由图可见,在数据稀疏的情况下,新的协同推荐方法(Proposed_CF)能获得更小的均方误差。其主要原因在于该方法是间接基于用户的潜在兴趣进行相似性度量的,该过程能够有效在低维度上降低协同过滤中数据稀疏性对近邻用户提取阶段的影响。其中RMSE对数据较大的误差更为敏感。其值越小代表算法的推荐效果越好。设预测的用户评分集为{predict1,predict2,…,predictn},对应的真实评分为{real1,real2,…,realn},则
R M S E = Σ i = 1 n ( predict i - real i ) 2 n - - - ( 18 ) .

Claims (5)

1.一种基于用户评分的项目推荐方法,其特征在于包括以下步骤:
步骤1:从互联网中采集数据并对其进行预处理,生成用户行为数据存放到用户行为信息数据库;
步骤2:通过分析用户的历史行为记录,构建用户对项目的偏好评分,并将评分数据划分为训练集和测试集;
步骤3:基于训练集构建用户-项目的原始偏好评分矩阵,并从时间特性对用户兴趣的全局影响考虑,对原始评分进行改进,生成新的用户-项目评分矩阵;
步骤4:基于新的用户评分矩阵,从概率的角度完成用户潜在兴趣的抽取过程,生成用户的潜在兴趣向量,完成用户兴趣的第一阶段的全局学习;
步骤5:从用户个性化角度考出发,对用户潜在兴趣向量进行第二阶段更新学习;
步骤6:基于更新后新的用户潜在兴趣向量,计算用户对于项目的支持度,并根据支持度将项目进行排序,选择支持度高的前N个项目推荐给用户;
步骤7:对比测试集中的数据计算第二阶段更新学***衡参数变化的数据,并绘制曲线;
步骤8:从曲线中选择出曲线峰值点对应的最优平衡参数,并对比测试集中的数据完成***方法的可视化评估,便于***的人工决策;
步骤9:基于最优平衡参数,对完整用户-项目评分矩阵,即没有划分训练集和测试集的数据进行全局学习和更新学习,并按照3-6步骤为用户进行项目推荐。
2.根据权利要求1所述的基于用户评分的项目推荐方法,其特征在于,步骤1中,采集的数据至少包括用户唯一ID、项目唯一ID、用户对项目的偏好评分以及用户对项目的行为时间的相关信息,存放于用户行为记录数据库中。
3.根据权利要求1所述的基于用户评分的项目推荐方法,其特征在于,步骤3中,从时间特性的全局影响考虑,基于艾宾浩斯遗忘曲线,针对每个用户对每个项目采用一种新的指数形式的保持量函数:
J ( t ) u i = e - M a x ( t u ) - t u i M a x ( t u ) - M i n ( t u ) - - - ( 1 )
其中,tu表示用户U所有的行为时间,tui表示用户U对项目I的行为时间,保持量函数中指数的设置,能保证信息量在时间衰减过程始终不为零,即保证信息的存在性,其中J(t)∈[e-1,1];
基于新的保持量函数,融合时间特性计算改进的用户对项目的评分权值,即若改进的评分Rui是通过保持量函数对用户-项目原始评分rui进行时间衰减得到的,则计算公式为:
Rui=rui×J(t)ui(2)。
4.根据权利要求1所述的基于用户评分的项目推荐方法,其特征在于,步骤4中主要融合狄利克雷分配的思想,从概率的角度完成用户潜在兴趣的抽取过程,其具体做法是:
步骤4.1生成用户-项目词袋模型:基于用户-项目改进后的评分矩阵,以具体评分值作为具体项目的词频,其具体表示方法如下所示:
Um={I1×Ru1,I2×Ru2,…,Ii×Rui}(3)
其中Ii×Rui代表项目Ii在用户Um的项目词袋模型中共出现了Rui次;步骤4.2生成用户的潜在兴趣分布向量和兴趣项目分布向量:融合狄利克雷分配的思想,构建用户-潜在兴趣-项目的三层贝叶斯模型,采用GibbsSampling方法初始时随机给用户行为记录中的每个项目分配一个所隶属的潜在兴趣T(0),然后统计每个潜在兴趣T中项目的出现次数,以及每个用户中出现潜在兴趣T中项目的次数,每一次迭代依据Gibbsupdatingrule计算条件分布公式如下:
p ( T j i | T - i , U i , I i , · ) ∝ C i j N K + β Σ n = 1 N C n j N K + N β C i j M K + α Σ k = 1 K C i k M K + K α - - - ( 4 )
其中,分别是N×K、M×K维的矩阵,分别代表项目Ii被赋予潜在兴趣Tj的次数、用户Ui的所有项目中被赋予兴趣Tj的次数,N为项目的个数,M为用户的个数,K为潜在兴趣的个数,T-i表示除当前项目外的其他所有项目的潜在兴趣赋值,Ui表示用户索引,Ii表示项目索引,·代表其他所有已知或可见的信息,α和β是超参数,需提前进行指定;
当得到当前项目属于所有潜在兴趣T的概率分布后,根据这个概率分布重新为该项目采样一个新的潜在兴趣T(1),以此类推,用相同的方式不断更新下一目的待定状态,此过程中,由于是赋予每个项目的T估计,通过对于T的统计,最终近似的计算公式如下:
θ i j = P ( T j | U i ) = C i j M K + α Σ k = 1 K C i k M K + K α - - - ( 5 )
其中θij即可认为是用户Ui在潜在兴趣Tj上的偏好概率值,可认为是潜在兴趣Tj在项目Ii上的概率权重值。
5.根据权利要求1所述的基于用户评分的项目推荐方法,其特征在于,步骤5针对用户个性化,进行用户兴趣的第二阶段更新学习的具体做法是:
首先,近似计算每个潜在兴趣存在的概率;
然后,计算每个项目在所有兴趣上的概率分布并提取每个项目所隶属的最大概率兴趣;
其次,基于用户的行为项目,按行为时间进行排序,并提取对应的用户最大时序兴趣序列;
最后,针对每个用户,按照其最大时序兴趣序列,对其潜在兴趣进行更新。
CN201610072088.7A 2016-02-02 2016-02-02 基于用户评分的项目推荐方法 Pending CN105740444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610072088.7A CN105740444A (zh) 2016-02-02 2016-02-02 基于用户评分的项目推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610072088.7A CN105740444A (zh) 2016-02-02 2016-02-02 基于用户评分的项目推荐方法

Publications (1)

Publication Number Publication Date
CN105740444A true CN105740444A (zh) 2016-07-06

Family

ID=56242213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610072088.7A Pending CN105740444A (zh) 2016-02-02 2016-02-02 基于用户评分的项目推荐方法

Country Status (1)

Country Link
CN (1) CN105740444A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649681A (zh) * 2016-12-15 2017-05-10 北京金山安全软件有限公司 一种数据处理方法、装置及设备
CN106980989A (zh) * 2016-12-29 2017-07-25 ***股份有限公司 基于用户行为特性分析的商户推荐方法
CN107133730A (zh) * 2017-04-24 2017-09-05 天津大学 一种基于潜在狄利克雷分配模型的潜在特征提取方法
CN107463645A (zh) * 2017-07-21 2017-12-12 雷锤智能科技南京有限公司 基于用户属性评分导向的个性化推荐***及其推荐方法
CN107766449A (zh) * 2017-09-26 2018-03-06 杭州云赢网络科技有限公司 热点挖掘方法、装置、电子设备及存储介质
CN107944035A (zh) * 2017-12-13 2018-04-20 合肥工业大学 一种融合视觉特征和用户评分的图像推荐方法
CN108334638A (zh) * 2018-03-20 2018-07-27 桂林电子科技大学 基于长短期记忆神经网络与兴趣迁移的项目评分预测方法
CN108334575A (zh) * 2018-01-23 2018-07-27 北京三快在线科技有限公司 一种推荐结果排序修正方法及装置,电子设备
CN108564445A (zh) * 2018-04-13 2018-09-21 合肥工业大学 利基项目推荐方法及装置
CN108595527A (zh) * 2018-03-28 2018-09-28 中山大学 一种融合多源异构信息的个性化推荐方法及***
CN109389168A (zh) * 2018-09-29 2019-02-26 国信优易数据有限公司 项目推荐模型训练方法、项目推荐方法以及装置
CN109460427A (zh) * 2018-11-08 2019-03-12 广东工业大学 一种面向用户动态偏好挖掘的节目嵌入方法
CN109636473A (zh) * 2018-12-14 2019-04-16 深圳大学 一种基于在线用户观影行为的兴趣偏好挖掘方法
CN111951053A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 智能商圈营销信息分发方法及装置
CN112905908A (zh) * 2021-03-04 2021-06-04 浙江机电职业技术学院 基于评分lda的协同过滤算法
CN113609388A (zh) * 2021-07-27 2021-11-05 浙江大学 基于反事实用户行为序列生成的序列推荐方法
CN113807422A (zh) * 2021-09-07 2021-12-17 南京邮电大学 融合多特征信息的加权图卷积神经网络评分预测模型
CN114048378A (zh) * 2021-11-10 2022-02-15 四川泛华航空仪表电器有限公司 一种基于btm模型的个性化推荐方法
CN114238796A (zh) * 2021-12-23 2022-03-25 河北冀联人力资源服务集团有限公司 一种基于用户评价的推荐方法、***与存储介质
CN114491095A (zh) * 2022-01-18 2022-05-13 南京大学 基于时序漂移的潜在因子模型对项目的推荐方法
CN115423559A (zh) * 2022-09-06 2022-12-02 武汉美立森家居有限公司 一种基于虚拟vr技术的家居产品线上展览展示方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814068A (zh) * 2009-02-24 2010-08-25 日电(中国)有限公司 时序控制的基于评分预测的项目推荐方法和***
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐***及方法
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814068A (zh) * 2009-02-24 2010-08-25 日电(中国)有限公司 时序控制的基于评分预测的项目推荐方法和***
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐***及方法
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHULONG TAN等: "Cross domain recommendation based on multi-type media fusion", 《NEUROCOMPUTING》 *
刘淇: "基于用户兴趣建模的推荐方法及应用研究", 《中国博士学位论文全文数据库信息科技辑》 *
曾东红等: "一种基于指数遗忘函数的协同过滤算法", 《科技广场》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649681B (zh) * 2016-12-15 2020-06-05 北京金山安全软件有限公司 一种数据处理方法、装置及设备
CN106649681A (zh) * 2016-12-15 2017-05-10 北京金山安全软件有限公司 一种数据处理方法、装置及设备
CN106980989A (zh) * 2016-12-29 2017-07-25 ***股份有限公司 基于用户行为特性分析的商户推荐方法
CN106980989B (zh) * 2016-12-29 2021-01-19 ***股份有限公司 基于用户行为特性分析的商户推荐方法
CN107133730A (zh) * 2017-04-24 2017-09-05 天津大学 一种基于潜在狄利克雷分配模型的潜在特征提取方法
CN107463645A (zh) * 2017-07-21 2017-12-12 雷锤智能科技南京有限公司 基于用户属性评分导向的个性化推荐***及其推荐方法
CN107766449A (zh) * 2017-09-26 2018-03-06 杭州云赢网络科技有限公司 热点挖掘方法、装置、电子设备及存储介质
CN107944035A (zh) * 2017-12-13 2018-04-20 合肥工业大学 一种融合视觉特征和用户评分的图像推荐方法
CN108334575B (zh) * 2018-01-23 2022-04-26 北京三快在线科技有限公司 一种推荐结果排序修正方法及装置,电子设备
CN108334575A (zh) * 2018-01-23 2018-07-27 北京三快在线科技有限公司 一种推荐结果排序修正方法及装置,电子设备
CN108334638B (zh) * 2018-03-20 2020-07-28 桂林电子科技大学 基于长短期记忆神经网络与兴趣迁移的项目评分预测方法
CN108334638A (zh) * 2018-03-20 2018-07-27 桂林电子科技大学 基于长短期记忆神经网络与兴趣迁移的项目评分预测方法
CN108595527A (zh) * 2018-03-28 2018-09-28 中山大学 一种融合多源异构信息的个性化推荐方法及***
CN108564445B (zh) * 2018-04-13 2022-03-22 合肥工业大学 利基项目推荐方法及装置
CN108564445A (zh) * 2018-04-13 2018-09-21 合肥工业大学 利基项目推荐方法及装置
CN109389168A (zh) * 2018-09-29 2019-02-26 国信优易数据有限公司 项目推荐模型训练方法、项目推荐方法以及装置
CN109460427A (zh) * 2018-11-08 2019-03-12 广东工业大学 一种面向用户动态偏好挖掘的节目嵌入方法
CN109636473A (zh) * 2018-12-14 2019-04-16 深圳大学 一种基于在线用户观影行为的兴趣偏好挖掘方法
CN111951053A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 智能商圈营销信息分发方法及装置
CN111951053B (zh) * 2020-08-14 2024-04-16 中国工商银行股份有限公司 智能商圈营销信息分发方法及装置
CN112905908A (zh) * 2021-03-04 2021-06-04 浙江机电职业技术学院 基于评分lda的协同过滤算法
CN113609388B (zh) * 2021-07-27 2024-02-06 浙江大学 基于反事实用户行为序列生成的序列推荐方法
CN113609388A (zh) * 2021-07-27 2021-11-05 浙江大学 基于反事实用户行为序列生成的序列推荐方法
CN113807422A (zh) * 2021-09-07 2021-12-17 南京邮电大学 融合多特征信息的加权图卷积神经网络评分预测模型
CN113807422B (zh) * 2021-09-07 2024-05-31 南京邮电大学 融合多特征信息的加权图卷积神经网络评分预测模型
CN114048378A (zh) * 2021-11-10 2022-02-15 四川泛华航空仪表电器有限公司 一种基于btm模型的个性化推荐方法
CN114048378B (zh) * 2021-11-10 2024-05-14 四川泛华航空仪表电器有限公司 一种基于btm模型的个性化推荐方法
CN114238796A (zh) * 2021-12-23 2022-03-25 河北冀联人力资源服务集团有限公司 一种基于用户评价的推荐方法、***与存储介质
CN114491095A (zh) * 2022-01-18 2022-05-13 南京大学 基于时序漂移的潜在因子模型对项目的推荐方法
CN115423559A (zh) * 2022-09-06 2022-12-02 武汉美立森家居有限公司 一种基于虚拟vr技术的家居产品线上展览展示方法
CN115423559B (zh) * 2022-09-06 2024-05-14 湖南恒达讯飞科技有限公司 一种基于虚拟vr技术的家居产品线上展览展示方法

Similar Documents

Publication Publication Date Title
CN105740444A (zh) 基于用户评分的项目推荐方法
Bagher et al. User trends modeling for a content-based recommender system
CN113302634B (zh) 学习和预测关键短语以及生成预测的***、介质和方法
CN102004774B (zh) 基于统一概率模型的个性化用户标签建模与推荐方法
CN102262661B (zh) 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
Çavdar et al. Airline customer lifetime value estimation using data analytics supported by social network information
Huang et al. Collaborative recommendation algorithm based on probabilistic matrix factorization in probabilistic latent semantic analysis
Wei et al. Web 2.0 Recommendation service by multi-collaborative filtering trust network algorithm
Vetschera Deriving rankings from incomplete preference information: A comparison of different approaches
Kim et al. Recommendation system for sharing economy based on multidimensional trust model
Lai et al. The analytics of product-design requirements using dynamic internet data: application to Chinese smartphone market
CN103559252A (zh) 给游客推荐其很可能会浏览的景点的方法
WO2018232331A1 (en) Systems and methods for optimizing and simulating webpage ranking and traffic
Wang et al. Preference recommendation for personalized search
Mustafa et al. A Time Monte Carlo method for addressing uncertainty in land-use change models
Sattari et al. Geo-activity recommendations by using improved feature combination
Tian et al. Time-aware web service recommendations using implicit feedback
Tielemans et al. Tools for regulatory assessment of occupational exposure: development and challenges
Chernenko et al. Information system of economic and mathematical modelling of pricing in the residential sector of Ukraine
CN115408618A (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
Yin et al. A tensor decomposition based collaborative filtering algorithm for time-aware POI recommendation in LBSN
Zhao et al. A hybrid MCDM model combining Fuzzy-Delphi, AEW, BWM, and MARCOS for digital economy development comprehensive evaluation of 31 provincial level regions in China
Lee et al. A study on the context-aware hybrid bayesian recommender system on the mobile devices
Wang et al. A dynamic recommender system with fused time and location factors
Keikha et al. Linguistic aggregation methods in blog retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160706

WD01 Invention patent application deemed withdrawn after publication