CN110377841A - 一种应用在协同过滤方法中的相似度计算方法及*** - Google Patents

一种应用在协同过滤方法中的相似度计算方法及*** Download PDF

Info

Publication number
CN110377841A
CN110377841A CN201910478934.9A CN201910478934A CN110377841A CN 110377841 A CN110377841 A CN 110377841A CN 201910478934 A CN201910478934 A CN 201910478934A CN 110377841 A CN110377841 A CN 110377841A
Authority
CN
China
Prior art keywords
user
article
similarity
indicate
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910478934.9A
Other languages
English (en)
Other versions
CN110377841B (zh
Inventor
杨志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Original Assignee
Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd filed Critical Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority to CN201910478934.9A priority Critical patent/CN110377841B/zh
Publication of CN110377841A publication Critical patent/CN110377841A/zh
Application granted granted Critical
Publication of CN110377841B publication Critical patent/CN110377841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应用在协同过滤推荐方法中的相似度计算方法及***,本发明实施例提出了不需要用户的评分数据,而是基于用户的相关评论信息的协同过滤推荐方法,特别是对现有的协同过滤推荐方法中的计算相似度的步骤进行了改进,使得相似度计算部分只依据用户的评论信息进行建模,而后在使用时直接输入用户的评分信息就可以得到相似度结果。这样,就可以在不需要用户的评分数据基础上,实现协同过滤推荐方法中的相似度之间的计算。

Description

一种应用在协同过滤方法中的相似度计算方法及***
技术领域
本发明涉及计算机技术领域,特别涉及一种应用在协同过滤推荐方法中的相似度计算方法及***。
背景技术
随着互联网技术的快速发展,互联网网络侧根据用户数据为用户进行个性化推荐。在进行个性化推荐过程中,需要根据用户的历史偏好和行为的用户历史数据,给用户提供其感兴趣的推荐信息。为了实现为用户推荐信息,可以采用协同过滤推荐方法进行推荐。
当前的协同过滤推荐方法大都需要基于用户对物品的显式评分来构建推荐模型,然后将用户的评分信息输入到推荐模型中,最终输出得到推荐信息。
当前的协同过滤推荐方法包括:
第一步骤,计算用户之间的相似度
当前用于计算用户之间的相似度度量方法有很多,其中广泛被使用的有欧氏距离、余弦相似度、皮尔斯相关系数和杰卡德相似系数等,欧氏距离、余弦相似度及皮尔斯相关系数等都需要基于用户对物品的评分计算,杰卡德相似系数可以在没有被评分的情况下完成用户相似度的计算,其考虑的是用户相关的物品数量,计算公式为:
其中Jaccard(u,v)表示用户u和用户v之间的相似度;Iu和Iv分别表示与用户u和用户v相关的物品集合;Iu,v表示与用户u和用户v相关物品的交集。
第二步骤,获取目标用户的K个最近邻用户集合
基于第一步骤中计算的用户之间的相似度,筛选出与目标用户相似度最大的K个用户集合,即筛选出与目标用户最相似的K个用户。
第三步骤,获取目标用户的潜在推荐物品集合
基于目标用户的K个最近邻用户集合,获取目标用户的潜在推荐物品集合,具体实施步骤分为:a、获取目标用户的K个最近邻用户集合中所有用户的相关物品的并集;b、从a中的相关物品的并集中删除与目标用户相关的所有物品;c、根据b获得的物品集合就是目标用户潜在的推荐物品集合。
第四步骤,获取向目标用户的推荐物品集合
对第三步骤得到的目标用户的潜在推荐物品集合,分别计算其中所有物品的偏好度,计算公式为:
其中pu,i表示用户u对物品i的偏好度;Ui表示与物品i相关的用户集合;Uu表示用户u的K最近邻用户集合;su,v表示用户u和用户v之间的相似度;rvi表示用户v对物品i的评分。
可以看出,目前的协同过滤推荐方法的整个流程中都需要用户主动提供的评分数据参与,当获取不到用户的评分数据时则无法完成协同过滤推荐。然而目前越来越普遍的情况为:网络侧无法获取到用户的主动评分数据,比如网络侧未提供对物品的显式评分选项,而仅仅提供了对物品的评论选项,类似于点赞或收藏等选项等,这时就无法采用当前的协同过滤推荐方法为用户推荐信息。
更进一步地,作为协同过滤推荐方法中的计算基础,用户之间的相似度计算,除了杰卡德相似系数方式的计算,其他的计算方式也需要机遇用户的评分数据。
发明内容
有鉴于此,本发明实施例提供一种应用在协同过滤推荐方法中的相似度计算方法,该方法能够在不需要用户的评分数据基础上,实现协同过滤推荐方法中的相似度之间的计算。
本发明实施例还提供一种应用在协同过滤推荐方法中的相似度计算***,该***能够在不需要用户的评分数据基础上,实现协同过滤推荐方法中的相似度之间的计算。
本发明实施例是这样实现的:
一种应用在协同过滤推荐方法中的相似度计算方法,包括:
基于用户的评论信息,进行用户之间或物品之间的相似度建模;
获取到用户的评论信息,输入到用户之间或物品之间的相似度模型中,得到用户之间的相似度结果,或物品之间的相似度结果。
所述用户的评论信息包括:与用户相关的物品集合,及获取的用户的特征信息。
所述进行用户之间的相似度建模基于:用户对物品的关注度、物品的流行度、非公相关物品数量及共相关物品数量。
所述进行用户之间的相似度建模采用的公式为:
其中usu,v表示用户u和用户v之间的相似度;Iu和Iv分别表示用户u和用户v评论过的物品集合;Iu,v表示用户u和用户v共同评论的物品集合;αu(>0)为用户相似度系数,设置为1;βu>0是用户杰卡德系数,设置0.5。
所述进行物品之间的相似度建模基于:物品被关注度、用户兴趣的广泛性、非共相关用户数量及共相关用户数量。
所述进行物品之间的相似度建模采用的公式为:
其中isi,j表示物品i和物品j之间的相似度;
Ui和Uj分别表示物品i和物品j的评论用户集合;
Ui,j表示物品i和物品j的共同评论用户集合;
αi>0为物品相似度系数,初始设置为1;βi>0是物品杰卡德系数,初始设置为0.5。
所述αi和βi分别实时更新。
该方法还包括:
基于用户之间的相似度结果,获取用户的设置数量的最近邻用户集合;
根据用户的设置数量的最近邻用户集合的推荐物品集合,获取得到用户的潜在推荐物品集合;
将获取得到的用户的潜在推荐物品集合输入到设置的推荐物品模型中,得到为用户推荐的物品集合。
所述推荐物品模型为:
其中candidateItemu表示目标用户u的候选推荐物品集合;Iv表示与用户v相关的物品集合;
为目标用户u的候选推荐物品集合中的每个物品设置推荐权重值,将计算得到的权重值最大的设定个数的物品作为推荐物品结果;
所述为所述每个物品设置推荐权重值的计算包括:
pu,i=musu,i·recognitioni·pmlu,i·mau,i·uicu,i·heati
其中,pu,i表物品表示用户u相对于物品i的偏好度;
musu,i表示物品i关于用户u的最大用户相似度,Ui表示物品i的评论用户集合,su,v表示用户u和v之间的相似度;
recognitionu,i表示在用户u的设置K数量的最近邻用户对物品i的认可度,statev,i表示物品i与用户v相关与否的状态标记,,
其中Iv表示与用户v相关的物品集合;
pmlu,i表示物品i的标签集合与用户u画像集合的匹配水平,Fi表示物品i的属性集合,LUPu表示用户u隐式画像集合;
mau,i表示物品i相对于用户u的最大关注度,attentionv,i的计算为attentionu,i表示用户u对物品i的关注度,nocu,i表示用户u对物品i的评论数量;k>0是关注度系数,设置为1;
其中uic表示用户u和物品i之间的相关性;si,j表示物品i和j之间的相似度;
heati=noci,heati表示物品i获得的总的评论数。
一种应用在协同过滤推荐方法中的相似度计算的***,包括:模型建立模块及处理模块,其中,
模型建立模块,用于基于用户的评论信息,进行用户之间或物品之间的相似度建模;
处理模块,用于获取到用户的评论信息,输入到用户之间或物品之间的相似度模型中,得到用户之间的相似度结果,或物品之间的相似度结果。
如上可见,本发明实施例提出了不需要用户的评分数据,而是基于用户的相关评论信息的协同过滤推荐方法,特别是对现有的协同过滤推荐方法中的计算相似度的步骤进行了改进,使得相似度计算部分只依据用户的评论信息进行建模,而后在使用时直接输入用户的评分信息就可以得到相似度结果。这样,就可以在不需要用户的评分数据基础上,实现协同过滤推荐方法中的相似度之间的计算。
附图说明
图1为本发明实施例提供的一种应用在协同过滤推荐方法中的相似度计算方法流程图;
图2为本发明实施例提供的一种应用在协同过滤推荐方法中的相似度计算***结构示意图;
图3为本发明实施例提供的一种协同过滤推荐方法执行过程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
从背景技术可以看出,现有的协同过滤推荐方法的整个流程中都需要用户主动提供的评分数据参与,当获取不到用户的评分数据时则无法完成协同过滤推荐,其中在现有的协同过滤推荐方法中的计算用户之间的相似度也没有说明具体如何不基于用户的评分数据进行计算。
为了克服上述问题,本发明实施例提出了不需要用户的评分数据,而是基于用户的相关评论信息的协同过滤推荐方法,特别是对现有的协同过滤推荐方法中的计算相似度的步骤进行了改进,使得相似度计算部分只依据用户的评论信息进行建模,而后在使用时直接输入用户的评分信息就可以得到相似度结果。
这样,就可以在不需要用户的评分数据基础上,实现协同过滤推荐方法中的相似度之间的计算。
在本发明实施例中,实现协同过滤推荐方法中的相似度部分的计算,可以针对的是用户之间的相似度,也可以针对的是物品之间的相似度。
本发明实施例中的相似度之间的计算,基于的用户评论信息,而非用户的评分数据,所述用户评论信息包括:与用户相关的物品集合,及获取的用户的特征信息。用户的特征信息也可以称为用户的隐式画像。在获取时,可以采用自然语言处理(NLP)技术进行获取。
在本发明实施例中,用户画像(UP:User Profile)可分为:显式的用户画像(EUP:Explicit User Profile)和隐式的用户画像(LUP:Latent User Profile)。通常,用户画像是指那些可以体现用户个性化的背景信息,而本发明实施例的EUP是指用户自己提供的信息,比如用户的籍贯、年龄、性别或/和口味等等,或者用户明确提及信息,比如:“我比较喜欢吃辣”中的“辣”和“我有糖尿病”中的“糖尿病”。在获取用户明确提及的特征信息时,采用NLP技术从用户的相关评论信息中获取得到。LUP是指用户没有明确提及的UP,例如,某用户的日常食谱中大多数都带有“孕妇”标签,那么可以推测出该用户或该用户的家人中有人怀孕,因此可以将“怀孕”标签确定为该用户的LUP。
在本发明实施例中,获取LUP的具体方式包括:
1)获取与用户相关的物品集合:
对于互联网网络侧提供的不同网站上,相关物品的形式也不同,在互联网网络侧提供的网站上,相关物品集合可以是用户买过的物品、用户购物车中年的物品甚至是用户浏览过的物品。
2)获取用户的隐式用户画像
统计所有物品的信息,例如物品属性信息,将出现次数最多的属性信息集合确定为用户的LUP,其中N1为算法参数,需要根据实际的数据被确定。
图1为本发明实施例提供的一种应用在协同过滤推荐方法中的相似度计算方法流程图,其具体步骤为:
步骤101、基于用户的评论信息,进行用户之间或物品之间的相似度建模;
步骤102、获取到用户的评论信息,输入到用户之间或物品之间的相似度模型中,得到用户之间的相似度结果,或物品之间的相似度结果。
以下详细说明如何进行用户之间的相似度建模,及物品之间的相似度建模。
进行关注度建模
关注度(attention)是指用户对相关物品的关心程度,本发明实施例从用户的评论信息中获取用户对物品的评论数量,基于用户对物品的评论数量,对关注度进行建模,具体建模形式为:
其中attentionu,i表示用户u对物品i的关注度;nocu,i表示用户u对物品i的评论数量;k(>0)是关注度系数,默认值是1,实际的取值需要根据具体的数据被确定。原因在于当k的取值较小时,将不能凸显评论数量对偏好强度的影响;当取值较大时,将会严重忽略评论数为1的偏好强度。
进行相似度建模
由于该相似度计算得到的结果要应用到协同过滤推荐算法,因此需要建立用户之间的相似度关系,目的是找到与目标用户有相似度偏好的邻居集合,进而完成协同过滤过程。
另外,本发明实施例后续也使用了物品与用户之间的相似度对目标用户的候选推荐物品集合进行加权,而物品与用户之间的相似度则是基于目标物品与目标用户评论过的每个物品之间的相似度建模的,因此需要对物品之间的相似度进行度量。
在背景技术中,除了杰卡德相似度建模方式进行用户之间的相似度计算之外,其余的几乎所有都需要用户对物品的评分数据参与,而本发明实施例则基于用户的评论信息对用户之间,及物品之间的相似度进行更加有效地建模,以下分别说明。
用户之间的相似度计算和物品之间的相似度计算有相同的结构,都由两部分组成:相似度主体部分和基于杰卡德相似度建模的杰卡德因子部分。
用户之间的相似度的计算
基于用户的评论信息,具体是与用户相关的物品集合信息,包括物品各种信息,比如具体的物体编号、所评论物品的数量及每个物品的被评论数量等,对用户之间的相似度(us,user similarity)进行了建模,整个建模过程考虑了如下四个因素:
1)用户对物品的关注度:该因素考虑的是两个用户关于同一个物品的关注度,对用户之间的相似度影响,两个不同的用户同时对同一个物品的关注度越高,则在一定程度上可以说明这两个用户比较相似,具体形式为:attentionu,i·attentionv,i
2)物品的流行度:该因素考虑的是物品流行度对用户相似度的影响,物品的流行度采用与物品相关的用户数量进行刻画。某个物品拥有的相关用户数量越多,表示该物品越流行,换句话说,该物品是被大众所喜欢的物品,因此它不能凸显两个用户之间的相似度,具体形式是:也就是,us与|Ui|成负相关,其中Ui表示与物品i相关的用户集合,k1(>0)为参数。
3)非共相关物品数量:该因素考虑的是非共相关物品数量对用户相似度的影响。至少与两个用户之一相关的所有物品中,共相关物品数量越少(即非共相关物品数量越多)可以在一定程度上说明两个用户之间偏好的重叠程度越小,那么这两个用户就可能拥有较小的相似度;反之,则拥有较大的相似度,具体形式是基于杰卡德相似系数的建模,即|Iu,v|/|Iu+Iv|。
4)共相关物品的数量:该因素考虑的是与两个用户共相关的物品数量对整个用户相似度的影响,显而易见,共相关物品数量越多的两个用户更大可能拥有更高的相似度,具体是基于单个物品的用户相似度的叠加形式体现。
us的整体建模形式如下:
则:
其中usu,v表示用户u和v之间的相似度;Iu和Iv分别表示用户u和v评论过的物品集合;Iu,v表示用户u和v共同评论的物品集合;αu(>0)为用户相似度系数,默认值是1;βu(>0)是用户杰卡德系数,默认值是0.5。αu和βu实际的取值需要基于实验在实际数据上的效果来确定。
物品之间的相似度计算
在进行物品之间的相似度计算过程中,基于的是物品的被评论信息,包括具体的评论用户、评论用户的数量以及每个评论用户评论过的物品数量等对物品之间的相似度(is:item similarity)的影响,对is进行建模,建模形式与用户相似度的形式相同,也考虑了四个因素,分别是:
1)物品被关注度:该因素考虑的是两个不同物品关于同一个用户的被关注度对物品相似度的影响,两个不同物品同时获得同一个用户的关注度越高,则在一定程度上可以说明这两个物品比较相似,具体形式是attentionu,i·attentionu,j
2)用户兴趣的广泛性:该因素考虑的是对两个不同物品同时感兴趣的用户的兴趣广泛兴对物品相似度的影响。用户评论的物品数量越多则在一定程度上说明该用户有较为广泛的兴趣,也就是说,即使某个用户对某两个物品进行了评论,也只是该用户广泛评论过的物品中的两个而已,并不能很好地说明这个用户就对这两个物品情有独钟。换句话说,该用户不能凸显这两个物品之间的相似度;相反,如果某个用户仅仅评论了两个物品,则在一定程度上可以说明这两个物品在某个维度上是相似的。具体的形式是:也就是is与|Iu|成负相关,其中Iu表示用户u相关的物品集合,k2(>0)为参数。
3)非共相关用户数量:该因素考虑的是非共相关用户数量对物品相似度的影响。至少与两个物品之一相关的所有用户中,共相关用户数量越少,即非共相关用户数量越多可以在一定程度上说明两个物品之间属性的重叠度越小,那么这两个物品就可能拥有较小的相似度;反之,则拥有较大的相似度,具体形式是基于杰卡德相似系数的建模,即|U_(i,j)|/|U_i+U_j|。
4)共相关用户数量:该因素考虑的是与两个物品共相关的用户数量对整个用户相似度的影响,显而易见,共相关用户数量越多的两个物品更大可能拥有更高的相似度,具体是基于单个用户的物品相似度的叠加形式体现。
is的整体建模形式如下:
则:
其中isi,j表示物品i和j之间的相似度;Ui和Uj分别表示物品i和j的评论用户集合;Ui,j表示物品i和j的共同评论用户集合;αi(>0)为物品相似度系数,默认值是1;βi(>0)是物品杰卡德系数,默认值是0.5。αi和βi实际的取值需要基于实验在实际数据上的效果来确定。
在本发明实施例中,可以将该用户之间的相似度计算模型应用到协同过滤推荐方法中,而协同过滤推荐方法中的其他步骤采用背景技术中的步骤进行。
图2为本发明实施例提供的一种应用在协同过滤推荐方法中的相似度计算***结构示意图,包括:模型建立模块及处理模块,其中,
模型建立模块,用于基于用户的评论信息,进行用户之间或物品之间的相似度建模;
处理模块,用于获取到用户的评论信息,输入到用户之间或物品之间的相似度模型中,得到用户之间的相似度结果,或物品之间的相似度结果。
采用本发明实施例提供的用户之间的相似度结果,就可以应用到协同过滤推荐方法中,计算得到最终的推荐物品集合。在这时,可以采用背景技术提供的推荐方法,也可以采用图3所示的推荐执行过程,以下详细说明。
如图3所示,其执行具体步骤为:
步骤1,获取目标用户的邻居集合
目标用户的邻居集合是指与目标用户有共同相关物品的用户集合。具体的获取方式如下:
其中u表示目标用户;neighboru表示u的邻居集合;Iu表示与u相关的物品集合;Ui表示与物品i相关的用户集合。
步骤2,计算目标用户与所有邻居用户的相似度
基于用户之间的相似度计算公式分别计算neighboru中用户与目标用户的相似度u。
步骤3,获取目标用户的设定数量K最近邻用户集合
根据步骤2中计算的用户相似度对neighboru中的用户按相似度从大到小的顺序排序,将相似度最大的前K个用户确定为目标用户u的K最近邻用户集合,用符号表示其中K为算法参数,需要基于具体的数据集确定。
步骤4,获取目标用户的候选推荐物品集合
目标用户u的候选推荐物品基于K最近邻用户集合获得,获取方式如下:
其中candidateItemu表示目标用户u的候选推荐物品集合;Iv表示与用户v相关的物品集合。
步骤5,计算候选推荐物品的被推荐权重
刚开始的时候,candidateItemu中所有物品的被推荐权重都相等,为默认值1。这一步将为candidateItemu中每一个物品添加一个差异化权重,即对默认权重1进行加权,具体的加权方法如下所述。
步骤6,生成目标用户的推荐物品列表
根据步骤5中计算的物品的被推荐权重对candidateItemu中的物品按权重从大到小进行排序,其中权重最大的前N2个物品被确定为目标用户的推荐物品列表。
为了更好地向目标用户推荐物品信息,本发明实施例需要在candidateItemu找到更符合用户偏好的物品,用户对于物品偏好度越大,则该物品的被推荐权重就越高。为此,本发明实施例设计了6个因子对用户相对于物品的偏好度进行了度量,包括5个基础因子和1个扩展因子。5个基础因子分别是:最大用户相似度(mus:maximum user similarity)、物品认可度(recognition)、画像匹配水平(pml:portrait matching level)、最大关注度(ma:maximum attention)和用户物品相关性(uic:user-item correlation);1个扩展因子是物品热度(heat)。
偏好度的具体建模方案如下:
pu,i=musu,i·recognitioni·pmlu,i·mau,i·uicu,i·heati (4)
其中pu,i表物品表示用户u相对于物品i的偏好度。
以下对5个基础因子及1个扩展因子进行详细说明。
最大用户相似度
最大用户相似度(mus)是指:与被推荐物品相关的用户与目标用户的相似度中的最大值,具体是使用与目标用户最相似度的邻居对应的相似度作为最后的uus加权因子。原因是:物品候选集合中的每个物品可能对应多个邻居用户,因此相应的也会有多个用户相似度与之对应。uus的具体计算公式如下:
其中musu,i表示物品i关于用户u的最大用户相似度;Ui表示物品i的评论用户集合;su,v表示用户u和用户v之间的相似度。
物品认可度
对candidateItemu而言,其中的每个物品所关联的设定数量K最近邻用户数量可能不止一个,如最少与一个用户相关,最多的情况下与中的所有用户相关。因此,物品的认可度(recognition)是指:中与被推荐物品相关的用户数量,即在candidateItemu的生成过程中每个物品重复出现次数。显而易见,关联K最近邻用户数量越多的物品理应获得更高的被推荐权重。recognition的具体计算公式如下:
其中recognitionu,i表示在用户u的K最近邻用户对物品i的认可度;statev,i表示物品i与用户v相关与否的状态标记,计算公式如下:
其中Iv表示与用户v相关的物品集合。
画像匹配水平
画像匹配度(pml)是指:物品的属性集合和隐式用户画像(LUP)的交集大小。显而易见,那些与目标用户画像匹配度更高(物品的属性集合和隐式用户画像的交集大小越大)的物品理应获得更高的推荐权重。具体的pml计算公式如下:
其中pmlu,i表示物品i的标签集合与用户u画像集合的匹配水平;Fi表示物品i的属性集合;LUPu表示用户u隐式画像集合。
最大关注度
最大偏好强度(ma)是指:目标用户的邻居用户对被推荐物品关注度的最大值。当一个用户不厌其烦地多次对一个物品进行评论时,足以见得该用户对该物品的关注程度,反过来就是该物品更加符合该用户的偏好,因此在推荐时理应获得更高的权重。ma的具体计算公式如下:
其中mau,i表示物品i相对于用户u的最大关注度;attentionv,i的计算见公式(1)。
用户-物品相关性
这里的相关性(uic)是指:用户和物品之间的相关程度,基于物品相似度被建模,即目标物品i与目标用户u相关的所有物品之间相似度的平均值。具体的建模方案如下:
其中uic表示用户u和物品i之间的相关性;si,j表示物品i和物品j之间的相似度。
额外加权因素
能反映物品热度(heat)的因素很多,例如:物品获得的评论数、收藏数、点击数等。不同的***可以选择不同的热度因素,这里暂定为物品获得的总评论数。
heati=noci (11)
其中heati表示物品i获得的总的评论数。
另外,本发明实施例设置的模型为了在面对不同数据时表现出个性化,设置了多个参数,分别是:***画像数N1、关注度系数k、用户和物品相似度系数αu和αi、用户和物品的杰卡德系数βu和βi和最近邻用户数量K。在不同的***中,用户的规模、物品的规模以及物品的属性规模都不相同,以上参数的设置都是为了让模型能更好的拟合这种差异化。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种应用在协同过滤推荐方法中的相似度计算方法,其特征在于,包括:
基于用户的评论信息,进行用户之间或物品之间的相似度建模;
获取到用户的评论信息,输入到用户之间或物品之间的相似度模型中,得到用户之间的相似度结果,或物品之间的相似度结果。
2.如权利要求1所述的方法,其特征在于,所述用户的评论信息包括:与用户相关的物品集合,及获取的用户的特征信息。
3.如权利要求1所述的方法,其特征在于,所述进行用户之间的相似度建模基于:用户对物品的关注度、物品的流行度、非公相关物品数量及共相关物品数量。
4.如权利要求1或3所述的方法,其特征在于,所述进行用户之间的相似度建模采用的公式为:
其中usu,v表示用户u和用户v之间的相似度;Iu和Iv分别表示用户u和用户v评论过的物品集合;Iu,v表示用户u和用户v共同评论的物品集合;αu(>0)为用户相似度系数,设置为1;βu>0是用户杰卡德系数,设置0.5。
5.如权利要求1所述的方法,其特征在于,所述进行物品之间的相似度建模基于:物品被关注度、用户兴趣的广泛性、非共相关用户数量及共相关用户数量。
6.如权利要求1或5所述的方法,其特征在于,所述进行物品之间的相似度建模采用的公式为:
其中isi,j表示物品i和物品j之间的相似度;
Ui和Uj分别表示物品i和物品j的评论用户集合;
Ui,j表示物品i和物品j的共同评论用户集合;
αi>0为物品相似度系数,初始设置为1;βi>0是物品杰卡德系数,初始设置为0.5。
7.如权利要求4或6所述的方法,其特征在于,所述αi和βi分别实时更新。
8.如权利要求1所述的方法,其特征在于,该方法还包括:
基于用户之间的相似度结果,获取用户的设置数量的最近邻用户集合;
根据用户的设置数量的最近邻用户集合的推荐物品集合,获取得到用户的潜在推荐物品集合;
将获取得到的用户的潜在推荐物品集合输入到设置的推荐物品模型中,得到为用户推荐的物品集合。
9.如权利要求8所述的方法,其特征在于,所述推荐物品模型为:
其中candidateItemu表示目标用户u的候选推荐物品集合;Iv表示与用户v相关的物品集合;
为目标用户u的候选推荐物品集合中的每个物品设置推荐权重值,将计算得到的权重值最大的设定个数的物品作为推荐物品结果;
所述为所述每个物品设置推荐权重值的计算包括:
pu,i=musu,i·recognitioni·pmlu,i·mau,i·uicu,i·heati
其中,pu,i表物品表示用户u相对于物品i的偏好度;
musu,i表示物品i关于用户u的最大用户相似度,Ui表示物品i的评论用户集合,su,v表示用户u和v之间的相似度;
recognitionu,i表示在用户u的设置K数量的最近邻用户对物品i的认可度,statev,i表示物品i与用户v相关与否的状态标记,
其中Iv表示与用户v相关的物品集合;
pmlu,i表示物品i的标签集合与用户u画像集合的匹配水平,Fi表示物品i的属性集合,LUPu表示用户u隐式画像集合;
mau,i表示物品i相对于用户u的最大关注度,attentionv,i的计算为attentionu,i表示用户u对物品i的关注度,nocu,i表示用户u对物品i的评论数量;k>0是关注度系数,设置为1;
其中uic表示用户u和物品i之间的相关性;si,j表示物品i和j之间的相似度;
heati=noci,heati表示物品i获得的总的评论数。
10.一种应用在协同过滤推荐方法中的相似度计算的***,其特征在于,包括:模型建立模块及处理模块,其中,
模型建立模块,用于基于用户的评论信息,进行用户之间或物品之间的相似度建模;
处理模块,用于获取到用户的评论信息,输入到用户之间或物品之间的相似度模型中,得到用户之间的相似度结果,或物品之间的相似度结果。
CN201910478934.9A 2019-06-04 2019-06-04 一种应用在协同过滤方法中的相似度计算方法及*** Active CN110377841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910478934.9A CN110377841B (zh) 2019-06-04 2019-06-04 一种应用在协同过滤方法中的相似度计算方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910478934.9A CN110377841B (zh) 2019-06-04 2019-06-04 一种应用在协同过滤方法中的相似度计算方法及***

Publications (2)

Publication Number Publication Date
CN110377841A true CN110377841A (zh) 2019-10-25
CN110377841B CN110377841B (zh) 2022-01-07

Family

ID=68249775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910478934.9A Active CN110377841B (zh) 2019-06-04 2019-06-04 一种应用在协同过滤方法中的相似度计算方法及***

Country Status (1)

Country Link
CN (1) CN110377841B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625704A (zh) * 2020-05-11 2020-09-04 镇江纵陌阡横信息科技有限公司 一种用户意图与数据协同的非个性化推荐算法模型
CN114969566A (zh) * 2022-06-27 2022-08-30 中国测绘科学研究院 一种距离度量的政务服务事项协同过滤推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242929A1 (en) * 2014-02-24 2015-08-27 Shoefitr, Inc. Method and system for improving size-based product recommendations using aggregated review data
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN109408734A (zh) * 2018-09-28 2019-03-01 嘉兴学院 一种融合信息熵相似度与动态信任的协同过滤推荐方法
CN109783738A (zh) * 2019-01-22 2019-05-21 东华大学 一种基于多相似度的双极限学习机混合协同过滤推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242929A1 (en) * 2014-02-24 2015-08-27 Shoefitr, Inc. Method and system for improving size-based product recommendations using aggregated review data
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN109408734A (zh) * 2018-09-28 2019-03-01 嘉兴学院 一种融合信息熵相似度与动态信任的协同过滤推荐方法
CN109783738A (zh) * 2019-01-22 2019-05-21 东华大学 一种基于多相似度的双极限学习机混合协同过滤推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625704A (zh) * 2020-05-11 2020-09-04 镇江纵陌阡横信息科技有限公司 一种用户意图与数据协同的非个性化推荐算法模型
CN114969566A (zh) * 2022-06-27 2022-08-30 中国测绘科学研究院 一种距离度量的政务服务事项协同过滤推荐方法
CN114969566B (zh) * 2022-06-27 2023-03-24 中国测绘科学研究院 一种距离度量的政务服务事项协同过滤推荐方法

Also Published As

Publication number Publication date
CN110377841B (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN107451894B (zh) 数据处理方法、装置和计算机可读存储介质
Hu et al. HERS: Modeling influential contexts with heterogeneous relations for sparse and cold-start recommendation
Jannach et al. What recommenders recommend: an analysis of recommendation biases and possible countermeasures
Bach et al. Personalized recommendation of stories for commenting in forum-based social media
US9864747B2 (en) Content recommendation device, recommended content search method, and program
CN102789462B (zh) 一种项目推荐方法及***
CN104966125B (zh) 一种社交网络的物品评分及推荐方法
US20150169758A1 (en) Multi-partite graph database
CN108665333A (zh) 商品推荐方法、装置、电子设备和存储介质
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐***及方法
CN109711925A (zh) 具有多个辅助域的跨域推荐数据处理方法、跨域推荐***
CN106777051A (zh) 一种基于用户组的多反馈协同过滤推荐方法
CN105787068B (zh) 基于引用网络及用户熟练度分析的学术推荐方法及***
CN104239496B (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
Bin et al. Collaborative filtering recommendation algorithm based on multi-relationship social network
CN107103000A (zh) 一种基于关联规则与贝叶斯网络集成的推荐技术
CN107274242A (zh) 一种基于关联分析算法的商品推荐方法
CN109190030A (zh) 融合node2vec和深度神经网络的隐式反馈推荐方法
CN109840833A (zh) 贝叶斯协同过滤推荐方法
CN108334592A (zh) 一种基于内容与协同过滤相结合的个性化推荐方法
CN110390046A (zh) 一种协同过滤推荐方法及***
Zhang et al. A random-walk based recommendation algorithm considering item categories
CN107545471A (zh) 一种基于高斯混合的大数据智能推荐方法
CN108920521A (zh) 基于伪本体的用户画像-项目推荐***及方法
CN108876508A (zh) 一种电商协同过滤推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant