CN113269609A - 用户相似度的计算方法、计算***、设备及存储介质 - Google Patents

用户相似度的计算方法、计算***、设备及存储介质 Download PDF

Info

Publication number
CN113269609A
CN113269609A CN202110570380.2A CN202110570380A CN113269609A CN 113269609 A CN113269609 A CN 113269609A CN 202110570380 A CN202110570380 A CN 202110570380A CN 113269609 A CN113269609 A CN 113269609A
Authority
CN
China
Prior art keywords
user
commodity
score
calculating
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110570380.2A
Other languages
English (en)
Inventor
霍慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110570380.2A priority Critical patent/CN113269609A/zh
Publication of CN113269609A publication Critical patent/CN113269609A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种用户相似度的计算方法、计算***、计算机设备及存储介质,所述方法包括:获取用户‑商品评分矩阵;基于预设的时间权重对用户‑商品评分矩阵中的评分进行修正,得出新的用户‑商品评分矩阵;针对新的用户‑商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;对评分差值进行分类并分别计算各个类别评分差值的频率;计算所有类别评分差值的改进信息熵;根据信息熵结合预设的相似度计算方法,计算新的用户‑商品评分矩阵中任意两个用户之间的相似度。本公开的技术方案使得评分更加真实的反映用户偏好;同时引入信息熵缓解了数据稀疏的问题,使得相似度计算结果更符合实际情况,商品推荐更加精准。

Description

用户相似度的计算方法、计算***、设备及存储介质
技术领域
本公开属于电子商务技术领域,具体涉及一种用户相似度的计算方法,一种用户相似度的计算***,一种计算机设备,以及一种计算机可读存储介质。
背景技术
协同过滤(Collaborative Filtering,简称CF)算法是推荐***中的代表算法,被各大电商平台广泛应用。协同过滤算法主要有基于用户的协同过滤(User-CF)算法和基于商品的协同过滤(Item-CF)算法。如图1所示,User-CF算法的关键是找到目标用户的相似用户,综合相似用户的偏好商品推荐给目标用户。步骤分为三步:1、获取用户-商品评分信息;2、根据用户-商品评分信息计算用户相似度并按照大小排序,取其中相似度较大的前N个用户,作为近邻用户集;3、根据近邻用户集对商品的评分,对用户未知的商品进行评分预测,将预测评分最高的商品推荐给用户。
可以看出,用户相似度计算是User-CF算法的关键。用户相似度计算基于用户-商品评分矩阵完成,求解时可以使用到的策略有余弦相似度、修正的余弦相似度、皮尔逊(Pearson)相关系数、杰卡德(Jaccard)相似度等。
由于现有用户相似度计算是基于用户-商品评分矩阵完成的,需要数据集中,并且有足够的用户行为信息,当用户历史行为较少,甚至新用户没有历史行为信息时,就会出现用户间没有足够的共同商品评分信息,即用户-商品评分矩阵数据稀疏的问题,导致用户间的相似性计算不准确,从而难以做出准确率较高的推荐。而且,现有协同过滤算法对用户访问的商品同等对待,没有充分考虑用户最近访问的商品对用户兴趣衡量的贡献,导致推荐***的推荐可靠度和推荐精度不高。
发明内容
本公开提供一种用户相似度的计算方法、计算***、计算机设备及存储介质,使得评分更加真实的反映用户偏好;并缓解了数据稀疏的问题,使相似度计算结果更符合实际情况,商品推荐更加精准。
第一方面,本公开实施例提供一种用户相似度的计算方法,包括:
获取用户-商品评分矩阵;
基于预设的时间权重对用户-商品评分矩阵中评分进行修正,得出新的用户-商品评分矩阵;
针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;
对所述评分差值进行分类并分别计算各个类别评分差值的频率;
根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;
根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。
进一步的,所述基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,采用如下公式得出:
Figure BDA0003082430700000021
Figure BDA0003082430700000022
式(1)和式(2)中,t(ui)和t(vi)分别表示用户u和用户v对商品i的评分时间;wt(ui)、wt(vi)分别为用户u和用户v预设的时间权重计算式;t(0)表示用户u和用户v对商品进行评分时最早的评分时间;α表示时间衰减参数,反映用户兴趣变化的快慢;T表示时间窗口;ui和vi分别表示用户u和用户v对商品i的评分;u′i和v′i分别表示用户u和用户v对商品i的修正评分;i取1至n。
进一步的,所述针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值,采用如下公式得出:
dif(u′,v′)=(u1′-v1′,…,ui′-vi′,…,un′-vn′)=(d1,…,di,…,dn) (3)
式(3)中,dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;d1,…,di,…,dn分别表示用户u和用户v对共同评分商品1,…,商品i,…,商品n的评分差值。
进一步的,所述分别计算各个类别评分差值的频率,采用如下公式得出:
fre(dif(u′,v′))=(p1,p2,…,pj,…,pk) (4)
式中,fre(dif(u′,v′))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,各个类别评分差值的频率;dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;k表示将所述各个共同评分商品的评分差值划分成的类别数量,pj表示其中第j类评分差值出现的概率。
进一步的,所述计算所有类别评分差值的改进信息熵,采用如下公式得出:
Figure BDA0003082430700000031
式(5)中,H′(fre(dif(u′,v′))0表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,所有类别评分差值的改进信息熵;
Figure BDA0003082430700000032
为改进的信息熵计算公式,其中d(pj)表示分布概率为pj的评分差值。
进一步的,所述根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度,采用如下公式得出:
Figure BDA0003082430700000033
式(6)中,sim(u′,v′)表示用户u和用户v之间的相似度;Iu和Iv分别表示用户u和用户v进行评分的商品集合;
Figure BDA0003082430700000034
为Jaccard相似度计算公式。
第二方面,本公开实施例提供一种用户相似度的计算***,包括:
获取模块,其设置为获取用户-商品评分矩阵;
评分修正模块,其设置为基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,得出新的用户-商品评分矩阵;
第一计算模块,其设置为针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;以及,
对所述评分差值进行分类并分别计算各个类别评分差值的频率;
第二计算模块,其设置为根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;以及,
根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。
进一步的,所述评分修正模块具体设置为:
采用公式(1)和公式(2)对用户-商品评分矩阵中的评分进行修正:
Figure BDA0003082430700000041
Figure BDA0003082430700000042
式(1)和式(2)中,t(ui)和t(vi)分别表示用户u和用户v对商品i的评分时间;wt(ui)、wt(vi)分别为用户u和用户v预设的时间权重计算式;t(0)表示用户u和用户v对商品进行评分时最早的评分时间;α表示时间衰减参数,反映用户兴趣变化的快慢;T表示时间窗口;ui和vi分别表示用户u和用户v对商品i的评分;u′i和v′i分别表示用户u和用户v对商品i的修正评分;i取1至n。
第三方面,本公开实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如第一方面中任一所述的用户相似度的计算方法。
第四方面,本公开实施例还提供一种计算机可读存储介质,包括:计算机程序,当其在计算机上运行时,使得计算机执行如第一方面中任一所述用户相似度的计算方法。
有益效果:
本公开提供的用户相似度的计算方法、计算***、计算机设备及存储介质,通过获取用户-商品评分矩阵;基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,得出新的用户-商品评分矩阵;针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;对所述评分差值进行分类并分别计算各个类别评分差值的频率;根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。本公开技术方案考虑了时间对用户兴趣的影响,引入时间权重对用户评分进行修正,使得评分更加真实的反映用户偏好;同时引入信息熵计算理念,对用户相似度进行计算,缓解了数据稀疏的问题,使得相似度计算结果更符合实际情况,商品推荐更加精准。
附图说明
图1为现有技术中基于用户的协同过滤推荐算法的示意图;
图2为本公开实施例一提供的一种用户相似度的计算方法的流程示意图;
图3为本公开实施例二提供的一种用户相似度的计算***的架构图;
图4为本公开实施例三提供的一种计算机设备的架构图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和实施例对本公开作进一步详细描述。
其中,在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚的表示其他含义。
由于现有用户相似度计算是基于用户-商品评分矩阵完成的,需要数据集中且有足够的用户行为信息,当用户历史行为较少,甚至新用户没有历史行为信息时,会出现用户间没有足够的共同商品评分信息,即用户-商品评分矩阵数据稀疏的问题,因而导致用户间的相似性计算不准确,从而难以做出准确率较高的推荐。且传统协同过滤算法对用户访问的商品同等对待,没有充分考虑最近访问的商品对用户兴趣衡量的贡献,推荐可靠度和推荐精度不高。
下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本公开实施例一提供的一种协同过滤算法中用户相似度的计算方法流程示意图,如图1所示,包括:
步骤S101:获取用户-商品评分矩阵;
步骤S102:基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,得出新的用户-商品评分矩阵;
步骤S103:针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;
步骤S104:对所述评分差值进行分类并分别计算各个类别评分差值的频率;
步骤S105:根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;
步骤S106:根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。
用户相似度计算是User-CF算法的关键。用户相似度计算基于用户-商品评分矩阵完成,例如有用户-商品评分矩阵Rmn如下:
Figure BDA0003082430700000071
式中,m代表有m个用户,n代表有n个商品,Rmn代表第m个用户对第n个商品的评分,用户相似度计算采用行向量进行。求解时可以使用到的策略有余弦相似度、修正的余弦相似度、Pearson相关系数等。
考虑到用户兴趣会随时间发生变化,为了更真实的反映用户评分情况,引入时间权重对商品评分矩阵中的评分进行修正,构建新的用户商品评分矩阵。通过修正商品评分矩阵中的评分,使用户最近的评分更高,使评分更能体现用户当前的兴趣。
然后,基于新的商品评分矩阵,计算用户u和用户v共同评分商品的评分差值,再进行频率分析,对评分差值进行分类并计算各个类别的频率;通过计算信息熵,进行用户相似度的计算,信息熵可理解成某种特定信息的出现概率(离散随机事件的出现概率),可以反映一个***的混乱程度,信息熵越低表示***越是有序。由于用户相似度和信息熵成反比,信息熵越大,表明两个用户之间差异程度越大,两个用户越不相似;信息熵越小,表明两个用户之间的差异程度越小,两个用户越相似。信息熵的计算公式如下:
Figure BDA0003082430700000072
式中,n表示样本U中信息类别的个数,pi表示样本U中编号为i的信息出现的概率。在本公开实施例的一种实施方式中,除考虑评分差值的频率外,还可以对信息熵进行改进,例如评分差值本身也对计算结果有影响,在信息熵计算时对公式(7)进行改进,加入评分差值本身。
进一步的,所述基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,采用如下公式得出:
Figure BDA0003082430700000073
Figure BDA0003082430700000074
式(1)和式(2)中,t(ui)和t(vi)分别表示用户u和用户v对商品i的评分时间;wt(ui)、wt(vi)分别为用户u和用户v预设的时间权重计算式;t(0)表示用户u和用户v对商品进行评分时最早的评分时间;α表示时间衰减参数,反映用户兴趣变化的快慢;T表示时间窗口;ui和vi分别表示用户u和用户v对商品i的评分;u′i和v′i分别表示用户u和用户v对商品i的修正评分;i取1至n。
通过时间权重wt可减少用户长期兴趣的比重,增加短期兴趣的比重,更好地反映当下用户的兴趣。不同用户的时间权重wt中的时间衰减参数相同。
进一步的,所述针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值,采用如下公式得出:
dif(u′,v′)=(u1′-v1′,…,ui′-vi′,…,un′-vn′)=(d1,…,di,…,dn) (3)
式(3)中,dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;d1,…,di,…,dn分别表示用户u和用户v对共同评分商品1,…,商品i,…,商品n的评分差值。。
通过修正的商品评分矩阵,可获取到在当前情况下,两个用户对共同评分商品的评分差值,消除两个用户在不同时间评分对两者相似度的影响。
进一步的,所述分别计算各个类别评分差值的频率,采用如下公式得出:
fre(dif(u′,v′))=(p1,p2,…,pj,…,pk) (4)
式中,fre(dif(u′,v′))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,各个类别评分差值的频率;dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;k表示将所述各个共同评分商品的评分差值划分成的类别数量,pj表示其中第j类评分差值出现的概率。
对评分差值进行频率分析,得出评分差值的分布特征,例如用户u和用户v共同评分商品的评分差值为(1,2,2,3),则评分差值为1、2、3这3个类别的频率表示为(1/4,1/2,1/4)。
进一步的,所述计算所有类别评分差值的改进信息熵,采用如下公式得出:
Figure BDA0003082430700000091
式(5)中,H′(fre(dif(u′,v′)))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,所有类别评分差值的改进信息熵;
Figure BDA0003082430700000092
为改进的信息熵计算公式,其中d(pj)表示分布概率为pj的评分差值。
除考虑评分差值的频率外,评分差值本身也对计算结果有影响,比如dif(u′,v′)=(1,2,3),dif(u′,w′)=(3,4,5),信息熵计算结果一致,但实际用户u和用户v的相似度要大于用户u和用户w的相似度。因此,加入评分差值本身对信息熵计算公式进行改进。
进一步的,所述根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度,采用如下公式得出:
Figure BDA0003082430700000093
式(6)中,sim(u′,v′)表示用户u和用户v之间的相似度;Iu和Iv分别表示用户u和用户v进行评分的商品集合;
Figure BDA0003082430700000094
为Jaccard相似度计算公式。
Jaccard相似度不关心用户对商品的评分高低,只考虑用户对商品是否存在偏好这一行为,即两个用户共同商品评分数占总评分数的比例。取值在(0,1)之间,值为0时,表示两个用户没有任何共同偏好,值为1时,表示两个用户偏好一致。
Figure BDA0003082430700000095
Iu、Iv分别表示用户u和用户v评分的商品集合。
本公开实施例通过考虑用户兴趣随时间发生变化,引入时间权重对用户评分进行修正,更加真实的反映用户当下的兴趣偏好;同时引入信息熵计算理念,通过改进并结合Jaccard相似度对用户相似度进行计算,缓解了数据稀疏的问题,使得相似度计算结果更符合实际情况,推荐结果更加精准。
图3为本公开实施例二提供的一种用户相似度的计算***的架构图,如图3所示,包括:
获取模块1,其设置为获取用户-商品评分矩阵;
评分修正模块2,其设置为基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,得出新的用户-商品评分矩阵;
第一计算模块3,其设置为针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;以及,
对所述评分差值进行分类并分别计算各个类别评分差值的频率;
第二计算模块4,其设置为根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;以及,
根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。
进一步的,所述评分修正模块2具体设置为:
采用公式(1)和公式(2)对用户-商品评分矩阵中用户对比商品的评分进行修正:
Figure BDA0003082430700000101
Figure BDA0003082430700000102
式(1)和式(2)中,t(ui)和t(vi)分别表示用户u和用户v对商品i的评分时间;wt(ui)、wt(vi)分别为用户u和用户v预设的时间权重计算式;t(0)表示用户u和用户v对商品进行评分时最早的评分时间;α表示时间衰减参数,反映用户兴趣变化的快慢;T表示时间窗口;ui和vi分别表示用户u和用户v对商品i的评分;u′i和v′i分别表示用户u和用户v对商品i的修正评分;i取1至n。
进一步的,所述第一计算模块3具体设置为:
采用公式(3)计算任意两个用户对于各个共同评分商品的评分差值:
dif(u′,v′)=(u1′-v1′,…,ui′-vi′,…,un′-vn′)=(d1,…,di,…,dn) (3)
式(3)中,dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;d1,…,di,…,dn分别表示用户u和用户v对共同评分商品1,…,商品i,…,商品n的评分差值。
进一步的,所述第一计算模块3还设置为:
采用如下公式分别计算各个类别评分差值的频率:
fre(dig(u′,v′))=(p1,p2,…,pj,…,pk) (4)
式中,fre(dif(u′,v′))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,各个类别评分差值的频率;dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;k表示将所述各个共同评分商品的评分差值划分成的类别数量,pj表示其中第j类评分差值出现的概率。
进一步的,所述第二计算模块4具体设置为:
采用如下公式计算所有类别评分差值的改进信息熵:
Figure BDA0003082430700000111
式(5)中,H′(fre(dif(u′,v′)))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,所有类别评分差值的改进信息熵;
Figure BDA0003082430700000112
为改进的信息熵计算公式,其中d(pj)表示分布概率为pj的评分差值。
进一步的,所述第二计算模块4具体还设置为:
采用如下公式计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度:
Figure BDA0003082430700000113
式(6)中,sim(u′,v′)表示用户u和用户v之间的相似度;Iu和Iv分别表示用户u和用户v进行评分的商品集合;
Figure BDA0003082430700000114
为Jaccard相似度计算公式。
本公开实施例的用户相似度的计算***用于实施方法实施例一中的用户相似度的计算方法,所以描述的较为简单,具体可以参见前面方法实施例一中的相关描述,此处不再赘述。
此外,如图4所示,本公开实施例三还提供一种计算机设备,包括存储器10和处理器20,所述存储器10中存储有计算机程序,当所述处理器20运行所述存储器10存储的计算机程序时,所述处理器20执行上述各种可能的用户相似度的计算方法。
此外,本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC(Application Specific Integrated Circuit,专用集成电路)中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (10)

1.一种用户相似度的计算方法,其特征在于,包括:
获取用户-商品评分矩阵;
基于预设的时间权重对用户-商品评分矩阵中评分进行修正,得出新的用户-商品评分矩阵;
针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;
对所述评分差值进行分类并分别计算各个类别评分差值的频率;
根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;
根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。
2.根据权利要求1所述的计算方法,其特征在于,所述基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,采用如下公式得出:
Figure FDA0003082430690000011
Figure FDA0003082430690000012
式(1)和式(2)中,t(ui)、t(vi)分别表示用户u和用户v对商品i的评分时间;wt(ui)、wt(vi)分别为用户u和用户v预设的时间权重计算式;t(0)表示用户u和用户v对商品进行评分时最早的评分时间;α表示时间衰减参数,反映用户兴趣变化的快慢;T表示时间窗口;ui、vi分别表示用户u和用户v对商品i的评分;u′i、v′i分别表示用户u和用户v对商品i的修正评分;i取1至n。
3.根据权利要求2所述的计算方法,其特征在于,所述针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值,采用如下公式得出:
dif(u′,v′)=(u1′-v1′,…,ui′-vi′,…,un′-vn′)=(d1,…,di,…,dn) (3)
式(3)中,dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;d1,…,di,…,dn分别表示用户u和用户v对共同评分商品1,…,商品i,…,商品n的评分差值。
4.根据权利要求2所述的计算方法,其特征在于,所述分别计算各个类别评分差值的频率,采用如下公式得出:
fre(dif(u′,v′))=(p1,p2,…,pj,…,pk) (4)
式中,fre(dif(u′,v′))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后,各个类别评分差值的频率;dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值;k表示将所述各个共同评分商品的评分差值划分成的类别数量,pj表示其中第j类评分差值出现的概率。
5.根据权利要求4所述的计算方法,其特征在于,所述计算所有类别评分差值的改进信息熵,采用如下公式得出:
Figure FDA0003082430690000021
式(5)中,H′(fre(dif(u′,v′)))表示将用户u和用户V对各个共同评分商品的评分差值分成k个类后,所有类别评分差值的改进信息熵;
Figure FDA0003082430690000022
为改进的信息熵计算公式,其中d(pj)表示分布概率为pj的评分差值。
6.根据权利要求5所述的计算方法,其特征在于,所述根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度,采用如下公式得出:
Figure FDA0003082430690000023
式(6)中,sim(u′,v′)表示用户u和用户v之间的相似度;Iu和Iv分别表示用户u和用户v进行评分的商品集合;
Figure FDA0003082430690000031
为Jaccard相似度计算公式。
7.一种用户相似度的计算***,其特征在于,包括:
获取模块,其设置为获取用户-商品评分矩阵;
评分修正模块,其设置为基于预设的时间权重对用户-商品评分矩阵中的评分进行修正,得出新的用户-商品评分矩阵;
第一计算模块,其设置为针对新的用户-商品评分矩阵,计算其中任意两个用户对于各个共同评分商品的评分差值;以及,
对所述评分差值进行分类并分别计算各个类别评分差值的频率;
第二计算模块,其设置为根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵;以及,
根据所述信息熵结合预设的相似度计算方法,计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。
8.根据权利要求7所述的计算***,其特征在于,所述评分修正模块具体设置为:
采用公式(1)和公式(2)对用户-商品评分矩阵中的评分进行修正:
Figure FDA0003082430690000032
Figure FDA0003082430690000033
式(1)和式(2)中,t(ui)和t(vi)分别表示用户u和用户v对商品i的评分时间;wt(ui)、wt(vi)分别为用户u和用户v预设的时间权重计算式;t(0)表示用户u和用户v对商品进行评分时最早的评分时间;α表示时间衰减参数,反映用户兴趣变化的快慢;T表示时间窗口;ui和vi分别表示用户u和用户v对商品i的评分;u′i和v′i分别表示用户u和用户v对商品i的修正评分;i取1至n。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1-6中任一项所述的用户相似度的计算方法。
10.一种计算机可读存储介质,包括:计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的用户相似度的计算方法。
CN202110570380.2A 2021-05-25 2021-05-25 用户相似度的计算方法、计算***、设备及存储介质 Withdrawn CN113269609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110570380.2A CN113269609A (zh) 2021-05-25 2021-05-25 用户相似度的计算方法、计算***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110570380.2A CN113269609A (zh) 2021-05-25 2021-05-25 用户相似度的计算方法、计算***、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113269609A true CN113269609A (zh) 2021-08-17

Family

ID=77232725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110570380.2A Withdrawn CN113269609A (zh) 2021-05-25 2021-05-25 用户相似度的计算方法、计算***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113269609A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法
CN104935970A (zh) * 2015-07-09 2015-09-23 三星电子(中国)研发中心 进行电视内容推荐的方法及电视客户端
CN107247753A (zh) * 2017-05-27 2017-10-13 深圳大学 一种相似用户选取方法及装置
CN109241203A (zh) * 2018-09-27 2019-01-18 天津理工大学 一种融合时间因素的用户偏好和距离加权的聚类方法
CN109408734A (zh) * 2018-09-28 2019-03-01 嘉兴学院 一种融合信息熵相似度与动态信任的协同过滤推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法
CN104935970A (zh) * 2015-07-09 2015-09-23 三星电子(中国)研发中心 进行电视内容推荐的方法及电视客户端
CN107247753A (zh) * 2017-05-27 2017-10-13 深圳大学 一种相似用户选取方法及装置
CN109241203A (zh) * 2018-09-27 2019-01-18 天津理工大学 一种融合时间因素的用户偏好和距离加权的聚类方法
CN109408734A (zh) * 2018-09-28 2019-03-01 嘉兴学院 一种融合信息熵相似度与动态信任的协同过滤推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘文龙: "基于加权信息熵相似度的协同过滤算法", 《中国优秀硕士学位论文全文数据库》 *

Similar Documents

Publication Publication Date Title
CN105787061B (zh) 信息推送方法
CN109783734B (zh) 一种基于项目属性的混合协同过滤推荐算法
US7206780B2 (en) Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US8166032B2 (en) System and method for sentiment-based text classification and relevancy ranking
US8738436B2 (en) Click through rate prediction system and method
US20150161529A1 (en) Identifying Related Events for Event Ticket Network Systems
US20110016116A1 (en) Web searching
CN106021298B (zh) 一种基于非对称加权相似度的协同过滤推荐方法及***
CN109635206B (zh) 融合隐式反馈和用户社会地位的个性化推荐方法及***
US9830643B2 (en) Adaptive risk-based verification and authentication platform
CN107527236A (zh) 一种基于市场效应的协同过滤推荐方法及推荐***
CN104766219B (zh) 基于以列表为单位的用户推荐列表生成方法及***
CN113065062A (zh) 一种基于用户阅读时间行为的新闻推荐方法及***
CN111400585B (zh) 图书推荐方法及装置
CN112818262B (zh) 基于用户数据的地图poi搜索方法、***、设备及介质
CN113129053B (zh) 信息推荐模型训练方法、信息推荐方法及存储介质
CN113191838A (zh) 一种基于异质图神经网络的购物推荐方法及***
CN115439139A (zh) 一种基于电商大数据的用户兴趣分析方法
CN111563787A (zh) 一种基于用户评论和评分的推荐***及方法
Smith Structural breaks in grouped heterogeneity
US20090240643A1 (en) System and method for detecting human judgment drift and variation control
CN111382265B (zh) 搜索方法、装置、设备和介质
CN113269609A (zh) 用户相似度的计算方法、计算***、设备及存储介质
He et al. Understanding Users' Coupon Usage Behaviors in E-Commerce Environments
Pereira et al. A survey on filtering techniques for recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210817

WW01 Invention patent application withdrawn after publication