CN113269609A

CN113269609A - 用户相似度的计算方法、计算***、设备及存储介质

Info

Publication number: CN113269609A
Application number: CN202110570380.2A
Authority: CN
Inventors: 霍慧
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-17

Abstract

本公开提供一种用户相似度的计算方法、计算***、计算机设备及存储介质，所述方法包括：获取用户‑商品评分矩阵；基于预设的时间权重对用户‑商品评分矩阵中的评分进行修正，得出新的用户‑商品评分矩阵；针对新的用户‑商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值；对评分差值进行分类并分别计算各个类别评分差值的频率；计算所有类别评分差值的改进信息熵；根据信息熵结合预设的相似度计算方法，计算新的用户‑商品评分矩阵中任意两个用户之间的相似度。本公开的技术方案使得评分更加真实的反映用户偏好；同时引入信息熵缓解了数据稀疏的问题，使得相似度计算结果更符合实际情况，商品推荐更加精准。

Description

用户相似度的计算方法、计算***、设备及存储介质

技术领域

本公开属于电子商务技术领域，具体涉及一种用户相似度的计算方法，一种用户相似度的计算***，一种计算机设备，以及一种计算机可读存储介质。

背景技术

协同过滤(Collaborative Filtering，简称CF)算法是推荐***中的代表算法，被各大电商平台广泛应用。协同过滤算法主要有基于用户的协同过滤(User-CF)算法和基于商品的协同过滤(Item-CF)算法。如图1所示，User-CF算法的关键是找到目标用户的相似用户，综合相似用户的偏好商品推荐给目标用户。步骤分为三步：1、获取用户-商品评分信息；2、根据用户-商品评分信息计算用户相似度并按照大小排序，取其中相似度较大的前N个用户，作为近邻用户集；3、根据近邻用户集对商品的评分，对用户未知的商品进行评分预测，将预测评分最高的商品推荐给用户。

可以看出，用户相似度计算是User-CF算法的关键。用户相似度计算基于用户-商品评分矩阵完成，求解时可以使用到的策略有余弦相似度、修正的余弦相似度、皮尔逊(Pearson)相关系数、杰卡德(Jaccard)相似度等。

由于现有用户相似度计算是基于用户-商品评分矩阵完成的，需要数据集中，并且有足够的用户行为信息，当用户历史行为较少，甚至新用户没有历史行为信息时，就会出现用户间没有足够的共同商品评分信息，即用户-商品评分矩阵数据稀疏的问题，导致用户间的相似性计算不准确，从而难以做出准确率较高的推荐。而且，现有协同过滤算法对用户访问的商品同等对待，没有充分考虑用户最近访问的商品对用户兴趣衡量的贡献，导致推荐***的推荐可靠度和推荐精度不高。

发明内容

本公开提供一种用户相似度的计算方法、计算***、计算机设备及存储介质，使得评分更加真实的反映用户偏好；并缓解了数据稀疏的问题，使相似度计算结果更符合实际情况，商品推荐更加精准。

第一方面，本公开实施例提供一种用户相似度的计算方法，包括：

获取用户-商品评分矩阵；

基于预设的时间权重对用户-商品评分矩阵中评分进行修正，得出新的用户-商品评分矩阵；

针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值；

对所述评分差值进行分类并分别计算各个类别评分差值的频率；

根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵；

根据所述信息熵结合预设的相似度计算方法，计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。

进一步的，所述基于预设的时间权重对用户-商品评分矩阵中的评分进行修正，采用如下公式得出：

式(1)和式(2)中，t(u_i)和t(v_i)分别表示用户u和用户v对商品i的评分时间；w_t(u_i)、w_t(v_i)分别为用户u和用户v预设的时间权重计算式；t(0)表示用户u和用户v对商品进行评分时最早的评分时间；α表示时间衰减参数，反映用户兴趣变化的快慢；T表示时间窗口；u_i和v_i分别表示用户u和用户v对商品i的评分；u′_i和v′_i分别表示用户u和用户v对商品i的修正评分；i取1至n。

进一步的，所述针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值，采用如下公式得出：

dif(u′,v′)＝(u₁′-v₁′,…,u_i′-v_i′,…,u_n′-v_n′)＝(d₁,…,d_i,…,d_n) (3)

式(3)中，dif(u′，v′)表示用户u和用户v对各个共同评分商品的评分差值；d₁，…,d_i,…,d_n分别表示用户u和用户v对共同评分商品1，…，商品i，…，商品n的评分差值。

进一步的，所述分别计算各个类别评分差值的频率，采用如下公式得出：

fre(dif(u′,v′))＝(p₁,p₂,…,p_j,…,p_k) (4)

式中，fre(dif(u′,v′))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后，各个类别评分差值的频率；dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值；k表示将所述各个共同评分商品的评分差值划分成的类别数量，p_j表示其中第j类评分差值出现的概率。

进一步的，所述计算所有类别评分差值的改进信息熵，采用如下公式得出：

式(5)中，H′(fre(dif(u′,v′))0表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后，所有类别评分差值的改进信息熵；

为改进的信息熵计算公式，其中d(p_j)表示分布概率为p_j的评分差值。

进一步的，所述根据所述信息熵结合预设的相似度计算方法，计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度，采用如下公式得出：

式(6)中，sim(u′,v′)表示用户u和用户v之间的相似度；I_u和I_v分别表示用户u和用户v进行评分的商品集合；

为Jaccard相似度计算公式。

第二方面，本公开实施例提供一种用户相似度的计算***，包括：

获取模块，其设置为获取用户-商品评分矩阵；

评分修正模块，其设置为基于预设的时间权重对用户-商品评分矩阵中的评分进行修正，得出新的用户-商品评分矩阵；

第一计算模块，其设置为针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值；以及，

第二计算模块，其设置为根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵；以及，

进一步的，所述评分修正模块具体设置为：

采用公式(1)和公式(2)对用户-商品评分矩阵中的评分进行修正：

第三方面，本公开实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行如第一方面中任一所述的用户相似度的计算方法。

第四方面，本公开实施例还提供一种计算机可读存储介质，包括：计算机程序，当其在计算机上运行时，使得计算机执行如第一方面中任一所述用户相似度的计算方法。

有益效果：

本公开提供的用户相似度的计算方法、计算***、计算机设备及存储介质，通过获取用户-商品评分矩阵；基于预设的时间权重对用户-商品评分矩阵中的评分进行修正，得出新的用户-商品评分矩阵；针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值；对所述评分差值进行分类并分别计算各个类别评分差值的频率；根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵；根据所述信息熵结合预设的相似度计算方法，计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。本公开技术方案考虑了时间对用户兴趣的影响，引入时间权重对用户评分进行修正，使得评分更加真实的反映用户偏好；同时引入信息熵计算理念，对用户相似度进行计算，缓解了数据稀疏的问题，使得相似度计算结果更符合实际情况，商品推荐更加精准。

附图说明

图1为现有技术中基于用户的协同过滤推荐算法的示意图；

图2为本公开实施例一提供的一种用户相似度的计算方法的流程示意图；

图3为本公开实施例二提供的一种用户相似度的计算***的架构图；

图4为本公开实施例三提供的一种计算机设备的架构图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和实施例对本公开作进一步详细描述。

其中，在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚的表示其他含义。

由于现有用户相似度计算是基于用户-商品评分矩阵完成的，需要数据集中且有足够的用户行为信息，当用户历史行为较少，甚至新用户没有历史行为信息时，会出现用户间没有足够的共同商品评分信息，即用户-商品评分矩阵数据稀疏的问题，因而导致用户间的相似性计算不准确，从而难以做出准确率较高的推荐。且传统协同过滤算法对用户访问的商品同等对待，没有充分考虑最近访问的商品对用户兴趣衡量的贡献，推荐可靠度和推荐精度不高。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1为本公开实施例一提供的一种协同过滤算法中用户相似度的计算方法流程示意图，如图1所示，包括：

步骤S101：获取用户-商品评分矩阵；

步骤S102：基于预设的时间权重对用户-商品评分矩阵中的评分进行修正，得出新的用户-商品评分矩阵；

步骤S103：针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值；

步骤S104：对所述评分差值进行分类并分别计算各个类别评分差值的频率；

步骤S105：根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵；

步骤S106：根据所述信息熵结合预设的相似度计算方法，计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度。

用户相似度计算是User-CF算法的关键。用户相似度计算基于用户-商品评分矩阵完成，例如有用户-商品评分矩阵R_mn如下：

式中，m代表有m个用户，n代表有n个商品，R_mn代表第m个用户对第n个商品的评分，用户相似度计算采用行向量进行。求解时可以使用到的策略有余弦相似度、修正的余弦相似度、Pearson相关系数等。

考虑到用户兴趣会随时间发生变化，为了更真实的反映用户评分情况，引入时间权重对商品评分矩阵中的评分进行修正，构建新的用户商品评分矩阵。通过修正商品评分矩阵中的评分，使用户最近的评分更高，使评分更能体现用户当前的兴趣。

然后，基于新的商品评分矩阵，计算用户u和用户v共同评分商品的评分差值，再进行频率分析，对评分差值进行分类并计算各个类别的频率；通过计算信息熵，进行用户相似度的计算，信息熵可理解成某种特定信息的出现概率(离散随机事件的出现概率)，可以反映一个***的混乱程度，信息熵越低表示***越是有序。由于用户相似度和信息熵成反比，信息熵越大，表明两个用户之间差异程度越大，两个用户越不相似；信息熵越小，表明两个用户之间的差异程度越小，两个用户越相似。信息熵的计算公式如下：

式中，n表示样本U中信息类别的个数，p_i表示样本U中编号为i的信息出现的概率。在本公开实施例的一种实施方式中，除考虑评分差值的频率外，还可以对信息熵进行改进，例如评分差值本身也对计算结果有影响，在信息熵计算时对公式(7)进行改进，加入评分差值本身。

通过时间权重w_t可减少用户长期兴趣的比重，增加短期兴趣的比重，更好地反映当下用户的兴趣。不同用户的时间权重w_t中的时间衰减参数相同。

式(3)中，dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值；d₁,…,d_i,…，d_n分别表示用户u和用户v对共同评分商品1，…，商品i，…，商品n的评分差值。。

通过修正的商品评分矩阵，可获取到在当前情况下，两个用户对共同评分商品的评分差值，消除两个用户在不同时间评分对两者相似度的影响。

fre(dif(u′,v′))＝(p₁,p₂,…,p_j,…,p_k) (4)

对评分差值进行频率分析，得出评分差值的分布特征，例如用户u和用户v共同评分商品的评分差值为(1，2,2，3)，则评分差值为1、2、3这3个类别的频率表示为(1/4，1/2，1/4)。

式(5)中，H′(fre(dif(u′,v′)))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后，所有类别评分差值的改进信息熵；

除考虑评分差值的频率外，评分差值本身也对计算结果有影响，比如dif(u′，v′)＝(1，2,3)，dif(u′，w′)＝(3，4，5)，信息熵计算结果一致，但实际用户u和用户v的相似度要大于用户u和用户w的相似度。因此，加入评分差值本身对信息熵计算公式进行改进。

式(6)中，sim(u′，v′)表示用户u和用户v之间的相似度；I_u和I_v分别表示用户u和用户v进行评分的商品集合；

为Jaccard相似度计算公式。

Jaccard相似度不关心用户对商品的评分高低，只考虑用户对商品是否存在偏好这一行为，即两个用户共同商品评分数占总评分数的比例。取值在(0，1)之间，值为0时，表示两个用户没有任何共同偏好，值为1时，表示两个用户偏好一致。

I_u、I_v分别表示用户u和用户v评分的商品集合。

本公开实施例通过考虑用户兴趣随时间发生变化，引入时间权重对用户评分进行修正，更加真实的反映用户当下的兴趣偏好；同时引入信息熵计算理念，通过改进并结合Jaccard相似度对用户相似度进行计算，缓解了数据稀疏的问题，使得相似度计算结果更符合实际情况，推荐结果更加精准。

图3为本公开实施例二提供的一种用户相似度的计算***的架构图，如图3所示，包括：

获取模块1，其设置为获取用户-商品评分矩阵；

评分修正模块2，其设置为基于预设的时间权重对用户-商品评分矩阵中的评分进行修正，得出新的用户-商品评分矩阵；

第一计算模块3，其设置为针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值；以及，

第二计算模块4，其设置为根据各个类别评分差值的频率计算所有类别评分差值的改进信息熵；以及，

进一步的，所述评分修正模块2具体设置为：

采用公式(1)和公式(2)对用户-商品评分矩阵中用户对比商品的评分进行修正：

进一步的，所述第一计算模块3具体设置为：

采用公式(3)计算任意两个用户对于各个共同评分商品的评分差值：

dif(u′，v′)＝(u₁′-v₁′,…,u_i′-v_i′，…，u_n′-v_n′)＝(d₁，…,d_i,…,d_n) (3)

式(3)中，dif(u′,v′)表示用户u和用户v对各个共同评分商品的评分差值；d₁,…,d_i,…,d_n分别表示用户u和用户v对共同评分商品1，…，商品i，…，商品n的评分差值。

进一步的，所述第一计算模块3还设置为：

采用如下公式分别计算各个类别评分差值的频率：

fre(dig(u′,v′))＝(p₁,p₂,…,p_j,…,p_k) (4)

进一步的，所述第二计算模块4具体设置为：

采用如下公式计算所有类别评分差值的改进信息熵：

进一步的，所述第二计算模块4具体还设置为：

采用如下公式计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度：

为Jaccard相似度计算公式。

本公开实施例的用户相似度的计算***用于实施方法实施例一中的用户相似度的计算方法，所以描述的较为简单，具体可以参见前面方法实施例一中的相关描述，此处不再赘述。

此外，如图4所示，本公开实施例三还提供一种计算机设备，包括存储器10和处理器20，所述存储器10中存储有计算机程序，当所述处理器20运行所述存储器10存储的计算机程序时，所述处理器20执行上述各种可能的用户相似度的计算方法。

此外，本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC(Application Specific Integrated Circuit，专用集成电路)中。另外，该ASIC可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.一种用户相似度的计算方法，其特征在于，包括：

获取用户-商品评分矩阵；

2.根据权利要求1所述的计算方法，其特征在于，所述基于预设的时间权重对用户-商品评分矩阵中的评分进行修正，采用如下公式得出：

式(1)和式(2)中，t(u_i)、t(v_i)分别表示用户u和用户v对商品i的评分时间；w_t(u_i)、w_t(v_i)分别为用户u和用户v预设的时间权重计算式；t(0)表示用户u和用户v对商品进行评分时最早的评分时间；α表示时间衰减参数，反映用户兴趣变化的快慢；T表示时间窗口；u_i、v_i分别表示用户u和用户v对商品i的评分；u′_i、v′_i分别表示用户u和用户v对商品i的修正评分；i取1至n。

3.根据权利要求2所述的计算方法，其特征在于，所述针对新的用户-商品评分矩阵，计算其中任意两个用户对于各个共同评分商品的评分差值，采用如下公式得出：

dif(u′，v′)＝(u₁′-v₁′，…，u_i′-v_i′，…，u_n′-v_n′)＝(d₁，…，d_i，…，d_n) (3)

式(3)中，dif(u′，v′)表示用户u和用户v对各个共同评分商品的评分差值；d₁，…，d_i，…，d_n分别表示用户u和用户v对共同评分商品1，…，商品i，…，商品n的评分差值。

4.根据权利要求2所述的计算方法，其特征在于，所述分别计算各个类别评分差值的频率，采用如下公式得出：

fre(dif(u′，v′))＝(p₁，p₂，…，p_j，…，p_k) (4)

式中，fre(dif(u′，v′))表示将用户u和用户v对各个共同评分商品的评分差值分成k个类后，各个类别评分差值的频率；dif(u′，v′)表示用户u和用户v对各个共同评分商品的评分差值；k表示将所述各个共同评分商品的评分差值划分成的类别数量，p_j表示其中第j类评分差值出现的概率。

5.根据权利要求4所述的计算方法，其特征在于，所述计算所有类别评分差值的改进信息熵，采用如下公式得出：

式(5)中，H′(fre(dif(u′，v′)))表示将用户u和用户V对各个共同评分商品的评分差值分成k个类后，所有类别评分差值的改进信息熵；

6.根据权利要求5所述的计算方法，其特征在于，所述根据所述信息熵结合预设的相似度计算方法，计算所述新的用户-商品评分矩阵中任意两个用户之间的相似度，采用如下公式得出：

为Jaccard相似度计算公式。

7.一种用户相似度的计算***，其特征在于，包括：

获取模块，其设置为获取用户-商品评分矩阵；

8.根据权利要求7所述的计算***，其特征在于，所述评分修正模块具体设置为：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-6中任一项所述的用户相似度的计算方法。

10.一种计算机可读存储介质，包括：计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的用户相似度的计算方法。