CN112100512A

CN112100512A - 一种基于用户聚类和项目关联分析的协同过滤推荐方法

Info

Publication number: CN112100512A
Application number: CN202010278287.XA
Authority: CN
Inventors: 赵学健; 邱钟成; 孙知信
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-12-18

Abstract

本发明针对传统协同过滤推荐算法存在的冷启动、数据稀疏及推荐准确率低等问题，公开了一种基于用户聚类和项目关联分析的协同过滤推荐方法。该方法采用改进模糊C均值聚类算法对用户隐藏特征偏好程度进行挖掘,并采用基于预判筛选的关联分析策略对频繁项集进行筛选。在此基础上，该算法利用用户特征偏好矩阵和用户评分矩阵计算用户之间的相似度，利用频繁项集矩阵和用户评分矩阵计算项目之间的相似度，并综合用户相似度和项目相似度计算用户对未评分项目的预测评分，实现Top‑K推荐。该方法相比于传统的基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法能够有效避免冷启动问题和数据稀疏性问题，具有更好的推荐质量。

Description

一种基于用户聚类和项目关联分析的协同过滤推荐方法

技术领域：

本发明涉及一种协同过滤推荐方法，尤其是一种基于用户聚类和项目关联分析的协同过滤推荐方法，属于计算机数据挖掘及信息处理技术领域。

技术背景：

随着电子商务的迅速发展，电商平台提供的商品种类和数量急剧增长，商品信息过载时代来临。面对海量的商品信息，具有明确需求的用户可通过电商平台提供的搜索功能定位想要购买的商品。然而，当用户需求不确定或者具有模糊性，难以通过关键词进行搜索定位时，如何帮助用户快速的找到感兴趣的商品极为重要。推荐***应运而生，作为一种有效的信息处理工具，其通过用户的历史行为信息，将用户和商品关联起来，解决信息过载的问题。目前，推荐***已经成功应用于电子商务、在线音乐、视频网站以及社交平台等众多领域。据亚马逊统计，在其网站购物的客户中，有明确购买意向的用户仅占16％，有超过20％～30％的销售来自于推荐***。

推荐算法是推荐***的重要组成部分，是推荐***性能好坏的关键所在。推荐算法的种类有很多，常用的推荐算法有基于人口统计的推荐算法、基于内容的推荐算法、基于关联规则的推荐算法、协同过滤推荐算法，混合推荐算法等。其中，协同过滤推荐算法是目前发展最成熟、应用最广泛的个性化推荐技术之一，主要包括基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法。然而，这两种协同过滤推荐算法及大多数以这两种算法为基础的改进算法都存在冷启动、数据稀疏和推荐准确率不高的问题。

发明内容

针对传统协同过滤推荐算法存在的冷启动、数据稀疏及推荐准确率低等问题，公开了一种基于用户聚类和项目关联分析的协同过滤推荐方法，如图1所示，包括如下步骤：

步骤1，数据预处理，从原始数据中提取用户项目评分数据和项目特征数据并进行数据清洗操作，获得特定格式的数据集，并构建用户项目评分矩阵UI^n×m和项目特征隶属矩阵IF^m×k，通常特征数目k的取值远小于项目的数量m；

步骤2，构建用户特征偏好矩阵，利用用户项目评分矩阵和项目类别特征矩阵构建用户特征偏好矩阵UFP^n×k，用户对项目特征的偏好矩阵相对于用户项目评分矩阵维度得到了极大降低，有利于降低推荐算法的时间和空间复杂度；

步骤3，对UFP矩阵进行min-max归一化处理，将矩阵各元素数值映射到区间[0，1]；

步骤4，通过FCM算法实现用户聚类划分，并将遗传算法与FCM的算法融合，使 FCM算法快速高效收敛，避免陷入局部最优；

步骤5，综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度，使用户相似度既能包含原始用户项目评分矩阵的显性信息，又能体现到用户对项目特征偏好的隐性信息；

步骤6，基于用户项目评分矩阵UI^n×m，生成事务数据集D；

步骤7，针对事务数据集D，使用基于预判筛选的频繁项集挖掘策略生成频繁项集，并构建频繁项集矩阵FIS^f×m；

步骤8，综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度，使项目相似度既能包含原始用户对项目的显示评分信息，又能体现项目间的内在联系；

步骤9，确定用户u的最近邻用户和项目i的最近邻项目，综合用户相似度和项目相似度进行Top-K推荐。

进一步的，步骤2中还包括：利用用户项目评分矩阵UI^n×m和项目特征隶属矩阵 IF^m ^×k构建用户特征偏好矩阵UFP^n×k，用户特征偏好矩阵中元素R_ui计算过程如下式(1) 所示：

其中，r_u＝(r_u1，r_u2，r_u3，...，r_um)为用户u对项目的评分向量，f_i＝(f_1i，f_2i，f_3i，...，f_mi)为项目i对应特征的隶属向量，构建过程如附图1所示。

进一步的，步骤3中，对用户特征偏好UFP矩阵进行min-max归一化处理，将矩阵各元素数值映射到区间[0，1]，映射方法如下式(2)所示：

其中x_ij为用户特征偏好矩阵第i行第j列对应的元素值，表示用户i对项目特征j的偏爱程度， x_min为所有用户对项目特征偏爱程度的最小值，x_max为所有用户对项目特征偏爱程度的最大值。

进一步的，步骤4中，通过FCM算法实现用户聚类划分，并将遗传算法与FCM 的算法融合，使FCM算法快速高效收敛，避免陷入局部最优，步骤如下：

①参数初始化，初始化相关参数，包括种群大小M，交叉概率P_c，变异概率P_m，最大迭代次数t_max，聚类簇数c、隶属度因子m的值，收敛精度ε；

②编码及种群初始化，根据公式进行编码，并随机产生一个种群X，X中有n个研究对象作为初始个体，即X＝[x₁，x₂，x₃...，x_n]；

③计算个体适应度fit_m，计算方法如下式(3)所示：

上式中，c_j(j＝1，2，3，...，k)为每个聚类的中心，μ_i，j表示第i个样本对应第j类的隶属度函数；

④对当前种群执行选择、交叉和变异操作，产生新一代个体；

⑤若t＝t^max，遗传算法结束，输出最终的数据，并转入步骤7；否则，令t＝t+1，并返回步骤③；

⑥根据全局最优解模糊划分整个数据集，输出聚类中心矩阵，实现用户聚类划分。

进一步的，步骤5中，综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度，使用户相似度既能包含原始用户项目评分矩阵的显性信息，又能体现到用户对项目特征偏好的隐性信息，计算方法如下式(4)所示：

Sim(u，v)＝λSim₁(u，v)+(1-λ)Sim₂(u，v) (4)

其中λ是权重因子，取值范围为(0，1)，Sim(u，v)表示用户u和用户v的综合相似度；Sim₁(u，v)表示使用原始用户项目评分矩阵得到的相似度，计算方法如下式(5)所示：

其中，I_uv表示用户u和用户v共同评分的项目构成的集合；r_ui是用户u对项目i的评分；

表示用户u所有评分的平均值；Sim₂(u，v)表示使用用户对项目特征偏好矩阵得到的相似度，计算方法如下式(6)所示：

其中F_uv表示用户u和用户v共同偏好的特征的集合，R_ui是用户u对特征i的偏好程度，R_vi是用户v对特征i的偏好程度，

表示用户u对所有特征偏好程度的平均值，

表示用户v对所有特征偏好程度的平均值。

进一步的，步骤6中，基于用户项目评分矩阵UI^n×m，生成事务数据集D，生成方法为若用户u对项目i进行了评分，即r_u，i非空，则将项目i加入用户u对应的事务。

进一步的，步骤7中，针对事务数据集D，使用赵学健等(＜电子与信息学报＞，2016， 38(7)，1654-1659)提出的基于预判筛选的频繁项集挖掘策略生成频繁项集集合 S_FI＝(FS₁，FS₂，…，FS_t)，FS表示频繁项集，t表示频繁项集的个数，并构建频繁项集矩阵 FIS^t ^×m，构建方法如下公式(7)所示：

上式中，F_ij表示频繁项集矩阵FIS^f×m中第i行第j列的元素，i∈(0，t)，j∈(0，m)，频繁项集矩阵FIS^t×m示例如下所示

进一步的，步骤8中，综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度，使项目相似度既能包含原始用户对项目的显示评分信息，又能体现项目间的内在联系，计算方法如下式(8)所示：

Sim′(i，j)＝βSim′₁(i，j)+(1-β)Sim′₂(i，j) (8)

其中β是权重因子，取值范围为(0，1)，Sim′(i，j)表示项目i和项目j的综合相似度；

Sim′₁(u，v)表示使用原始用户项目评分矩阵得到的项目相似度，计算方法如下式(9)所示：

其中，U_ij表示评价项目i和项目j的用户集合；r_ui是用户u对项目i的评分；

表示对项目i的平均评分；Sim′₂(u，v)表示基于频繁项集矩阵得到的项目相似度，计算方法如下式(10) 所示：

其中t表示频繁项集的数目，F_si表示第s个频繁项集中是否包括项目i。

进一步的，步骤9中，确定用户u的最近邻用户和项目i的最近邻项目，计算用户u对所有未评分项目的预测评分并进行Top-K推荐，用户u对未评分项目i预测评分计算方法如下：

①对根据公式(4)计算得到的用户相似度进行排序得到用户u的最近邻居集合N_u，对根据公式(8)计算得到的用户相似度进行排序得到项目i的最近邻居集合N_i；

②计算用户u对未评分项目i的预测评分

计算公式如下式(11)所示：

上式中，ω为权重系数，N_u为用户u的最近邻居集合，N_i为项目i的最近邻居集合，

和

分别表示用户u和用户p的平均评分，

和

分别表示项目i和项目q获得的平均评分，Sim(u，p) 表示用户u和用户v的相似度，Sim′(i，q)表示项目i和项目q的相似度。根据(11)式计算用户u对所有未评分项目的预测评分，并进行降序排列，选择预测评分最高的K个项目进行 Top-K推荐。

有益效果：

本发明利用用户特征偏好矩阵和用户评分矩阵计算用户之间的相似度，利用频繁项集矩阵和用户评分矩阵计算项目之间的相似度，并综合用户相似度和项目相似度计算用户对未评分项目的预测评分，实现Top-K推荐。该方法相比于传统的基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法能够有效避免冷启动问题和数据稀疏性问题，具有更好的推荐质量。

附图说明

图1为本发明中用户特征偏好矩阵构建示意图。

图2为本发明流程图。

具体实施方式

本实施例提供了一种基于用户聚类和项目关联分析的协同过滤推荐方法，包括如下步骤：

步骤6，基于用户项目评分矩阵UI^n×m，生成事务数据集D；

③计算个体适应度fit_m，计算方法如下式(3)所示：

Sim(u，v)＝λSim₁(u，v)+(1-λ)Sim₂(u，v) (4)

表示用户u对所有特征偏好程度的平均值，

表示用户v对所有特征偏好程度的平均值。

进一步的，步骤6中，基于用户项目评分矩阵UI^n×m，生成事务数据集D，生成方法为若用户u对项目i进行了评分，即r_u，i非空，则将项目i加入用户u对应的事务，事务数据集D如表1所示。

表1

Sim′(i，j)＝βSim′₁(i，j)+(1-β)Sim′₂(i，j) (8)

①对根据公式(4)计算得到的用户相似度进行排序得到用户u的最近邻居集合N_u，对根据公式(8)计算得到的用户相似度进行排序得到项目i的最近邻居集合Ni；

②计算用户u对未评分项目i的预测评分

计算公式如下式(11)所示：

和

分别表示用户u和用户p的平均评分，

和

Claims

1.一种基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：

包括如下步骤：

步骤1，数据预处理，从原始数据中提取用户项目评分数据和项目特征数据并进行数据清洗操作，构建用户项目评分矩阵UI^n×m和项目特征隶属矩阵IF^m×k；

步骤2，构建用户特征偏好矩阵，利用用户项目评分矩阵和项目类别特征矩阵构建用户特征偏好矩阵UFP^n×k；

步骤4，通过FCM算法实现用户聚类划分，并将遗传算法与FCM的算法融合；

步骤6，基于用户项目评分矩阵UI^n×m，生成事务数据集D；

2.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤2中还包括：利用用户项目评分矩阵UI^n×m和项目特征隶属矩阵IF^m×k构建用户特征偏好矩阵UFP^n×k，用户特征偏好矩阵中元素R_ui计算过程如下式(1)所示：

其中，r_u＝(r_u1，r_u2，r_u3，...，r_um)为用户u对项目的评分向量，f_i＝(f_1i，f_2i，f_3i，...，f_mi)为项目i对应特征的隶属向量。

3.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤3中，对用户特征偏好UFP矩阵进行min-max归一化处理，将矩阵各元素数值映射到区间[0，1]，映射方法如下式(2)所示：

其中x_ij为用户特征偏好矩阵第i行第j列对应的元素值，表示用户i对项目特征j的偏爱程度，x_min为所有用户对项目特征偏爱程度的最小值，x_max为所有用户对项目特征偏爱程度的最大值。

4.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤4中，通过FCM算法实现用户聚类划分，并将遗传算法与FCM的算法融合，其步骤如下：

③计算个体适应度fit_m，计算方法如下式(3)所示：

5.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤5中，综合用户特征偏好矩阵和用户项目评分矩阵计算用户的相似度，使用户相似度既能包含原始用户项目评分矩阵的显性信息，又能体现到用户对项目特征偏好的隐性信息，计算方法如下式(4)所示：

Sim(u，v)＝λSim₁(u，v)+(1-λ)Sim₂(u，v) (4)

表示用户u对所有特征偏好程度的平均值，

表示用户v对所有特征偏好程度的平均值。

6.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤6中，基于用户项目评分矩阵UI^n×m，生成事务数据集D，生成方法为若用户u对项目i进行了评分，即r_u，i非空，则将项目i加入用户u对应的事务。

7.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤7中，针对事务数据集D，使用基于预判筛选的频繁项集挖掘策略生成频繁项集集合S_FI＝(FS₁，FS₂，…，FS_t)，FS表示频繁项集，t表示频繁项集的个数，并构建频繁项集矩阵FIS^t×m，构建方法如下公式(7)所示：

上式中，F_ij表示频繁项集矩阵FIS^f×m中第i行第j列的元素，i∈(0，t)，j∈(0，m)，频繁项集矩阵FIS^t×m如下所示：

8.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：步骤8中，综合频繁项集矩阵和用户项目评分矩阵计算项目的相似度，使项目相似度既能包含原始用户对项目的显示评分信息，又能体现项目间的内在联系，计算方法如下式(8)所示：

Sim′(i，j)＝βSim′₁(i，j)+(1-β)Sim′₂(i，j) (8)

其中β是权重因子，取值范围为(0，1)，Sim′(i，j)表示项目i和项目j的综合相似度；Sim′₁(u，v)表示使用原始用户项目评分矩阵得到的项目相似度，计算方法如下式(9)所示：

表示对项目i的平均评分；Sim′₂(u，v)表示基于频繁项集矩阵得到的项目相似度，计算方法如下式(10)所示：

9.根据权利要求1所述的基于用户聚类和项目关联分析的协同过滤推荐方法，其特征在于：所述步骤9中，确定用户u的最近邻用户和项目i的最近邻项目，计算用户u对所有未评分项目的预测评分并进行Top-K推荐，用户u对未评分项目i预测评分计算方法如下：

②计算用户u对未评分项目i的预测评分

计算公式如下式(11)所示：

和

分别表示用户u和用户p的平均评分，

和

分别表示项目i和项目q获得的平均评分，Sim(u，p)表示用户u和用户v的相似度，Sim′(i，q)表示项目i和项目q的相似度，根据(11)式计算用户u对所有未评分项目的预测评分，并进行降序排列，选择预测评分最高的K个项目进行Top-K推荐。