CN108665323B

CN108665323B - 一种用于理财产品推荐***的集成方法

Info

Publication number: CN108665323B
Application number: CN201810484714.2A
Authority: CN
Inventors: 李建强; 李倩; 张丝雨
Original assignee: Beijing University of Technology
Current assignee: SHANGHAI DIGITAL CHINA INFORMATION TECHNOLOGY SERVICE Co.,Ltd.
Priority date: 2018-05-20
Filing date: 2018-05-20
Publication date: 2021-01-05
Anticipated expiration: 2038-05-20
Also published as: CN108665323A

Abstract

本发明公开一种用于理财产品推荐***的集成方法，基于数据平滑的协同过滤算法可以对稀疏数据进行填充，减少数据的稀疏性问题。基于人口统计学的推荐算法不需要历史数据，也不依赖物品的属性，可以解决用户的冷启动问题；将两种算法与表现性能良好的基于项目聚类和矩阵分解的推荐算法进行集成，扩大推荐算法的使用场景，提高推荐算法的自适应性。本发明集成方法可以有效地减少数据的稀疏性和解决冷启动问题，提升对每一位用户的推荐性能。

Description

一种用于理财产品推荐***的集成方法

技术领域

本发明属于在线产品推荐技术领域，尤其涉及一种用于理财产品推荐***的集成方法。

背景技术

传统的推荐算法多以用户评分数据计算用户的兴趣偏好以及资源相似度，对稀疏数据以及新用户的推荐质量较低，无法最大化挖掘隐性数据所带的信息。

近年来，针对数据稀疏性带来的问题，为了提升推荐效果，学者们将主成分分析、聚类分析、奇异值分解等算法引入到传统的协同过滤推荐算法中，通过降维，缩小目标用户搜索最近邻居的范围，使得推荐的精度和实时性有了明显提升，但冷启动问题依然存在。

现有技术的主要结构和原理：

1.生成用户-项目属性偏好模型。用户对项目属性的偏好模型是进行用户聚类和相似度计算的基础，通过分析用户-项目评分矩阵和项目-属性矩阵，建立用户对项目中出现的所有属性的偏好权重矩阵。

2.用户聚类。采用SOM与K-means聚类相结合的混合聚类模型对用户进行聚类：

2.1将得到的用户-项目属性偏好矩阵作为聚类的输入数据，通过SOM对输入训练较少的次数进行粗聚类，输出聚类簇Cluster_SOM、神经元的权值ω_SOM、聚类簇数目K；

2.2将ω_SOM作为原始质心O_original，对于每一个簇内元素不为0的聚类簇，寻找与O_original距离最近的元素作为该簇最终的质心O_SOM；

2.3以K、O_SOM作为K-means聚类的聚类簇数目和初始聚类质心，对用户进一步聚类，输出用户聚类结果ClusterResult。

3.用户相似度计算和最近邻居查询。采用余弦计算目标用户U_i与所在聚类簇c_index中其他用户的相似度，计算得到最近邻居集合M_Knear。

4.评分预测。找到目标用户U_i针对目标项目I_ij的最近邻用户集合M_Knear后，通过集合M_Knear中的用户对目标项目I_ij评分的加权平均值来描述目标用户U_i对目标项目I_ij的评分。评分预测公式如式(1)所示:

5.生成推荐。重复步骤(3)和步骤(4)，预测目标用户U_i对所有未评分项目的评分，选择预测评分最高的N个项目推荐给目标用户U_i。

目前有很多推荐算法，但是在任何背景或任何数据下都不存在一种算法总是优于其它推荐算法。现有的推荐***多为单一的一种方法，具有自身的局限性，不能灵活地应用于各类场景中。在推荐方面表现良好的算法不能有效地解决数据的稀疏性和冷启动问题。

发明内容

本发明提供一种用于理财产品推荐***的集成方法，减少了数据稀疏性带来的影响，解决了推荐***的冷启动问题。提高推荐算法的自适应性，扩大推荐算法的适用场景。

基于数据平滑的协同过滤算法可以对稀疏数据进行填充，减少数据的稀疏性问题。基于人口统计学的推荐算法不需要历史数据，也不依赖物品的属性，可以解决用户的冷启动问题。将两种算法与表现性能良好的基于项目聚类和矩阵分解的推荐算法进行集成，扩大推荐算法的使用场景，提高推荐算法的自适应性。本发明集成方法可以有效地减少数据的稀疏性和解决冷启动问题，提升对每一位用户的推荐性能。

附图说明

图1为本发明用于理财产品推荐***的集成方法流程图。

具体实施方式

如图1所示，本发明提供一种用于理财产品推荐***的集成方法，包括以下步骤：

输入数据为：用户特征信息、项目-属性矩阵、用户-项目评分矩阵；输出数据为：产品推荐模型、用户推荐结果。

步骤一：基于人口统计学的推荐算法。

对传统的基于人口统计学的推荐算法进行改进，为不同的用户属性赋予不同的权值。本发明选取年龄、性别、职业和爱好4种特征作为考虑的范围，将各属性信息预处理成数字型表示法的形式。计算用户之间的相似度得到用户偏好。

1.年龄属性，本发明以5岁为增量，比如年龄32岁可记为7，年龄56岁记为12。利用欧几里得距离计算用户s与用户t之间年龄的相似度，如式(2)所示。

其中A(s,t)表示用户s与用户t在年龄上的相似度，x_s、x_t分别为用户s和t的年龄分段值。

2.性别是一种对称的二元属性，即两个状态都是同等重要的。男性记为1，女性记为0，这样根据用户性别的取值可以得到一个两行两列的列表，如表1所示。这里采用S(s，t)表示用户s与用户t在性别上的相似度，如式(3)所示，其中a是对象s和t都取1情况的属性值，b是对象t取1和对象s取0情况的属性值，c是对象t中取0和对象s取1情况的属性值，d是对象s和t都取0情况的属性值。

表格1二元属性取值

3.职业、爱好属于标签类型的属性，即用某些字段来描述这一属性，对这类属性，利用式(4)来计算用户s与t之间的相似度。式(4)中k表示用户s与t共同拥有的同一属性的标签个数，n表示该属性可供选择的标签个数。

4.用户相似度的计算。对用户u及其k个邻居集合U_k，式(5)计算用户的信息相似度，并且保存Top-N个与目标用户u相似的用户集合U_k。在用户人口统计特征方法下，特征越多，越能准确预测用户兴趣。

计算用户偏好

得到用户之间的相似度后，会给用户推荐和他兴趣最相似的K个用户喜欢的物品，采用如下公式来计算用户u对物品i的偏好：

其中，S(u,k)包含和用户u最相近的K个用户，N(i)是对物品i有过行为的用户集合，w_uv是用户u和用户v的兴趣相似度，r_vi表示用户v对物品i的偏好。

得到预测偏好矩阵

n是物品的数量，m是用户的数量。

步骤二：基于项目聚类和矩阵分解的推荐算法

1.计算物品间的相似度

通过采用曼哈顿距离来计算物品之间的距离。

r_ui表示用户u对物品i的喜爱程度。d_ij表示物品i与物品j之间的距离。

物品i与物品j之间的相似度表示为式(9)。

c_i表示物品i的流行度，c_j表示物品j的流行度。物品的流行度就是点击该物品的人数。

然后将物品进行分类，得到不同的聚类中心{c₁,c₂,Λ,c_k}，k为聚类的数目。

2.构建物品向量。

基于k个聚类中心，K设置为200，物品向量被定义为

其中，

将物品向量归一化：

最后，物品i的向量为：

p_i＝(p_i1,p_i2,Λ,p_ik,Λ,p_iK) (13)

其中，

3.计算预测偏好矩阵。基于物品向量和奇异值分解(SVD)，可以得到预测偏好矩阵：

n是物品的数量，m是用户的数量，

表示预测偏好，定义为：

其中，allMean是偏好的平均值，b_u表示用户和allMean之间的偏差，b_i表示物品和allMean之间的偏差，q_u是用户u的向量，由随机值初始化。

步骤三：基于数据平滑的协同过滤算法。

1.计算用户的相似度。采用皮尔逊相关系数来计算相似度。

用户u和用户u'之间的相似度为：

R_u(t)表示用户u对物品t的偏好，

表示用户u对所有物品的平均偏好，R_u’(t)表示用户u’对物品t的偏好，

表示用户u’对所有物品的平均偏好，t是用户u和用户u’都点击过的物品。

用户定义为U＝{u₁,u₂,Λ,u_n}，将用户划分成n个聚类，表示为

2.基于上一步，平滑了用户尚未点击的数据集。用户的偏好表示为：

其中r_ui是由函数计算得出，

是对于用户u没有点击过的i由平滑得出。

对于用户u，u属于的聚类表示为

考虑到个体差异，通过式(19)来计算

是所有用户对物品i的平均偏好，按如下公式计算：

其中，C_u(i)∈C_u表示在聚类C_u中的点击过物品i的用户集，|C_u(i)|表示在聚类C_u中的点击过物品i的用户数量。

可以通过计算加权和得到预测偏好：

是用户u对物品i的偏好，

是物品i的平均偏好，

是物品j的平均偏好，w_uj是u和j之间的权重，sim(i,j)是i和j的相似度。

3.得到预测偏好矩阵。

n是物品的数量，m是用户的数量。

步骤四：对算法进行集成

根据步骤一、二和三，得到了用户对每个产品的预测偏好，基于这些偏好，进行算法集成。

1.线性加权融合法

汇总单一模型的结果，然后按不同算法赋予不同的权重，将多个推荐算法的结果进行加权，即可得到结果：

其中

是预测的最终偏好，w_k是与k算法对应的权重。

2.交叉融合法

在推荐结果中，穿插不同推荐模型的结果，以确保结果的多样性。

rec(u)表示对用户u推荐的物品，rec_k(u)表示算法k对用户u推荐的物品。

3.瀑布融合法

瀑布型融合方法采用了将多个模型串联的方法。每个推荐算法被视为一个过滤器，通过将不同粒度的过滤器前后衔接的方法来进行，在该方法中，前一个推荐方法过滤的结果，将作为后一个推荐方法的候选集合输入，层层递进，候选结果在此过程中会被逐步遴选，最终得到一个量少质高的推荐结果集合。

Claims

1.一种用于理财产品推荐***的集成方法，其特征在于，包括以下步骤：

步骤一：基于人口统计学的推荐算法；

选取年龄、性别、职业和爱好4种特征，将各属性信息预处理成数字型表示法的形式，计算用户之间的相似度得到用户偏好和得到预测偏好矩阵；

步骤二：基于项目聚类和矩阵分解的推荐算法

步骤2.1、计算物品间的相似度

通过采用曼哈顿距离来计算物品之间的距离；

其中，r_ui表示用户u对物品i的喜爱程度，d_ij表示物品i与物品j之间的距离，

物品i与物品j之间的相似度表示为式(9)；

其中，c_i表示物品i的流行度，c_j表示物品j的流行度；物品的流行度就是点击该物品的人数，然后将物品进行分类，得到不同的聚类中心{c₁,c₂,…,c_k}，k为聚类的数目；

步骤2.2、构建物品向量

基于k个聚类中心，K设置为200，物品向量被定义为

其中，

将物品向量归一化：

最后，物品i的向量为：

p_i＝(p_i1,p_i2,…,p_ik,…,p_iK) (13)

其中，

步骤2.3、计算预测偏好矩阵

基于物品向量和奇异值分解(SVD)，得到预测偏好矩阵：

其中，n是物品的数量，m是用户的数量，

表示预测偏好，定义为：

其中，allMean是偏好的平均值，b_u表示用户和allMean之间的偏差，b_i表示物品和allMean之间的偏差，q_u是用户u的向量，由随机值初始化；

步骤三：基于数据平滑的协同过滤算法

步骤3.1、计算用户的相似度

采用皮尔逊相关系数来计算相似度，用户u和用户u’之间的相似度为：

其中，R_u(t)表示用户u对物品t的偏好，

表示用户u’对所有物品的平均偏好，t是用户u和用户u’都点击过的物品；

用户定义为U＝{u₁,u₂,…,u_n}，将用户划分成n个聚类，表示为

步骤3.2、基于上一步，平滑了用户尚未点击的数据集

用户的偏好表示为：

其中，r_ui是由函数计算得出，

是对于用户u没有点击过的物品i由平滑得出，

对于用户u，u属于的聚类表示为

考虑到个体差异，通过式(19)来计算

是所有用户对物品i的平均偏好，按如下公式计算：

其中，C_u(i)∈C_u表示在聚类C_u中的点击过物品i的用户集，|C_u(i)|表示在聚类C_u中的点击过物品i的用户数量，

通过计算加权和得到预测偏好：

其中，

是用户u对物品i的偏好，

是物品i的平均偏好，

是物品j的平均偏好，w_uj是u和j之间的权重，sim(i,j)是i和j的相似度；

步骤3.3、得到预测偏好矩阵

n是物品的数量，m是用户的数量；

步骤四：对算法进行集成

根据步骤一、二和三，得到了用户对每个产品的预测偏好，基于这些偏好，进行算法集成；

步骤一中，用户偏好的计算过程如下：

其中，S(u,k)包含和用户u最相近的K个用户，N(i)是对物品i有过行为的用户集合，w_uv是用户u和用户v的兴趣相似度，r_vi表示用户v对物品i的偏好；

预测偏好矩阵的计算过程如下：

其中，n是物品的数量，m是用户的数量。

2.如权利要求1所述的用于理财产品推荐***的集成方法，其特征在于，步骤四采用如下方法进行集成：

1)线性加权融合法

其中，

是预测的最终偏好，w_k是与k算法对应的权重；

2)交叉融合法

在推荐结果中，穿插不同推荐模型的结果，以确保结果的多样性，

其中，rec(u)表示对用户u推荐的物品，rec_k(u)表示算法k对用户u推荐的物品；

3)瀑布型融合方法

瀑布型融合方法采用了将多个模型串联的方法，每个推荐算法被视为一个过滤器，通过将不同粒度的过滤器前后衔接的方法来进行，在该方法中，前一个推荐方法过滤的结果，将作为后一个推荐方法的候选集合输入，层层递进，候选结果在此过程中会被逐步遴选，最终得到一个量少质高的推荐结果集合。