CN108876508A

CN108876508A - 一种电商协同过滤推荐方法

Info

Publication number: CN108876508A
Application number: CN201810412962.6A
Authority: CN
Inventors: 张吉曜; 韩德志; 王军; 毕坤
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2018-05-03
Filing date: 2018-05-03
Publication date: 2018-11-23

Abstract

本发明公开了一种改进的电商协同过滤推荐方法，提供基于Hadoop和Spark框架下的一种混合式推荐方法。在Hadoop框架下，使用基于用户的协同过滤算法，对海量数据进行离线数据分析，生成一个离线推荐列表；在Spark框架下，采用基于物品的协同过滤算法生成用户物品的实时推荐列表；最后，将离线推荐列表和实时推荐列表合并成一个最终的推荐列表提供给用户，使用户能得到最完美的推荐结果。该方法解决了现有的推荐方法更新时间周期过长，不能随着用户的购物行为而实时改变的缺陷。

Description

一种电商协同过滤推荐方法

技术领域

本发明涉及电商推荐，具体是一种电商协同过滤推荐方法

背景技术

电子商务的飞速发展将人类带入了网络经济时代,面对大量的商品信息,用户(消费者)往往难以发现最需要或最适合的商品。电子商务***会形成海量的交易数据,如何从中挖掘和发现有用的知识以使得交易更加高效成为一个有意义的研究课题.消费者希望电子商务系统具有一种类似采购助手的功能来帮助其选购商品,它能够自动地把用户可能最感兴趣的商品推荐出来。电子商务推荐***正是针对以上问题和需求产生的,为了提供精确而又快速的推荐,研究者提出了多种推荐算法,其中协同过滤推荐算法是应用最为成功的一种。协同过滤这一概念首次于1992年由Goldberg、Nicols、Oki及Terry提出,应用于Tapestry***,该***仅适用较小用户群(比如,某一个单位内部),而且对用户有过多要求(比如,要求用户显式的给出评价)。作为协同过滤推荐***的雏形,Tapestry展示了一种新的推荐思想,但存在许多技术上的不足。其后,出现了基于评分的自动协同过滤推荐 ***,例如推荐新闻和电影的GroupLen。目前,许多电子商务网站都已经使用了推荐***,如Amazon、阿里巴巴、京东和Moviefinder等。目前主要有两类协同过滤推荐算法：基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法。基于用户的协同过滤推荐算法基于这样一个假设,即如果用户对一些项目的评分比较相似,则他们对其他项目的评分也比较相似。算法根据目标用户的最近邻居(最相似的若干用户)对某个项目的评分逼近目标用户对该项目的评分。基于项目的协同过滤推荐算法认为,用户对不同项目的评分存在相似性,当需要估计用户对某个项目的评分时,可以用户对该项目的若干相似项目的评分进行估计。

发明内容

一种电商协同过滤推荐方法，其特征在于包括以下步骤：

步骤1：获取用户购物数据；

步骤2：获取用户数据进行判断，如果是离线数据则采用Hadoop 进行离线数据的处理，即跳转到步骤3，如果是实时数据则通过 sparkstreaming进行实时数据的处理，即跳转到步骤6；

步骤3：获取离线数据

步骤3.1：商家都将用户的操作和购买.log日志文件使用HDFS存储起来；

步骤3.2：用MapReduce将大量的日志文件导入到MapReduce计算框架下进行切分、派发、整理、合并计算，主要是Map和Reduce两个方面从而得出需要的结果；

步骤3.3：将分解的矩阵按照商品和用户的关联度进行评分整合，再按照用户之前的相似度生成离线推荐列表，将列表存入数据库等待每天更新时间与实时推荐列表进行合并；

步骤4：清洗整合数据

步骤4.1：map处理，即每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小为一个分片，Map输出的结果会暂且放在一个环形内存缓冲区中，当该缓冲区快要溢出时，会在本地文件***中创建一个溢出文件，将该缓冲区中的数据写入这个文件，在写入磁盘之前，线程首先根据reduce任务的数目将数据划分为相同数目的分区，也就是一个reduce任务对应一个分区的数据，这样做是为了避免有些reduce任务分配到大量数据，而有些reduce任务却分到很少数据，甚至没有分到数据的尴尬局面。其实分区就是对数据进行hash的过程，然后对每个分区中的数据进行排序，如果此时设置了Combiner，将排序后的结果进行Combine操作，这样做的目的是让尽可能少的数据写入到磁盘，当map任务输出最后一个记录时，可能会有很多的溢出文件，这时需要将这些文件合并；

步骤4.2：Reduce处理，即Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的，如果reduce端接受的数据量相当小，则直接存储在内存中，如果数据量超过了该缓冲区大小的一定比例，则对数据合并后溢写到磁盘中，随着溢写文件的增多，后台线程会将它们合并成一个更大的有序的文件，这样做是为了给后面的合并节省时间，其实不管在map端还是reduce端，MapReduce 都是反复地执行排序，合并操作，合并的过程中会产生许多的中间文件，但MapReduce会让写入磁盘的数据尽可能地少，并且最后一次合并的结果并没有写入磁盘，而是直接输入到reduce函数；

步骤5：商品和用户的关联度是根据用户物品数据生成的矩阵(m ×n)阶用户-项目评分矩阵R(m,n)，在R(m,n)中，m行标识m个用户， n列标识n个项目，R_i,j表示用户i对项目j的评分值；因为数据量大并且数据稀松，用SVD(奇异值分解)来给矩阵降维；对于奇异值,与特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，奇异值的减少快，在很多情况下，前10％甚至1％的奇异值的和就占了全部的奇异值之和的99％以上的比例；本发明用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵：

R_m×n＝U_m×mΣ_m×nV^T _n×n≈U_m×kΣ_k×kV^T _k×ν

其中k要比n小很多，即一个大的矩阵R用三个小的矩阵Um×k,Σk ×k,来表示，跳转到步骤9；

步骤6：获取实时数据

步骤6.1：后台把用户最新操作的信息以数据流的方式传输到 Kafka进行存放；

所述的Kafka，是一种高吞吐量的分布式发布订阅消息***，它可以处理消费者规模的网站中的所有动作流数据；

步骤6.2：通过flume将kafka和Spark平台相连接，把用户的最新操作数据实时的传输到sparkstreaming下面进行切分、整合、聚类的操作；

所述的flume,是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的***；

步骤6.3：将相似的商品进行关联、评分、整合后与之前的推荐列表进行比对，如有新出现的推荐商品即加入推荐列表推荐给用户。

步骤7：SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理***，可以对多种数据源复杂操作，并将结果保存到外部文件***、数据库或应用到实时仪表盘；

步骤8：商品之间的关联数据生成一个物品与物品之间相关的矩阵；物品之间的相似度用皮尔森相似性来计算；物品i和j之间的皮尔森相似性sim(i，j)如式(1)所示：

其中：假设对物品i和j共同评分的用户集合用U_ij表示；R_u，i表示用户u对物品i的评分；和分别表示物品的i和j的平均评分；在皮尔森相似性计算方法中，需要计算对物品i和j共同评过分的用户集合，然后通过这个集合里的用户对物品的评分来计算项目之间的相似性，用这种方式来处理，比修正的余弦相似性计算方法具有更好的推荐质量；

步骤9：设定特定的时间，将离线推荐列表和实时推荐列表进行比对加权，生成新的推荐列表，即最终推荐列表推荐给用户；

步骤10：最终生成的推荐列表使用了马尔科夫过程，设 {X(t)，t∈T}为一随机过程，E为其状态空间，任意t₁＜t₂＜…＜t_n＜t任意x₁，x₂，…，x_n，x，∈E，随机变量X(t)已知X(t₁)＝x₁，...，X(t_n)＝x_n之下的条件分布函数只与X(t_n)＝x_n有关，而与X(t₁)＝x₁，…，X(t_n-1)＝x_n-1无关，即条件分布函数满足等式(2)：

F(x，t|x_n，x_n-1，…，x₂，x₁，t_n，t_n-1，…，t₂，t₁)＝F(x，t|x_n，t_n)

即

P{X(t)≤x|X(t_n)＝x_n，…，X(t₁)＝x₁}＝P{X(t)≤x|X(t_n)＝x_n} (2)

最终的合并推荐表单至于最新的离线表单和实时表单有关，与之前的推荐列表毫无关系。

为了达到上述目的，本发明通过以下技术方案实现：

本发明与现有技术相比具有以下优点：

1、提高了推荐列表的更新速度。使用Spark框架下的sparkstreaming 实时的接收用户最新的购买行为和喜好度，根据用户的最新反馈来实时更新用户收到的推荐商品信息，更准确的提供用户所需要的商品信息内容。

2、提高了推荐列表的准确性。使用Hadoop分布式***，使用基于用户的协同过滤算法算法，通过SVD奇异值分解给矩阵降维后用 Hadoop分布式***下的MapReduce计算框架进行数据的分类和整合，用离线的方式进行更精确的计算而达到更准确的推荐结果使用户满意。

3、得出最适合用户的推荐列表。将Spark的实时的推荐列表和Hadoop 下计算出的离线推荐列表进行整合，再根据马尔科夫链的原理把时间属性加入到推荐列表整合时的加权评分里面，最终得出的推荐列表，即最优的用户商品推荐列表。

4将Item-CF和User-CF相结合，并且用奇异值分解降维用到User- CF里计算用户相似度，用皮尔森相似度在Item-CF下计算相似度。

附图说明

图1是本次发明的实施的一个整体的结构，从获取数据到数据处理再到最终整合。

具体实施方式

以下根据图1，具体说明本发明的较佳实施例。

如图1所示，本发明提供一种电商协同过滤推荐方法，该方法包含以下步骤

步骤1：获取用户购物数据；

步骤3：获取离线数据

步骤4：清洗整合数据：

步骤4.1：map处理，即每个输入分片会让一个map任务来处理，当map任务输出最后一个记录时，可能会有很多的溢出文件，这时需要将这些文件合并；

步骤4.2：Reduce处理，即Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的，将传递来的数据进行 Reduce整合。

步骤5：用户物品数据生成的矩阵(m×n)阶用户-项目评分矩阵 R(m,n)，在R(m,n)中，m行标识m个用户，n列标识n个项目，R_i,j表示用户i对项目j的评分值，具体如表1所示。

表1用户对物品的评价矩阵

将用户和物品的评分矩阵转换成用户物品对应表，具体如表2所示。

表2用户物品对应表

这样依然有很大的计算量将用户与用户之间的相似关联起来，以物品为中心再次进行转换，具体如表3所示。

表3物品用户对应表

这样就可以建立出用户对用户的一个相似关系矩阵。具体如表3所示。

表4用户与用户之前相似矩阵

变换后的矩阵减少了计算时间，但是依然还是一个比较稀疏的矩阵，所以用SVD(奇异值分解)来给矩阵降维。也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说：

R_m×n＝U_m×mΣ_m×nV^T _n×n≈U_m×kΣ_k×kV^T _k×ν

其中k要比n小很多，也就是一个大的矩阵R可以用三个小的矩阵 Um×k,Σk×k,来表示。这样的降维后的可以分解成稀疏度很小的低维矩阵，更利于减小计算时间，跳转到步骤9。

步骤6：获取实时数据

步骤7：SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理***，可以对多种数据源(进行类似Map、Reduce和 Join等)复杂操作，并将结果保存到外部文件***、数据库或应用到实时仪表盘；

步骤8：物品的协同过滤算法用在Spark下的实时计算框架即 sparkstreaming快速的根据用户的最新偏好来实时更新用户的推荐列表，其中最核心的两步：

⑴、对用户已买或有过操作记录的物品有一个相似度评分，具体如表 4所示。

表5用户对商品的评价矩阵

通过用户对已经操作(浏览、购买、加入购物车、后续评价等行为都算在用户操作中，都会影响到用户对商品的评分即用户商品相似度)，得到一部分用户对已知商品的偏好，再通过商品与商品之间的相似度，具体如表5所示。

表6商品和商品之间的相似度矩阵

根据用户已操作的物品能得出用户未操作的物品与已操作物品的相似度，根据这个相似度对用户未操作物品进行排序后将为操作的物品的前几推荐个用户，来预测用户将来可能的购买行为或者购买偏好，从而达到销售提升。用户对物品的相似度评分和物品之前的相似度评分都是协同过滤算法的核心步骤，相似度的评分有很多比如余弦相似性即cosin相似性。将用户评分看作n维项目空间上的向量,如果用户对项目没有进行评分,则将该用户对该项目的评分设为0或者不写, 用户间相似性通过向量间的余弦夹角度量。设用户n和v在n维空间上的评分分别用u和v,则它们之间的相似性,为sim(u,v)

分子为两个用户评分向量的内积,分母为两个用户向量模的乘积。计算两个项目间的相似性与计算两个用户间的余弦相似性类似。两个项目i,j之间的余弦相似性sim(i,j)为

余弦相似未考虑用户评分尺度的问题。所以这里选用了皮尔森相似性，皮尔森相似性比的余弦相似性计算方法中0直接用来填充有更好的推荐质量。用户和共同评分过的项目集合用Puv表示，R_u,a、R_v,a分别表示用户u和用户v对项目a的评分，和分别表示用户u和用户v的平均评分，

物品之间的相似度用皮尔森相似性来计算；物品i和j之间的皮尔森相似性sim(i,j)为：

其中：假设对项目i和j共同评分的用户集合用U_ij表示；R_u,i表示用户u对项目i的评分；和分别表示项目的i和j的平均评分。用皮尔森相似性能更好更优的反映出用户和未操作物品的关联，能精确快速的实时生成用户最新所需的推荐列表。

步骤9：设定特定的时间(访问流量较少时为最佳)，将离线推荐列表和实时推荐列表进行比对加权，生成新的推荐列表，即最终推荐列表推荐给用户。

即

P{X(t)≤x|X(t_n)＝x_n，…，X(t₁)＝x₁}＝P{X(t)≤x|X(t_n)＝x_n} (2)

本实施方案具体阐述了所用到的两个协同过滤算法，以及再简历用户物品相似度和物品与物品之间相似度时所用到的算法，最后又说明了最终推荐列表的整合标准和加权。本发明是为了解决现有的推荐算法时间周期过长不能随着用户的实时购物行为所改变，用离线和实时两种计算模式下生成的推荐列表能快速准确的反映出用户的实际需求和更新。

Claims

1.一种电商协同过滤推荐方法，其特征在于包括以下步骤：

步骤1：获取用户购物数据；

步骤2：获取用户数据进行判断，如果是离线数据则采用Hadoop进行离线数据的处理，即跳转到步骤3，如果是实时数据则通过sparkstreaming进行实时数据的处理，即跳转到步骤6；

步骤3：获取离线数据

步骤4：清洗整合数据

步骤4.2：Reduce处理，即Reduce会接收到不同map任务传来的数据，并且每个map传来的数据都是有序的，如果reduce端接受的数据量相当小，则直接存储在内存中，如果数据量超过了该缓冲区大小的一定比例，则对数据合并后溢写到磁盘中，随着溢写文件的增多，后台线程会将它们合并成一个更大的有序的文件，这样做是为了给后面的合并节省时间，其实不管在map端还是reduce端，MapReduce都是反复地执行排序，合并操作，合并的过程中会产生许多的中间文件，但MapReduce会让写入磁盘的数据尽可能地少，并且最后一次合并的结果并没有写入磁盘，而是直接输入到reduce函数；

步骤5：商品和用户的关联度是根据用户物品数据生成的矩阵(m×n)阶用户-项目评分矩阵R(m,n)，在R(m,n)中，m行标识m个用户，n列标识n个项目，R_i,j表示用户i对项目j的评分值；因为数据量大并且数据稀松，用SVD(奇异值分解)来给矩阵降维；对于奇异值,与特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，奇异值的减少快，在很多情况下，前10％甚至1％的奇异值的和就占了全部的奇异值之和的99％以上的比例；本发明用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵：

R_m×n＝U_m×mΣ_m×nV^T _n×n≈U_m×kΣ_k×kV^T _k×ν

其中k要比n小很多，即一个大的矩阵R用三个小的矩阵Um×k,Σk×k,来表示，跳转到步骤9；

步骤6：获取实时数据

步骤6.1：后台把用户最新操作的信息以数据流的方式传输到Kafka进行存放；

步骤8：商品之间的关联数据生成一个物品与物品之间相关的矩阵；物品之间的相似度用皮尔森相似性来计算；物品i和j之间的皮尔森相似性sim(i,j)如式(1)所示：

其中：假设对物品i和j共同评分的用户集合用U_ij表示；R_u,i表示用户u对物品i的评分；和分别表示物品的i和j的平均评分；在皮尔森相似性计算方法中,需要计算对物品i和j共同评过分的用户集合,然后通过这个集合里的用户对物品的评分来计算项目之间的相似性，用这种方式来处理,比修正的余弦相似性计算方法具有更好的推荐质量；

步骤10：最终生成的推荐列表使用了马尔科夫过程，设{X(t)，t∈T}为一随机过程，E为其状态空间，任意t₁＜t₂＜…＜t_n＜t任意x₁，x₂，…，x_n，x，∈E，随机变量X(t)已知X(t₁)＝x₁,...,X(t_n)＝x_n之下的条件分布函数只与X(t_n)＝x_n有关，而与X(t₁)＝x₁，…，X(t_n-1)＝x_n-1无关，即条件分布函数满足等式(2):

即

P{X(t)≤x|X(t_n)＝x_n，…，X(t₁)＝x₁}＝P{X(t)≤x|X(t_n)＝x_n} (2)