CN113469730A

CN113469730A - 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置

Info

Publication number: CN113469730A
Application number: CN202110637643.7A
Authority: CN
Inventors: 吴军; 杨李平; 牛夏夏; 石力; 李圆圆; 孙李傲; 宋鑫玉; 郝伟怡; 宋思聪
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-10-01

Abstract

本发明涉及一种非合同场景下的基于RF‑LightGBM融合模型的客户复购预测方法及装置。该方法包括：获取用户的历史数据，对其进行预处理和特征工程；经过数据预处理后的数据作为样本，利用SMOTE‑ENN方法对样本集进行平衡；通过TPE优化算法对随机森林算法、LightGBM算法进行超参数寻优，构建弱分类器；通过各弱分类器分别对所述训练样本进行集成学习得到强分类器，得到关于复购预测的最终结果。本发明根据企业已购客户的消费数据进行分析，精准预测既存客户的复购行为，根据复购行为指导客户关系管理决策及精准营销策略，提高营销转化率，降低企业运营成本。

Description

一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置。

背景技术

随着大数据时代的到来，从海量的消费者历史交易数据中预测消费者未来购买意向已成为企业管理中的重要问题。非合同场景下的客户复购行为预测主要是指企业与顾客未签订购买合同的情景下，顾客下一次购买该企业产品的重复购买行为预测。准确预测出有重复购买意向的消费者，通过精准营销可以更精确地匹配客户需求，提升新消费者的价值并将其转化为忠实客户。

现有技术中，中国发明专利(授权公告号CN109146533B)公开了一种信息推送方法和装置，其具体公开了获取用户针对同一物品类别的物品的至少两个订单信息，基于至少两个订单信息中的购买量，确定用户针对物品类别的物品的间隔期的日均消耗量，基于平均日均消耗量和最新订单对应的购买量，确定向用户的用户终端推送物品类别的物品关联的物品信息的推送日期，从而提高信息推送的有效性。中国发明专利(授权公告号CN108171530B)公开了一种用于客单价和复购率的提升方法及装置，其：选取目标门店的历史营销数据，获得历史营销活动效果，根据所述历史营销数据以及历史营销活动效果，得到该目标门店的营销活动效果预估初值；根据各个门店的历史营销活动满足门槛订单数和满足客单价订单数的比例构建门槛调节因子，使用所述门槛调节因子对所述目标门店的营销活动效果预估初值进行校准，获得所述目标门店的营销活动效果预估值，从而解决现有的推广活动效果评价技术中无法根据门槛的改变而更准确地预估营销活动效果的问题。上述现有技术虽然根据历史数据实现了产品推荐以及效果预测，但是并不能准确地预测客户行为。

现有机器学***台用户重复购买行为预测方法，包括：获取用户历史购买行为数据，融合深度Catboost个体模型、双层注意力BiGRU个体模型和DeepGBM个体模型，对用户历史购买数据中离散的购买记录数值和行为序列特征进行建模，提高预测结果的准确性。中国发明申请(公布号CN108520469A)公开了一种基于电商平台的用户重购行为分析方法，选取统计时段内用户的有效购买记录；进行数据清洗；对每笔有效购买记录打上是否为重复购买的标签、是否为平台重复购买的标签或是否为险种重复购买的标签；统计出购买用户总数、重复购买用户数、各平台的购买用户总数、各平台重复购买用户总数、各险种的购买用户总数及各险种的重复购买用户总数；计算出统计时段内的重复购买率、平台重复购买率和险种重复购买率。但是，由于在电商场景中，可以保留客户的收藏、点赞等“隐式”反馈行为，这是在更为广阔的非合同场景中所不具备的。且目前使用机器学习算法侧重于算法集成，忽略了数据集对预测结果的影响。一般在购买情境中，重复购买的用户占比少于单次购买的用户，这就存在数据类别不均衡的问题，往往造成模型的过拟合，造成预测精度低。

发明内容

为克服上述现有技术的不足，本发明提供了一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置，本发明采用如下技术方案：

一种非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，包括如下步骤：

获取用户的历史购买记录数据，对其进行预处理，并提取特征；

使用样本均衡方法对经过特征提取后的数据进行平衡，得到均衡后的样本；

利用优化算法对训练样本数据进行训练，在指定的弱分类器超参数空间中对弱分类器进行迭代优化；

通过对各弱分类器赋予相同权重，进行集成学习得到强分类器；

使用强分类器进行预测，得到关于产品推荐、复购行为预测的最终结果；

根据所述最终结果，向用户的终端设备推送产品信息和/或向管理***发送复购行为预测结果。

进一步，所述提取特征包括：

最近购买时间、购买频次、购买总金额、关系持续时间、购买间隔。

进一步，所述样本均衡方法包括：

先使用SMOTE过采样方法对所述提取特征的少数类样本进行生成，再使用ENN(Edited KNN)方法对生成样本进行判断，若预测结果和实际类别标签不同则剔除该样本，得到均衡后的样本。

进一步，所述优化算法包括：

使用TPE(Tree-structured Parzen Estimator)树状Parzen估计优化算法对模型超参数进行优化，在最优超参数情况下进行模型训练。

进一步，所述弱分析器包括随机森林RF(Random Forestsm)模型、Light GBM模型，弱分析器输出结果均为分类概率值，数学表达式为：

式中，N_tree为决策树的总数，h_i为第i颗决策树，P(x|y)表示预测样本x属于类别y的概率。

进一步，所述集成学习具体包括：

对RF模型、Light GBM模型赋给相同权重，在其预测概率基础上使用软投票(SoftVoting)方法进行集成，其数学表现形式为：

P_{Soft Voting}＝(P_RF+P_LightGBM)/2

其中，P_{Soft Voting}指软投票融合模型的预测概率，P_RF,P_LightGBM分别表示随机森林、LightGBM模型的预测概率，Result表示融合模型的预测结果，1表示属于复购型用户，0表示属于未复购型用户，threshold表示分类阈值。

进一步，基于复购行为预测与复购概率预测作为产品推荐指导。

本发明还包括一种非合同场景下基于RF-LightGBM融合模型的客户复购预测装置，包括：

获取模块，获取用户的历史购买记录数据，对其进行预处理，并提取特征；

平衡模块，使用样本均衡方法对经过特征提取后的数据进行平衡，得到均衡后的样本；

优化训练模块，利用优化算法对训练样本数据进行训练，在指定的弱分类器超参数空间中对弱分类器进行迭代优化；

集成学习模块，通过对各弱分类器赋予相同权重，进行集成学习得到强分类器；

预测模块，使用强分类器进行预测，得到关于产品推荐、复购行为预测的最终结果；

推送模块，根据所述最终结果，向用户的终端设备推送产品信息。

本发明还包括一种电子设备，包括：

处理器，以及存储器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令从而执行如上所述任一的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法。

本发明还包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述任一的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法。

本发明所达到的有益效果：根据企业已有用户购买行为记录进行分析，精准预测既存用户复购情况，并据此指导客户关系管理策略及营销策略，提高营销转化率，降低相关运营成本；基于客户购买行为数据，精准预测客户对商品的复购行为，在满足客户实际有效需求的同时可以降低企业沟通成本；通过数据动态指导企业经营策略，数据推动决策、辅助实现产品营销目标，最终达到将合适的产品通过智能化的方式推荐给合适的用户的目标。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。

除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例公开了一种非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，包括如下步骤：

(1)获取用户的历史购买记录数据，对其进行预处理，提取特征。所述历史购买记录数据是已经存在的数据。所述提取特征包括：最近购买时间(R)、购买频次(F)、购买总金额(M)、关系持续时间(S)、购买间隔(T)。

(2)使用SMOTE-ENN方法对经过特征提取后的数据进行样本均衡，得到模型训练集。对原始样本集各类别样本采用多次有放回抽样法，组成测试样本。

(3)利用TPE优化算法对训练样本数据进行训练，在指定的弱分类器超参数空间中对弱分类器进行迭代优化。

(4)通过对各弱分类器赋予相同权重，进行集成学习得到强分类器，并得到关于产品推荐、复购行为复测的最终结果。

本实施例中，预处理的步骤包括：为了便于计算机处理与用户标签，将字符型转换为数值型数据，将数值型数据转换为日期型数据。提取特征包括最近购买时间(R)、购买频次(F)、购买总金额(M)、关系持续时间(S)、购买间隔(T)：

a)R：客户对本商品的最近一次消费时间，形式如下：

R＝T_{last_time}-T_{plast_time}

其中T_{last_time}表示参考时间段段尾时间，T_{plast_time}表示参考时间段内客户对该商品最后一次订单交易时间。

b)F：客户在观察期对本产品的购买次数。

c)M：客户对本商品的购买总金额，形式如下：

其中n表示参考时间段内客户总共消费的次数，M表示客户单次消费的金额。

d)S：指客户在参考时间内发生的第一次交易至最后一次交易的间隔时间，形式如下：

S＝T_{plast_time}-T_{pfirst_time}

其中T_{plast_time}表示参考时间段内客户对该商品最后一次订单交易时间，T_{pfirst_time}表示参考时间段内客户对该商品第一次订单交易时间。

e)T：为客户一定时期内的平均交易时间间隔，形式如下：

预处理与特征提取后对不平衡样本的处理可采用多种方法，本发明提出采用SMOTE-ENN方法，使用SMOTE-ENN方法的优点在于，对只有少量正样本的二分类问题具有很好的效果，经过不同方法的对比，SMOTE-ENN方法表现更佳。SMOTE-ENN方法步骤如下：

(1)SMOTE方法(Synthetic Minority Oversampling Technique)：

设A表示少数类，任取X_i∈A，以欧氏距离为标准计算它到少数类样本集A中所有样本的距离，得到X_i的k个近邻样本，在这个最近邻样本中随机选择一个样本，即为X_ij(j＝1,2,...,n)；在X_i与X_ij(j＝1,2,...,n)之间进行随机线性插值，构造新的少数类样本Y_j：

Y_j＝X_i+rand(0,1)×(X_ij-X_i)

式中，rand(0,1)表示区间(0,1)内的一个随机数。

(2)ENN方法(Edited KNN)

对SMOTE方法生成的数据集ND中的每一个样本使用K近邻(K＝5)法预测，若预测结果和实际类别标签不同则剔除该样本。选用欧式距离作为KNN算法的度量公式，形式如下：

式中，x,y分别代表两个不同用户，i代表特征编号。

指定弱分类器的超参数配置空间，在SMOTE-ENN方法构建的样本集上采用TPE优化算法对指定弱分类器参数空间进行迭代优化，其优化公式为：

x^*＝arg min_x∈χF(x)

式中，F(x)代表弱学习器的目标函数；x^*是F(x)取得最好结果时的参数。

TPE算法密度定义为：

式中，l(x)由观测值{xⁱ}的目标函数F(x)小于y^*的密度组成，g(x)由观测值{xⁱ}的目标函数F(x)大于等于y^*的密度组成。使用y^*作为观测值y的分位点γ。得到期望提高(Expected Improvement,EI)为：

所述随机森林模型输出结果为所有决策树的概率取平均，其数学表现形式为：

其中，N_tree为决策树的总数，h_i为第i颗决策树，P(x|y)表示预测样本x属于类别y的概率。

所述LightGBM模型亦使用上述方法输出分类概率。

P_{Soft Voting}＝(P_RF+P_LightGBM)/2

其中，P_{Soft Voting}指软投票融合模型的预测概率，P_RF,P_LightGBM分别表示随机森林、LightGBM模型的预测概率，Result表示融合模型的预测结果，1表示属于复购型用户，0表示属于未复购型用户。根据测试，本发明阈值threshold设定为0.5，大于0.5预测标签为1，小于0.5预测标签为0，得到预测矩阵

以上便可实现对客户复购行为的预测。

本发明性能度量：目前算法使用准确率P、召回率R和F1值作为评价指标，通过本发明中数据预处理方法的实施，进行上述指标计算，利用上述所求得标签矩阵计算评价指标，计算公式为：

本发明在非合同场景下企业多渠道营销过程中均有良好表现，以超市电销为例，应用***后，可以大幅提高电销转化率，促进产生更多交易。对于企业来说，能实现提升营销导向性、增加销售成功率、增加成单量及交易金额、减少人员成本等效果。数据集上的表现，具体来说：(1)SMOTE-ENN生成的训练集上，模型预测准确率98.73％，召回率99.09％，F1值0.9874；(2)真实样本组成的验证集合上，模型预测准确率87.13％，召回率95.15％，F1值0.8587；(3)结果均优于RF、LightGBM单一模型预测性能。

本发明通过改进经典RFM模型从客户历史购买记录这一显示反馈中提炼用户行为特征组成样本集，解决了现有技术中非合同场景下不具有大量隐式反馈的问题；本发明通过SMOTE-ENNN样本平衡方法，有效解决了现有技术中数据集数据类别不均衡的问题；实施例结果表明，本发明的方法具有良好的预测性能与实际应用价值。

Claims

1.一种非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，所述提取特征包括：

3.根据权利要求1所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，所述样本均衡方法包括：

先使用SMOTE过采样方法对所述提取特征的少数类样本进行生成，再使用ENN(EditedKNN)方法对生成样本进行判断，若预测结果和实际类别标签不同则剔除该样本，得到均衡后的样本。

4.根据权利要求1所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，所述优化算法包括：

5.根据权利要求1所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，所述弱分类器包括随机森林RF(Random Forests)模型、Light GBM模型，弱分类器输出结果均为分类概率值，数学表达式为：

6.根据权利要求1所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，所述集成学习具体包括：

P_{Soft Voting}＝(P_RF+P_LightGBM)/2

其中，P_{Soft Voting}指软投票融合模型的预测概率，P_RF，P_LightGBM分别表示随机森林、LightGBM模型的预测概率，Result表示融合模型的预测结果，1表示属于复购型用户，0表示属于未复购型用户，threshold表示分类阈值。

7.根据权利要求1所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法，其特征在于，基于复购行为预测与复购概率预测作为产品推荐指导。

8.一种非合同场景下基于RF-LightGBM融合模型的客户复购预测装置，其特征在于，包括：

9.一种电子设备，其特征在于：

包括处理器，以及存储器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令从而执行如权利要求1-7任一项所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1-7中任一所述的非合同场景下基于RF-LightGBM融合模型的客户复购预测方法。