CN110956497B - 一种电子商务平台用户重复购买行为预测方法 - Google Patents
一种电子商务平台用户重复购买行为预测方法 Download PDFInfo
- Publication number
- CN110956497B CN110956497B CN201911181002.4A CN201911181002A CN110956497B CN 110956497 B CN110956497 B CN 110956497B CN 201911181002 A CN201911181002 A CN 201911181002A CN 110956497 B CN110956497 B CN 110956497B
- Authority
- CN
- China
- Prior art keywords
- user
- layer
- model
- individual
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000007246 mechanism Effects 0.000 claims abstract description 45
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 12
- 239000010410 layer Substances 0.000 claims description 214
- 230000006399 behavior Effects 0.000 claims description 212
- 238000012360 testing method Methods 0.000 claims description 83
- 239000013598 vector Substances 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 239000002355 dual-layer Substances 0.000 claims 2
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000004599 local-density approximation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003989 repetitive behavior Effects 0.000 description 1
- 208000013406 repetitive behavior Diseases 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电子商务平台用户重复购买行为预测方法,包括:获取用户历史购买行为数据;采用分段下采样方法进行样本均衡处理;构建用户特征、商户特征、用户与商户交互特征和隐藏特征;将样本均衡的用户历史购买行为数据输入至双层注意力BiGRU个体模型中,将用户特征、商户特征、用户与商户交互特征和隐藏特征输入至深度Catboost个体模型和DeepGBM个体模型中;对各个体模型分别进行用户重复购买行为预测训练;通过Vote‑Stacking模型,对训练后的各个体模型进行融合,并采用多数投票决策机制输出最终预测结果。本发明融合深度Catboost个体模型、双层注意力BiGRU个体模型和DeepGBM个体模型,对用户历史购买数据中离散的购买记录数值和行为序列特征进行建模,提高了预测结果的准确性。
Description
技术领域
本发明涉及电商购买行为预测技术领域,更具体的涉及一种电子商务平台用户重复购买行为预测方法。
背景技术
为了吸引更多用户的关注和购买,电商平台会在特定日期进行大规模促销。然而,在促销期间获得的新用户多为一次性购买,不能为商家带来长期回报。因此,预测用户重复购买行为是电子商务平台开展精准营销、获得长期客源的关键所在。利用用户的浏览、收藏、加入购物车等行为数据来挖掘其购物习惯、偏好和意愿是实现重复购买行为预测的有效途径。
现有预测模型主要包括个体模型和集成模型两类。logistic回归、支持向量机(SVM)、循环神经网络(RNN)和多层感知机(MLP)等个体模型被广泛应用在用户重复购买行为的预测中,然而随着电子商务的用户规模的逐渐扩大,用户历史行为数据规模激增,采用上述个体模型依靠影响因素特征预测用户重复购买行为并不能取得理想的效果。因此众多研究者结合多种个体预测模型提出了诸如随机森林、GBDT、XGBoost等集成学习的用户重复购买行为预测模型,结果表明集成学习预测模型在精度和鲁棒性方面都优于个体预测模型。然而,现有的集成学习模型主要为基于GDBT的模型,不能很好的处理用户重复购买行为预测中用户行为序列数据,以RNN和LSTM为代表的神经网络在序列数据建模中取得巨大成功,使得构建以LSTM为基础的用户购买行为序列预测模型成为可能。基于GDBT和神经网络的个体模型差异性较大,能有效处理多样的用户历史行为数据类型,对集成学习中组合策略提出新的要求。但是,现有技术中存在的集成模型预测结果准确性有待提高。
发明内容
本发明实施例提供一种电子商务平台用户重复购买行为预测方法,用以解决现有技术中存在的问题。
本发明实施例提供一种电子商务平台用户重复购买行为预测方法,包括:
获取用户历史购买行为数据,并对用户历史购买行为数据进行预处理;
采用分段下采样方法对用户历史购买行为数据进行样本均衡处理;
构建用户特征、商户特征、用户与商户交互特征和隐藏特征;
将样本均衡的用户历史购买行为数据输入至双层注意力BiGRU个体模型中,并将用户特征、商户特征、用户与商户交互特征和隐藏特征输入至深度 Catboost个体模型和DeepGBM个体模型中;
对双层注意力BiGRU个体模型、深度Catboost个体模型和DeepGBM个体模型,分别进行用户重复购买行为预测训练;
通过Vote-Stacking模型,对训练后的双层注意力BiGRU个体模型、深度 Catboost个体模型和DeepGBM个体模型进行融合,并采用多数投票决策机制输出最终预测结果。
进一步地,所述对用户历史购买行为数据进行预处理,包括:
对用户历史购买行为数据进行数据清洗,缺失数据和错误数据剔除。
进一步地,所述采用分段下采样方法对用户历史购买行为数据进行样本均衡处理,包括:
将重复购买用户和未重复购买用户原始样本按照天为单位进行分段;
对用户样本中的每个用户根据欧氏距离找出三个其最近邻用户;若该用户是未重复购买用户且其三个最近邻用户中有两个以上是重复购买用户,则删除该用户;否则,当该用户是重复购买用户并且其三个最近邻中有两个以上是未重复购买用户,则去除最近邻中的未重复购买用户。
进一步地,采用统计分析法和机器学习法,构建用户特征、商户特征、用户与商户交互特征和隐藏特征。
进一步地,
所述用户特征包括:属性特征、用户统计特征、用户比例特征、用户生命周期、促销热衷度;
所述商户特征包括:商户统计特征、促销频率、商户生命周期、回头率、商户比例特征、性别和年龄分布;
所述用户与商户交互特征包括:交互统计特征、交互比例特征、交互生命周期、预备购买数、商户排名;
所述隐藏特征包括:主题特征、相似性特征、反馈特征。
进一步地,对双层注意力BiGRU个体模型,进行用户重复购买行为预测训练;包括:
所述双层注意力BiGRU个体模型,包括:对用户历史购买行为数据进行编码的特征嵌入层,对用户重复购买进行建模的双向递归层,融合双向递归层的双层注意力层,分类表达预测结果的分类层;
所述特征嵌入层,从用户、商户、用户和商户交互信息三方面的用户历史购买行为数据中,通过词嵌入方法和双层注意力BiGRU神经网络自动学习抽取影响因素特征;使用词嵌入模型对用户和商户交互行为、用户年龄和性别信息进行词向量编码,编码长度由实验获得;获得词向量编码后对用户和商户交互行为信息使用特征子模型进行训练得到特征向量;
所述双向递归层,采用双层注意力BiGRU个体模型进行建模;双层注意力BiGRU模型包括两个单向、异向的GRU单元组成的神经网络,双层注意力 BiGRU模型当前的隐层状态ht,由当前的输入xt、前一时刻正向的隐层状态的输出和反向的隐层状态的输出三个部分共同决定;由于双层注意力 BiGRU模型相当两个单向的GRU单元,所以双层注意力BiGRU个体模型在t 时刻的隐层状态通过前向隐层状态和反向隐层状态加权求和得到:
其中,GRU(·)函数对输入的用户行为词向量进行非线性变换,将其转换为对应的GRU隐藏状态;αt和βt分别表示t时刻双层注意力BiGRU个体模型的前向和后向隐藏状态的权重;bt表示t时刻隐藏状态的偏置项;
所述双层注意力层包括:下层注意力机制和上层注意力机制;
所述下层注意力机制,通过自注意力机制获取每个行为序列中对重复购买行为影响大的行为,自注意力机制自动从用户行为数据中学习权重分布,计算公式如下:
vt=tanh(Wht+b)
其中,at表示用户的第t次行为对于当前行为序列的重要程度,vtA为一种从用户行为数据中自动学习得到的评分制度,W和A为权重矩阵,b为偏置;
所述下层注意力机制的输入分别为双层注意力BiGRU个体模型的输出向量,计算公式如下:
所述上层注意力机制,借鉴Transformer中的自我注意机制的方法,输入两个行为序列,计算一个行为序列中的每个行为与另外一个行为序列中所有行为的距离,通过这种方式来描述用户序列间的交互;
SA(hA,hB)=AA(hB,hA,hA)⊙AB(hA,hB,hB)
其中,表示用户浏览行为序列注意力,表示用户购买行为序列注意力,⊙表示矩阵元素相乘,表示用户浏览行为序列与购买行为序列间注意力,用户浏览行为序列与收藏行为序列间注意力用户购买行为序列与收藏行为序列间注意力
所述分类层,利用softmax函数进行相应计算,将双向递归层和双层注意力层的结果连接作为分类层输入:
inputclassify=[outputBiGRU,outputattention]
输出每类的概率为Pc:
y=wclassifyinputclassify+bclassify
其中,wclassify为L×C的权重矩阵;L输入向量inputclassify的维度;C为分类数,分为重复购买和非重复购买两类;在得到预测概率分布后,采用交叉熵损失函数通过计算真实分布与预测分布的差值,利用反向传播对模型的参数进行更新。
进一步地,对深度Catboost个体模型,进行用户重复购买行为预测训练;包括:
使用深度学习中表示学习的逐层抽取特征的思想对深度Catboost个体模型输入数据进行分组训练,并添加上层分类结果到下一层训练集中,具体步骤如下:
随机选择特征子集,并训练出多个独立的深度Catboost个体模型;
将深度Catboost个体模型的分类结果作为新特征原始特征融合,作为新的表示输入下一层学习,同时引入下式随机噪声降低融合过程中的过拟合风险;
F*=F+Θ(Ci)
其中,F*为融合后用户重复购买行为特征,F为原始特征,Ci为独立深度 Catboost个体模型预测结果,Θ(·)表示引入的随机噪声;
将多个深度Catboost个体模型预测结果进行加权融合,输出用户重复购买的预测结果。
进一步地,对DeepGBM个体模型,进行用户重复购买行为预测训练;包括:
使用用户历史购买行为数据训练一个GBDT模型:
其中,n是训练样本的个数,||(·)表示连接操作,GT,i=H(||t∈T(Lt,i);ωT) 是一个将连接多个独热叶索引向量转换为树T中的密集嵌入GT,i的单层全连接网络;
所述DeepGBM个体模型输出表示为:
其中,w1和w2为GBDT2NN和CatNN的训练参数,σ′是用户是否重复购买的二分类输出变换;
使用以下损失函数进行模型训练:
其中,y用户真实重复购买行为;用户重复购买行为预测结果;L″是用户是否重复购买分类任务中的交叉熵损失函数;LT为树组T的嵌入损失由下式得;k是树组的数量,α和β为事先给定的分别用于控制端到端损失和嵌入损失强度的超参数;
其中,IT为树组T中使用的用户重复购买行为影响特性,根据特征的重要性选择排名靠前的部分特征代替树组中的所有特征;
其中,k是树组的数量;
yCatNN(x)=yFM(x)+yDeep(x)
其中,N(x;θ)表示输入为x,参数为θ的多层神经网络。
进一步地,所述通过Vote-Stacking模型,对训练后的双层注意力BiGRU 个体模型、深度Catboost个体模型和DeepGBM个体模型进行融合,并采用多数投票决策机制输出最终预测结果;包括:
所述Vote-Stacking模型包括:第一层初级学习层、第二层初级学习层、第三层次级学习层;
所述第一层初级学习层,包括深度Catboost个体模型、双层注意力BiGRU 个体模型和DeepGBM个体模型;将用户历史购买行为数据按照时间段分为三个小组,再将每个小组中的数据随机划分为三个数据簇;无放回的随机选择每个小组中的一个数据簇,将三个小组中分别选择的三个数据簇组合后作为每个个体模型的输入进行模型训练;所述第一层初级学习层中个体模型构建过程如下:
输入包含三个数据簇组成的训练集D到个体模型fk,n(u),n=1,2,3中,通过五折交叉验证,预测训练集中每个用户ui的重复购买行为预测结果 其中表示个体模型n在第j折数据子集上得到的分类器,表示用户重复购买行为预测结果,取值为未重复购买0或重复购买1;将测试集分别输入训练得到的三个个体模型中,得到三个个体模型的测试结果其中,表示测试样本u在每个个体模型的5折交叉验证测试结果的平均值;
所述第二层初级学习层,与第一层初级学习层的区别在于训练集和测试集中的特征分别多了第一层初级学习层中的5折交叉验证集预测结果列和测试集预测结果列,保留用户历史行为原始特征与其重复购买行为预测概率值之间的隐含关系;将第一层初级学习层的三个个体模型5折交叉验证集的预测结果添加到原始训练集特征xi中作为新训练集的特征将测试集预测结果与原始测试集特征x组合作为新测试集的特征选择深度Catboost个体模型、双层注意力BiGRU个体模型和DeepGBM个体模型,把新训练集分为train1到train5不交叉的五份选择,个体模型使用train1到train4训练预测模型,train5预测用户重复购买行为预测结果并保留,重复上述过程,直到把train1到train5都预测一遍,保存预测结果为Bn,train=(bn,1,bn,2,bn,3,bn,4,bn,5)T,n=1,2,3;在个体模型建立的过程中,每个模型分别对test数据集进行5次预测并取均值得到对应预测结果 Bn,test=(bn)T,n=1,2,3;
第三层次级学习层:选用logistic回归模型进行建模,具体过程如下:
根据三种个体预测模型训练集的输出Btrain={B1,train,B2,train,B3,train},构建逻辑回归方程y=wTBtrain+b,其中w为权重值,b为偏回归系数,y为表示用户是否重复购买的因变量;因变量y取值为1,用户重复购买的概率是p=P(y=1|Btrain),否则取0的概率为1-ρ;采用极大似然函数法求解模型中的回归系数,评估优化模型;输入个体预测模型测试集的预测值Btest={B1,test,B2,test,B3,test},得到测试集的预测值并对其评估;
本发明实施例提供一种电子商务平台用户重复购买行为预测方法,与现有技术相比,其有益效果如下:
本发明提出一种Vote-Stacking融合方法的用户重复购买行为预测模型,该模型融合深度Catboost、双层注意力BiGRU和DeepGBM个体模型,能够对用户历史数据中离散的购买记录数值和行为序列特征进行建模,进一步提升了预测结果的准确性。具体地,用户重复购买行为影响特征提取方面:在原有常规特征的基础上应用统计方法提取了如比例特征、生命周期等统计特征,分别应用LDA、PCA和因子分解机器学习方法提取了主题特征、相似性特性和反馈特征三类隐藏特征,进一步丰富了用户重复购买行为影响特征的类型,提升了后续依据这些特征建模的深度Catboost和DeepGBM个体预测模型的预测效果。提出了深度Catboost和双层注意力BiGRU的用户重复购买行为个体预测模型,应用了DeepGBM预测模型到用户重复购买行为预测问题中。通过差异化个体模型训练数据、增加初级学习层、采用多数投票决策机制改进测试集三方面对原始Stacking融合方法改进,提出一种基于Vote-Stacking融合方法的用户重复购买行为集成学习预测模型。
附图说明
图1为本发明实施例提供的用户重复购买行为预测模型总体架构图;
图2为本发明实施例提供的深度Catboost模型原理示意图;
图3为本发明实施例提供的双层注意力BiGRU预测模型;
图4为本发明实施例提供的BiGRU结构模型图;
图5为本发明实施例提供的上层注意力机制示意图;
图6为本发明实施例提供的DeepGBM框架图;
图7为本发明实施例提供的基于Vote-Stacking模型的集成学习预测模型;
图8为本发明实施例提供的个体预测模型改进前后Accuracy和AUC值对比图;
图9为本发明实施例提供的五种模型Accuracy变化曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是融合用户、商户和用户与商户交互行为信息的预测用户重复购买行为的模型总体架构。参见图1,本发明实施例提供一种电子商务平台用户重复购买行为预测方法,该方法包括:
步骤S1,获取用户历史购买行为数据,并对用户历史购买行为数据进行预处理。
步骤S2,采用分段下采样方法对用户历史购买行为数据进行样本均衡处理。
步骤S3,构建用户特征、商户特征、用户与商户交互特征和隐藏特征。
步骤S4,将样本均衡的用户历史购买行为数据输入至双层注意力BiGRU 个体模型中,并将用户特征、商户特征、用户与商户交互特征和隐藏特征输入至深度Catboost个体模型和DeepGBM个体模型中。
步骤S5,对双层注意力BiGRU个体模型、深度Catboost个体模型和 DeepGBM个体模型,分别进行用户重复购买行为预测训练。
步骤S6,通过Vote-Stacking模型,对训练后的双层注意力BiGRU个体模型、深度Catboost个体模型和DeepGBM个体模型进行融合,并采用多数投票决策机制输出最终预测结果。
对上述步骤S1~S6的具体分析如下:
对于步骤S1,数据预处理完成用户历史行为数据清洗,剔除缺失数据、错误数据等。
对于步骤S2,采用分段下采样方法对用户历史购买行为数据进行样本均衡处理:
通常只有极少部分用户会在促销结束后重复购买。为此,采用“分段下采样”方法来处理重复购买与未重复购买样本极度不均衡的问题:根据用户购买行为时间敏感的特点,将重复购买用户和未重复购买用户原始样本按照天为单位进行分段。针对用户样本中的每个用户根据欧氏距离找出其三个最近邻用户,若该用户是未重复购买用户且其三个最近邻用户中有两个以上是重复购买用户,则删除它;否则,当该样本是重复购买用户并且其三个最近邻中有两个以上是未重复购买用户,则去除最近邻中的未重复购买用户,其余保留原始用户样本即可。
对于步骤S3,构建用户特征、商户特征、用户与商户交互特征和隐藏特征:
由于用户历史交互数据分散在用户、商户、用户历史行为信息等处,可以直接使用的特征非常少,直接用于预测重复购买行为的效果不够理想。为此,运用统计分析和LDA、PCA和FM机器学习方法构建出如表1所示的用户重复购买行为预测特征。然后,将这些特征分别输入到深度Catboost和DeepGBM 个体预测模型中进行特征选择和训练。
表1用于用户重复购买行为预测特征
在特征构建中除了基本的用户、商户以及两者交互特征外,还增加了三种隐藏特征,具体含义如下:
主题特征:借鉴自然语言处理中LDA主题模型的方法,视用户为文档、视所有历史购买商家的ID为文档中的单词,在预设的低维空间中生成潜在因素将其作为用户主题特征,同理可得商户主题特征。
相似性特征:包括用户相似性和商户相似性,两个商家间共同的用户数量越多表明两个商家相似度越高,共同用户为相似用户。由于相似性矩阵的高度稀疏性直接作为特征进行模型训练效率太低,因此对相似矩阵应用主成分分析 (PCA)降低维度后传入模型训练。
反馈特征:反馈特征为用户潜在因素和商家潜在因素的内积,用户潜在因素和商家潜在因素通过因子分解机(FM)和反馈矩阵获得。其含义为同一商户中产生购买行为的用户对商户可能有相似的偏好,意味着其中一个用户成为商户的重复购买者,另一个用户也更有可能成为该商户的重复购买者。
对于步骤S4和步骤S5中,深度Catboost个体模型分析如下:
Catboost能够自动处理表1特征列表中的类别特征,同时充分利用特征间联系,极大丰富了原始特征维度。然而,由于用户历史行为数据表现形式多样、样本分布极不均衡和存在缺失数据等原因,模型训练中存在过拟合现象。为了提高Catboost模型的泛化能力,使用深度学习中表示学习的逐层抽取特征的思想对Catboost模型输入数据进行分组训练并添加上层分类结果到下一层训练集中。具体步骤如下:
(1)随机选择表1中的特征子集训练出多个独立的Catboost模型。
(2)将Catboost模型的分类结果作为新特征与表1中原始特征融合,作为新的表示输入下一层学习,同时引入式1随机噪声降低融合过程中的过拟合风险。
F*=F+Θ(Ci) (1)
其中,F*为融合后用户重复购买行为特征,F为表1中原始特征,Ci为独立Catboost模型预测结果,Θ(·)表示引入的随机噪声。
(3)第二层对融合后的特征进行学习,并将多个Catboost模型预测结果进行加权融合,输出用户重复购买的最终预测结果。构建出如图2所示的深度 Catboost模型。
对于步骤S4和步骤S5中,双层注意力BiGRU个体模型分析如下:
CatBoost模型在面对稀疏的用户历史行为数据时往往效率较低。为此,提出一种双层注意力BiGRU模型,该模型能够充分利用海量数据中自动学习出的稀疏复杂特征,满足集成学习个体模型差异性大的基本要求。
双层注意力BiGRU预测模型如图3所示,包括对原始数据进行编码的特征嵌入层,对用户重复购买进行建模的双向递归层,融合双向递归层的双层注意力层,分类表达预测结果的分类层。
(1)特征嵌入层
为预测用户重复购买行为,从用户、商户、用户和商户交互信息三方面的原始数据中通过词嵌入方法和双层注意力BiGRU神经网络自动学习抽取其影响因素特征。首先使用词嵌入模型对用户和商户交互行为、用户年龄和性别等信息进行词向量编码,编码长度由实验获得。获得词向量编码后对用户和商户交互行为信息使用特征子模型进行训练得到特征向量。
如图3特征嵌入层所示,用户行为每条记录通过包含商品ID,品牌ID,商品类别ID三个变量的词嵌入编码后转换为词向量,然后通过神经网络 ReLU_n将其变换为n维向量,同时通过ReLU_M获得相应权重值α,然后将其获得的所有向量依照权重值α加权平均后即可获得最后的特征向量M={A: 浏览,B:购买,C:收藏}。
(2)双向递归层
用户历史行为数据存在时序关系,为了对其长期依赖关系建模,我们选用 LSTM模型的改进模型BiGRU进行建模。该模型避免标准RNN存在的梯度消失问题速度比传统的LSTM更快,更加适用于用户购买行为预测问题。
BiGRU由两个单向、异向的GRU单元组成的神经网络,如图4所示。 BiGRU当前的隐层状态ht由当前的输入xt、前一时刻正向的隐层状态的输出和反向的隐层状态的输出三个部分共同决定。由于BiGRU可以看做两个单向的GRU,所以BiGRU在t时刻的隐层状态通过前向隐层状态和反向隐层状态加权求和得到:
其中,GRU(·)函数对输入的用户行为词向量进行非线性变换,将其转换为对应的GRU隐藏状态;αt和βt分别表示t时刻BiGRU的前向和后向隐藏状态的权重;bt表示t时刻隐藏状态的偏置项。
用户历史购买行为序列就表示为其中d为隐藏状态的维数。用户历史购买行为序列包括用户浏览、购买、收藏等三种类型,将其对应编码好的三种特性向量输入双向递归层后即可获得对应隐藏序列,即用户浏览行为序列用户购买行为序列用户收藏行为序列
(3)双层注意力层
为了更好的融合用户浏览、购买、收藏等三种行为类型,提出一种双层注意力机制,下层注意力机制对行为序列内关键信息分配足够的关注,上层注意力机制主要关注三种行为序列间的关系。
下层注意力机制通过自注意力机制去获取每个行为序列中对重复购买行为影响更大的行为,来解决用户重复购买预测的问题。自注意力机制通常无需其他额外的信息,它会自动从用户行为数据中学习权重分布,计算公式如下:
vt=tanh(Wht+b) (5)
其中,at表示用户的第t次行为对于当前行为序列的重要程度,vtA为一种从用户行为数据中自动学习得到的评分制度,W和A为权重矩阵,b为偏置。
在BiGRU模型中引入下层注意力机制,下层注意力机制的输入分别为 BiGRU模型的输出向量,计算公式如下:
与下层注意力机制关注用户行为序列内的行为不同的是,上层注意力机制主要关注用户浏览、购买、收藏等三种行为序列对重复购买行为的影响。例如,用户在商户中重复购买某个商品时候,整个过程可能会涉及浏览、收藏、购买等行为。上层注意力模型就是挖掘不同行为序列间的交互关系,更好的对用户的重复购买行为进行建模。如图6所示,上层注意力机制借鉴Transformer中的自我注意机制的方法,输入两个行为序列,计算一个行为序列中的每个行为与另外一个行为序列中所有行为的距离,通过这种方式来描述用户序列间的交互。
SA(hA,hB)=AA(hB,hA,hA)⊙AB(hA,hB,hB) (10)
其中,表示用户浏览行为序列注意力,表示用户购买行为序列注意力,⊙表示矩阵元素相乘。表示用户浏览行为序列与购买行为序列间注意力,同理可得用户浏览行为序列与收藏行为序列间注意力用户购买行为序列与收藏行为序列间注意力
(4)分类层
分类层利用softmax函数进行相应计算从而实现用户是否重复购买的分类,将双向递归层和双层注意力层的结果连接作为分类层输入:
inputclassify=[outputBiGRU,outputattention] (13)
输出每类的概率为Pc:
y=wclassifyinputclassify+bclassify (14)
其中,wclassify为L×C的权重矩阵;L输入向量inputclassify的维度;C为分类数,分为重复购买和非重复购买两类。在得到预测概率分布后,采用交叉熵损失函数通过计算真实分布与预测分布的差值,利用反向传播对模型的参数进行更新。
对于步骤S4和步骤S5中,DeepGBM个体模型具体分析如下:
如图6所示的DeepGBM个体模型主要包括处理用户年龄与性别稀疏分类特征的CatNN和专注于用户历史购买行为稠密的数值特征的GBDT2NN两个组件,综合了神经网络高效处理大规模稀疏分类特征数据和GBDT有效处理密集数值特征的优点,在保持高效学习的能力的同时,确保能够产生较强的分类和数值特征能力。
为了应用DeepGBM个体模型,首先使用用户历史购买行为数据训练一个 GBDT模型,然后使用式19得到GBDT中树的叶子嵌入来训练DeepGBM。
其中,n是训练样本的个数,||(·)表示连接操作,GT,i=H(||t∈T(Lt,i);ωT)是一个将连接多个独热叶索引向量转换为树T中的密集嵌入GT,i的单层全连接网络。
DeepGBM个体模型输出表示为:
其中,w1和w2为式20组件GBDT2NN和式21组件CatNN的训练参数,σ′是用户是否重复购买的二分类输出变换。
然后,使用以下损失函数进行模型训练:
其中,y用户真实重复购买行为;用户重复购买行为预测结果;L″是用户是否重复购买分类任务中的交叉熵损失函数;LT为树组T的嵌入损失由式19 可得;k是树组的数量,α和β为事先给定的分别用于控制端到端损失和嵌入损失强度的超参数。
其中,IT为树组T中使用的用户重复购买行为影响特性,由于用户历史行为数据规模大结构复杂,树组T中树的数目较大、含有的特征较多,为了提高特征的选择能力,根据特征的重要性选择排名靠前的部分特征代替树组中的所有特征。
其中,k是树组的数量,其余参数含义同式16和式19。
yCatNN(x)=yFM(x)+yDeep(x) (21)
其中,N(x;θ)表示输入为x,参数为θ的多层神经网络。
对于步骤S6中,通过Vote-Stacking模型,对训练后的双层注意力BiGRU 个体模型、深度Catboost个体模型和DeepGBM个体模型进行融合,并采用多数投票决策机制输出最终预测结果:
传统的Stacking模型第一层中不同的个体模型使用相同训练集,输出值之间的差异性不大,导致泛化性能不佳。为此,采用如图7所示的三层 Vote-Stacking模型:第一层和第二层均为初级学习层;第三层是次级学习层;最终预测结果为,通过对个体模型和学习层测试输出结果采用多数投票决策机制获得。
第一层初级学习层:包括深度Catboost、双层注意力BiGRU和DeepGBM 个体模型。该模型使用有差异的训练数据,进一步增大模型输出值之间的差异性,提高模型预测能力。用户历史购买行为数据对时间敏感,由经验可知离重复购买行为预测时间越近的用户历史行为对结果影响越大,因此将原始数据按照时间段分为三个小组,再将每个小组中的数据随机划分为三个数据簇。无放回的随机选择每个小组中的一个数据簇,将三个小组中分别选择的三个数据簇组合后作为每个个体模型的输入进行模型训练。第一层初级学习层中个体模型构建过程如下:
输入包含三个数据簇组成的训练集D到个体模型fk,n(u),n=1,2,3中,通过五折交叉验证,来预测训练集中每个用户ui的重复购买行为预测结果其中表示个体模型n在第j折数据子集上得到的分类器,表示用户重复购买行为预测结果,取值为未重复购买0 或重复购买1。
第二层初级学习层:与第一层初级学习层的主要区别在于训练集和测试集中的特征分别多了第一层初级学习层中的5折交叉验证集预测结果列和测试集预测结果列,保留用户历史行为原始特征与其重复购买行为预测概率值之间的隐含关系。将第一层初级学习层将3个个体模型5折交叉验证集的预测结果添加到原始训练集特征xi中作为新训练集的特征将测试集预测结果与原始测试集特征x组合作为新测试集的特征
选择深度Catboost、双层注意力BiGRU和DeepGBM个体模型,把新训练集分为train1到train5不交叉的五份选择,个体模型使用train1到train4训练预测模型,train5预测用户重复购买行为预测结果并保留,重复上述过程,直到把train1到train5都预测一遍,保存预测结果为 Bn,train=(bn,1,bn,2,bn,3,bn,4,bn,5)T,n=1,2,3。在个体模型建立的过程中,每个模型分别对test数据集进行5次预测并取均值得到对应预测结果Bn,test=(bn)T,n=1,2,3。
第三层次级学习层:经过次级学习层进一步学习后,能够在多个初级学习层中取长补短,提升预测的准确度和稳定性。由于logistic回归具有较强的泛化能力,可以降低stacking的过拟合风险,因此次级学习层选用logistic回归模型进行建模。具体过程如下:
(1)根据3种个体预测模型训练集的输出Btrain={B1,train,B2,train,B3,train},构建逻辑回归方程y=wTBtrain+b,其中w为权重值,b为偏回归系数,y为表示用户是否重复购买的因变量。
(2)因变量y取值为1,用户重复购买的概率是p=P(y=1|Btrain),否则取0 的概率为1-ρ。
(3)采用极大似然函数法求解模型中的回归系数,评估优化模型。
与上述技术方案相关的概念:
个体预测模型
个体预测模型通过影响特征基于单个机器学***台的行为数据,通过支持向量机(Support Vector Machine,SVM)建立预测模型,对未来网络消费者的重复购买情况进行预测,论证了利用过去的行为数据建立的预测模型识别消费者未来的在线购买行为的可行性。
集成学习预测模型
随着集成学习技术的发展,越来越多的研究人员结合不同的个体预测模型构建集成预测模型以有效提高预测精度和鲁棒性。文献综合特征工程和模型训练相结合的方法。构建涵盖用户、商户、品牌、类别、商品及其交互等各个方面的用户重复购买行为影响特征,分别使用Logistic回归、随机森林、XGBoost 等五种模型进行训练预测,其中基于GBDT的XGBoost集成学习模型在用户重复购买行为预测中表现最好,对文中特征构建和个体模型的选择有很大启示。Xu提出了一种基于GBDT的两层模型融合算法(TMFBG)来预测重复购买用户,首先采用随机森林(RF)、ExtraTree(ET)、梯度增强决策树(GBDT)和决策树(DT)四种算法作为基分类器进行分别预测,然后提出的一种比投票方法更有效的TMFBG基分类器融合方法,该融合算法提高了预测精度和模型鲁棒性。 Kumar等人采用了机器学习技术和人工蜂群算法相结合的混合方法对用户重复行为进行预测。该研究首先对消费者的再购买意向特征进行识别,然后通过人工蜂群算法对特性进行选择并确定消费者特征和购物中心属性作为预测模型的选择,最后利用决策树、AdaBoost、随机森林、支持向量机和神经网络等分类模型预测消费者的购买意愿。利用k-折叠交叉检验方法对分类模型的鲁棒性进行检验,在训练集和测试集的结果表明该算法灵敏度和准确度优于其他分类模型方法。此外,该研究发现商户特征和用户特征为影响用户重复购买行为的主要方面,对文中的特征构建也有所启发。
集成学习方法
集成学***均法、投票法和学习法。近年来诸多研究论证了通过改进个体模型组合方法提升集成模型性能的可行性。文献提出了一种利用URL和 HTML特征检测网络钓鱼网页的Stacking模型,将GBDT、XGBoost和 LightGBM三种个体模型进行结合使得不同的模型可以误差互补,从而提高了钓鱼网页检测的性能。针对Android恶意软件检测问题,提出了一种基于多级结构的分类器融合框架DroidFusion,该框架首先通过低层训练基分类器生成模型,然后根据高层预测精度,最后对其应用一组基于排序的算法得到最终分类器。在四个独立的数据集上进行实验论证,证明了DroidFusion框架也可以有效提高集成学习算法的融合精度,融合效果优于著名分类器融合方法Stacking。文献为了提高信用评分预测准确性,提出了一种基于统计和机器学习的多阶段自适应分类器集成模型。该模型首先根据候选分类器在数据集中的性能,从候选分类器库中自适应地选择基分类器,并利用贝叶斯优化算法对基分类器的参数进行优化。然后,通过多层Stacking集成方法对优化后的基分类器进行集成并产生新的特征,其中集成模型中基分类器的权重通过粒子群优化得到。与个体模型和随机森林、AdaBoost集成模型相比,该模型具有更好的性能和数据适应性。
实验与分析
测试数据与评估指标
测试数据包含了“双十一”前后6个月中约26万匿名用户的购物信息。其中,有重复购买行为的正样本与没有重复购买行为的负样本比例约为1:10,主要由用户个人信息表、用户行为日志表、用户购买行为表三个表组成,采用“分段下采样”方法进行样本均衡处理。
对于用户重复购买行为预测问题,根据样例真实类别与文中模型预测类别组合划分为真正例(TP)、假正例(FP)、真负例(TN)、假负例(FN)四种类型,数字化后可推导出表示分类正确的样本数与总样本数之比的准确率 (Accuracy)和表示正例样本排在负例之前概率的AUC值(Area Under Curve),公式为:
其中,P为重复购买的正样本总数,N为未重复购买的负样本总数。
测试分析
1)词向量编码长度选择
双层注意力BiGRU个体模型中的特征嵌入层的词向量编码长度需要实验选择获取。编码的长度与编码对象的总词数规模正相关,总词数越多则编码越长。从数据中统计得出商品、品牌、商品种类的总词数的比值约为625:5:1。设置表2所示的五组词向量长度组合进行实验。此外,由于用户信息中年龄范围和性别的总词数很小,因此设定其词向量长度为10,不再进行实验评估选择。
表2不同词向量长度组合AUC值
由实验结果可知,AUC值随着词向量编码长度增大而越好,其主要原因是长度越长的编码对数据的表征能力越好,双层注意力BiGRU个体模型整体的表征能力也随之提升。然而,词向量编码长度越大,双层注意力BiGRU个体模型消耗的***资源越多,考虑到实验环境的限制,选择[150,80,80,10,10] 词向量编码长度的组合进行后续实验。
2)重复购买行为影响特征分析
为了便于分析重复购买行为影响特征,表3展示了深度Catboost个体预测模型排名前10的影响特征。
表3深度Catboost个体模型排名前10特征统计表
表3中所列的特征中,从宏观角度来看用户和商户交互特征对用户重复购买行为的影响力最大,商户特性和用户特征次之。从微观角度来看用户和商户交互特征中某用户在某商户购买商品总次数、某用户在某商铺中购买某类商品的总数、某用户在某商铺中购买某个商品的总数三个特性体现了某个用户对商户的“偏爱”程度,实际情况用户往往习惯在经常购买的商家去购买商品;某用户在商户中第一次和最后一次交互的时间差,某用户在某商户中一个月交互次数三个特征度量了某用户在某商户的“停留”时长,根据经验可知某用户在某商户“停留”的时间越长,越容易发生购买行为。此外,由表中也可以看出用户购买转换率、用户年龄和性别也是对用户重复购买影响较重要的几个特征,这与实际情况非常一致。
3)改进个体模型与集成模型验证
如图8给出了深度Catboost和双层注意力BiGRU个体预测模型改进前后 Accuracy和AUC值的变化。为了保证实验结果的准确和客观,将每个模型在同一训练和测试数据集上分别运行10次,求得Accuracy和AUC值的平均值作为模型最终结果。
从图8中的实验结果可知,文中改进的深度Catboost和双层注意力BiGRU 个体模型Accuracy和AUC值在训练集和测试集中均优于原始CatBoost模型和 LSTM模型,表明改进的深度Catboost个体模型能有效减少原始Catboost模型过拟合风险,提高了模型的准确率和鲁棒性。双层注意力BiGRU个体模型通过增加注意力机制和改进神经单元结构较原始LSTM神经网络模型性能有较大提升,这是因为增加注意力机制可以有效挖掘出用户历史购买行为序列内与序列间的关键信息并给与足够关注,同时与单向LSTM神经网络模型相比BiGRU神经网络模型在用户重复购买行为预测中的输出状态由前面若干输入和后面若干输入共同决定预测结果更加准确。此外,比对训练集和测试集实验结果可以看出模型的Accuracy和AUC值相差不大,没有发生过拟合或者欠拟合问题。
表4五种用户重复购买行为集成预测模型Accuracy和AUC值对比
由表4可知,文中Vote-Stacking模型的Accuracy和AUC值与其余四种集成模型相比在训练集和测试集中相比均更优。这说明文中集成预测模型在个体模型的选择和融合策略Stacking算法的改进的有效性,其主要原因为:文中的集成模型与基于GBDT的XGBoost和LightGBM集成学习模型相比,不仅可以有效处理用户历史行为数据中密集型数值特征,对大规模稀疏分类特征也能高效处理,进一步丰富特征类型提升模型的性能;Vote-Stacking模型使用有差异的训练数据增大模型输出值之间的差异性,将原始数据中的特征和初级学习器生成的新特征进行有效结合丰富了模型的特征类型,最终测试结果采用投票机制有效结合了初级学习器和次级学习器的测试结果减少了传统Stacking算法仅依赖次级学习层的误差。此外,在训练集和测试集的Accuracy和AUC值差异较小,模型具有较好的泛化能力。
4)Vote-Stacking模型稳定性验证
为了更直观的验证Vote-Stacking模型的稳定性,将文中五种模型在10次训练集上的Accuracy画出折线图并分析波动幅度,如图9 所示。
从图9可看出Vote-Stacking模型和三种个体模型稳定性都比较好。 Vote-Stacking和Stacking模型与个体模型相比处于高Accuracy的区间内幅度波动更小,模型整体上稳定性更好。这是因为集成学习通过融合三种个体模型的预测结果,在提高单个模型的性能的同时,通过个体模型间相互协助可以有效避免选择某个预测效果不好的个体模型的结果,提升了模型整体的准确性和稳定性。
5)与blending和TMFBG模型对比
为了验证文中模型的有效性和实用性,在个体模型和集成模型实验的基础上,将其与已有blending和TMFBG模型在同一数据集和实验环境下进行比较,得出如表5所示的实验结果。该结果表明,文中模型在用户重复购买行为预测中的精确度和AUC值更好。
表5三种预测模型Accuracy和AUC值对比
模型 | Accuracy | AUC值 |
TMFBG | 0.7087 | 0.6951 |
blending | 0.8784 | 0.7023 |
文中模型 | 0.9128 | 0.7053 |
综上所述,本发明提出了一种Vote-Stacking融合方法的集成模型,该模型结合深度Catboost、双层注意力BiGRU和DeepGBM三种个体模型,应用“分段下采样”样本均衡算法针对用户购买行为历史数据不均衡问题进行均衡处理,以提高预测性能。提出了深度Catboost和双层注意力BiGRU更加适用预测任务的改进个体模型。使用了DeepGBM到用户重复购买行为预测实际问题中并取得了良好的效果。提出一种对Stacking融合方法包括差异化训练集、增加初级学习层、测试方法中增加投票机制三方面改进的Vote-Stacking融合方法。同时,采用Accuracy和AUC评价指标在天猫商城真实数据集验证模型的有效性和稳定性。实验结果表明,Vote-Stacking集成预测模型与个体模型、其他集成模型和同类预测模型相比,有效提升了预测的Accuracy和AUC值。分析了影响重复购买行为的重要特征,为商户增加用户重复购买率、提高用户忠诚度和精准营销等方面相关策略的制定提供参考。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种电子商务平台用户重复购买行为预测方法,其特征在于,包括:
获取用户历史购买行为数据,并对用户历史购买行为数据进行预处理;
采用分段下采样方法对用户历史购买行为数据进行样本均衡处理;
构建用户特征、商户特征、用户与商户交互特征和隐藏特征;
将样本均衡的用户历史购买行为数据输入至双层注意力BiGRU个体模型中,并将用户特征、商户特征、用户与商户交互特征和隐藏特征输入至深度Catboost个体模型和DeepGBM个体模型中;
对双层注意力BiGRU个体模型、深度Catboost个体模型和DeepGBM个体模型,分别进行用户重复购买行为预测训练;
通过Vote-Stacking模型,对训练后的双层注意力BiGRU个体模型、深度Catboost个体模型和DeepGBM个体模型进行融合,并采用多数投票决策机制输出最终预测结果。
2.如权利要求1所述的电子商务平台用户重复购买行为预测方法,其特征在于,所述对用户历史购买行为数据进行预处理,包括:
对用户历史购买行为数据进行数据清洗,缺失数据和错误数据剔除。
3.如权利要求1所述的电子商务平台用户重复购买行为预测方法,其特征在于,所述采用分段下采样方法对用户历史购买行为数据进行样本均衡处理,包括:
将重复购买用户和未重复购买用户原始样本按照天为单位进行分段;
对用户样本中的每个用户根据欧氏距离找出三个其最近邻用户;若该用户是未重复购买用户且其三个最近邻用户中有两个以上是重复购买用户,则删除该用户;否则,当该用户是重复购买用户并且其三个最近邻中有两个以上是未重复购买用户,则去除最近邻中的未重复购买用户。
4.如权利要求1所述的电子商务平台用户重复购买行为预测方法,其特征在于,采用统计分析法和机器学习法,构建用户特征、商户特征、用户与商户交互特征和隐藏特征。
5.如权利要求1或4所述的电子商务平台用户重复购买行为预测方法,其特征在于,
所述用户特征包括:属性特征、用户统计特征、用户比例特征、用户生命周期、促销热衷度;
所述商户特征包括:商户统计特征、促销频率、商户生命周期、回头率、商户比例特征、性别和年龄分布;
所述用户与商户交互特征包括:交互统计特征、交互比例特征、交互生命周期、预备购买数、商户排名;
所述隐藏特征包括:主题特征、相似性特征、反馈特征。
6.如权利要求5所述的电子商务平台用户重复购买行为预测方法,其特征在于,对双层注意力BiGRU个体模型,进行用户重复购买行为预测训练;包括:
所述双层注意力BiGRU个体模型,包括:对用户历史购买行为数据进行编码的特征嵌入层,对用户重复购买进行建模的双向递归层,融合双向递归层的双层注意力层,分类表达预测结果的分类层;
所述特征嵌入层,从用户、商户、用户和商户交互信息三方面的用户历史购买行为数据中,通过词嵌入方法和双层注意力BiGRU神经网络自动学习抽取影响因素特征;使用词嵌入模型对用户和商户交互行为、用户年龄和性别信息进行词向量编码,编码长度由实验获得;获得词向量编码后对用户和商户交互行为信息使用特征子模型进行训练得到特征向量;
所述双向递归层,采用双层注意力BiGRU个体模型进行建模;双层注意力BiGRU模型包括两个单向、异向的GRU单元组成的神经网络,双层注意力BiGRU模型当前的隐层状态ht,由当前的输入xt、前一时刻正向的隐层状态的输出和反向的隐层状态的输出三个部分共同决定;由于双层注意力BiGRU模型相当两个单向的GRU单元,所以双层注意力BiGRU个体模型在t时刻的隐层状态通过前向隐层状态和反向隐层状态加权求和得到:
其中,GRU(·)函数对输入的用户行为词向量进行非线性变换,将其转换为对应的GRU隐藏状态;αt和βt分别表示t时刻双层注意力BiGRU个体模型的前向和后向隐藏状态的权重;bt表示t时刻隐藏状态的偏置项;
所述双层注意力层包括:下层注意力机制和上层注意力机制;
所述下层注意力机制,通过自注意力机制获取每个行为序列中对重复购买行为影响大的行为,自注意力机制自动从用户行为数据中学习权重分布,计算公式如下:
vt=tanh(Wht+b)
其中,at表示用户的第t次行为对于当前行为序列的重要程度,vtA为一种从用户行为数据中自动学习得到的评分制度,W和A为权重矩阵,b为偏置;
所述下层注意力机制的输入分别为双层注意力BiGRU个体模型的输出向量,计算公式如下:
所述上层注意力机制,借鉴Transformer中的自我注意机制的方法,输入两个行为序列,计算一个行为序列中的每个行为与另外一个行为序列中所有行为的距离,通过这种方式来描述用户序列间的交互;
SA(hA,hB)=AA(hB,hA,hA)⊙AB(hA,hB,hB)
其中,表示用户浏览行为序列注意力,表示用户购买行为序列注意力,⊙表示矩阵元素相乘,表示用户浏览行为序列与购买行为序列间注意力,用户浏览行为序列与收藏行为序列间注意力用户购买行为序列与收藏行为序列间注意力
所述分类层,利用softmax函数进行相应计算,将双向递归层和双层注意力层的结果连接作为分类层输入:
inputclassify=[outputBiGRU,outputattention]
输出每类的概率为Pc:
y=wclassifyinputclassify+bclassify
其中,wclassify为L×C的权重矩阵;L输入向量inputclassify的维度;C为分类数,分为重复购买和非重复购买两类;在得到预测概率分布后,采用交叉熵损失函数通过计算真实分布与预测分布的差值,利用反向传播对模型的参数进行更新。
7.如权利要求6所述的电子商务平台用户重复购买行为预测方法,其特征在于,对深度Catboost个体模型,进行用户重复购买行为预测训练;包括:
使用深度学习中表示学习的逐层抽取特征的思想对深度Catboost个体模型输入数据进行分组训练,并添加上层分类结果到下一层训练集中,具体步骤如下:
随机选择特征子集,并训练出多个独立的深度Catboost个体模型;
将深度Catboost个体模型的分类结果作为新特征原始特征融合,作为新的表示输入下一层学习,同时引入下式随机噪声降低融合过程中的过拟合风险;
F*=F+Θ(Ci)
其中,F*为融合后用户重复购买行为特征,F为原始特征,Ci为独立深度Catboost个体模型预测结果,Θ(·)表示引入的随机噪声;
将多个深度Catboost个体模型预测结果进行加权融合,输出用户重复购买的预测结果。
8.如权利要求7所述的电子商务平台用户重复购买行为预测方法,其特征在于,对DeepGBM个体模型,进行用户重复购买行为预测训练;包括:
使用用户历史购买行为数据训练一个GBDT模型:
其中,n是训练样本的个数,||(·)表示连接操作,GT,i=H(||t∈T(Lt,i);ωT)是一个将连接多个独热叶索引向量转换为树T中的密集嵌入GT,i的单层全连接网络;
所述DeepGBM个体模型输出表示为:
其中,w1和w2为GBDT2NN和CatNN的训练参数,σ′是用户是否重复购买的二分类输出变换;
使用以下损失函数进行模型训练:
其中,y用户真实重复购买行为;用户重复购买行为预测结果;L″是用户是否重复购买分类任务中的交叉熵损失函数;LT为树组T的嵌入损失由下式得;k是树组的数量,α和β为事先给定的分别用于控制端到端损失和嵌入损失强度的超参数;
其中,IT为树组T中使用的用户重复购买行为影响特性,根据特征的重要性选择排名靠前的部分特征代替树组中的所有特征;
其中,k是树组的数量;
yCat(x)=yFM(x)+yDeep(x)
其中,N(x;θ)表示输入为x,参数为θ的多层神经网络。
9.如权利要求8所述的电子商务平台用户重复购买行为预测方法,其特征在于,所述通过Vote-Stacking模型,对训练后的双层注意力BiGRU个体模型、深度Catboost个体模型和DeepGBM个体模型进行融合,并采用多数投票决策机制输出最终预测结果;包括:
所述Vote-Stacking模型包括:第一层初级学习层、第二层初级学习层、第三层次级学习层;
所述第一层初级学习层,包括深度Catboost个体模型、双层注意力BiGRU个体模型和DeepGBM个体模型;将用户历史购买行为数据按照时间段分为三个小组,再将每个小组中的数据随机划分为三个数据簇;无放回的随机选择每个小组中的一个数据簇,将三个小组中分别选择的三个数据簇组合后作为每个个体模型的输入进行模型训练;所述第一层初级学习层中个体模型构建过程如下:
输入包含三个数据簇组成的训练集D到个体模型fk,n(u),n=1,2,3中,通过五折交叉验证,预测训练集中每个用户ui的重复购买行为预测结果 其中表示个体模型n在第j折数据子集上得到的分类器,表示用户重复购买行为预测结果,取值为未重复购买0或重复购买1;将测试集分别输入训练得到的三个个体模型中,得到三个个体模型的测试结果其中,表示测试样本u在每个个体模型的5折交叉验证测试结果的平均值;
所述第二层初级学习层,与第一层初级学习层的区别在于训练集和测试集中的特征分别多了第一层初级学习层中的5折交叉验证集预测结果列和测试集预测结果列,保留用户历史行为原始特征与其重复购买行为预测概率值之间的隐含关系;将第一层初级学习层的三个个体模型5折交叉验证集的预测结果添加到原始训练集特征xi中作为新训练集的特征将测试集预测结果与原始测试集特征x组合作为新测试集的特征选择深度Catboost个体模型、双层注意力BiGRU个体模型和DeepGBM个体模型,把新训练集分为train1到train5不交叉的五份选择,个体模型使用train1到train4训练预测模型,train5预测用户重复购买行为预测结果并保留,重复上述过程,直到把train1到train5都预测一遍,保存预测结果为Bn,train=(bn,1,bn,2,bn,3,bn,4,bn,5)T,n=1,2,3;在个体模型建立的过程中,每个模型分别对test数据集进行5次预测并取均值得到对应预测结果Bn,test=(bn)T,n=1,2,3;
第三层次级学习层:选用logistic回归模型进行建模,具体过程如下:
根据三种个体预测模型训练集的输出Btrain={B1,train,B2,train,B3,train},构建逻辑回归方程y=wTBtrain+b,其中w为权重值,b为偏回归系数,y为表示用户是否重复购买的因变量;因变量y取值为1,用户重复购买的概率是p=P(y=1|Btrain),否则取0的概率为1-ρ;采用极大似然函数法求解模型中的回归系数,评估优化模型;输入个体预测模型测试集的预测值Btest={B1,test,B2,test,B3,test},得到测试集的预测值并对其评估;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911181002.4A CN110956497B (zh) | 2019-11-27 | 2019-11-27 | 一种电子商务平台用户重复购买行为预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911181002.4A CN110956497B (zh) | 2019-11-27 | 2019-11-27 | 一种电子商务平台用户重复购买行为预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956497A CN110956497A (zh) | 2020-04-03 |
CN110956497B true CN110956497B (zh) | 2022-11-25 |
Family
ID=69977041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911181002.4A Active CN110956497B (zh) | 2019-11-27 | 2019-11-27 | 一种电子商务平台用户重复购买行为预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956497B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652635A (zh) * | 2020-05-14 | 2020-09-11 | 拉扎斯网络科技(上海)有限公司 | 资源策略信息推荐、执行状态数据、预测模型获得方法 |
CN111899055A (zh) * | 2020-07-29 | 2020-11-06 | 亿达信息技术有限公司 | 大数据金融场景下的基于机器学习和深度学习的保险客户复购预测方法 |
CN112101611B (zh) * | 2020-07-31 | 2022-11-18 | 重庆锐云科技有限公司 | 房地产客户复购时间的预测方法、服务器及存储介质 |
CN112132345A (zh) * | 2020-09-23 | 2020-12-25 | 深圳创新奇智科技有限公司 | 电商用户信息预测方法、装置、电子设备及存储介质 |
CN112232388B (zh) * | 2020-09-29 | 2024-02-13 | 南京财经大学 | 基于elm-rfe的购物意图关键因素识别方法 |
CN112163222A (zh) * | 2020-10-10 | 2021-01-01 | 哈尔滨工业大学(深圳) | 一种恶意软件检测方法及装置 |
CN112270570B (zh) * | 2020-11-03 | 2022-03-11 | 重庆邮电大学 | 一种基于特征组合与表示学习的点击转化率预测方法 |
CN112819523B (zh) * | 2021-01-29 | 2024-03-26 | 上海数鸣人工智能科技有限公司 | 结合内/外积特征交互和贝叶斯神经网络的营销预测方法 |
CN112836317B (zh) * | 2021-03-05 | 2023-03-24 | 南昌工程学院 | 一种基于眼动追踪技术的产品设计智能建模方法 |
CN112766619B (zh) * | 2021-04-07 | 2021-07-20 | 广东众聚人工智能科技有限公司 | 一种商品时序数据预测方法及*** |
CN113537552A (zh) * | 2021-04-28 | 2021-10-22 | 桂林电子科技大学 | 基于混合深度学习及注意力机制的学生表现预测方法 |
CN113204921B (zh) * | 2021-05-13 | 2022-04-08 | 哈尔滨工业大学 | 飞机涡扇发动机的剩余使用寿命预测方法及*** |
CN113469730A (zh) * | 2021-06-08 | 2021-10-01 | 北京化工大学 | 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置 |
CN113240213B (zh) * | 2021-07-09 | 2021-10-08 | 平安科技(深圳)有限公司 | 基于神经网络和树模型的人员甄选方法、装置及设备 |
CN113781201B (zh) * | 2021-08-19 | 2023-02-03 | 支付宝(杭州)信息技术有限公司 | 电子金融活动的风险评估方法和装置 |
CN113706198B (zh) * | 2021-08-27 | 2022-08-26 | 青木数字技术股份有限公司 | 一种电商复购潜客近期复购概率估算的方法 |
CN114004425B (zh) * | 2021-12-29 | 2022-06-07 | 北京京东振世信息技术有限公司 | 物品流转信息预测模型生成方法、信息生成方法、装置 |
CN116128562A (zh) * | 2022-12-29 | 2023-05-16 | 苏宁易购集团股份有限公司 | 一种人群转化预测方法、装置、电子设备和存储介质 |
CN115994628B (zh) * | 2023-03-23 | 2023-07-18 | 湖北长江电气有限公司 | 基于大数据的能源管理方法和装置 |
CN116823337B (zh) * | 2023-08-24 | 2023-11-21 | 北京信索咨询股份有限公司 | 基于大数据分析用户习惯的产品销售预测*** |
CN117593044B (zh) * | 2024-01-18 | 2024-05-31 | 青岛网信信息科技有限公司 | 一种双角度的营销活动效果预测方法、介质及*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2693324C2 (ru) * | 2017-11-24 | 2019-07-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер преобразования значения категориального фактора в его числовое представление |
CN109255651A (zh) * | 2018-08-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的搜索广告转化智能预测方法 |
CN109741114A (zh) * | 2019-01-10 | 2019-05-10 | 博拉网络股份有限公司 | 一种大数据金融场景下的用户购买预测方法 |
CN109741112B (zh) * | 2019-01-10 | 2020-12-25 | 博拉网络股份有限公司 | 一种基于移动大数据的用户购买意向预测方法 |
CN110502749B (zh) * | 2019-08-02 | 2023-10-03 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
-
2019
- 2019-11-27 CN CN201911181002.4A patent/CN110956497B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110956497A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956497B (zh) | 一种电子商务平台用户重复购买行为预测方法 | |
CN112598462B (zh) | 基于协同过滤和深度学习的个性化推荐方法及*** | |
WO2021139164A1 (zh) | 一种基于长短期兴趣的序列化推荐方法 | |
Bhuvaneshwari et al. | Spam review detection using self attention based CNN and bi-directional LSTM | |
CN108665311B (zh) | 一种基于深度神经网络的电商用户时变特征相似性计算推荐方法 | |
CN110955826B (zh) | 基于改进型循环神经网络单元的推荐*** | |
CN109034960B (zh) | 一种基于用户节点嵌入的多属性推断的方法 | |
CN109584006B (zh) | 一种基于深度匹配模型的跨平台商品匹配方法 | |
Shrirame et al. | Consumer behavior analytics using machine learning algorithms | |
CN116703506A (zh) | 一种基于多特征融合的电商商品推荐方法及*** | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
Kao et al. | Prediction of remaining time on site for e‐commerce users: A SOM and long short‐term memory study | |
Khandokar et al. | A gradient boosting classifier for purchase intention prediction of online shoppers | |
CN116757747A (zh) | 基于行为序列和特征重要性的点击率预测方法 | |
CN116452293A (zh) | 一种融合物品受众特征的深度学习推荐方法及*** | |
CN115659277A (zh) | 一种基于多行为特征融合的电商会话推荐方法、***、装置及介质 | |
CN114238758B (zh) | 一种基于多源跨界数据融合的用户画像预测方法 | |
Mallik et al. | A comprehensive survey on sales forecasting models using machine learning algorithms | |
Jalilifard et al. | Friendship is all we need: A multi-graph embedding approach for modeling customer behavior | |
Ebadi Jokandan et al. | Targeted advertising in social media platforms using hybrid convolutional learning method besides efficient feature weights | |
Widowati et al. | Enhance Document Contextual Using Attention-LSTM to Eliminate Sparse Data Matrix for E-Commerce Recommender System | |
Zhang et al. | Analysis model of customer reviews based on neural network | |
Sharifihosseini et al. | Presenting Bank Service Recommendation for Bon Card Customers:(Case Study: In the Iranian Private Sector Banking Market) | |
CN115099888B (zh) | 一种基于注意力机制的用户评论有效性分析方法 | |
Yarar | Personalized product recommendation on second hand platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20200403 Assignee: Guilin Hanchen Technology Co.,Ltd. Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY Contract record no.: X2023980046252 Denomination of invention: A Method for Predicting Repeated Purchase Behavior of E-commerce Platform Users Granted publication date: 20221125 License type: Common License Record date: 20231108 |