CN110634027A - 一种基于迁移学习的首次订购用户精细化流失预判方法 - Google Patents

一种基于迁移学习的首次订购用户精细化流失预判方法 Download PDF

Info

Publication number
CN110634027A
CN110634027A CN201910881387.9A CN201910881387A CN110634027A CN 110634027 A CN110634027 A CN 110634027A CN 201910881387 A CN201910881387 A CN 201910881387A CN 110634027 A CN110634027 A CN 110634027A
Authority
CN
China
Prior art keywords
data
dim
smp
domain
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910881387.9A
Other languages
English (en)
Inventor
钱虹
徐佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuangluo (shanghai) Data Technology Co Ltd
Original Assignee
Chuangluo (shanghai) Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuangluo (shanghai) Data Technology Co Ltd filed Critical Chuangluo (shanghai) Data Technology Co Ltd
Priority to CN201910881387.9A priority Critical patent/CN110634027A/zh
Publication of CN110634027A publication Critical patent/CN110634027A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于迁移学习的首次订购用户精细化流失预判方法,包括如下步骤:(1)数据获取(2)数据组织(3)迁移学习。本发明通过Lookalike算法,聚焦出源域中基于目标域扩展的相似用户群,将目标域和目标域的相似扩展用户群作为训练样本,采用C5决策树,并引入基于模型的迁移学习思想建模训练,获得的模型预测准确率和未采取任何迁移学习建模计算所得的预测准确率相比,预测效果具有一定程度的提升。

Description

一种基于迁移学习的首次订购用户精细化流失预判方法
技术领域
本发明涉及一种用户精细化流失预判方法,特别涉及一种基于迁移学习的用户精细化流失预判方法。
背景技术
在竞争日益激烈的情形下,留住一个老客户远比吸引一个新用户更有价值。有效地预测、挽留流失用户,对企业的生存与发展具有极其重要的意义。在多次订购用户流失预判问题已得以解决的情况下,有效地对首购用户进行流失预判也变得尤为重要。鉴于首购用户存在着同一用户行为记录过少的短板,传统的预测方法存在着准确率不高的缺点。
发明内容
本发明的目的在于提供一种基于迁移学习的首次订购用户精细化流失预判方法,以提升预测效果。
本发明采用了如下技术方案:
一种基于迁移学习的首次订购用户精细化流失预判方法,其特征在于,包括如下步骤:
(1)数据获取
获取订购记录,将预设时间段内发生过订购行为的用户作为观测对象,观测对象中需要滤除最近一个生命周期内刚进来的新用户,然后将观测对象所有历史订单行为作为初始训练数据,
在观测对象中,将流失用户定义为:>90天没来订购,返回1:流失,否则0:留存,
(2)数据组织
以用户每天消费为最小消费粒度,计算形成如下格式的数据指标用户ID
第n日消费No. 相关指标 简单衍生指标1 时序衍生指标2
n=1 -
n>1
(3)迁移学习
将单用户订购次数>1的所有订单记录集定义为源域DimS;订购次数=1的数据集为目标域DimT,通过如下步骤,逐步完成源域知识到目标域的迁移:
3-1:维度集Dim=DimS∩DimT,其中:DimS为源域数据的计算维度,DimT为目标域数据的计算维度;
3-2:若需要进行去除负迁移的处理,则直接转入步骤3-3;
样本集Smp=DataS∪DataT,其中:Datas为源域数据,DataT为目标域数据;
3-3:将目标样本集进行去除负迁移的处理,Smp_Tr=DataT∪DataT_Similar
其中:DataT_Similar为源域数据中与目标域DataT的相似数据集;
Smp==Smp_Tr
3-4:将样本集Smp划分为训练集TrainSmp,占80%;和测试集TestSmp,占20%;
3-5:通过PCA,将Dim映射到一个低维子空间,即:Dim=>DimP,其中:DimP为Dim映射在低维子空间中的因子;
3-6:模型DimP=>Dim’,其中:Dim’是相对目标Y的重要因子;
3-7:模型训练:在训练集TrainSmp中,以Dim’为输入、Train_Y为输出,使用C5决策树训练建模,得到Train_Y=F(Dim’);然后在TestSmp中,对所得的模型进行评估;
3-8:通过使用Step7训练得到的模型,对DataT的数据进行预测,F(Dim’)=>DataT_Y,DataT_Y是指数据DataT根据函数F(Dim’)映射得到的输出结果。
进一步,本发明的基于迁移学习的首次订购用户精细化流失预判方法,其特征在于:
步骤3-3的具体步骤如下:
将目标域数据集(即第一次订购的记录)DataT作为种子数据,以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录DataS_Similar,得到Smp_Tr=DataT∪DataS_Similar,Smp_Tr便是经过负迁移处理后的数据集,
迁移样本由如下两部分组成:
Smp_Tr=DataT∪DataS_Similar
其中:DataT为目标域数据集;
DataS_Similar为与目标数据源相似的源域中的数据集
3-3-1:针对每个目标域DataT的种子数据,根据如下公式(1)、(2)分别计算,为每条目标域成员计算出它们和源域数据中各成员之间的相似度;
皮尔逊相似度
Figure BDA0002205974960000041
Sim=1-R (1)
Distance距离
Figure BDA0002205974960000042
本文通过在源域和目标域组合的数据集中,计算得到的PCA映射因子,使用上述公式计算相似度距离,
其中:
源域中的PCA因子为:Fs=Fs1,Fs2,......Fsnn为PCA映射因子的因子数量,FS:源域中的PCA因子集,包含n个因子Fs1,Fs2,......Fsn,目标域中的PCA因子为:FT=Ft1,Ft2,......Ftnn为PCA映射因子的因子数量FT:目标域中的PCA因子集,包含n个因子Ft1,Ft2,......Ftn,
3-3-2:R、D的值分别取Sim<=0.2and D<=1,获得的目标域数据记录ID集合,Sim是公式(1)计算得来的相似度度量;
3-3-3:将Step2步获得的目标数据记录ID集合去重之后,加上源域中的记录ID;
3-3-4:将Step3中获得的记录ID,再次去重,之后得到的记录ID集对应的记录集合便是DataT∪DataT_Similar,即形成处理好的扩展数据集Smp_Tr。
发明的有益效果
本发明的基于迁移学习的首次订购用户精细化流失预判方法,通过Lookalike算法,聚焦出源域中基于目标域扩展的相似用户群,将目标域和目标域的相似扩展用户群作为训练样本,采用C5决策树,并引入基于模型的迁移学习思想建模训练,获得的模型预测准确率和未采取任何迁移学习建模计算所得的预测准确率相比,预测效果具有一定程度的提升。
附图说明
图1是对数据源的划分示意图。
具体实施方式
以下结合具体实例详细描述本发明的技术方案:
1、基于模型的迁移学习的模型训练方法
(1)、数据获取
为方便方法描述的理解,本文以某国际机票搜索平台G提供的所有历史机票订购记录为例,加以说明
参照图1,将通过该平台在2015.12.01—2018.3.11期间有过订购行为的用户,在2015.12.01—2018.10.11期间的历史订单数据作为观测对象,观测对象中需要滤除最近一个生命周期内刚进来的新用户,然后将观测对象所有历史订单行为作为初始训练数据,
在本实施方式中,预留图中2018.03.11到2018.10.11这段时间,让用户经历一个完整的生命周期N。在其它的实施方式中,完整的生命周期应当根据不同产品的行业通行生命周期分别确定。对于机票订购,用户的生命周期N=180天。
在此基础上,流失用户定义:>90天没来订购,(1:流失),否则(0:留存)。
并且在这个时间段内,新用户的行为不用来做训练样本。
(2)、数据组织
以用户每天消费为最小消费粒度,计算形成如下格式的数据指标:
表1:数据指标
第n日消费No. 相关指标 简单衍生指标1 时序衍生指标2
n=1
n>1
具体指标概要详见表2:
表2:具体的数据指标
Figure BDA0002205974960000061
Figure BDA0002205974960000071
(3)、迁移学习
将单用户订购次数>1的所有订单记录集定义为源域DimS;订购次数=1的数据集为目标域DimT,通过如下步骤,逐步完成源域知识到目标域的迁移:
Step1:维度集Dim=DimS∩DimT,其中:DimS为源域数据的计算维度,DimT为目标域数据的计算维度;
Step2:若需要进行去除负迁移的处理,则直接转入Step3;
样本集Smp=DataS∪DataT,其中:Datas为源域数据,DataT为目标域数据;
Step3:将目标样本集进行去除负迁移的处理,Smp_Tr=DataT∪DataT_Similar
其中:DataT_Similar为源域数据中与目标域DataT的相似数据集;
具体计算步骤详见:Lookalike缓解负迁移的方法部分的描述,数据处理部分的Smp_Tr的形成过程;
Smp=Smp_Tr;
Step4:将样本集Smp划分为训练集TrainSmp(80%)、和测试集TestSmp(20%);
Step5:通过PCA,将Dim映射到一个低维子空间,即:Dim=>DimP,其中:DimP为Dim映射在低维子空间中的因子;
Step6:模型DimP=>Dim’,其中:Dim’是相对目标Y的重要因子;
Step7:模型训练在训练集TrainSmp中,以Dim’为输入、Train_Y为输出,使用C5决策树训练建模,得到Train_Y=F(Dim’);然后在TestSmp中,对所得的模型进行评估;
Step8:通过使用Step7训练得到的模型,对DataT的数据进行预测,F(Dim’)=>DataT_Y;其中,DataT_Y是指数据DataT根据函数F(Dim’)映射得到的输出结果。
2、基于Lookalike缓解负迁移的方法
将目标域数据集(即第一次订购的记录)DataT作为种子数据,以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录DataS_Similar,得到Smp_Tr=DataT∪DataS_Similar。Smp_Tr便是经过负迁移处理后的数据集。
迁移样本由如下两部分组成:
Smp_Tr=DataT∪DataS_Similar
其中:DataT为目标域数据集;
DataS_Similar为与目标数据源相似的源域中的数据集
Step1:针对每个目标域DataT的种子数据,根据如下公式(1)、(2)分别计算,为每条目标域成员计算出它们和源域数据中各成员之间的相似度;
皮尔逊相似度
Figure BDA0002205974960000091
Sim=1-R (1)
Distance距离
Figure BDA0002205974960000092
本文通过在源域和目标域组合的数据集中,计算得到的PCA映射因子,使用上述公式计算相似度距离。
其中:Ft:是目标域中的PCA因子集,Fs:是源域中的PCA因子集,源域中的PCA因子为:FS=Fs1,Fs2,......Fsnn为PCA映射因子的因子数量,FS:源域中的PCA因子集,包含n个因子Fs1,Fs2,......Fsn。目标域中的PCA因子为:FT=Ft1,Ft2,......Ftnn为PCA映射因子的因子数量,FT:目标域中的PCA因子集,是由n个因子Ft1,Ft2,......Ftn组成。
Step2:R、D的值分别取Sim<=0.2and D<=1,获得的目标域数据记录ID集合;
Step3:将Step2步获得的目标数据记录ID集合去重之后,加上源域中的记录ID;
Step4:将Step3中获得的记录ID,再次去重,之后得到的记录ID集对应的记录集合便是DataT∪DataT_Similar,即形成处理好的扩展数据集Smp_Tr。
3、根据新的首购用户,使用已经训练好的模型预测用户是否会流失使用上述1、2部分构建好的模型,对新首购用户进行预测,获得流失预判结论。
表3:各预测方法的准确率
Figure BDA0002205974960000101
本发明并不限于上面的描述,或在图表中所示的内容,在不脱离本发明主旨的情况下,所做的修改和改变均在本发明的保护范围内。

Claims (2)

1.一种基于迁移学习的首次订购用户精细化流失预判方法,其特征在于,包括如下步骤:
(1)数据获取
获取订购记录,将预设时间段内发生过订购行为的用户作为观测对象,观测对象中需要滤除最近一个生命周期内刚进来的新用户,然后将观测对象所有历史订单行为作为初始训练数据,
在观测对象中,将流失用户定义为:>90天没来订购,返回1:流失,否则返回0:留存,
(2)数据组织
以用户每天消费为最小消费粒度,计算形成如下格式的数据指标用户ID
第n日消费No. 相关指标 简单衍生指标1 时序衍生指标2 n=1 n>1
(3)迁移学习
将单用户订购次数>1的所有订单记录集定义为源域DimS;订购次数=1的数据集为目标域DimT,通过如下步骤,逐步完成源域知识到目标域的迁移:
3-1:维度集Dim=DimS∩DimT,其中:DimS为源域数据的计算维度,DimT为目标域数据的计算维度;
3-2:若需要进行去除负迁移的处理,则直接转入步骤3-3;
样本集Smp=DataS∪DataT,其中:DataS为源域数据,DataT为目标域数据;
3-3:将目标样本集进行去除负迁移的处理,Smp_Tr=DataT∪DataT_Similar
其中:DataT_Similar为源域数据中与目标域DataT的相似数据集,
Smp=Smp_Tr;
3-4:将样本集Smp划分为训练集TrainSmp占80%、和测试集TestSmp占20%;
3-5:通过PCA,将Dim映射到一个低维子空间,即:Dim=>DimP,其中:DimP为Dim映射在低维子空间中的因子;
3-6:模型DimP=>Dim’,其中:Dim’是相对目标Y的重要因子;
3-7:模型训练:在训练集TrainSmp中,以Dim’为输入、Train_Y为输出,使用C5决策树训练建模,得到Train_Y=F(Dim’);然后在TestSmp中,对所得的模型进行评估;
3-8:通过使用Step7训练得到的模型,对DataT的数据进行预测,F(Dim’)=>DataT_Y,DataT_Y是指数据DataT根据函数F(Dim’)映射得到的输出结果。
2.如权利要求1所述的基于迁移学习的首次订购用户精细化流失预判方法,其特征在于:
步骤3-3 的具体步骤如下:
将目标域数据集(即第一次订购的记录)DataT作为种子数据,以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录DataS_Similar,得到Smp_Tr=DataT∪DataS_Similar,Smp_Tr便是经过负迁移处理后的数据集,
迁移样本由如下两部分组成:
Smp_Tr=DataT∪DataS_Similar
其中:DataT为目标域数据集;
DataS_Similar为与目标数据源相似的源域中的数据集
3-3-1:针对每个目标域DataT的种子数据,根据如下公式(1)、(2)分别计算,为每条目标域成员计算出它们和源域数据中各成员之间的相似度;
皮尔逊相似度
Sim=1–R (1)
Distance距离
Figure FDA0002205974950000032
本文通过在源域和目标域组合的数据集中,计算得到的PCA映射因子,使用上述公式计算相似度距离,
其中:
源域中的PCA因子为:FS=Fs1,Fs2,……,Fsn n为PCA映射因子的因子数量,FS:源域中的PCA因子集,包含n个因子Fs1,Fs2,……Fsn,
目标域中的PCA因子为:FT=Ft1,Ft2,......Ftn n为PCA映射因子的因子数量FT:目标域中的PCA因子集,包含n个因子Ft1,Ft2,……Ftn,
3-3-2:R、D的值分别取Sim<=0.2 and D<=1,获得的目标域数据记录ID集合,Sim是公式(1)计算得来的相似度度量;
3-3-3:将Step2步获得的目标数据记录ID集合去重之后,加上源域中的记录ID;
3-3-4:将Step3中获得的记录ID,再次去重,之后得到的记录ID集对应的记录集合便是DataT∪DataT_Similar,即形成处理好的扩展数据集Smp_Tr。
CN201910881387.9A 2019-09-18 2019-09-18 一种基于迁移学习的首次订购用户精细化流失预判方法 Withdrawn CN110634027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881387.9A CN110634027A (zh) 2019-09-18 2019-09-18 一种基于迁移学习的首次订购用户精细化流失预判方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881387.9A CN110634027A (zh) 2019-09-18 2019-09-18 一种基于迁移学习的首次订购用户精细化流失预判方法

Publications (1)

Publication Number Publication Date
CN110634027A true CN110634027A (zh) 2019-12-31

Family

ID=68971201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881387.9A Withdrawn CN110634027A (zh) 2019-09-18 2019-09-18 一种基于迁移学习的首次订购用户精细化流失预判方法

Country Status (1)

Country Link
CN (1) CN110634027A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325006A (zh) * 2020-03-17 2020-06-23 北京百度网讯科技有限公司 一种信息交互方法、装置、电子设备和存储介质
CN112150201A (zh) * 2020-09-23 2020-12-29 创络(上海)数据科技有限公司 基于knn的时序迁移学习在销量预测中的应用
CN113421122A (zh) * 2021-06-25 2021-09-21 创络(上海)数据科技有限公司 改进的迁移学习框架下的首购用户精细化流失预判方法
CN113591943A (zh) * 2021-07-13 2021-11-02 北京淇瑀信息科技有限公司 对新增渠道的用户进行快速认证方法、装置和电子设备
CN114022202A (zh) * 2021-11-03 2022-02-08 中南大学 基于深度学习的用户流失预测方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325006A (zh) * 2020-03-17 2020-06-23 北京百度网讯科技有限公司 一种信息交互方法、装置、电子设备和存储介质
CN111325006B (zh) * 2020-03-17 2023-05-05 北京百度网讯科技有限公司 一种信息交互方法、装置、电子设备和存储介质
CN112150201A (zh) * 2020-09-23 2020-12-29 创络(上海)数据科技有限公司 基于knn的时序迁移学习在销量预测中的应用
CN113421122A (zh) * 2021-06-25 2021-09-21 创络(上海)数据科技有限公司 改进的迁移学习框架下的首购用户精细化流失预判方法
CN113591943A (zh) * 2021-07-13 2021-11-02 北京淇瑀信息科技有限公司 对新增渠道的用户进行快速认证方法、装置和电子设备
CN114022202A (zh) * 2021-11-03 2022-02-08 中南大学 基于深度学习的用户流失预测方法及***

Similar Documents

Publication Publication Date Title
CN110634027A (zh) 一种基于迁移学习的首次订购用户精细化流失预判方法
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN108596362B (zh) 基于自适应分段聚合近似的电力负荷曲线形态聚类方法
CN111832289B (zh) 一种基于聚类和高斯lda的服务发现方法
Li et al. What a nasty day: Exploring mood-weather relationship from twitter
CN103310003A (zh) 一种基于点击日志的新广告点击率预测方法及***
CN109558541B (zh) 一种信息处理的方法、装置及计算机存储介质
Joenssen et al. Hot deck methods for imputing missing data: the effects of limiting donor usage
KR20150036117A (ko) 쿼리 확장
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
CN109033132B (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN109359135B (zh) 一种基于分段权重的时间序列相似性搜索方法
CN109002492A (zh) 一种基于LightGBM的绩点预测方法
CN104281635A (zh) 基于隐私反馈预测移动用户基础属性的方法
CN105893380A (zh) 一种改良的文本分类特征选择方法
WO2017071474A1 (zh) 一种语料处理方法和装置及语料分析方法和装置
CN106033455B (zh) 一种处理用户操作信息的方法与设备
CN111625578B (zh) 适用于文化科技融合领域时间序列数据的特征提取方法
Núñez et al. Resolving regional frequency analysis of precipitation at large and complex scales using a bottom-up approach: The Latin America and the Caribbean Drought Atlas
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
Sarlo et al. Lumpy and intermittent retail demand forecasts with score-driven models
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN106156875B (zh) 用于对预测对象进行预测的方法和装置
Mulaudzi et al. Improving the performance of multivariate forecasting models through feature engineering: A South African unemployment rate forecasting case study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20191231

WW01 Invention patent application withdrawn after publication