CN110634027A - 一种基于迁移学习的首次订购用户精细化流失预判方法 - Google Patents
一种基于迁移学习的首次订购用户精细化流失预判方法 Download PDFInfo
- Publication number
- CN110634027A CN110634027A CN201910881387.9A CN201910881387A CN110634027A CN 110634027 A CN110634027 A CN 110634027A CN 201910881387 A CN201910881387 A CN 201910881387A CN 110634027 A CN110634027 A CN 110634027A
- Authority
- CN
- China
- Prior art keywords
- data
- dim
- smp
- domain
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于迁移学习的首次订购用户精细化流失预判方法,包括如下步骤:(1)数据获取(2)数据组织(3)迁移学习。本发明通过Lookalike算法,聚焦出源域中基于目标域扩展的相似用户群,将目标域和目标域的相似扩展用户群作为训练样本,采用C5决策树,并引入基于模型的迁移学习思想建模训练,获得的模型预测准确率和未采取任何迁移学习建模计算所得的预测准确率相比,预测效果具有一定程度的提升。
Description
技术领域
本发明涉及一种用户精细化流失预判方法,特别涉及一种基于迁移学习的用户精细化流失预判方法。
背景技术
在竞争日益激烈的情形下,留住一个老客户远比吸引一个新用户更有价值。有效地预测、挽留流失用户,对企业的生存与发展具有极其重要的意义。在多次订购用户流失预判问题已得以解决的情况下,有效地对首购用户进行流失预判也变得尤为重要。鉴于首购用户存在着同一用户行为记录过少的短板,传统的预测方法存在着准确率不高的缺点。
发明内容
本发明的目的在于提供一种基于迁移学习的首次订购用户精细化流失预判方法,以提升预测效果。
本发明采用了如下技术方案:
一种基于迁移学习的首次订购用户精细化流失预判方法,其特征在于,包括如下步骤:
(1)数据获取
获取订购记录,将预设时间段内发生过订购行为的用户作为观测对象,观测对象中需要滤除最近一个生命周期内刚进来的新用户,然后将观测对象所有历史订单行为作为初始训练数据,
在观测对象中,将流失用户定义为:>90天没来订购,返回1:流失,否则0:留存,
(2)数据组织
以用户每天消费为最小消费粒度,计算形成如下格式的数据指标用户ID
第n日消费No. | 相关指标 | 简单衍生指标1 | 时序衍生指标2 |
n=1 | √ | √ | - |
n>1 | √ | √ | √ |
(3)迁移学习
将单用户订购次数>1的所有订单记录集定义为源域DimS;订购次数=1的数据集为目标域DimT,通过如下步骤,逐步完成源域知识到目标域的迁移:
3-1:维度集Dim=DimS∩DimT,其中:DimS为源域数据的计算维度,DimT为目标域数据的计算维度;
3-2:若需要进行去除负迁移的处理,则直接转入步骤3-3;
样本集Smp=DataS∪DataT,其中:Datas为源域数据,DataT为目标域数据;
3-3:将目标样本集进行去除负迁移的处理,Smp_Tr=DataT∪DataT_Similar,
其中:DataT_Similar为源域数据中与目标域DataT的相似数据集;
Smp==Smp_Tr
3-4:将样本集Smp划分为训练集TrainSmp,占80%;和测试集TestSmp,占20%;
3-5:通过PCA,将Dim映射到一个低维子空间,即:Dim=>DimP,其中:DimP为Dim映射在低维子空间中的因子;
3-6:模型DimP=>Dim’,其中:Dim’是相对目标Y的重要因子;
3-7:模型训练:在训练集TrainSmp中,以Dim’为输入、Train_Y为输出,使用C5决策树训练建模,得到Train_Y=F(Dim’);然后在TestSmp中,对所得的模型进行评估;
3-8:通过使用Step7训练得到的模型,对DataT的数据进行预测,F(Dim’)=>DataT_Y,DataT_Y是指数据DataT根据函数F(Dim’)映射得到的输出结果。
进一步,本发明的基于迁移学习的首次订购用户精细化流失预判方法,其特征在于:
步骤3-3的具体步骤如下:
将目标域数据集(即第一次订购的记录)DataT作为种子数据,以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录DataS_Similar,得到Smp_Tr=DataT∪DataS_Similar,Smp_Tr便是经过负迁移处理后的数据集,
迁移样本由如下两部分组成:
Smp_Tr=DataT∪DataS_Similar
其中:DataT为目标域数据集;
DataS_Similar为与目标数据源相似的源域中的数据集
3-3-1:针对每个目标域DataT的种子数据,根据如下公式(1)、(2)分别计算,为每条目标域成员计算出它们和源域数据中各成员之间的相似度;
Sim=1-R (1)
本文通过在源域和目标域组合的数据集中,计算得到的PCA映射因子,使用上述公式计算相似度距离,
其中:
源域中的PCA因子为:Fs=Fs1,Fs2,......Fsnn为PCA映射因子的因子数量,FS:源域中的PCA因子集,包含n个因子Fs1,Fs2,......Fsn,目标域中的PCA因子为:FT=Ft1,Ft2,......Ftnn为PCA映射因子的因子数量FT:目标域中的PCA因子集,包含n个因子Ft1,Ft2,......Ftn,
3-3-2:R、D的值分别取Sim<=0.2and D<=1,获得的目标域数据记录ID集合,Sim是公式(1)计算得来的相似度度量;
3-3-3:将Step2步获得的目标数据记录ID集合去重之后,加上源域中的记录ID;
3-3-4:将Step3中获得的记录ID,再次去重,之后得到的记录ID集对应的记录集合便是DataT∪DataT_Similar,即形成处理好的扩展数据集Smp_Tr。
发明的有益效果
本发明的基于迁移学习的首次订购用户精细化流失预判方法,通过Lookalike算法,聚焦出源域中基于目标域扩展的相似用户群,将目标域和目标域的相似扩展用户群作为训练样本,采用C5决策树,并引入基于模型的迁移学习思想建模训练,获得的模型预测准确率和未采取任何迁移学习建模计算所得的预测准确率相比,预测效果具有一定程度的提升。
附图说明
图1是对数据源的划分示意图。
具体实施方式
以下结合具体实例详细描述本发明的技术方案:
1、基于模型的迁移学习的模型训练方法
(1)、数据获取
为方便方法描述的理解,本文以某国际机票搜索平台G提供的所有历史机票订购记录为例,加以说明
参照图1,将通过该平台在2015.12.01—2018.3.11期间有过订购行为的用户,在2015.12.01—2018.10.11期间的历史订单数据作为观测对象,观测对象中需要滤除最近一个生命周期内刚进来的新用户,然后将观测对象所有历史订单行为作为初始训练数据,
在本实施方式中,预留图中2018.03.11到2018.10.11这段时间,让用户经历一个完整的生命周期N。在其它的实施方式中,完整的生命周期应当根据不同产品的行业通行生命周期分别确定。对于机票订购,用户的生命周期N=180天。
在此基础上,流失用户定义:>90天没来订购,(1:流失),否则(0:留存)。
并且在这个时间段内,新用户的行为不用来做训练样本。
(2)、数据组织
以用户每天消费为最小消费粒度,计算形成如下格式的数据指标:
表1:数据指标
第n日消费No. | 相关指标 | 简单衍生指标1 | 时序衍生指标2 |
n=1 | √ | √ | — |
n>1 | √ | √ | √ |
具体指标概要详见表2:
表2:具体的数据指标
(3)、迁移学习
将单用户订购次数>1的所有订单记录集定义为源域DimS;订购次数=1的数据集为目标域DimT,通过如下步骤,逐步完成源域知识到目标域的迁移:
Step1:维度集Dim=DimS∩DimT,其中:DimS为源域数据的计算维度,DimT为目标域数据的计算维度;
Step2:若需要进行去除负迁移的处理,则直接转入Step3;
样本集Smp=DataS∪DataT,其中:Datas为源域数据,DataT为目标域数据;
Step3:将目标样本集进行去除负迁移的处理,Smp_Tr=DataT∪DataT_Similar,
其中:DataT_Similar为源域数据中与目标域DataT的相似数据集;
具体计算步骤详见:Lookalike缓解负迁移的方法部分的描述,数据处理部分的Smp_Tr的形成过程;
Smp=Smp_Tr;
Step4:将样本集Smp划分为训练集TrainSmp(80%)、和测试集TestSmp(20%);
Step5:通过PCA,将Dim映射到一个低维子空间,即:Dim=>DimP,其中:DimP为Dim映射在低维子空间中的因子;
Step6:模型DimP=>Dim’,其中:Dim’是相对目标Y的重要因子;
Step7:模型训练在训练集TrainSmp中,以Dim’为输入、Train_Y为输出,使用C5决策树训练建模,得到Train_Y=F(Dim’);然后在TestSmp中,对所得的模型进行评估;
Step8:通过使用Step7训练得到的模型,对DataT的数据进行预测,F(Dim’)=>DataT_Y;其中,DataT_Y是指数据DataT根据函数F(Dim’)映射得到的输出结果。
2、基于Lookalike缓解负迁移的方法
将目标域数据集(即第一次订购的记录)DataT作为种子数据,以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录DataS_Similar,得到Smp_Tr=DataT∪DataS_Similar。Smp_Tr便是经过负迁移处理后的数据集。
迁移样本由如下两部分组成:
Smp_Tr=DataT∪DataS_Similar
其中:DataT为目标域数据集;
DataS_Similar为与目标数据源相似的源域中的数据集
Step1:针对每个目标域DataT的种子数据,根据如下公式(1)、(2)分别计算,为每条目标域成员计算出它们和源域数据中各成员之间的相似度;
Sim=1-R (1)
本文通过在源域和目标域组合的数据集中,计算得到的PCA映射因子,使用上述公式计算相似度距离。
其中:Ft:是目标域中的PCA因子集,Fs:是源域中的PCA因子集,源域中的PCA因子为:FS=Fs1,Fs2,......Fsnn为PCA映射因子的因子数量,FS:源域中的PCA因子集,包含n个因子Fs1,Fs2,......Fsn。目标域中的PCA因子为:FT=Ft1,Ft2,......Ftnn为PCA映射因子的因子数量,FT:目标域中的PCA因子集,是由n个因子Ft1,Ft2,......Ftn组成。
Step2:R、D的值分别取Sim<=0.2and D<=1,获得的目标域数据记录ID集合;
Step3:将Step2步获得的目标数据记录ID集合去重之后,加上源域中的记录ID;
Step4:将Step3中获得的记录ID,再次去重,之后得到的记录ID集对应的记录集合便是DataT∪DataT_Similar,即形成处理好的扩展数据集Smp_Tr。
3、根据新的首购用户,使用已经训练好的模型预测用户是否会流失使用上述1、2部分构建好的模型,对新首购用户进行预测,获得流失预判结论。
表3:各预测方法的准确率
本发明并不限于上面的描述,或在图表中所示的内容,在不脱离本发明主旨的情况下,所做的修改和改变均在本发明的保护范围内。
Claims (2)
1.一种基于迁移学习的首次订购用户精细化流失预判方法,其特征在于,包括如下步骤:
(1)数据获取
获取订购记录,将预设时间段内发生过订购行为的用户作为观测对象,观测对象中需要滤除最近一个生命周期内刚进来的新用户,然后将观测对象所有历史订单行为作为初始训练数据,
在观测对象中,将流失用户定义为:>90天没来订购,返回1:流失,否则返回0:留存,
(2)数据组织
以用户每天消费为最小消费粒度,计算形成如下格式的数据指标用户ID
(3)迁移学习
将单用户订购次数>1的所有订单记录集定义为源域DimS;订购次数=1的数据集为目标域DimT,通过如下步骤,逐步完成源域知识到目标域的迁移:
3-1:维度集Dim=DimS∩DimT,其中:DimS为源域数据的计算维度,DimT为目标域数据的计算维度;
3-2:若需要进行去除负迁移的处理,则直接转入步骤3-3;
样本集Smp=DataS∪DataT,其中:DataS为源域数据,DataT为目标域数据;
3-3:将目标样本集进行去除负迁移的处理,Smp_Tr=DataT∪DataT_Similar,
其中:DataT_Similar为源域数据中与目标域DataT的相似数据集,
Smp=Smp_Tr;
3-4:将样本集Smp划分为训练集TrainSmp占80%、和测试集TestSmp占20%;
3-5:通过PCA,将Dim映射到一个低维子空间,即:Dim=>DimP,其中:DimP为Dim映射在低维子空间中的因子;
3-6:模型DimP=>Dim’,其中:Dim’是相对目标Y的重要因子;
3-7:模型训练:在训练集TrainSmp中,以Dim’为输入、Train_Y为输出,使用C5决策树训练建模,得到Train_Y=F(Dim’);然后在TestSmp中,对所得的模型进行评估;
3-8:通过使用Step7训练得到的模型,对DataT的数据进行预测,F(Dim’)=>DataT_Y,DataT_Y是指数据DataT根据函数F(Dim’)映射得到的输出结果。
2.如权利要求1所述的基于迁移学习的首次订购用户精细化流失预判方法,其特征在于:
步骤3-3 的具体步骤如下:
将目标域数据集(即第一次订购的记录)DataT作为种子数据,以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录DataS_Similar,得到Smp_Tr=DataT∪DataS_Similar,Smp_Tr便是经过负迁移处理后的数据集,
迁移样本由如下两部分组成:
Smp_Tr=DataT∪DataS_Similar
其中:DataT为目标域数据集;
DataS_Similar为与目标数据源相似的源域中的数据集
3-3-1:针对每个目标域DataT的种子数据,根据如下公式(1)、(2)分别计算,为每条目标域成员计算出它们和源域数据中各成员之间的相似度;
皮尔逊相似度
Sim=1–R (1)
本文通过在源域和目标域组合的数据集中,计算得到的PCA映射因子,使用上述公式计算相似度距离,
其中:
源域中的PCA因子为:FS=Fs1,Fs2,……,Fsn n为PCA映射因子的因子数量,FS:源域中的PCA因子集,包含n个因子Fs1,Fs2,……Fsn,
目标域中的PCA因子为:FT=Ft1,Ft2,......Ftn n为PCA映射因子的因子数量FT:目标域中的PCA因子集,包含n个因子Ft1,Ft2,……Ftn,
3-3-2:R、D的值分别取Sim<=0.2 and D<=1,获得的目标域数据记录ID集合,Sim是公式(1)计算得来的相似度度量;
3-3-3:将Step2步获得的目标数据记录ID集合去重之后,加上源域中的记录ID;
3-3-4:将Step3中获得的记录ID,再次去重,之后得到的记录ID集对应的记录集合便是DataT∪DataT_Similar,即形成处理好的扩展数据集Smp_Tr。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910881387.9A CN110634027A (zh) | 2019-09-18 | 2019-09-18 | 一种基于迁移学习的首次订购用户精细化流失预判方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910881387.9A CN110634027A (zh) | 2019-09-18 | 2019-09-18 | 一种基于迁移学习的首次订购用户精细化流失预判方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110634027A true CN110634027A (zh) | 2019-12-31 |
Family
ID=68971201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910881387.9A Withdrawn CN110634027A (zh) | 2019-09-18 | 2019-09-18 | 一种基于迁移学习的首次订购用户精细化流失预判方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634027A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325006A (zh) * | 2020-03-17 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种信息交互方法、装置、电子设备和存储介质 |
CN112150201A (zh) * | 2020-09-23 | 2020-12-29 | 创络(上海)数据科技有限公司 | 基于knn的时序迁移学习在销量预测中的应用 |
CN113421122A (zh) * | 2021-06-25 | 2021-09-21 | 创络(上海)数据科技有限公司 | 改进的迁移学习框架下的首购用户精细化流失预判方法 |
CN113591943A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 对新增渠道的用户进行快速认证方法、装置和电子设备 |
CN114022202A (zh) * | 2021-11-03 | 2022-02-08 | 中南大学 | 基于深度学习的用户流失预测方法及*** |
-
2019
- 2019-09-18 CN CN201910881387.9A patent/CN110634027A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325006A (zh) * | 2020-03-17 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种信息交互方法、装置、电子设备和存储介质 |
CN111325006B (zh) * | 2020-03-17 | 2023-05-05 | 北京百度网讯科技有限公司 | 一种信息交互方法、装置、电子设备和存储介质 |
CN112150201A (zh) * | 2020-09-23 | 2020-12-29 | 创络(上海)数据科技有限公司 | 基于knn的时序迁移学习在销量预测中的应用 |
CN113421122A (zh) * | 2021-06-25 | 2021-09-21 | 创络(上海)数据科技有限公司 | 改进的迁移学习框架下的首购用户精细化流失预判方法 |
CN113591943A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 对新增渠道的用户进行快速认证方法、装置和电子设备 |
CN114022202A (zh) * | 2021-11-03 | 2022-02-08 | 中南大学 | 基于深度学习的用户流失预测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634027A (zh) | 一种基于迁移学习的首次订购用户精细化流失预判方法 | |
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN108596362B (zh) | 基于自适应分段聚合近似的电力负荷曲线形态聚类方法 | |
CN111832289B (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
Li et al. | What a nasty day: Exploring mood-weather relationship from twitter | |
CN103310003A (zh) | 一种基于点击日志的新广告点击率预测方法及*** | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
Joenssen et al. | Hot deck methods for imputing missing data: the effects of limiting donor usage | |
KR20150036117A (ko) | 쿼리 확장 | |
CN103123653A (zh) | 基于贝叶斯分类学习的搜索引擎检索排序方法 | |
CN109033132B (zh) | 利用知识图谱计算文本和主体相关度的方法以及装置 | |
CN109359135B (zh) | 一种基于分段权重的时间序列相似性搜索方法 | |
CN109002492A (zh) | 一种基于LightGBM的绩点预测方法 | |
CN104281635A (zh) | 基于隐私反馈预测移动用户基础属性的方法 | |
CN105893380A (zh) | 一种改良的文本分类特征选择方法 | |
WO2017071474A1 (zh) | 一种语料处理方法和装置及语料分析方法和装置 | |
CN106033455B (zh) | 一种处理用户操作信息的方法与设备 | |
CN111625578B (zh) | 适用于文化科技融合领域时间序列数据的特征提取方法 | |
Núñez et al. | Resolving regional frequency analysis of precipitation at large and complex scales using a bottom-up approach: The Latin America and the Caribbean Drought Atlas | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN111507528A (zh) | 一种基于cnn-lstm的股票长期趋势预测方法 | |
Sarlo et al. | Lumpy and intermittent retail demand forecasts with score-driven models | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 | |
CN106156875B (zh) | 用于对预测对象进行预测的方法和装置 | |
Mulaudzi et al. | Improving the performance of multivariate forecasting models through feature engineering: A South African unemployment rate forecasting case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191231 |
|
WW01 | Invention patent application withdrawn after publication |