CN110634027A

CN110634027A - 一种基于迁移学习的首次订购用户精细化流失预判方法

Info

Publication number: CN110634027A
Application number: CN201910881387.9A
Authority: CN
Inventors: 钱虹; 徐佳
Original assignee: Chuangluo (shanghai) Data Technology Co Ltd
Current assignee: Chuangluo (shanghai) Data Technology Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-31

Abstract

本发明提供一种基于迁移学习的首次订购用户精细化流失预判方法，包括如下步骤：(1)数据获取(2)数据组织(3)迁移学习。本发明通过Lookalike算法，聚焦出源域中基于目标域扩展的相似用户群，将目标域和目标域的相似扩展用户群作为训练样本，采用C5决策树，并引入基于模型的迁移学习思想建模训练，获得的模型预测准确率和未采取任何迁移学习建模计算所得的预测准确率相比，预测效果具有一定程度的提升。

Description

一种基于迁移学习的首次订购用户精细化流失预判方法

技术领域

本发明涉及一种用户精细化流失预判方法，特别涉及一种基于迁移学习的用户精细化流失预判方法。

背景技术

在竞争日益激烈的情形下，留住一个老客户远比吸引一个新用户更有价值。有效地预测、挽留流失用户，对企业的生存与发展具有极其重要的意义。在多次订购用户流失预判问题已得以解决的情况下，有效地对首购用户进行流失预判也变得尤为重要。鉴于首购用户存在着同一用户行为记录过少的短板，传统的预测方法存在着准确率不高的缺点。

发明内容

本发明的目的在于提供一种基于迁移学习的首次订购用户精细化流失预判方法，以提升预测效果。

本发明采用了如下技术方案：

一种基于迁移学习的首次订购用户精细化流失预判方法，其特征在于，包括如下步骤：

(1)数据获取

获取订购记录，将预设时间段内发生过订购行为的用户作为观测对象，观测对象中需要滤除最近一个生命周期内刚进来的新用户，然后将观测对象所有历史订单行为作为初始训练数据，

在观测对象中，将流失用户定义为：>90天没来订购，返回1：流失，否则0：留存，

(2)数据组织

以用户每天消费为最小消费粒度，计算形成如下格式的数据指标用户ID

第n日消费No.	相关指标	简单衍生指标1	时序衍生指标2
				n＝1	√	√	-
n＞1	√	√	√

(3)迁移学习

将单用户订购次数＞1的所有订单记录集定义为源域Dim_S；订购次数＝1的数据集为目标域Dim_T，通过如下步骤，逐步完成源域知识到目标域的迁移：

3-1：维度集Dim＝Dim_S∩Dim_T，其中：Dim_S为源域数据的计算维度，Dim_T为目标域数据的计算维度；

3-2：若需要进行去除负迁移的处理，则直接转入步骤3-3；

样本集Smp＝Data_S∪Data_T，其中：Data_s为源域数据，Data_T为目标域数据；

3-3：将目标样本集进行去除负迁移的处理，Smp_Tr＝Data_T∪Data_{T_Similar}，

其中：Data_{T_Similar}为源域数据中与目标域Data_T的相似数据集；

Smp＝＝Smp_Tr

3-4：将样本集Smp划分为训练集Train_Smp，占80％；和测试集Test_Smp，占20％；

3-5：通过PCA，将Dim映射到一个低维子空间，即：Dim＝＞DimP，其中：DimP为Dim映射在低维子空间中的因子；

3-6：模型DimP＝＞Dim’，其中：Dim’是相对目标Y的重要因子；

3-7：模型训练：在训练集Train_Smp中，以Dim’为输入、Train_Y为输出，使用C5决策树训练建模，得到Train_Y＝F(Dim’)；然后在Test_Smp中，对所得的模型进行评估；

3-8：通过使用Step7训练得到的模型，对Data_T的数据进行预测，F(Dim’)＝＞DataT_Y，DataT_Y是指数据Data_T根据函数F(Dim’)映射得到的输出结果。

进一步，本发明的基于迁移学习的首次订购用户精细化流失预判方法，其特征在于：

步骤3-3的具体步骤如下：

将目标域数据集(即第一次订购的记录)Data_T作为种子数据，以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录Data_{S_Similar}，得到Smp_Tr＝Data_T∪Data_{S_Similar}，Smp_Tr便是经过负迁移处理后的数据集，

迁移样本由如下两部分组成：

Smp_Tr＝Data_T∪Data_{S_Similar}

其中：Data_T为目标域数据集；

Data_{S_Similar}为与目标数据源相似的源域中的数据集

3-3-1：针对每个目标域Data_T的种子数据，根据如下公式(1)、(2)分别计算，为每条目标域成员计算出它们和源域数据中各成员之间的相似度；

皮尔逊相似度

Sim＝1-R (1)

Distance距离

本文通过在源域和目标域组合的数据集中，计算得到的PCA映射因子，使用上述公式计算相似度距离，

其中：

源域中的PCA因子为：Fs＝Fs₁，Fs₂，......Fs_nn为PCA映射因子的因子数量，FS：源域中的PCA因子集，包含n个因子Fs1，Fs2，......Fsn，目标域中的PCA因子为：FT＝Ft₁，Ft₂，......Ft_nn为PCA映射因子的因子数量FT：目标域中的PCA因子集，包含n个因子Ft1，Ft2，......Ftn，

3-3-2：R、D的值分别取Sim＜＝0.2and D＜＝1，获得的目标域数据记录ID集合，Sim是公式(1)计算得来的相似度度量；

3-3-3：将Step2步获得的目标数据记录ID集合去重之后，加上源域中的记录ID；

3-3-4：将Step3中获得的记录ID，再次去重，之后得到的记录ID集对应的记录集合便是Data_T∪Data_{T_Similar}，即形成处理好的扩展数据集Smp_Tr。

发明的有益效果

本发明的基于迁移学习的首次订购用户精细化流失预判方法，通过Lookalike算法，聚焦出源域中基于目标域扩展的相似用户群，将目标域和目标域的相似扩展用户群作为训练样本，采用C5决策树，并引入基于模型的迁移学习思想建模训练，获得的模型预测准确率和未采取任何迁移学习建模计算所得的预测准确率相比，预测效果具有一定程度的提升。

附图说明

图1是对数据源的划分示意图。

具体实施方式

以下结合具体实例详细描述本发明的技术方案：

1、基于模型的迁移学习的模型训练方法

(1)、数据获取

为方便方法描述的理解，本文以某国际机票搜索平台G提供的所有历史机票订购记录为例，加以说明

参照图1，将通过该平台在2015.12.01—2018.3.11期间有过订购行为的用户，在2015.12.01—2018.10.11期间的历史订单数据作为观测对象，观测对象中需要滤除最近一个生命周期内刚进来的新用户，然后将观测对象所有历史订单行为作为初始训练数据，

在本实施方式中，预留图中2018.03.11到2018.10.11这段时间，让用户经历一个完整的生命周期N。在其它的实施方式中，完整的生命周期应当根据不同产品的行业通行生命周期分别确定。对于机票订购，用户的生命周期N＝180天。

在此基础上，流失用户定义：>90天没来订购，(1：流失)，否则(0：留存)。

并且在这个时间段内，新用户的行为不用来做训练样本。

(2)、数据组织

以用户每天消费为最小消费粒度，计算形成如下格式的数据指标：

表1：数据指标

第n日消费No.	相关指标	简单衍生指标1	时序衍生指标2
				n＝1	√	√	—
n>1	√	√	√

具体指标概要详见表2：

表2：具体的数据指标

(3)、迁移学习

Step1：维度集Dim＝Dim_S∩Dim_T，其中：Dim_S为源域数据的计算维度，Dim_T为目标域数据的计算维度；

Step2：若需要进行去除负迁移的处理，则直接转入Step3；

Step3：将目标样本集进行去除负迁移的处理，Smp_Tr＝Data_T∪Data_{T_Similar}，

具体计算步骤详见：Lookalike缓解负迁移的方法部分的描述，数据处理部分的Smp_Tr的形成过程；

Smp＝Smp_Tr；

Step4：将样本集Smp划分为训练集Train_Smp(80％)、和测试集Test_Smp(20％)；

Step5：通过PCA，将Dim映射到一个低维子空间，即：Dim＝＞DimP，其中：DimP为Dim映射在低维子空间中的因子；

Step6：模型DimP＝＞Dim’，其中：Dim’是相对目标Y的重要因子；

Step7：模型训练在训练集Train_Smp中，以Dim’为输入、Train_Y为输出，使用C5决策树训练建模，得到Train_Y＝F(Dim’)；然后在Test_Smp中，对所得的模型进行评估；

Step8：通过使用Step7训练得到的模型，对Data_T的数据进行预测，F(Dim’)＝＞DataT_Y；其中，DataT_Y是指数据Data_T根据函数F(Dim’)映射得到的输出结果。

2、基于Lookalike缓解负迁移的方法

将目标域数据集(即第一次订购的记录)Data_T作为种子数据，以种子数据为基础进行扩展——即从源域中筛选出与种子数据最相似的记录Data_{S_Similar}，得到Smp_Tr＝Data_T∪Data_{S_Similar}。Smp_Tr便是经过负迁移处理后的数据集。

迁移样本由如下两部分组成：

Smp_Tr＝Data_T∪Data_{S_Similar}

其中：Data_T为目标域数据集；

Data_{S_Similar}为与目标数据源相似的源域中的数据集

Step1：针对每个目标域Data_T的种子数据，根据如下公式(1)、(2)分别计算，为每条目标域成员计算出它们和源域数据中各成员之间的相似度；

皮尔逊相似度

Sim＝1-R (1)

Distance距离

本文通过在源域和目标域组合的数据集中，计算得到的PCA映射因子，使用上述公式计算相似度距离。

其中：Ft：是目标域中的PCA因子集，Fs：是源域中的PCA因子集，源域中的PCA因子为：FS＝Fs₁，Fs₂，......Fs_nn为PCA映射因子的因子数量，FS：源域中的PCA因子集，包含n个因子Fs1，Fs2，......Fsn。目标域中的PCA因子为：FT＝Ft₁，Ft₂，......Ft_nn为PCA映射因子的因子数量，FT：目标域中的PCA因子集，是由n个因子Ft1，Ft2，......Ftn组成。

Step2：R、D的值分别取Sim＜＝0.2and D＜＝1，获得的目标域数据记录ID集合；

Step3：将Step2步获得的目标数据记录ID集合去重之后，加上源域中的记录ID；

Step4：将Step3中获得的记录ID，再次去重，之后得到的记录ID集对应的记录集合便是Data_T∪Data_{T_Similar}，即形成处理好的扩展数据集Smp_Tr。

3、根据新的首购用户，使用已经训练好的模型预测用户是否会流失使用上述1、2部分构建好的模型，对新首购用户进行预测，获得流失预判结论。

表3：各预测方法的准确率

本发明并不限于上面的描述，或在图表中所示的内容，在不脱离本发明主旨的情况下，所做的修改和改变均在本发明的保护范围内。

Claims

1.一种基于迁移学习的首次订购用户精细化流失预判方法，其特征在于，包括如下步骤：

(1)数据获取

在观测对象中，将流失用户定义为：>90天没来订购，返回1：流失，否则返回0：留存，

(2)数据组织

第n日消费No. 相关指标简单衍生指标1 时序衍生指标2 n＝1 √ √ — n>1 √ √ √

(3)迁移学习

将单用户订购次数>1的所有订单记录集定义为源域Dim_S；订购次数＝1的数据集为目标域Dim_T，通过如下步骤，逐步完成源域知识到目标域的迁移：

3-1：维度集Dim＝Dim_S∩Dim_T,其中：Dim_S为源域数据的计算维度，Dim_T为目标域数据的计算维度；

3-2：若需要进行去除负迁移的处理，则直接转入步骤3-3；

样本集Smp＝Data_S∪Data_T,其中：Data_S为源域数据，Data_T为目标域数据；

其中：Data_{T_Similar}为源域数据中与目标域Data_T的相似数据集，

Smp＝Smp_Tr；

3-4：将样本集Smp划分为训练集Train_Smp占80％、和测试集Test_Smp占20％；

3-5：通过PCA，将Dim映射到一个低维子空间，即：Dim＝>DimP，其中：DimP为Dim映射在低维子空间中的因子；

3-6：模型DimP＝>Dim’，其中：Dim’是相对目标Y的重要因子；

3-8：通过使用Step7训练得到的模型，对Data_T的数据进行预测，F(Dim’)＝>DataT_Y，DataT_Y是指数据Data_T根据函数F(Dim’)映射得到的输出结果。

2.如权利要求1所述的基于迁移学习的首次订购用户精细化流失预判方法，其特征在于：

步骤3-3 的具体步骤如下：

迁移样本由如下两部分组成：

Smp_Tr＝Data_T∪Data_{S_Similar}

其中：Data_T为目标域数据集；

Data_{S_Similar}为与目标数据源相似的源域中的数据集

皮尔逊相似度

Sim＝1–R (1)

Distance距离

其中：

源域中的PCA因子为：FS＝Fs₁，Fs₂，……，Fs_n n为PCA映射因子的因子数量，FS：源域中的PCA因子集，包含n个因子Fs1,Fs2,……Fsn，

目标域中的PCA因子为：FT＝Ft₁，Ft₂，......Ft_n n为PCA映射因子的因子数量FT：目标域中的PCA因子集，包含n个因子Ft1,Ft2,……Ftn，

3-3-2：R、D的值分别取Sim<＝0.2 and D<＝1，获得的目标域数据记录ID集合，Sim是公式(1)计算得来的相似度度量；