CN109903100A

CN109903100A - 一种用户流失预测方法、装置及可读存储介质

Info

Publication number: CN109903100A
Application number: CN201910225076.7A
Authority: CN
Inventors: 苏杰; ***
Original assignee: Meng Yu Science And Technology Ltd Of Shenzhen
Current assignee: Meng Yu Science And Technology Ltd Of Shenzhen
Priority date: 2018-12-25
Filing date: 2019-03-22
Publication date: 2019-06-18

Abstract

本发明实施例公开了一种用户流失预测方法、装置及可读存储介质。该方法包括：设备对样本向量进行训练以得到第一预测模型，再根据第一预测模型生成样本向量中多个特征样本的重要性排名，并获取重要性排名中前k个特征样本的交叉特征，根据交叉特征和样本向量更新第一预测模型得到最终的预测模型后，设备将待预测用户的第二训练特征输入到更新后的第一预测模型以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间。采用本申请实施例，能够提高预测模型的准确度，实现对用户流失的预测。

Description

一种用户流失预测方法、装置及可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种用户流失预测方法、装置及可读存储介质。

背景技术

很多的网络服务以及在线游戏都面临了在开始的几分钟或几小时内出现大量用户流失的情况，为了减少用户流失，可以对用户的流失进行预测，从而为不同的用户制定不同的策略，提高用户的游戏体验。

现有的流失预测方法多采用核心指标波动或者采用逻辑回归、决策树等方法，核心指标主要指游戏时长、关卡失败率等发生较大变动时则认为用户即将流失，逻辑回归、决策树主要指根据用户历史行为利用逻辑回归或者决策树来进行预测用户是否即将流失。然而，这两种方式覆盖面较窄，预测准确度不高。因此，如何更精准地预测用户流失情况是本技术领域人员正在研究的问题。

发明内容

本发明实施例公开了一种用户流失预测方法、装置及可读存储介质，能够实现对用户流失的预测，并提高预测模型的准确度。

第一方面，本发明实施例提供了一种用户流失预测方法，该方法包括：

对样本向量进行训练以得到第一预测模型，其中，所述样本向量包括多个特征样本，所述多个特征样本中每个特征样本包括第一训练特征和用户标签，所述第一训练特征为在预设用户的原始数据中提取的特征，所述原始数据包括画像数据和操作目标应用时的行为数据；所述用户标签用于描述所述预设用户下一次登入所述目标应用距离这一次登入所述目标应用的时间，所述第一预测模型用于对所述多个特征样本的重要性进行排名；

根据所述第一预测模型生成所述样本向量中多个特征样本的重要性排名，并获取所述重要性排名中前k个特征样本的交叉特征，所述交叉特征为所述前k个特征样本进行数学运算所得到的特征；

根据所述交叉特征和所述样本向量更新所述第一预测模型；

从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征，将所述第二训练特征输入到更新后的所述第一预测模型，以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。

在上述方法中，设备对样本向量进行训练以得到第一预测模型，再根据第一预测模型生成样本向量中多个特征样本的重要性排名，并获取重要性排名中前k个特征样本的交叉特征，根据交叉特征和样本向量更新第一预测模型得到最终的预测模型，以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间；这种通过获取特征重要性排名中前k个特征样本的交叉特征来训练模型的方式，能够扩大重要特征的覆盖率，从而提高预测模型的准确度，实现对用户流失的预测。

基于第一方面，在其中一种可选的实现方式中，所述对样本向量进行训练以得到第一预测模型，包括：

获取样本向量；

根据所述样本向量生成训练集，并训练所述训练集以得到第一预测模型；其中，所述训练集中包括多个特征样本，所述多个特征样本中的每个特征样本为所述样本向量中的特征样本。

这种实现方式通过对获取的样本向量进行再次筛选，提高了特征样本的质量，从而提高模型的准确度。

基于第一方面，在其中一种可选的实现方式中，所述根据所述样本向量生成训练集，包括：

所述样本向量包括正样本和负样本，所述正样本为所述多个特征样本中包含预设字段的样本，所述负样本为所述多个特征样本中不包含所述预设字段的样本，若所述正样本与所述负样本的比值超过预设范围，则对所述负样本进行下采样，以使所述训练集中的所述正样本与所述负样本的比值在预设范围之内。

这种实现方式设置了训练集中正负样本的比例，在训练模型的过程中合理的正负样本比例能够提高模型的精确度。

基于第一方面，在其中一种可选的实现方式中，所述根据所述第一预测模型生成所述多个特征样本的重要性排名，包括：

根据所述第一预测模型预测的结果，计算所述多个特征样本的精确度和召回率，所述重要性排名中的每个特征样本的精确度大于预设阈值，且召回率越大，在所述重要性排名中的名次越前。

基于第一方面，在其中一种可选的实现方式中，所述预设时段不超过两个小时。

这种实现方式提供了小时级的预测时间，即能够只利用用户登录后的两个小时内或更短时间的数据来预测用户是否流失，更高效的提供了预测结果，使设备能够更快的提供适合于待预测用户的个性化服务。

第二方面，本发明实施例提供了一种用户流失预测装置，该装置包括：

训练单元，用于对样本向量进行训练以得到第一预测模型，其中，所述样本向量包括多个特征样本，所述多个特征样本中每个特征样本包括第一训练特征和用户标签，所述第一训练特征为在预设用户的原始数据中提取的特征，所述原始数据包括画像数据和操作目标应用时的行为数据；所述用户标签用于描述所述预设用户下一次登入所述目标应用距离这一次登入所述目标应用的时间，所述第一预测模型用于对所述多个特征样本的重要性进行排名；

获取单元，用于根据所述第一预测模型生成所述样本向量中多个特征样本的重要性排名，并获取所述重要性排名中前k个特征样本的交叉特征，所述交叉特征为所述前k个特征样本进行数学运算所得到的特征；

更新单元，用于根据所述交叉特征和所述样本向量更新所述第一预测模型；

预测单元，从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征，将所述第二训练特征输入到更新后的所述第一预测模型，以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。

基于第二方面，在其中一种实现方式中，所述训练单元包括：

获取子单元，用于获取样本向量；

训练子单元，用于根据所述样本向量生成训练集，并训练所述训练集以得到第一预测模型；其中，所述训练集中包括多个特征样本，所述多个特征样本中的每个特征样本为所述样本向量中的特征样本。

基于第二方面，在其中一种实现方式中，所述样本向量包括正样本和负样本，所述正样本为所述多个特征样本中包含预设字段的样本，所述负样本为所述多个特征样本中不包含所述预设字段的样本；所述获取子单元还包括：

采样单元，用于若所述正样本与所述负样本的比值超过预设范围，则对所述负样本进行下采样，以使所述训练集中的所述正样本与所述负样本的比值在预设范围之内。

基于第二方面，在其中一种实现方式中，所述获取单元还包括：

计算单元，用于根据所述第一预测模型预测的结果，计算所述多个特征样本的精确度和召回率，所述重要性排名中的每个特征样本的精确度大于预设阈值，且召回率越大，在所述重要性排名中的名次越前。

基于第二方面，在其中一种实现方式中，所述预设时段不超过两个小时。

需要说明的是，第二方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述，此处不再赘述。

第三方面，本发明实施例公开了一种计算机可读存储介质，所述计算机存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面或者第一方面的任意可能的实现方式所描述的方法。

需要说明的是，第三方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种用户流失预测设备的结构示意图；

图2是本发明实施例提供的一种用户流失预测方法的流程示意图；

图3是本发明实施例提供的一种用户流失预测装置的结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行描述。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。在本申请说明书中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本说明书中使用的术语“设备”、“单元”、“***”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，设备可以是但不限于，处理器，数据处理平台，计算设备，计算机，2个或更多个计算机等。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

为了更好的理解本申请实施例提供的一种用户流失预测方法、装置及计算机可读存储介质，下面先对本申请实施例适用的用户流失预测方法的设备进行描述：

参阅图1，图1是本方案实施例提供的用户流失预测方法的设备示意图。设备10可以包括处理器101、存储器104和通信模块105，处理器101、存储器104和通信模块105可以通过总线106相互连接。存储器104可以是高速随机存储记忆体(Random Access Memory，RAM)存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器104可选的还可以是至少一个位于远离前述处理器101的存储***。存储器104用于存储应用程序代码，可以包括操作***、网络通信模块、用户接口模块以及数据处理程序；通信模块105用于与外部设备进行信息交互，其中可以包括用来进行无线、有线或其他通信方式的单元。可选的，可以将103部分中用于实现接收功能的器件视为接收单元，将用于实现发送功能的器件视为发送单元，即103部分包括接收单元和发送单元；处理器101也可以称为处理单元，处理单板，处理模块，处理装置等。处理器可以是中央处理器(centralprocessing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。当处理器101调用存储器104的付费金额预测程序时，执行图2所示的方法。

在具体实现中，用户流失预测设备10可以包括移动手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动互联网设备(Mobile Internet Device，MID)、智能穿戴设备(如智能手表、智能手环)等各种用户可以使用的设备，本申请实施例不作具体限定。

可选的，该设备可以为一个或多个服务器(多个服务器可以构成一个服务器集群)，服务器上需要运行有相应的服务器端程序来提供相应的用户流失预测服务，如数据库服务、数据计算、决策执行等等。

下面结合图2就本发明的用户流失预测方法进行说明，如图2所示，其为本发明实施例提供的一种用户流失预测方法的流程示意图，该方法可以基于图1所示的设备来实现，该方法可以包括但不限于以下步骤：

步骤S201：设备对样本向量进行训练以得到第一预测模型。

具体地，设备获取到样本向量后，根据该样本向量训练梯度迭代决策树(GradientBoosting Decision Tree，GBDT)，以得到第一预测模型，样本向量包括多个特征样本，多个特征样本中每个特征样本包括第一训练特征和用户标签，第一训练特征为在预设用户的原始数据中提取的特征，原始数据包括画像数据和操作目标应用时的行为数据，其中画像数据包含用户性别、年龄、地域、终端信息等，行为数据包含登入次数、在线时长、关卡次数、最近一次登入时间点等；用户标签用于描述预设用户下一次登入目标应用距离这一次登入目标应用的时间，第一预测模型用于对多个特征样本的重要性进行排名。

在其中一种实施方式中，设备获取到样本向量后，根据该样本向量生成训练集，并训练该训练集以得到第一预测模型；其中，训练集中包括多个特征样本，多个特征样本中的每个特征样本为样本向量中的特征样本；也即是说，设备对该样本向量中多个特征样本进行筛选，获取到训练集，其中筛选的方式可以是根据正负样本的数量作为依据，即样本向量包括正样本和负样本，正样本为多个特征样本中包含预设字段的样本，负样本为多个特征样本中不包含预设字段的样本，若在样本向量中正样本与负样本的比值小于预设范围，则设备可以对负样本进行下采样，即对负样本的序列间隔几个样值取值一次，以使训练集中的正样本与负样本的比值在预设范围之内，若在样本向量中正样本与负样本的比值超过预设范围，则设备可以减少正样本的数量或者增加负样本的数量使训练集中的正样本与负样本的比值在预设范围之内，该预设范围通常设置在0.2～0.5之间。举例来说，若样本向量包括M1、M2、M3、M4……M20这20个特征样本，其中正样本为M1、M2、M3，其余17个为负样本，这时正负样本的比值为0.176，不属于预设范围中，则对负样本进行下采样，即可以以2为间隔对负样本进行采样，采样后的负样本为M4、M6、M8、M10、M12、M14、M16、M18、M20，这时正负样本的比值为0.33，属于预设范围中，即筛选完成，训练集中的特征样本为M1、M2、M3、M4、M6、M8、M10、M12、M14、M16、M18、M20。这种实施方式这种实现方式通过对获取的样本向量进行再次筛选，控制了训练集中正负样本的比例，提高了特征样本的质量，在训练模型的过程中合理的正负样本比例能够提高模型的精确度。

步骤S202：设备根据第一预测模型生成样本向量中多个特征样本的重要性排名，并获取重要性排名中前k个特征样本的交叉特征。

具体地，设备根据样本向量训练得到第一预测模型，将该第一预测模型的输出结果与该样本向量中的用户标签进行比较，计算样本向量中多个特征样本的精确度和召回率，重要性排名中的每个特征样本的精确度大于预设阈值，该预设阈值通常设置在0.8～0.9之间，且召回率越大，在所述重要性排名中的名次越前，也即是说，只要特征样本的精确度超过了预设阈值，便根据特征样本的召回率进行排序；然后获取该重要性排名中的前k个特征样本进行数学运算得到交叉特征，在具体实现中，该运算包括加运算、减运算、乘运算、除运算中的至少一种，即两个特征样本之间最多有四个不同的交叉特征。

举例来说，训练集中的特征样本为M1、M2、M3、M4、M6、M8、M10、M12、M14、M16、M18、M20，其中M1、M2、M3、M4、M6、M8、M10这七个特征样本的精确度大于预设阈值，则根据召回率对这七个特征样本进行排名，召回率越大排名越前，排名可以为M6、M8、M2、M3、M10、M1、M4，预设k＝3，则对排名前3的特征样本M6、M8和M2两两进行数学运算得到新的交叉特征，M6和M8的交叉特征可以为c₁＝M6+M8、c₂＝M6-M8、c₃＝M6*M8、c₄＝M6/M8；可以理解的，M6和M2之间的交叉特征，以及M2和M8之间的交叉特征同理可得。

步骤S203：设备根据交叉特征和样本向量更新第一预测模型。

具体地，获取到交叉特征后，设备对该交叉特征进行特征选择，得到最优的交叉特征，最优的交叉特征可以包含多个交叉特征，可根据实际情况选择所需的交叉特征的数量，设备根据该最优的交叉特征和样本向量更新第一预测模型，获得最终的预测模型。

步骤S204：设备从待预测用户在登入目标应用的预设时段内的原始数据中提取第二训练特征，将第二训练特征输入到更新后的第一预测模型。

具体地，设备获取最终的预测模型后，输入待预测用户在登入目标应用的预设时段内的第二训练特征，以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间，其中，预设时段一般不超过两个小时，也即是说，在待预测用户登入目标应用的两个小时内，设备获取该待预测用户在目标应用中的行为数据和画像数据，其中画像数据包含用户性别、年龄、地域、终端信息等，行为数据包含登入次数、在线时长、关卡次数、最近一次登入时间点等；然后在行为数据和画像数据中提取第二训练特征，输入该第二训练特征到最终的预测模型中，以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间，这种实施方式提供了小时级的预测时间，即能够只利用用户登录后的两个小时内或更短时间的数据来预测用户是否流失，更高效的提供了预测结果，使设备能够更快的提供适合于待预测用户的个性化服务。

在图2所描述的方法中，设备对样本向量进行训练以得到第一预测模型，再根据第一预测模型生成样本向量中多个特征样本的重要性排名，并获取重要性排名中前k个特征样本的交叉特征，根据交叉特征和样本向量更新第一预测模型得到最终的预测模型，以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间；这种通过获取特征重要性排名中前k个特征样本的交叉特征来训练模型的方式，能够扩大重要特征的覆盖率，从而提高预测模型的准确度，实现对用户流失的预测。

为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种用户流失预测装置，下面结合附图来进行详细说明：

如图3所示，本发明实施例提供一种用户流失预测装置30的结构示意图，该装置30可以是以上描述的设备，或者该设备中的一个器件(例如，芯片)，用户流失预测装置30可以包括：训练单元301，获取单元302，更新单元303，预测单元304，其中，

训练单元301，用于对样本向量进行训练以得到第一预测模型，其中，样本向量包括多个特征样本，多个特征样本中每个特征样本包括训练特征和用户标签，训练特征为在预设用户的原始数据中提取的特征，原始数据包括画像数据和操作目标应用时的行为数据；用户标签用于描述预设用户下一次登入目标应用距离这一次登入目标应用的时间，第一预测模型用于对多个特征样本的重要性进行排名；

获取单元302，用于根据第一预测模型生成样本向量中多个特征样本的重要性排名，并获取重要性排名中前k个特征样本的交叉特征，交叉特征为前k个特征样本进行数学运算所得到的特征；

更新单元303，用于根据交叉特征和样本向量更新第一预测模型；

预测单元304，用于从待预测用户在登入目标应用的预设时段内的原始数据中提取第二训练特征，将第二训练特征输入到更新后的第一预测模型，以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间。

其中，预设时段不超过两个小时。

在其中一种实施例中，训练单元301包括获取子单元305和训练子单元306，其中，获取子单元305用于获取样本向量；

训练子单元306用于根据样本向量生成训练集，并训练训练集以得到第一预测模型；其中，训练集中包括多个特征样本，多个特征样本中的每个特征样本为样本向量中的特征样本。

在其中一种实施例中，样本向量包括正样本和负样本，正样本为多个特征样本中包含预设字段的样本，负样本为多个特征样本中不包含预设字段的样本；获取子单元306还包括：

采样单元307，用于若正样本与负样本的比值超过预设范围，则对负样本进行下采样，以使训练集中的正样本与负样本的比值在预设范围之内。

在其中一种实施例中，获取单元302还包括：

计算单元308，用于根据第一预测模型预测的结果，计算多个特征样本的精确度和召回率，重要性排名中的每个特征样本的精确度大于预设阈值，且召回率越大，在重要性排名中的名次越前。

需要说明的是，本申请实施例中图3所描述的装置中各功能单元的功能可参见上述图2中所述的方法实施例中步骤S201-步骤S204的相关描述，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述，然而，在实施例所要求保护的本申请过程中，本领域技术人员可理解并实现公开实施例的其他变化。

Claims

1.一种用户流失预测方法，其特征在于，包括：

根据所述交叉特征和所述样本向量更新所述第一预测模型；

2.根据权利要求1所述的方法，其特征在于，所述对样本向量进行训练以得到第一预测模型，包括：

获取样本向量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本向量生成训练集，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一预测模型生成所述多个特征样本的重要性排名，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述预设时段不超过两个小时。

6.一种用户流失预测装置，其特征在于，包括：

预测单元，用于从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征，将所述第二训练特征输入到更新后的所述第一预测模型，以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。

7.根据权利要求6所述的装置，其特征在于，所述训练单元包括：

获取子单元，用于获取样本向量；

8.根据权利要求7所述的装置，其特征在于，所述样本向量包括正样本和负样本，所述正样本为所述多个特征样本中包含预设字段的样本，所述负样本为所述多个特征样本中不包含所述预设字段的样本；所述获取子单元还包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，所述获取单元还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。