CN109767045A - 一种流失用户的预测方法、装置、计算设备及介质 - Google Patents

一种流失用户的预测方法、装置、计算设备及介质 Download PDF

Info

Publication number
CN109767045A
CN109767045A CN201910045620.XA CN201910045620A CN109767045A CN 109767045 A CN109767045 A CN 109767045A CN 201910045620 A CN201910045620 A CN 201910045620A CN 109767045 A CN109767045 A CN 109767045A
Authority
CN
China
Prior art keywords
user
application
probability
event
user data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910045620.XA
Other languages
English (en)
Inventor
张小艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tengyun World Technology Co Ltd
Original Assignee
Beijing Tengyun World Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tengyun World Technology Co Ltd filed Critical Beijing Tengyun World Technology Co Ltd
Priority to CN201910045620.XA priority Critical patent/CN109767045A/zh
Publication of CN109767045A publication Critical patent/CN109767045A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种流失用户的预测方法、装置、计算设备及介质,该方法包括:获取用户数据集合,用户数据集合包括多条用户数据;将各用户数据分别输入到流失用户预测模型中进行处理,以预测出用户数据对应用户流失的概率;根据各用户数据对应用户流失的概率,确定流失用户。

Description

一种流失用户的预测方法、装置、计算设备及介质
技术领域
本发明涉及互联网及大数据处理技术领域,特别涉及一种流失用户的预测方法、装置、计算设备及介质。
背景技术
随着互联网技术和硬件技术的不断发展,越来越多的人开始使用如智能手机、平板电脑等移动终端设备。同时,移动互联网的广泛普及促使移动应用的发展更加迅猛,用户通过使用移动终端上安装的各类移动应用,进行阅读、聊天、购物等各项活动。
对于应用的开发者或提供者而言,考虑到获取应用的新用户的成本,保留现有用户对于最大化获客成本和客户终身价值至关重要。通常,可通过分析应用内的事件来预测用户流失的可能性,并根据预测的可能性积极地与正确的用户进行交流,从而达到降低用户流失率的目的。
然而,目前在对流失用户进行预测时,基于的特征只有十几种,如应用打开、设备平台、信息发送、应用版本等,特征类型还不够丰富,预测结果的准确性有待提高,且不能提供流失相关性较高的特征,不便于研发人员或运营人员后期进行流失分析。因此,需要一种新的流失用户的预测方法来优化上述处理过程。
发明内容
为此,本发明提供一种流失用户的预测方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种流失用户的预测方法,该方法包括如下步骤:首先,获取用户数据集合,用户数据集合包括多条用户数据;将各用户数据分别输入到流失用户预测模型中进行处理,以预测出用户数据对应用户流失的概率;根据各用户数据对应用户流失的概率,确定流失用户。
可选地,在根据本发明的流失用户的预测方法中,用户数据包括用户标识、行为特征和属性特征。
可选地,在根据本发明的流失用户的预测方法中,获取用户数据集合,包括:从应用日志中提取用户标识和应用数据,应用数据包括事件信息、应用信息和设备信息;根据应用数据,确定各用户标识对应的行为特征和属性特征;将用户标识、行为特征和属性特征相应关联,以生成用户数据;汇集各用户数据,以形成用户数据集合。
可选地,在根据本发明的流失用户的预测方法中,事件信息包括事件名称、事件发生时间和事件时间信息,应用信息包括应用时间信息、应用版本和应用位置信息。
可选地,在根据本发明的流失用户的预测方法中,根据应用数据,确定各用户标识对应的行为特征和属性特征,包括:通过独热码的编码方式,分别对事件发生时间、应用版本、应用位置信息和设备信息进行编码处理,以生成对应的第一事件时间特征、应用版本特征、位置特征和设备特征;将第一事件时间特征、应用版本特征、位置特征和设备特征,作为用户标识对应的属性特征。
可选地,在根据本发明的流失用户的预测方法中,根据应用数据,确定各用户标识对应的行为特征和属性特征,包括:根据用户标识和事件名称,确定对应事件的事件发生次数特征;分别对事件时间信息和应用时间信息进行相应转换,以生成对应的第二事件时间特征和应用时间特征;基于第一事件时间特征,确定用户标识对应用户的用户活跃天数特征;将事件发生次数特征、第二事件时间特征、应用时间特征和用户活跃天数特征,作为用户标识对应的行为特征。
可选地,在根据本发明的流失用户的预测方法中,根据各用户数据对应用户流失的概率,确定流失用户,包括:若用户数据对应用户流失的概率低于第一概率阈值,则将该用户确定为低概率流失用户;若用户数据对应用户流失的概率不低于第一概率阈值,且不高于第二概率阈值,则将该用户确定为中概率流失用户;若用户数据对应用户流失的概率高于第二概率阈值,则将该用户确定为高概率流失用户。
可选地,在根据本发明的流失用户的预测方法中,流失用户预测模型包括逻辑回归模型。
可选地,在根据本发明的流失用户的预测方法中,还包括确定流失相关行为特征,确定流失相关行为特征,包括:确定各行为特征对应的拐点值;根据拐点值,计算行为特征对应的标准分数;基于标准分数,对各行为特征进行相应排序;将前第一数量个行为特征作为流失相关行为特征。
可选地,在根据本发明的流失用户的预测方法中,还包括确定流失相关属性特征,确定流失相关属性特征,包括:对各属性特征,计算属性特征对应用户流失的概率与平均用户流失概率的差值;计算属性特征对应用户的数量与用户总数的比值;基于差值和比值,对各属性特征进行相应排序;将前第二数量个属性特征作为流失相关属性特征。
根据本发明的又一个方面,提供一种流失用户的预测装置,该装置包括获取模块、预测模块和确定模块。其中,获取模块适于获取用户数据集合,用户数据集合包括多条用户数据;预测模块适于将各用户数据分别输入到流失用户预测模型中进行处理,以预测出用户数据对应用户流失的概率;确定模块适于根据各用户数据对应用户流失的概率,确定流失用户。
可选地,在根据本发明的流失用户的预测装置中,用户数据包括用户标识、行为特征和属性特征。
可选地,在根据本发明的流失用户的预测装置中,获取模块进一步适于从应用日志中提取用户标识和应用数据,应用数据包括事件信息、应用信息和设备信息;根据应用数据,确定各用户标识对应的行为特征和属性特征;将用户标识、行为特征和属性特征相应关联,以生成用户数据;汇集各用户数据,以形成用户数据集合。
可选地,在根据本发明的流失用户的预测装置中,事件信息包括事件名称、事件发生时间和事件时间信息,应用信息包括应用时间信息、应用版本和应用位置信息。
可选地,在根据本发明的流失用户的预测装置中,获取模块进一步适于通过独热码的编码方式,分别对事件发生时间、应用版本、应用位置信息和设备信息进行编码处理,以生成对应的第一事件时间特征、应用版本特征、位置特征和设备特征;将第一事件时间特征、应用版本特征、位置特征和设备特征,作为用户标识对应的属性特征。
可选地,在根据本发明的流失用户的预测装置中,获取模块进一步适于根据用户标识和事件名称,确定对应事件的事件发生次数特征;分别对事件时间信息和应用时间信息进行相应转换,以生成对应的第二事件时间特征和应用时间特征;基于第一事件时间特征,确定用户标识对应用户的用户活跃天数特征;将事件发生次数特征、第二事件时间特征、应用时间特征和用户活跃天数特征,作为用户标识对应的行为特征。
可选地,在根据本发明的流失用户的预测装置中,确定模块进一步适于当用户数据对应用户流失的概率低于第一概率阈值时,将该用户确定为低概率流失用户;当用户数据对应用户流失的概率不低于第一概率阈值,且不高于第二概率阈值时,将该用户确定为中概率流失用户;当用户数据对应用户流失的概率高于第二概率阈值时,将该用户确定为高概率流失用户。
可选地,在根据本发明的流失用户的预测装置中,流失用户预测模型包括逻辑回归模型。
可选地,在根据本发明的流失用户的预测装置中,确定模块还适于确定流失相关行为特征,进一步适于确定各行为特征对应的拐点值;根据拐点值,计算行为特征对应的标准分数;基于标准分数,对各行为特征进行相应排序;将前第一数量个行为特征作为流失相关行为特征。
可选地,在根据本发明的流失用户的预测装置中,确定模块还适于确定流失相关属性特征,进一步适于对各属性特征,计算属性特征对应用户流失的概率与平均用户流失概率的差值;计算属性特征对应用户的数量与用户总数的比值;基于差值和比值,对各属性特征进行相应排序;将前第二数量个属性特征作为流失相关属性特征。
根据本发明的又一个方面,提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的流失用户的预测方法的指令。
根据本发明的又一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行根据本发明的流失用户的预测方法。
根据本发明的流失用户的预测方案,基于流失用户预测模型对用户数据进行预测处理,得到用户数据对应用户流失的概率,根据流失的概率对用户进行等级划分,以确定不同流失等级对应的用户,从而对用户的流失有宏观的认识。其中,用户数据以行为特征和属性特征来表征相应用户的特性,行为特征包括用户在应用内发生的行为事件对应的特征,属性特征包括用户在应用内相关事件属性对应的特征,特征多样化有助于理解预测模型,提升预测结果的准确性。此外,通过梳理用户所有的行为特征和属性特征,确定与流失显著相关的行为特征和属性特征,可更直观了解用户的分布和流失相关特征,便于后续分析并与正确的用户及时沟通。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的结构框图;
图2示出了根据本发明的一个实施例的流失用户的预测方法200的流程图;以及
图3示出了根据本发明的一个实施例的流失用户的预测装置300的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的计算设备100的结构框图。在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以布置为在操作***上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在一些实施例中,计算设备100实现为服务器,并被配置为执行根据本发明的流失用户的预测方法200。其中,计算设备100的一个或多个程序122包括用于执行根据本发明的流失用户的预测方法200的指令。
图2示出了根据本发明的一个实施例的流失用户的预测方法200的流程图。如图2所示,方法200始于步骤S210。在步骤S210中,获取用户数据集合,用户数据集合包括多条用户数据。其中,用户数据包括用户标识、行为特征和属性特征。
根据本发明的一个实施例,可通过如下方式获取用户数据集合。首先,从应用日志中提取用户标识和应用数据,应用数据包括事件信息、应用信息和设备信息。
在该实施方式中,事件信息包括事件名称、事件发生时间和事件时间信息,应用信息包括应用时间信息、应用版本和应用位置信息,设备信息包括设备品牌、设备型号、语言环境、时区信息、地区信息和***版本。其中,事件时间信息包括会话持续时间和事件发送时间间隔,事件发送时间间隔为发送事件的时刻对应日期与预设日期相隔的天数,应用时间信息包括应用安装时间和应用更新时间,应用更新时间为应用最近一次更新的时间,应用位置信息为用户使用应用时所处的地理位置,通常精确到县(区)级,时区信息和地区信息分别精确到市级和国家级。
例如,应用日志为某一应用自2018年4月1日至2018年4月14日的原始日志,包含有14天的日志数据。其中,前7天的日志数据用于提取应用数据,以便后续根据应用数据确定行为特征和属性特征,后7天的日志数据用来判断用户是否真实流失,以评估预测结果是否准确,即对于前7天出现的每个用户标识,若后7天没收到该用户标识的任何事件,则标记该用户标识对应的用户流失,反之标记为非流失。从前7天的日志数据中提取到了62614个用户标识,以及与每个用户标识关联的应用数据,并标记了35026个用户为流失用户。
以下为用户标识和应用数据中包含内容的一个示例:
用户标识:id,3b824f95edb040755767fb10aabb1c60b
事件信息:event,app_init_first_False
date,2018/3/31 23:56:27
sessionDuration,NaN
recency,8
应用信息:installTime,2017/12/12 22:25:50
updateTime,2018/3/16 8:15:27
appVersion,3.8.3
city,中华人民共和国-四川省-眉山市-仁寿县
设备信息:brand,viviopo
model,viviopo R11
language,zh
timeZone,Asia/Shanghai
locale,zh_CN
osVersion,Android+5.1.1
如上所示,用户标识(id)为“3b824f95edb040755767fb10aabb1c60b”,事件名称(event)为“app_init_first_False”,表示该事件为应用开启事件,且本次不是第一次开启应用,事件发生时间(date)为“2018/3/31 23:56:27”,表明该事件于2018年3月31日23点56分27秒发生,会话持续时间(ses sionDuration)为“NaN”,事件发送时间间隔(recency)为8,表明发送事件的时刻对应日期与预设日期相隔的天数为8,这里预设日期为2018年4月10日。
应用安装时间(installTime)为“2017/12/12 22:25:50”,表明该应用安装于2017年12月12日22点25分50秒,应用更新时间(updateTime)为“2018/3/16 8:15:27”,表明该应用最近一次更新是在2018年3月16日8点15分27秒,应用版本(appVersion)为3.8.3,应用位置信息(city)为中华人民共和国四川省眉山市仁寿县。
设备品牌(brand)为viviopo,表明用户所使用安装有该应用的设备的品牌是viviopo,设备型号(model)为viviopo R11,表明该设备的型号是viviopo R11,语言环境(language)为“zh”,表明设备当前设置中文作为显示语言,时区信息(timeZone)为“Asia/Shanghai”,表明当前时区为亚洲上海,地区信息(locale)为“zh_CN”,表明当前地区为中国,***版本(osVersion)为“Android+5.1.1”,表明设备当前操作***为安卓***的5.1.1版。
接下来,根据应用数据,确定各用户标识对应的行为特征和属性特征。根据本发明的一个实施例,可通过如下方式确定各用户标识对应的行为特征和属性特征。首先,通过独热码的编码方式,分别对事件发生时间、应用版本、应用位置信息和设备信息进行编码处理,以生成对应的第一事件时间特征、应用版本特征、位置特征和设备特征。
在该实施方式中,对事件发生时间对应的日期进行独热码编码,以生成对应的第一事件时间特征。对设备特征中的设备品牌、设备型号、语言环境、时区信息、地区信息和***版本,也分别进行独热码编码,以形成对应的品牌特征、型号特征、语言特征、时区特征、地区特征和***版本特征,将这些特征作为设备特征。
然后,将第一事件时间特征、应用版本特征、位置特征和设备特征,作为用户标识对应的属性特征。由于是基于独热码的编码方式而生成,属性特征的取值只能为1或0,取值为“1”代表具有该特征的特性,取值为“0”则代表不具有该特征的特性。
上述处理为属性特征的提取过程,行为特征可通过如下方式确定。首先,根据用户标识和事件名称,确定对应事件的事件发生次数特征,再分别对事件时间信息和应用时间信息进行相应转换,以生成对应的第二事件时间特征和应用时间特征,基于第一事件时间特征,确定用户标识对应用户的用户活跃天数特征,将事件发生次数特征、第二事件时间特征、应用时间特征和用户活跃天数特征,作为用户标识对应的行为特征。
通常,对一个用户标识,统计同一事件名称出现的次数,即可确定对应事件的事件发生次数,将事件名称和事件发生次数关联作为事件发生次数特征。事件时间信息包括的会话持续时间和事件发送时间间隔,若会话持续时间为“NaN”,则将“NaN”替换成“0”,再累计会话持续时间的值作为会话时间特征,并将事件发送时间间隔中的异常值替换成20,进而以事件发送事件间隔中的最小值作为发送时间间隔特征,将会话时间特征和发送时间间隔特征作为第二事件时间特征。
应用时间信息包括应用安装时间和应用更新时间,将应用安装时间和应用更新时间对应的日期,转换为距离预设日期的天数,则以应用安装时间对应的天数作为安装时间特征,以应用更新时间对应的天数作为更新时间特征,将安装时间特征和更新时间特征作为应用时间特征。而对一个用户标识来说,累加该用户标识对应的第一事件时间特征的值,作为该用户标识对应用户的用户活跃天数特征。
在完成行为特征和属性特征的确定后,将用户标识、行为特征和属性特征相应关联,以生成用户数据。根据本发明的一个实施例,对于提取到的62614个用户标识,共计生成了62614条用户数据。最后,汇集各用户数据,以形成用户数据集合。
随后,进入步骤S220,将各用户数据分别输入到流失用户预测模型中进行处理,以预测出用户数据对应用户流失的概率。根据本发明的一个实施例,流失用户预测模型包括逻辑回归模型。
逻辑回归模型又称为LR(Logistic Regression)模型,可用于回归分析、预测、分类等。当然,在应用逻辑回归模型时,需要预先对其进行训练,所使用的训练数据采用如上生成用户数据的方式即可,只是还需要对用户数据添加标签以形成完整的训练数据。若用户数据对应的用户为流失用户,则向该用户数据添加值为1的标签,否则添加值为0的标签。考虑到逻辑回归模型为现有成熟技术,其构建和训练过程对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。在该实施方式中,将一条用户数据输入到流失用户预测模型中后,流失用户预测模型将输出该用户数据对应用户流失的概率。
此外,流失用户预测模型不仅可以基于如上逻辑回归模型来实现,还可以通过支持向量机(Support Vector Machine,SVM)模型等算法实现。对使用哪种算法或模型构建流失用户预测模型,本发明亦不限制,可根据实际应用场景、网络训练情况、***配置和性能要求等进行选择,并对所选定方式中的模型构建过程和相应参数适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
最后,执行步骤S230,根据各用户数据对应用户流失的概率,确定流失用户。根据本发明的一个实施例,可通过如下方式根据各用户数据对应用户流失的概率,确定流失用户。具体地,若用户数据对应用户流失的概率低于第一概率阈值,则将该用户确定为低概率流失用户,若用户数据对应用户流失的概率不低于第一概率阈值,且不高于第二概率阈值,则将该用户确定为中概率流失用户,若用户数据对应用户流失的概率高于第二概率阈值,则将该用户确定为高概率流失用户。
在该实施方式中,第一概率阈值为0.2,第二概率阈值为0.8,最终可确定低概率流失用户的数量为21151,中概率流失用户的数量为41365,高概率流失用户的数量为98。在上述62614个用户中,流失的概率超过0.6的用户数量为32237,而实际上流失用户为35026个,误差在10%以内,说明以上预测结果具有较高的准确性。
为进一步对用户流失原因进行分析,根据本发明的一个实施例,可通过梳理行为特征和属性特征,确定显著区别流失用户与非流失用户的流失相关行为特征和流失相关属性特征。
在确定流失相关行为特征时,先确定各行为特征对应的拐点值,根据拐点值,计算行为特征对应的标准分数,基于标准分数,对各行为特征进行相应排序,将前第一数量个行为特征作为流失相关行为特征。
具体而言,针对每个行为特征,记录该行为特征所有可能的值,对每个值,根据该值将所有用户分成两个组,一个组包括该行为特征的值不大于上述用于分组的值的用户,另一个组包括该行为特征的值大于上述用于分组的值的用户,计算两个组之间用户流失的概率差,将流失概率相差最大的行为特征的值记为该行为特征的拐点值。
根据拐点值,按照如下公式计算标准分数:
其中,为拐点值前用户当中流失用户的比重,为拐点值后用户当中流失用户的比重,为所有用户当中流失用户的比重,n1为拐点值前用户的数量,n1为拐点值后用户的数量。
在该实施方式中,第一数量预设为2,则按照标准分数的绝对值从大到小的顺序,对各标准分数对应的行为特征进行排序,得到前2个行为特征依次是用户活跃天数特征和事件发生次数特征(事件名称为app_init_first_False),将这2个行为特征作为流失相关行为特征。
在确定流失相关属性特征时,对各属性特征,计算属性特征对应用户流失的概率与平均用户流失概率的差值,计算属性特征对应用户的数量与用户总数的比值,基于差值和比值,对各属性特征进行相应排序,将前第二数量个属性特征作为流失相关属性特征。
在该实施方式中,第二数量预设为3,按照用户流失的概率与平均用户流失概率的差值从大到小的顺序,先对各属性特征进行排序,对于上述差值相同的各属性特征,再基于该属性特征对应用户的数量与用户总数的比值从大到小的顺序,对各属性特征二次排序,得到前3个属性特征依次是位置特征(对应的应用位置信息为中华人民共和国陕西省安康市紫阳县)、品牌特征(对应的设备品牌为SA&CI)和型号特征(对应的设备型号为SC Pro),将这3个属性特征作为流失相关属性特征。
图3示出了根据本发明的一个实施例的流失用户的预测装置300的示意图。如图3所示,流失用户的预测装置300包括获取模块310、预测模块320和确定模块330。
获取模块310适于获取用户数据集合,用户数据集合包括多条用户数据。
根据本发明的一个实施例,用户数据包括用户标识、行为特征和属性特征。
获取模块310进一步适于从应用日志中提取用户标识和应用数据,应用数据包括事件信息、应用信息和设备信息,根据应用数据,确定各用户标识对应的行为特征和属性特征,将用户标识、行为特征和属性特征相应关联,以生成用户数据,汇集各用户数据,以形成用户数据集合。
在该实施方式中,事件信息包括事件名称、事件发生时间和事件时间信息,应用信息包括应用时间信息、应用版本和应用位置信息。
获取模块310进一步适于通过独热码的编码方式,分别对事件发生时间、应用版本、应用位置信息和设备信息进行编码处理,以生成对应的第一事件时间特征、应用版本特征、位置特征和设备特征,将第一事件时间特征、应用版本特征、位置特征和设备特征,作为用户标识对应的属性特征。
获取模块310进一步适于根据用户标识和事件名称,确定对应事件的事件发生次数特征,分别对事件时间信息和应用时间信息进行相应转换,以生成对应的第二事件时间特征和应用时间特征,基于第一事件时间特征,确定用户标识对应用户的用户活跃天数特征,将事件发生次数特征、第二事件时间特征、应用时间特征和用户活跃天数特征,作为用户标识对应的行为特征。
预测模块320适于将各用户数据分别输入到流失用户预测模型中进行处理,以预测出用户数据对应用户流失的概率。
根据本发明的一个实施例,流失用户预测模型包括逻辑回归模型。
确定模块330适于根据各用户数据对应用户流失的概率,确定流失用户。
根据本发明的一个实施例,确定模块330进一步适于当用户数据对应用户流失的概率低于第一概率阈值时,将该用户确定为低概率流失用户,当用户数据对应用户流失的概率不低于第一概率阈值,且不高于第二概率阈值时,将该用户确定为中概率流失用户,当用户数据对应用户流失的概率高于第二概率阈值时,将该用户确定为高概率流失用户。
确定模块330还适于确定流失相关行为特征,进一步适于确定各行为特征对应的拐点值,根据拐点值,计算行为特征对应的标准分数,基于标准分数,对各行为特征进行相应排序,将前第一数量个行为特征作为流失相关行为特征。
确定模块330还适于确定流失相关属性特征,进一步适于对各属性特征,计算属性特征对应用户流失的概率与平均用户流失概率的差值,计算属性特征对应用户的数量与用户总数的比值,基于差值和比值,对各属性特征进行相应排序,将前第二数量个属性特征作为流失相关属性特征。
关于流失用户的预测的具体步骤以及实施例,在基于图2的描述中已经详细公开,此处不再赘述。
现有的流失用户的预测方法,所采用的特征较少,类型不够丰富,预测结果准确性较低,且不能提供流失显著相关的特征,不便于后续进一步分析处理,难以为流失用户挽回提供数据支撑。根据本发明实施例的流失用户的预测方案,基于流失用户预测模型对用户数据进行预测处理,得到用户数据对应用户流失的概率,根据流失的概率对用户进行等级划分,以确定不同流失等级对应的用户,从而对用户的流失有宏观的认识。其中,用户数据以行为特征和属性特征来表征相应用户的特性,行为特征包括用户在应用内发生的行为事件对应的特征,属性特征包括用户在应用内相关事件属性对应的特征,特征多样化有助于理解预测模型,提升预测结果的准确性。此外,通过梳理用户所有的行为特征和属性特征,确定与流失显著相关的行为特征和属性特征,可更直观了解用户的分布和流失相关特征,便于后续分析并与正确的用户及时沟通。
A8.如A1-7中任一项所述的方法,其中,所述流失用户预测模型包括逻辑回归模型。
A9.如A2-8中任一项所述的方法,其中,还包括确定流失相关行为特征,所述确定流失相关行为特征,包括:
确定各行为特征对应的拐点值;
根据所述拐点值,计算所述行为特征对应的标准分数;
基于所述标准分数,对各行为特征进行相应排序;
将前第一数量个行为特征作为流失相关行为特征。
A10.如A2-9中任一项所述的方法,其中,还包括确定流失相关属性特征,所述确定流失相关属性特征,包括:
对各属性特征,计算所述属性特征对应用户流失的概率与平均用户流失概率的差值;
计算所述属性特征对应用户的数量与用户总数的比值;
基于所述差值和所述比值,对各属性特征进行相应排序;
将前第二数量个属性特征作为流失相关属性特征。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的流失用户的预测方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种流失用户的预测方法,包括:
获取用户数据集合,所述用户数据集合包括多条用户数据;
将各用户数据分别输入到流失用户预测模型中进行处理,以预测出所述用户数据对应用户流失的概率;
根据各用户数据对应用户流失的概率,确定流失用户。
2.如权利要求1所述的方法,其中,所述用户数据包括用户标识、行为特征和属性特征。
3.如权利要求1或2所述的方法,其中,所述获取用户数据集合,包括:
从应用日志中提取用户标识和应用数据,所述应用数据包括事件信息、应用信息和设备信息;
根据所述应用数据,确定各用户标识对应的行为特征和属性特征;
将所述用户标识、行为特征和属性特征相应关联,以生成用户数据;
汇集各用户数据,以形成用户数据集合。
4.如权利要求3所述的方法,其中,所述事件信息包括事件名称、事件发生时间和事件时间信息,所述应用信息包括应用时间信息、应用版本和应用位置信息。
5.如权利要求4所述的方法,其中,所述根据所述应用数据,确定各用户标识对应的行为特征和属性特征,包括:
通过独热码的编码方式,分别对所述事件发生时间、应用版本、应用位置信息和设备信息进行编码处理,以生成对应的第一事件时间特征、应用版本特征、位置特征和设备特征;
将所述第一事件时间特征、应用版本特征、位置特征和设备特征,作为所述用户标识对应的属性特征。
6.如权利要求5所述的方法,其中,所述根据所述应用数据,确定各用户标识对应的行为特征和属性特征,包括:
根据所述用户标识和所述事件名称,确定对应事件的事件发生次数特征;
分别对所述事件时间信息和应用时间信息进行相应转换,以生成对应的第二事件时间特征和应用时间特征;
基于所述第一事件时间特征,确定所述用户标识对应用户的用户活跃天数特征;
将所述事件发生次数特征、第二事件时间特征、应用时间特征和用户活跃天数特征,作为所述用户标识对应的行为特征。
7.如权利要求1-6中任一项所述的方法,其中,所述根据各用户数据对应用户流失的概率,确定流失用户,包括:
若用户数据对应用户流失的概率低于第一概率阈值,则将所述用户确定为低概率流失用户;
若用户数据对应用户流失的概率不低于第一概率阈值,且不高于第二概率阈值,则将所述用户确定为中概率流失用户;
若用户数据对应用户流失的概率高于第二概率阈值,则将所述用户确定为高概率流失用户。
8.一种流失用户的预测装置,包括:
获取模块,适于获取用户数据集合,所述用户数据集合包括多条用户数据;
预测模块,适于将各用户数据分别输入到流失用户预测模型中进行处理,以预测出所述用户数据对应用户流失的概率;
确定模块,适于根据各用户数据对应用户流失的概率,确定流失用户。
9.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。
CN201910045620.XA 2019-01-17 2019-01-17 一种流失用户的预测方法、装置、计算设备及介质 Pending CN109767045A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910045620.XA CN109767045A (zh) 2019-01-17 2019-01-17 一种流失用户的预测方法、装置、计算设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910045620.XA CN109767045A (zh) 2019-01-17 2019-01-17 一种流失用户的预测方法、装置、计算设备及介质

Publications (1)

Publication Number Publication Date
CN109767045A true CN109767045A (zh) 2019-05-17

Family

ID=66452876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910045620.XA Pending CN109767045A (zh) 2019-01-17 2019-01-17 一种流失用户的预测方法、装置、计算设备及介质

Country Status (1)

Country Link
CN (1) CN109767045A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689381A (zh) * 2019-10-10 2020-01-14 中国联合网络通信集团有限公司 一种预警方法及装置
CN111275245A (zh) * 2020-01-13 2020-06-12 宜通世纪物联网研究院(广州)有限公司 潜在转网用户识别方法、***、消息推送方法、装置和介质
CN112162918A (zh) * 2020-09-07 2021-01-01 北京达佳互联信息技术有限公司 应用程序的测试方法、装置及电子设备
CN112837099A (zh) * 2021-02-05 2021-05-25 深圳市欢太科技有限公司 潜在流失用户识别方法、装置、存储介质及电子设备
CN113055208A (zh) * 2019-12-27 2021-06-29 中移信息技术有限公司 基于迁移学习的信息识别模型的识别方法、装置、设备
CN113256044A (zh) * 2020-02-13 2021-08-13 ***通信集团广东有限公司 一种策略的确定方法、装置及电子设备
CN113496288A (zh) * 2020-04-08 2021-10-12 中移动信息技术有限公司 用户稳定性确定方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009071227A1 (en) * 2007-12-04 2009-06-11 Coremedia Ag Method and system for estimating a number of users of a website based on lossy compressed data
CN105099731A (zh) * 2014-04-23 2015-11-25 腾讯科技(深圳)有限公司 挖掘导致网络应用的用户流失的流失因子的方法及***
CN106327032A (zh) * 2015-06-15 2017-01-11 阿里巴巴集团控股有限公司 一种用于客户流失预警的数据分析方法和装置
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于***商店的用户流失预测方法及***
CN108537587A (zh) * 2018-04-03 2018-09-14 广州优视网络科技有限公司 流失用户预警方法、装置、计算机可读存储介质和服务器
CN108665321A (zh) * 2018-05-18 2018-10-16 广州虎牙信息科技有限公司 高粘性用户流失预测方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009071227A1 (en) * 2007-12-04 2009-06-11 Coremedia Ag Method and system for estimating a number of users of a website based on lossy compressed data
CN105099731A (zh) * 2014-04-23 2015-11-25 腾讯科技(深圳)有限公司 挖掘导致网络应用的用户流失的流失因子的方法及***
CN106327032A (zh) * 2015-06-15 2017-01-11 阿里巴巴集团控股有限公司 一种用于客户流失预警的数据分析方法和装置
CN107609708A (zh) * 2017-09-25 2018-01-19 广州赫炎大数据科技有限公司 一种基于***商店的用户流失预测方法及***
CN108537587A (zh) * 2018-04-03 2018-09-14 广州优视网络科技有限公司 流失用户预警方法、装置、计算机可读存储介质和服务器
CN108665321A (zh) * 2018-05-18 2018-10-16 广州虎牙信息科技有限公司 高粘性用户流失预测方法、装置及计算机可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689381A (zh) * 2019-10-10 2020-01-14 中国联合网络通信集团有限公司 一种预警方法及装置
CN113055208A (zh) * 2019-12-27 2021-06-29 中移信息技术有限公司 基于迁移学习的信息识别模型的识别方法、装置、设备
CN113055208B (zh) * 2019-12-27 2023-01-13 中移信息技术有限公司 基于迁移学习的信息识别模型的识别方法、装置、设备
CN111275245A (zh) * 2020-01-13 2020-06-12 宜通世纪物联网研究院(广州)有限公司 潜在转网用户识别方法、***、消息推送方法、装置和介质
CN113256044A (zh) * 2020-02-13 2021-08-13 ***通信集团广东有限公司 一种策略的确定方法、装置及电子设备
CN113256044B (zh) * 2020-02-13 2023-08-15 ***通信集团广东有限公司 一种策略的确定方法、装置及电子设备
CN113496288A (zh) * 2020-04-08 2021-10-12 中移动信息技术有限公司 用户稳定性确定方法、装置、设备及存储介质
CN113496288B (zh) * 2020-04-08 2024-04-12 中移动信息技术有限公司 用户稳定性确定方法、装置、设备及存储介质
CN112162918A (zh) * 2020-09-07 2021-01-01 北京达佳互联信息技术有限公司 应用程序的测试方法、装置及电子设备
CN112837099A (zh) * 2021-02-05 2021-05-25 深圳市欢太科技有限公司 潜在流失用户识别方法、装置、存储介质及电子设备
CN112837099B (zh) * 2021-02-05 2024-03-19 深圳市欢太科技有限公司 潜在流失用户识别方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN109767045A (zh) 一种流失用户的预测方法、装置、计算设备及介质
CN107566358B (zh) 一种风险预警提示方法、装置、介质及设备
CN105608179B (zh) 确定用户标识的关联性的方法和装置
CN111782943A (zh) 基于历史数据记录的信息推荐方法、装置、设备及介质
CN104850662A (zh) 一种基于用户画像的移动终端智能消息推送方法、服务器和***
CN103473036B (zh) 一种输入法皮肤推送方法及***
CN103412882A (zh) 一种识别消费意图的方法及装置
CN110263326B (zh) 一种用户行为预测方法、预测装置、存储介质及终端设备
CN108090359B (zh) 一种应用程序监测方法及应用服务器
CN105550253B (zh) 一种类型关系的获取方法及装置
WO2015062359A1 (en) Method and device for advertisement classification, server and storage medium
CN112685799B (zh) 设备指纹生成方法、装置、电子设备和计算机可读介质
CN106778357A (zh) 一种网页篡改的检测方法及装置
CN111581258B (zh) 一种安全数据分析方法、装置、***、设备及存储介质
CN111510368A (zh) 家庭群组识别方法、装置、设备及计算机可读存储介质
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
CN108764369A (zh) 基于数据融合的人物识别方法、装置和计算机存储介质
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
EP3783543A1 (en) Learning system, learning method, and program
CN112948090B (zh) 应用于网络业务处理的大数据分析整理方法及服务器
CN114022196A (zh) 广告投放方法、装置、电子装置和存储介质
CN111325228B (zh) 一种模型训练方法及装置
CN112269937A (zh) 一种计算用户相似度的方法、***及装置
CN111915378A (zh) 用户属性预测方法、装置、计算机设备及存储介质
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100027 302, 3 / F, aviation service building, Dongzhimen street, Dongcheng District, Beijing

Applicant after: BEIJING TENDCLOUD TIANXIA TECHNOLOGY Co.,Ltd.

Address before: Room 2104, 2 / F, building 4, 75 Suzhou street, Haidian District, Beijing 100027

Applicant before: BEIJING TENDCLOUD TIANXIA TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190517

RJ01 Rejection of invention patent application after publication