CN108989096A - 一种宽带用户流失预测方法及*** - Google Patents

一种宽带用户流失预测方法及*** Download PDF

Info

Publication number
CN108989096A
CN108989096A CN201810691994.4A CN201810691994A CN108989096A CN 108989096 A CN108989096 A CN 108989096A CN 201810691994 A CN201810691994 A CN 201810691994A CN 108989096 A CN108989096 A CN 108989096A
Authority
CN
China
Prior art keywords
user
data
historical
prediction
test sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810691994.4A
Other languages
English (en)
Inventor
王俊锁
王纯波
任虎
张祖国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaxin Technology (chengdu) Co Ltd
Original Assignee
Yaxin Technology (chengdu) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaxin Technology (chengdu) Co Ltd filed Critical Yaxin Technology (chengdu) Co Ltd
Priority to CN201810691994.4A priority Critical patent/CN108989096A/zh
Publication of CN108989096A publication Critical patent/CN108989096A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的实施例公开一种宽带用户流失预测方法及***,涉及通信技术领域,能够通过对历史用户数据的非平衡分布处理,提高用户流失预测模型对未来用户流失预测的准确率和召回率。该方法包括:获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;在历史用户数据中选取训练样本和测试样本,对训练样本根据预定算法进行学习,生成用户流失预测模型;将测试样本的历史用户行为数据输入用户流失预测模型,获得预测的用户状态数据;若存在预测错误的测试样本,则重新生成用户流失预测模型;将预定时间段内获取的历史用户行为数据输入重新生成的用户流失预测模型,获得未来用户状态数据。本发明实施例应用于网络***。

Description

一种宽带用户流失预测方法及***
技术领域
本发明的实施例涉及通信领域,尤其涉及一种宽带用户流失预测方法及***。
背景技术
宽带业务作为通信运营商全业务竞争中不可或缺的重要阵地,随着宽带业务的激烈竞争,宽带用户的流失问题日益严重。如何更好的及时发现并挽留即将流失的宽带用户成为了运营商迫切解决的问题。宽带用户流失分析主要是通过对以往流失的历史用户数据进行分析,挖掘出可能导致用户流失的特征,及时采取相应的措施,减少用户流失的发生。这对企业降低运营成本,提高经营业绩有着极为重要的意义。
用户流失预测项目中的样本数据包含两部分内容:用户流失样本数据和用户非流失样本数据。用户流失样本数据所占总体数据样本比例是很低的,通常情况下只占到2%左右。显然,这么低的用户流失样本数据占比对于用户流失预测模型的建立是非常不利的,现有技术中为了解决用户流失样本数据和用户非流失样本数据的非平衡问题,常常采用欠采样和过采样等方法,欠采样和过采样都是随机采样,欠采样选择少量的多数类的用户非流失样本数据与少数类的用户流失样本数据构成新的训练样本,但是若少数类的用户流失样本数据的数量太少时,使用这种方法,虽然使得训练样本整体比较均衡;但是训练样本数太少会造成用户信息的缺失,让某些用户流失特征不能很好的表现出来,导致欠拟合问题。过采样相反,是在少数的用户流失样本数据中做随机采样,扩大少类的用户流失样本数据的数量,使用这种方法,由于用户流失样本数据量的提升造成训练过程的计算量增加,导致过拟合问题。无论是欠拟合问题还是过拟合问题都会降低用户流失预测模型对未来用户流失预测的准确率和召回率。
发明内容
本发明的实施例提供一种宽带用户流失预测方法及***,能够通过对历史用户数据的非平衡分布处理,使得用户流失预测模型充分的学习到流失用户的特征,提高用户流失预测模型对未来用户流失预测的准确率和召回率。
第一方面,提供一种宽带用户流失预测方法,包括:获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;其中,历史用户行为数据包括用户使用流量时长以及投诉数据,历史用户状态数据包括用户流失状态数据和用户非流失状态数据,其中第一预定时间段内的历史用户状态数据与第一预定时间段之后的第二预定时间段内的历史用户行为数据相对应;在历史用户数据中选取训练样本,对训练样本根据预定算法进行学习,生成用户流失预测模型;在历史用户数据中选取测试样本,将测试样本的历史用户行为数据输入用户流失预测模型,获得预测的用户状态数据;若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据全部为非流失状态时,将预测错误的测试样本中的第一预定比例的测试样本加入训练样本中重新生成用户流失预测模型;若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据存在流失状态时,将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入训练样本中重新生成用户流失预测模型;将预定时间段内获取的历史用户行为数据输入重新生成的用户流失预测模型,获得未来用户状态数据。
在上述宽带用户流失预测方法,首先,获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;其中第一预定时间段内的历史用户状态数据与第一预定时间段之后的第二预定时间段内的历史用户行为数据相对应;然后在历史用户数据中获取训练样本,根据预定算法对训练样本进行学***衡分布处理,使得用户流失预测模型充分的学习到流失用户的特征,提高用户流失预测模型对未来用户流失预测的准确率和召回率。
可选的,获取历史用户数据之后还包括:对历史用户数据进行预处理。
可选的,对历史用户数据进行预处理包括:对历史用户数据进行至少如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充。
可选的,获得当前时间之前至少两个时间段的历史用户数据对应的用户流失预测模型,其中至少两个时间段均以当前时间为结束端点,至少两个时间段的长度不同;对至少两个用户流失预测模型进行评估,根据至少两个用户流失预测模型的评估结果,获得目标用户流失预测模型。
可选的,评估结果包括以下的一项或多项:准确率、召回率以及F1分数;其中准确率为:预测准确流失用户数与预测流失用户数的百分比;召回率为:预测准确流失用户数与实际流失用户数的百分比;F1分数为:2*准确率*召回率/(准确率+召回率)。
第二方面,提供一种宽带用户流失预测***,包括:
获取模块,用于获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;其中,历史用户行为数据包括用户使用流量时长以及投诉数据,历史用户状态数据包括用户流失状态数据和用户非流失状态数据,其中第一预定时间段内的历史用户状态数据与第一预定时间段之后的第二预定时间段内的历史用户行为数据相对应。
训练模块,用于在根据获取模块获取的历史用户数据中选取训练样本,对训练样本根据预定算法进行学习,生成用户流失预测模型。
测试模块,用于在根据获取模块获取的历史用户数据中选取测试样本,将测试样本的历史用户行为数据输入用户流失预测模型,获得预测的用户状态数据。
处理模块,用于若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据全部为非流失状态时,将预测错误的测试样本中的第一预定比例的测试样本加入训练样本中重新生成用户流失预测模型。
处理模块,还用于若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据存在流失状态时,将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入训练样本中重新生成用户流失预测模型。
预测模块,用于将预定时间段内根据获取模块获取的历史用户行为数据输入重新生成的用户流失预测模型,获得未来用户状态数据。
可选的,处理模块,还用于对获取模块获取的历史用户数据进行预处理。
可选的,处理模块,用于对获取模块获取的历史用户数据进行至少如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充。
可选的,训练模块,用于生成当前时间之前根据获取模块获取的至少两个时间段的历史用户数据对应的用户流失预测模型,其中至少两个时间段均以当前时间为结束端点,至少两个时间段的长度不同;评估模块,用于对根据训练模块生成的至少两个用户流失预测模型进行评估;根据至少两个用户流失预测模型的评估结果,获得目标用户流失预测模型。
可选的,评估结果包括以下的一项或多项:准确率、召回率以及F1分数;其中准确率为:预测准确流失用户数与预测流失用户数的百分比;召回率为:预测准确流失用户数与实际流失用户数的百分比;F1分数为:2*准确率*召回率/(准确率+召回率)。
可以理解地,上述提供的一种宽带用户流失预测***用于执行上文所提供的第一方面对应的方法,因此,其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
附图说明
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明的实施例提供的一种宽带用户流失预测方法的流程示意图;
图2为本发明的实施例提供的一种获取历史用户数据和对历史用户数据预处理阶段的流程示意图;
图3为本发明的实施例提供的一种历史用户数据非平衡分布处理的流程示意图;
图4为本发明的实施例提供的一种用户流失预测模型的优化流程示意图;
图5为本发明的实施例提供的一种示例性的用户流失预测模型的优化流程示意图;
图6为本发明的实施例提供的一种宽带用户流失预测***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于流失用户数据样本所占用户数据样本的比例与非流失用户数据样本的所占用户数据样本的比例差别非常大,现实中,对用户数据样本中的流失用户数据与非流失用户数据的非平衡分布问题的处理方法一般为采样方法,通过对用户数据样本进行处理使其从不平衡的用户数据样本数据集变成平衡的用户数据样本数据集,这种方法在大部分情况下会对最终的结果带来提升。采样方法主要分为过采样(上采样Oversampling)和欠采样(下采样Undersampling),上采样是把从流失用户数据样本中小众类随机抽取复制多份,下采样是从非流失用户数据样本大众类中随机剔除一些样本,或者说只从大众类中选取部分样本。随机采样最大的优点是简单,但缺点也很明显。上采样后的用户数据样本数据集中会反复出现一些样本,训练出来的预测模型会有一定的过拟合;而下采样后的用户数据样本丢失了部分用户数据样本,预测模型只学到了用户数据样本总体模式的一部分。因此,这两种方法均会降低预测模型对用户流失预测的准确率和召回率。如图1,本发明实施例提供一种宽带用户流失预测方法,包括:
101、获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;其中,历史用户行为数据包括用户使用流量时长以及投诉数据,历史用户状态数据包括用户流失状态数据和用户非流失状态数据。其中第一预定时间段内的历史用户状态数据与第一预定时间段之后的第二预定时间段内的历史用户行为数据相对应。
另外,获取历史用户数据之后还包括:对历史用户数据进行预处理;详细的,对历史用户数据进行预处理,具体包括:对历史用户数据进行至少如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充。
示例性的,历史用户行为数据还可以包括但不限于如下数据:用户的入网时间、AAA(认证Authentication、授权Authorization和计费Accounting的简称)、客户关系管理***CRM、报障等数据。
102、在历史用户数据中选取训练样本,对训练样本根据预定算法进行学习,生成用户流失预测模型。
103、在历史用户数据中选取测试样本,将测试样本的历史用户行为数据输入用户流失预测模型,获得预测的用户状态数据。
104、若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据全部为非流失状态时,将预测错误的测试样本中的第一预定比例的测试样本加入训练样本中重新生成用户流失预测模型。
105、若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据存在流失状态时,将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入训练样本中重新生成用户流失预测模型。
106、将预定时间段内获取的历史用户行为数据输入重新生成的用户流失预测模型,获得未来用户状态数据。
为了更好地理解,参照图2,对步骤101进行详细说明,其中,步骤201为获取历史用户数据阶段,步骤202~206是对历史用户数据的预处理阶段。具体如下:
201、获取历史用户数据,包括历史用户行为数据和历史用户状态数据。
基于业务理解阶段对于数据源***以及需要获取历史用户数据的确认,数据准备阶段的首要任务是要完成对于源数据***中历史用户数据的获取。获取的历史用户数据将最终被加载到一张称为“用户宽表”的数据表中,基于用户宽表,将开展预处理工作。
202、对历史用户数据中的历史用户行为数据的属性变量进行重构。
历史用户行为数据的属性变量的构造过程中,不仅仅是从现有的本地业务、数据源***中获取的直接历史用户行为数据属性变量,同时还包括根据现有直接历史用户行为数据属性变量构造的衍生变量。这些衍生变量根据构造方式的不同可以分为趋势型衍生变量、平均型衍生变量以及布尔型衍生变量。通过构造衍生变量,丰富了用于构建用户流失预测模型的输入变量数量,提高了用户流失预测模型预测的准确率。
203、对历史用户数据进行数据审核,其中历史用户数据包含重构属性变量的历史用户行为数据。
从本地业务、数据源***中获取的历史用户数据,由于来自不同***,历史用户数据存在大量的拼写问题、输入错误、不合法值、空值、不一致值、简写、同一实体的多种表示(重复)、不遵循引用完整性等质量问题,为了直观的发现这些历史用户数据的质量问题,利用数据审核功能实现对于海量历史用户数据的质量把控。历史用户数据的数据审核针对数值型数据和非数值型数据审核的数据样本侧重点不同。
204、对数据审核后的历史用户数据进行数据分类。
对数据审核后的历史用户数据进行数据分类是基于模型探索,其基本思路是历史用户数据细分,通过对历史用户数据进行初步分析,把历史用户数据细分为不同的类型,将历史用户数据按照某些关键属性的取值,分为不同的群组,并分析组内历史用户数据特征的显著程度和组间的差异程度。这是发现流失用户特征的试探方法,通过这种初级的试探,可以辅助发现用户流失预测模型特征的大致方向。
205、对数据分类后的历史用户数据中的历史用户行为数据的属性变量进行约减。
并非用户宽表中的所有数据分类后的历史用户数据中的历史用户行为数据的属性变量都参与建模过程,过多的历史用户行为数据的属性变量往往造成用户流失预测模型建立的不准确。此步骤基于关联规则实现对于非数值型历史用户行为数据的属性变量的约减,基于相关系数法实现对于数值型历史用户行为数据属性变量的约减。
206、对历史用户数据的缺失值进行填充,其中历史用户数据包含属性变量约减后的历史用户行为数据,获得预处理后的历史用户数据。
从各本地业务、数据源***中获取的历史用户数据存在很多缺失值,由于缺失值的存在将导致历史用户数据无法很好参与建模,影响建模精度。缺失值处理过程基于平均值、关联规则等方法实现对于历史用户数据中缺失值的填充处理。以上,步骤202-206并不对其执行的先后顺序做限定,即在步骤202-206示出的对历史用户数据的预处理过程中,只要按照一定顺序能够完成对历史用户数据的如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充即可。
参照图3,通过图3对步骤102~105进行详细说明。
301、建立初始窗口样本区(训练样本)和初始窗口外样本区(测试样本)。
在历史用户数据中获取训练样本建立初始窗口样本区,获取测试样本建立初始窗口外样本区。例如,可以将历史用户数据中70%作为训练样本建立初始窗口样本区,30%作为测试样本建立初始窗口外样本区。
302、对初始窗口样本区根据预定算法本进行学习生成用户流失预测模型。
示例性的,预定算法包括但不限于决策树、随机森林、支持向量机、朴素贝叶斯等算法。
303、利用初始窗口外样本区的历史用户行为数据测试基于初始窗口样本区生成的用户流失预测模型进行测试,得到预测的用户状态数据。
304、对比预测的用户状态数据与测试样本的历史用户状态数据是否一致。若一致,流程结束;若不一致的,进行步骤305;
305、判断测试样本中的历史用户状态数据中是否存在用户流失状态数据。
若不存在,进行步骤306;若存在,进行步骤307。
306、将预测错误的测试样本中的第一预定比例的测试样本加入训练样本中重新生成用户流失预测模型;跳转到步骤303。
示例性的,第一预定比例可以为测试样本中预测错误的用户状态数据的50%。
307、将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入所述训练样本中重新生成用户流失预测模型;跳转到步骤303。
示例性的,第二预定比例可以为测试样本中预测错误的用户状态数据的50%,第三预定比例可以为测试样本中预测正确的用户状态数据的50%。
另外,参照图4所示,为用户流失预测模型的优化流程图,具体步骤如下所示:
401、生成当前时间之前至少两个时间段的历史用户数据对应的用户流失预测模型,其中至少两个时间段均以当前时间为结束端点,至少两个时间段的长度不同。
402、对至少两个用户流失预测模型进行评估。
403、根据至少两个用户流失预测模型的评估结果,获得目标用户流失预测模型。
详细的,评估结果包括以下的一项或多项:准确率、召回率以及F1分数;其中准确率(precision)为预测准确流失用户数与预测流失用户数的百分比;召回率(recall)为预测准确流失用户数与实际流失用户数的百分比;F1分数(F1score)为:2*准确率*召回率/(准确率+召回率),即
详细的,在用户流失预测过程中,随着时间推移,需要定期进行预测,由于用户行为发生变化,需要对用户流失预测模型进行更新优化,特别是遇到寒暑假、劳动节、国庆节等节假日,用户行为变化较大,利用节假日数据建立模型,适应性较差,为了使节假日数据对模型的影响减小到最低,参照图5所示对用户流失预测模型的优化流程进行示例性的说明,其中图5中相邻两条竖线表示一个时间段。假定用户流失的预测周期为月(预测周期可以为周或天,原理相同),则这里设定一个时间段表示一个月,模型建立及更新逻辑如下:
501、初次建立用户流失预测模型。至少需要获取最近连续四个月的用户数据建立第一用户流失预测模型(这里选取最小时间段为四个月)。其中历史用户数据包括三个月的历史用户行为数据和一个月的历史用户状态数据,需要说明的是,三个月的历史用户行为数据与一个月的历史用户状态数据成对应关系;另外,三个月的历史用户行为数据在一个月的历史用户状态数据之前。
例如,若预测8月初的用户状态数据,可以获取4月至7月的历史用户数据建立用户流失预测模型。具体步骤如下:
首先,获取4月至7月的历史用户数据,其中包括4月至6月的历史用户行为数据,对应7月的历史用户状态数据。
然后,根据4月至7月的历史用户数据建立用户流失预测模型,其中根据历史用户数据建立第一用户流失预测模型已在图2和图3中进行详细的描述,具体流程参照图2和图3,此处不再赘述。
最后,获取5月至7月的历史用户行为数据,并将其输入到用户流失预测模型中预测8月的用户状态数据。
502、第二次更新用户流失预测模型。获取最近连续四个月的历史用户数据建立第二用户流失预测模型;其中历史用户数据包括三个月历史用户行为数据和一个月的历史用户状态数据。需要说明的是,三个月的历史用户行为数据与一个月的历史用户状态数据成对应关系,另外三个月的历史用户行为数据在一个月的历史用户状态数据之前。再获取最近连续五个月的历史用户数据建立第三用户流失预测模型,其中历史用户数据包括四个月历史用户行为数据和一个月的历史用户状态数据。需要说明的是,四个月的历史用户行为数据与一个月的历史用户状态数据成对应关系;另外,四个月的历史用户行为数据在一个月的历史用户状态数据之前。对第二用户流失预测模型与第三用户流失预测模型进行评估,根据第二用户流失预测模型与第三用户流失预测模型的评估结果,获得目标用户流失预测模型。对第四用户流失预测模型、第五用户流失预测模型以及第六用户流失预测模型进行评估,根据第四用户流失预测模型、第五用户流失预测模型以及第六用户流失预测模型的评估结果,获得目标用户流失预测模型。
例如,预测9月初的用户状态数据,可以获取4月至8月的历史用户数据建立用户流失预测模型。具体步骤如下:
首先,获取5月至8月的历史用户数据建立第二用户流失预测模型。再获取4月至8月的历史用户数据建立第三用户流失预测模型。其中建立第二用户流失预测模型与第三用户流失预测模型的步骤与第一用户流失预测模型相同,具体流程参照图5,此处不再赘述。
然后,对第二用户流失预测模型与第三用户流失预测模型进行评估,根据第二用户流失预测模型与第三用户流失预测模型的评估结果,获得目标用户流失预测模型。
最后,若第二用户流失预测模型预测效果优于第三用户流失预测模型,则将第二用户流失预测模型作为目标用户流失预测模型,并获取6月至8月的历史用户行为数据,将其输入到用户流失预测模型中预测9月的用户状态数据;若第三用户流失预测模型预测效果优于第二用户流失预测模型,则将第三用户流失预测模型作为目标用户流失预测模型,并获取5月至8月的历史用户行为数据,将其输入到用户流失预测模型中预测9月初的用户状态数据。
需要说明的是,评估结果具体包括以下的一项或多项:准确率、召回率以及F1分数。其中,准确率(precision)为预测准确流失用户数与预测流失用户数的百分比;召回率(recall)为预测准确流失用户数与实际流失用户数的百分比;F1分数(F1score)为:其中,F1分数(F1 score)是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了用户流失预测模型的准确率和召回率,F1分数可以看作是模型准确率和召回率的一种加权平均。例如若第二用户流失预测模型的准确率更高,第三用户流失预测模型的召回率更高。若需要准确率更高的目标用户流失预测模型,则选择第二用户流失预测模型作为目标用户流失预测模型;若需要召回率更高的目标用户流失预测模型,则选择第三用户流失预测模型作为目标用户流失预测模型。
503、第三次更新用户流失预测模型,获取最近连续四个月的历史用户数据建立第四用户流失预测模型;其中历史用户数据包括三个月历史用户行为数据和一个月的历史用户状态数据。需要说明的是,三个月的历史用户行为数据与一个月的历史用户状态数据成对应关系;另外,三个月的历史用户行为数据在一个月的历史用户状态数据之前。再获取最近连续五个月的历史用户数据建立第五用户流失预测模型,其中历史用户数据包括四个月历史用户行为数据和一个月的历史用户状态数据。需要说明的是,四个月的历史用户行为数据与一个月的历史用户状态数据成对应关系;另外,四个月的历史用户行为数据在一个月的历史用户状态数据之前。再获取最近连续六个月的历史用户数据建立第六用户流失预测模型,其中历史用户数据包括五个月历史用户行为数据和一个月的历史用户状态数据。需要说明的是,五个月的历史用户行为数据与一个月的历史用户状态数据成对应关系;另外,五个月的历史用户行为数据在一个月的历史用户状态数据之前。
例如,预测10月初的用户状态数据,可以获取4月至9月的历史用户数据建立用户流失预测模型。具体步骤如下:
首先,获取6月至9月的历史用户数据建立第四用户流失预测模型;再获取5月至9月的历史用户数据建立第五用户流失预测模型;再获取4月至9月的历史用户数据建立第六用户流失预测模型。其中建立第四用户流失预测模型、第五用户流失预测模型以及第六用户流失预测模型的步骤与第一用户流失预测模型相同,此处不再赘述。
然后,对第四用户流失预测模型、第五用户流失预测模型以及第六用户流失预测模型进行评估,根据评估结果确定目标用户流失预测模型。具体的流程参照上述9月初的用户流失预测流程,这里不再进行详细描述。
用户流失预测模型更新逻辑依次类推,此处不再作过多的描述。
在上述宽带用户流失预测方法,首先,获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;其中第一预定时间段内的历史用户状态数据与第一预定时间段之后的第二预定时间段内的历史用户行为数据相对应;然后在历史用户数据中获取训练样本,根据预定算法对训练样本进行学***衡分布处理,使得用户流失预测模型充分的学习到流失用户的特征,提高用户流失预测模型对未来用户流失预测的准确率和召回率。
如图6,本发明实施例提供一种宽带用户流失预测***60,包括:
获取模块601,用于获取历史用户数据,历史用户数据包括历史用户行为数据和历史用户状态数据;其中,历史用户行为数据包括用户使用流量时长以及投诉数据,历史用户状态数据包括用户流失状态数据和用户非流失状态数据,其中第一预定时间段内的历史用户状态数据与第一预定时间段之后的第二预定时间段内的历史用户行为数据相对应。
训练模块602,用于在根据获取模块601获取的历史用户数据中获取训练样本,对训练样本根据预定算法进行学习生成用户流失预测模型。
测试模块603,用于根据获取模块601在历史用户数据中选取测试样本,将测试样本的历史用户行为数据输入用户流失预测模型,获得预测的用户状态数据。
处理模块604,用于若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据全部为非流失状态时,将预测错误的测试样本中的第一预定比例的测试样本加入训练样本中重新生成用户流失预测模型。
处理模块604,还用于若预测的用户状态数据与测试样本的历史用户状态数据存在不一致的;则在测试样本中的历史用户状态数据存在流失状态时,将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入训练样本中重新生成用户流失预测模型。
预测模块605,用于将预定时间段内根据获取模块601获取的历史用户行为数据输入重新生成的用户流失预测模型,获得未来用户状态数据。
在一种示例性的方案中,处理模块604,还用于对数据获取模块601获取的历史用户数据进行预处理。
在一种示例性的方案中,处理模块604,用于对获取模块601获取的历史用户数据进行至少如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充。
在一种示例性的方案中,训练模块602,用于生成当前时间之前根据获取模块601获取的至少两个时间段的历史用户数据对应的用户流失预测模型,其中至少两个时间段均以当前时间为结束端点,至少两个时间段的长度不同;评估模块606,用于对根据训练模块602生成的至少两个用户流失预测模型进行评估;根据至少两个用户流失预测模型的评估结果,获得目标用户流失预测模型。
在一种示例性的方案中,评估结果包括以下的一项或多项:准确率、召回率以及F1分数;其中准确率为:预测准确流失用户数与预测流失用户数的百分比;召回率为:预测准确流失用户数与实际流失用户数的百分比;F1分数为:2*准确率*召回率/(准确率+召回率)。
其中,上述方法实施例涉及的内容以及实现的技术效果可以直接援引***实施例中对应的功能模块中的描述,具体不再赘述。
结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。例如:上述的处理模块可以由处理器实现,获取模块可以由收发器或者其他就有信号接收功能的电路实现。本发明实施例还提供一种存储介质,该存储介质可以包括存储器,用于储存为宽带用户流失预测***所用的计算机软件指令,其包含执行寻呼方法所设计的程序代码。具体的,软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read Only Memory,ROM)、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。
本发明实施例还提供一种计算机程序,该计算机程序可直接加载到存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述的宽带用户流失预测方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种宽带用户流失预测方法,其特征在于,包括:
获取历史用户数据,所述历史用户数据包括历史用户行为数据和历史用户状态数据;其中,所述历史用户行为数据包括用户使用流量时长以及投诉数据,所述历史用户状态数据包括用户流失状态数据和用户非流失状态数据,其中第一预定时间段内的所述历史用户状态数据与所述第一预定时间段之后的第二预定时间段内的所述历史用户行为数据相对应;
在所述历史用户数据中选取训练样本,对所述训练样本根据预定算法进行学习,生成用户流失预测模型;
在所述历史用户数据中选取测试样本,将所述测试样本的历史用户行为数据输入所述用户流失预测模型,获得预测的用户状态数据;
若所述预测的用户状态数据与所述测试样本的历史用户状态数据存在不一致的;则在所述测试样本中的历史用户状态数据全部为非流失状态时,将预测错误的测试样本中的第一预定比例的测试样本加入所述训练样本中重新生成用户流失预测模型;
若所述预测的用户状态数据与所述测试样本的历史用户状态数据存在不一致的;则在所述测试样本中的历史用户状态数据存在流失状态时,将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入所述训练样本中重新生成用户流失预测模型;
将预定时间段内获取的历史用户行为数据输入所述重新生成的用户流失预测模型,获得未来用户状态数据。
2.根据权利要求1所述的宽带用户流失预测方法,其特征在于,所述获取历史用户数据,之后还包括:对所述历史用户数据进行预处理。
3.根据权利要求2所述的宽带用户流失预测方法,其特征在于,所述对所述历史用户数据进行预处理,包括:
对所述历史用户数据进行至少如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充。
4.根据权利要求1所述的宽带用户流失预测方法,其特征在于,所述方法还包括:
生成当前时间之前至少两个时间段的历史用户数据对应的用户流失预测模型,其中所述至少两个时间段均以所述当前时间为结束端点,所述至少两个时间段的长度不同;
对至少两个用户流失预测模型进行评估,根据至少两个用户流失预测模型的评估结果,获得目标用户流失预测模型。
5.根据权利要求4所述的宽带用户流失预测方法,其特征在于,所述评估结果包括以下的一项或多项:准确率、召回率以及F1分数;其中
所述准确率为:预测准确流失用户数与预测流失用户数的百分比;
所述召回率为:预测准确流失用户数与实际流失用户数的百分比;
所述F1分数为:2*准确率*召回率/(准确率+召回率)。
6.一种宽带用户流失预测***,其特征在于,包括:
获取模块,用于获取历史用户数据,所述历史用户数据包括历史用户行为数据和历史用户状态数据;其中,所述历史用户行为数据包括用户使用流量时长以及投诉数据,所述历史用户状态数据包括用户流失状态数据和用户非流失状态数据,其中第一预定时间段内的所述历史用户状态数据与所述第一预定时间段之后的第二预定时间段内的所述历史用户行为数据相对应;
训练模块,用于在根据所述获取模块获取的所述历史用户数据中选取训练样本,对所述训练样本根据预定算法进行学习,生成用户流失预测模型;
测试模块,用于在根据所述获取模块获取的所述历史用户数据中选取测试样本,将所述测试样本的历史用户行为数据输入所述用户流失预测模型,获得预测的用户状态数据;
处理模块,用于若所述预测的用户状态数据与所述测试样本的历史用户状态数据存在不一致的;则在所述测试样本中的历史用户状态数据全部为非流失状态时,将预测错误的测试样本中的第一预定比例的测试样本加入所述训练样本中重新生成用户流失预测模型;
所述处理模块,还用于若所述预测的用户状态数据与所述测试样本的历史用户状态数据存在不一致的;则在所述测试样本中的历史用户状态数据存在流失状态时,将预测错误的测试样本中的第二预定比例的测试样本以及预测正确的测试样本中的第三预定比例的测试样本加入所述训练样本中重新生成用户流失预测模型;
预测模块,用于将预定时间段内根据所述获取模块获取的历史用户行为数据输入所述重新生成的用户流失预测模型,获得未来用户状态数据。
7.根据权利要求6所述的宽带用户流失预测***,其特征在于,
所述处理模块,还用于对所述数据获取模块获取的所述历史用户数据进行预处理。
8.根据权利要求7所述的宽带用户流失预测***,其特征在于,
所述处理模块,用于对所述获取模块获取的所述历史用户数据进行至少如下各项中的一项或多项操作:属性变量的重构、数据审核、数据分类、属性变量的约减,缺失值的填充。
9.根据权利要求6所述的宽带用户流失预测***,其特征在于,
所述训练模块,用于生成当前时间之前根据所述获取模块获取的至少两个时间段的历史用户数据对应的用户流失预测模型,其中所述至少两个时间段均以所述当前时间为结束端点,所述至少两个时间段的长度不同;评估模块,用于对根据所述训练模块生成的所述至少两个用户流失预测模型进行评估;根据所述至少两个用户流失预测模型的评估结果,获得目标用户流失预测模型。
10.根据权利要求9所述的宽带用户流失预测***,其特征在于,所述评估结果包括以下的一项或多项:准确率、召回率以及F1分数;其中,
所述准确率为:预测准确流失用户数与预测流失用户数的百分比;
所述召回率为:预测准确流失用户数与实际流失用户数的百分比;
所述F1分数为:2*准确率*召回率/(准确率+召回率)。
CN201810691994.4A 2018-06-28 2018-06-28 一种宽带用户流失预测方法及*** Pending CN108989096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810691994.4A CN108989096A (zh) 2018-06-28 2018-06-28 一种宽带用户流失预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810691994.4A CN108989096A (zh) 2018-06-28 2018-06-28 一种宽带用户流失预测方法及***

Publications (1)

Publication Number Publication Date
CN108989096A true CN108989096A (zh) 2018-12-11

Family

ID=64538804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810691994.4A Pending CN108989096A (zh) 2018-06-28 2018-06-28 一种宽带用户流失预测方法及***

Country Status (1)

Country Link
CN (1) CN108989096A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570948A (zh) * 2019-09-09 2019-12-13 深圳市伊欧乐科技有限公司 一种用户未来体重预测方法、装置、服务器及存储介质
CN110930192A (zh) * 2019-11-22 2020-03-27 携程旅游信息技术(上海)有限公司 用户流失预测方法、***、设备和存储介质
CN112085528A (zh) * 2020-09-08 2020-12-15 北京深演智能科技股份有限公司 数据处理方法和装置
CN112749721A (zh) * 2019-10-31 2021-05-04 彩虹无线(北京)新技术有限公司 驾驶风险评价模型训练方法及装置
CN113066479A (zh) * 2019-12-12 2021-07-02 北京沃东天骏信息技术有限公司 一种评测模型的方法和装置
CN113641912A (zh) * 2021-08-20 2021-11-12 北京得间科技有限公司 信息推送方法、计算设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220933A1 (en) * 2016-01-28 2017-08-03 Facebook, Inc. Systems and methods for churn prediction
CN107067033A (zh) * 2017-04-12 2017-08-18 邹霞 机器学习模型的局部修复方法
US20180018684A1 (en) * 2016-07-13 2018-01-18 Urban Airship, Inc. Churn prediction with machine learning
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108039977A (zh) * 2017-12-21 2018-05-15 广州市申迪计算机***有限公司 一种基于用户上网行为的电信用户流失预测方法及装置
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220933A1 (en) * 2016-01-28 2017-08-03 Facebook, Inc. Systems and methods for churn prediction
US20180018684A1 (en) * 2016-07-13 2018-01-18 Urban Airship, Inc. Churn prediction with machine learning
CN107067033A (zh) * 2017-04-12 2017-08-18 邹霞 机器学习模型的局部修复方法
CN107832581A (zh) * 2017-12-15 2018-03-23 百度在线网络技术(北京)有限公司 状态预测方法和装置
CN108039977A (zh) * 2017-12-21 2018-05-15 广州市申迪计算机***有限公司 一种基于用户上网行为的电信用户流失预测方法及装置
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570948A (zh) * 2019-09-09 2019-12-13 深圳市伊欧乐科技有限公司 一种用户未来体重预测方法、装置、服务器及存储介质
CN112749721A (zh) * 2019-10-31 2021-05-04 彩虹无线(北京)新技术有限公司 驾驶风险评价模型训练方法及装置
CN110930192A (zh) * 2019-11-22 2020-03-27 携程旅游信息技术(上海)有限公司 用户流失预测方法、***、设备和存储介质
CN113066479A (zh) * 2019-12-12 2021-07-02 北京沃东天骏信息技术有限公司 一种评测模型的方法和装置
CN112085528A (zh) * 2020-09-08 2020-12-15 北京深演智能科技股份有限公司 数据处理方法和装置
CN113641912A (zh) * 2021-08-20 2021-11-12 北京得间科技有限公司 信息推送方法、计算设备及计算机存储介质
CN113641912B (zh) * 2021-08-20 2024-02-09 北京得间科技有限公司 信息推送方法、计算设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN108989096A (zh) 一种宽带用户流失预测方法及***
Saliu et al. Supporting software release planning decisions for evolving systems
US8170894B2 (en) Method of identifying innovations possessing business disrupting properties
US7970683B2 (en) System and method for multi-state tax analysis
CN110349000A (zh) 基于用户分群的提额策略确定方法、装置和电子设备
CN110309923A (zh) 横向联邦学习方法、装置、设备及计算机存储介质
Allmendinger et al. Navigation in multiobjective optimization methods
CN114219360A (zh) 基于模型优化的监控安全预测方法及***
Urquhart et al. Optimisation and illumination of a real-world workforce scheduling and routing application (WSRP) via Map-Elites
CN110415103A (zh) 基于变量影响度指标进行用户分群提额的方法、装置和电子设备
CN110349007A (zh) 基于变量区分度指标进行用户分群提额的方法、装置和电子设备
Mouhib et al. TSMAA‐TRI: A temporal multi‐criteria sorting approach under uncertainty
CN109992412A (zh) 云服务器的容量调节方法、装置、存储介质和云服务器
Malairajan et al. CLING: heuristic to solve integrated resource allocation and routing problem with time window
Song et al. A heuristic genetic algorithm for regional targets’ small satellite image downlink scheduling problem
Demiral et al. Economic complexity–carbonization nexus in the European Union: A heterogeneous panel data analysis
Borissova et al. Multi-Attribute Decision-Making Model for Ranking of Web Development Frameworks
Kunc Strategic planning: The role of hybrid modelling
Liu et al. Expected value-based method to determine the importance of engineering characteristics in QFD with uncertainty theory
CN112419025A (zh) 用户数据处理方法和装置、存储介质、电子设备
CN110070208B (zh) 一种基于数据修正的铁路日常客运量获取方法
Maheshwari et al. Selection of Accounting Software Tools for Small Businesses: Analytical Hierarchy Process Approach
Calvino et al. Artificial intelligence, complementary assets and productivity: evidence from French firms
US20230325840A1 (en) Transaction-risk evaluation by resource-limited devices
Kim Forecasting the evolution of wireless technologies: the Loglet analysis approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication