CN117764227A - 一种用于加油站的客户流失预测装置 - Google Patents

一种用于加油站的客户流失预测装置 Download PDF

Info

Publication number
CN117764227A
CN117764227A CN202311653515.7A CN202311653515A CN117764227A CN 117764227 A CN117764227 A CN 117764227A CN 202311653515 A CN202311653515 A CN 202311653515A CN 117764227 A CN117764227 A CN 117764227A
Authority
CN
China
Prior art keywords
customer
transaction
module
data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311653515.7A
Other languages
English (en)
Inventor
王万波
肖永威
戴世锋
刘博�
贾长红
李晨亮
吴宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Tianyuan Petrochemical Engineering Design Co ltd
Original Assignee
Harbin Tianyuan Petrochemical Engineering Design Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Tianyuan Petrochemical Engineering Design Co ltd filed Critical Harbin Tianyuan Petrochemical Engineering Design Co ltd
Priority to CN202311653515.7A priority Critical patent/CN117764227A/zh
Publication of CN117764227A publication Critical patent/CN117764227A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用于加油站的客户流失预测装置,属于加油站销售管理技术领域,尤其涉及流失客户的预测;解决了现有技术所存在的解释性较差、无法对客户交易行为及其流失因素进行分析,以及无法指导企业为客户提供精准服务的问题;所述装置包括:数据获取模块、机器学习模块、机器学习XGBoost分类模型模块以及深度学习CNN模型模块;所述数据获取模块,用于获得客户交易行为时序数据;所述机器学习模块包括特征工程子模块以及XGBoost分类模型子模块;所述深度学习CNN模型模块,用于获得客户流失预测结果。所述一种用于加油站的客户流失预测装置,适用于对加油站的客户流失进行预测,以及指导加油站企业为客户提供精准服务。

Description

一种用于加油站的客户流失预测装置
技术领域
本发明涉及加油站销售管理技术领域,尤其涉及流失客户的预测。
背景技术
随着中国成品油销售市场全面开放,多元化竞争格局形成,加油站面临较大的经营压力,客户争夺日趋白热化,由于获客成本逐年升高,因此,企业更需要借助客户流失预测分析,实施精准营销,提高客户留存,有效延长客户生命周期。
在成品油销售企业的客户关系管理中,与客户活跃度相关的概念有客户活跃、客户不活跃、客户濒临流失以及客户流失等四个概念。客户流失是指客户长时间不发生加油或非油消费等交易;其中,“长时间”的边界,在不同的与客户活跃度相关的概念中是不同的;在与客户活跃度相关的概念中,“长时间”的边界定义如下:
(1)(客户)流失:距最近交易时间>180天;
(2)(客户)濒临流失:距最近交易时间≥90,且<180天;
(3)(客户)不活跃:距最近交易时间≥30,且<90天;
(4)(客户)活跃:距最近交易时间<30天;
目前,国内外对于客户流失的研究主要集中在电信、银行等行业;加油站领域对客户流失的研究较少。
现有的客户流失预测技术,一般基于深度学习算法获得。虽然深度学习算法具有很高的预测准确度,但是其解释性较差,不利于深入了解客户交易行为与流失因素的关系。当今,企业用户更想知道今天来加油客户的流失概率(即不同交易行为客户的流失概率),以及为哪些客户提供精准服务。现有的客户流失预测技术,无法对交易行为与流失因素的关系进行分析,也就无法帮助企业根据客户交易行为的不同,制定不同的服务策略(即精准服务),以减少客户的流失概率。
同时,随着近几年企业大数据基础建设的推进,越来越多的数据驱动技术被应用在各个领域。大数据分析可以为企业提供客户交易的大量数据。而现有客户流失预测技术,大多专注于算法模型及应用,很少涉及对大数据分析获得的客户交易行为数据进行分析。
发明内容
本发明提出了一种用于加油站的客户流失预测装置,解决了现有技术所存在的解释性较差、无法对客户交易行为及其流失因素进行分析,以及无法指导企业为客户提供精准服务的问题。
本发明所述的一种用于加油站的客户流失预测装置,其技术方案如下:
所述装置包括:数据获取模块、机器学习模块、机器学习XGBoost分类模型模块以及深度学习CNN模型模块;
所述数据获取模块,用于采用大数据分析的方法,根据客户原始交易数据,获得客户交易行为时序数据;
所述机器学习模块包括特征工程子模块以及XGBoost分类模型子模块;
所述特征工程子模块,用于根据所述客户交易行为时序数据,获得客户特征;
所述XGBoost分类模型子模块,用于根据所述客户特征预测客户流失,获得客户流失初步预测结果;
所述深度学习CNN模型模块,用于根据所述客户交易行为时序数据,修正所述客户流失初步预测结果,获得客户流失预测结果;所述客户流失预测结果包括活跃客户筛选结果、预警客户筛选结果以及预测流失客户筛选结果。
进一步的,提供一个优选实施方式,所述客户交易时序数据由按时间序列采集的若干个客户交易样本组成;
第i个客户交易样本包括:交易时间ti、间隔天数Δti、油品交易金额ai、加油量vi、非油品交易金额gi、合计交易金额mi、充值金额ri、余额bi、客户总交易次数N以及充值次数M;
其中,Δti=ti-ti-1,Δt1=0,i∈[1,...N]。
进一步的,提供一个优选实施方式,所述客户特征包括客户交易特征、客户通用统计特征以及客户衍生特征;
所述特征工程子模块包括交易特征提取单元,统计特征提取单元以及衍生特征提取单元;
所述交易特征提取单元,用于将所述客户交易时序数据转换为二维矩阵,所述二维矩阵中的两个维度分别为时间序列和客户交易特征;
所述统计特征提取单元,用于获取客户通用统计特征;
所述衍生特征提取单元,用于获取客户衍生特征。
进一步的,提供一个优选实施方式,所述客户交易特征包括加油量、消费金额、加油站编码、物料编码、折扣金额、间隔天数、会员天数、周、加油时刻(时分)、价格差、据上次价格变动时长、实际价格差、交易类型、季节、交易数据ID、交易主ID、活动ID、时间分钟、礼物ID以及客户级别。
进一步的,提供一个优选实施方式,所述客户通用统计特征包括会员天数、油品偏好、非油品偏好、月均消费、交易次数、最近余额、最近月份加油量、召回次数、最近交易间隔天数以及最近加油比最大加油量。
进一步的,提供一个优选实施方式,所述客户衍生特征包括间隔天数斜率、间隔时间标准差、日均油耗趋势斜率、日均油耗趋势标准差、间隔时间偏度、折扣标准差、距最近充值天数、常去加油站占比、价格敏感度、标准交易间隔天数以及最近交易与习惯差。
进一步的,提供一个优选实施方式,所述衍生特征提取单元,根据线性回归函数,获得所述间隔天数斜率。
进一步的,提供一个优选实施方式,所述衍生特征提取单元,根据数据密度聚类方法,获得所述标准交易间隔天数。
进一步的,提供一个优选实施方式,所述XGBoost分类模型子模块,由多棵分类回归树CART组成。
进一步的,提供一个优选实施方式,所述深度学习CNN模型模块包括8个层次结构:输入层、第1卷积层、第1池化层、第2卷积层、第2池化层、第1全连接层、第2全连接层以及输出层;
所述输入层包括20个特征维度,每个特征维度有100个数据点;所述输入层用于输入所述客户交易时序数据;
所述第1卷积层包括16个3×3的卷积核,用于生成16个第1特征图;
所述第1池化层包括2×2的最大池化核,用于对每个第1特征图进行下采样,获得6个50×10的第1子图;
所述第2卷积包括32个3×3的卷积核,用于根据所述第1子图,生成32个第2特征图;
所述第2池化层包括2×2的最大池化核,用于对每个第2特征图进行下采样,获得32个25×5的第2子图;
所述第1全连接层包括256个神经元的全连接层,用于将所述第2子图展开为一维向量后进行全连接处理;
所述第2全连接层包括128个神经元的全连接层,用于对所述第1全连接层的输出结果进行第二次全连接处理;
所述输出层采用softmax激活函数,用于根据所述第2全连接层的输出结果,获得二分类结果;所述二分类结果,用于修正所述客户流失初步预测结果,获得客户流失预测结果。
本发明有以下有益效果:
1.本发明所述的一种用于加油站的客户流失预测装置,通过机器学习技术和深度学习技术的结合,兼顾了客户流失预测的准确度与可解释性。
2.本发明所述的一种用于加油站的客户流失预测装置,通过对大数据分析获得的客户交易行为数据进行分析以及对客户特征的筛选,可以提前预警并预测可能流失的客户,从而为精准服务和营销提供了决策依据。
3.本发明所述的一种用于加油站的客户流失预测装置,通过对大数据分析获得的客户交易行为数据进行分析以及对客户特征的筛选,可以实现客户细分、客户画像以及客户流失因素分析。
本发明所述的一种用于加油站的客户流失预测装置,适用于对加油站的客户流失进行预测,以及指导加油站企业为客户提供精准服务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的一个实施例中,客户流失预测装置的结构图;
图2为本发明的一个实施例中,客户交易时序数据的示意图;
图3为本发明的一个实施例中,两组交易间隔天数散点图的示意图;
图4为本发明的一个实施例中,交易间隔时间的聚类分析散点图;
图5为本发明的一个实施例中,深度学习CNN模型模块的层次结构图;
图6为本发明的一个实施例中,客户衍生特征重要程度排序的示意图。
具体实施方式
为使本发明的技术方案及优点表述更清楚,下面将结合附图对本发明实施例中具体实施方式作进一步地详细、完整地描述;显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例;下面描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制;本发明中各个实施例所限定的技术特征的合理组合,以及基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一、结合图1说明本实施例,本实施例提供一种用于加油站的客户流失预测装置,具体实施内容如下:
一种用于加油站的客户流失预测装置,所述装置包括:数据获取模块、机器学习模块、机器学习XGBoost分类模型模块以及深度学习CNN模型模块;
所述数据获取模块,用于采用大数据分析的方法,根据客户原始交易数据,获得客户交易行为时序数据;
所述机器学习模块包括特征工程子模块以及XGBoost分类模型子模块;
所述特征工程子模块,用于根据所述客户交易行为时序数据,获得客户特征;
所述XGBoost分类模型子模块,用于根据所述客户特征预测客户流失,获得客户流失初步预测结果;
所述深度学习CNN模型模块,用于根据所述客户交易行为时序数据,修正所述客户流失初步预测结果,获得客户流失预测结果;所述客户流失预测结果包括活跃客户筛选结果、预警客户筛选结果以及预测流失客户筛选结果。
本实施例中,所述大数据分析的方法属于现有常用方法,此处不再赘述。
所述客户原始交易数据,可以通过加油站本地的加油数据管理***或者互联网上的加油数据管理***获得。
所述客户原始交易数据包括客户各种交易行为的数据以及外部油价数据。
客户各种交易行为的数据中所述交易行为,是指客户在加油站所做的加油、非油消费、充值等三种活动中任意一种或任意几种组合;在数据层面体现为客户的交易时间、交易地点、交易物品(油、非油)、加油量、消费金额以及充值金额等信息。所述数据,可以按日为一次进行统计。
所述外部油价数据即市场油价数据,可以以市场油品最高零售价格为标准,结合油价调价日期、各种油品价格以及价格变动差值获得。
本实施例中,所述特征工程子模块以及XGBoost分类模型子模块,都是基于机器学习技术构建模型。采用机器学习技术对客户交易时序数据进行分析,获得客户特征以及客户流失初步预测结果,可以深入分析客户交易行为与流失因素的关系,使得客户流失的预测具有可解释性。
本实施例中,所述深度学习CNN模型模块,是基于深度学习技术构建的模型。采用深度学习技术参与客户流失的预测,可以弥补单独采用机器学习技术进行预测准确度不够的问题。
本实施例中,所述装置通过将机器学习技术和深度学习技术结合,兼顾了客户流失预测的准确度与可解释性。
本实施例中,所述装置通过对大数据分析获得的客户交易数据进行分析以及对客户特征的筛选,可以提前预警并预测可能流失的客户,从而为精准服务和营销提供了决策依据。
本实施例中,所述装置可以用于客户细分、客户画像、客户流失预测以及客户流失因素分析的领域。
实施例二、结合图2说明本实施例,本实施例是对实施例一所述的一种用于加油站的客户流失预测装置的进一步限定,具体实施内容如下:
所述客户交易时序数据由按时间序列采集的若干个客户交易样本组成;
第i个客户交易样本包括:交易时间ti、间隔天数Δti、油品交易金额ai、加油量vi、非油品交易金额gi、合计交易金额mi、充值金额ri、余额bi、客户总交易次数N以及充值次数M;
其中,Δti=ti-ti-1,Δt1=0,i∈[1,...N]。
需要说明的是,客户给车辆加油是一种持续、周期性较强的交易行为;同时,受到燃油品质的制约,加油这种行为又相对稳定。基于此前提,加油站客户交易活动具有典型的时间序列周期特征。
本实施方式中,所述客户交易样本,是指在某个时间点客户在加油站发生放入某一交易行为中产生的数据;所述交易行为包括客户在加油站所做的加油、非油消费、充值等三种活动中任意一种或任意几种组合;所述产生的数据,包括客户的交易时间、交易地点、交易物品(油、非油)、加油量、消费金额以及充值金额等。
实施例三、结合图1说明本实施例,本实施例是对实施例一所述的一种用于加油站的客户流失预测装置的进一步限定,具体实施内容如下:
所述客户特征包括客户交易特征、客户通用统计特征以及客户衍生特征;
所述特征工程子模块包括交易特征提取单元,统计特征提取单元以及衍生特征提取单元;
所述交易特征提取单元,用于将所述客户交易时序数据转换为二维矩阵,所述二维矩阵中的两个维度分别为时间序列和客户交易特征;
所述统计特征提取单元,用于获取客户通用统计特征;
所述衍生特征提取单元,用于获取客户衍生特征。
本实施方式中,所述特征工程子模块,参考客户RFM模型的原理,根据所述客户交易时序数据,获得满足机器学习算法模型所需要的所述客户特征,且所述客户特征使得客户流失预测具有了可解释性。
本实施方式中,所述客户RFM模型,衡量客户价值和客户创造利益能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。
所述特征工程子模块结合所述XGBoost分类模型子模块,参考客户RFM模型的原理,对对客户进行分类和分析,可以进一步探索影响客户流失的关键因素,以求为加油站企业后续进行精准服务或营销提供辅助决策。
本实施例中,所述交易特征提取单元,将客户交易时序数据看作是一个二维矩阵,其中一维是时间序列,另一维是交易特征。
其中,时间序列属于隐式时间序列。所述隐式时间序列,是指将采样时间按照先后顺序逐行排列,但是不体现具体日期,以相对方式表示时间先后的序列。
所述(隐式)时间序列的排列规则如下:
以最近交易记录为始点,按照采样时间顺序倒叙排列;如果时间序列长度超过了100行,则将多余部分截断;如果时间序列长度不足100行,则将缺少的部分填充0。
进一步的,本发明的一个实施例中,所述客户交易特征包括加油量、消费金额、加油站编码、物料编码、折扣金额、间隔天数、会员天数、周、加油时刻(时分)、价格差、据上次价格变动时长、实际价格差、交易类型、季节、交易数据ID、交易主ID、活动ID、时间分钟、礼物ID以及客户级别。
本实施例中,所述客户交易特征,可以参见下表:
表1客户交易特征
特征名称 英文名称 来源
加油量 volumn 交易数据
消费金额 amount 交易数据
加油站编码 org_id 交易数据
物料编码 goodscategory_id 交易数据
折扣金额 discount 交易数据
间隔天数 days 交易时间
会员天数 daysnum 历史交易数据
weeks 交易时间
加油时刻(时分) tt 交易时间
价格差 pdiff 互联网
据上次价格变动时长 pt 互联网
实际价格差 rpdiff 互联网与交易
交易类型 trade_type 交易数据
季节 quarter 交易时间
交易数据ID id 交易数据
交易主ID maintradeid 交易数据
活动ID activityid 交易数据
时间分钟 minute 交易时间
礼物ID gift_id 交易数据
客户级别 customer_level 交易数据
进一步的,本发明的一个实施例中,所述客户通用统计特征包括会员天数、油品偏好、非油品偏好、月均消费、交易次数、最近余额、最近月份加油量、召回次数、最近交易间隔天数以及最近加油比最大加油量。
本实施方式中,所述统计特征提取单元,根据所述客户RFM模型的原理,通过对某个时间段(如最近时间段)的客户交易时序数据进行统计分析的方式,获得所述客户通用统计特征。
本实施方式中,所述客户通用统计特征,可见下表:
表2客户通用统计特征
特征名称 英文名称 来源
会员天数 daysnum 交易时间
油品偏好 gbehavior 交易物品
非油品偏好 obehavior 交易物品
月均消费 amountmean 交易金额
交易次数 lasttradecount 交易记录
最近余额 balance 余额
最近月份加油量 volumn 交易
召回次数 recall 交易记录
最近交易间隔天数 latestdays 交易时间
最近加油比最大加油量 volumnrate 加油量
进一步的,本发明的一个实施例中,所述客户衍生特征包括间隔天数斜率、间隔时间标准差、日均油耗趋势斜率、日均油耗趋势标准差、间隔时间偏度、折扣标准差、距最近充值天数、常去加油站占比、价格敏感度、标准交易间隔天数以及最近交易与习惯差。
本实施方式中,所述衍生特征提取单元,基于机器学习技术,对客户交易样本的维度进行升维,获得所述客户衍生特征。所述客户衍生特征,可以表征客户某一交易的趋势、稳定性以及在所有交易中的占比。
本实施方式中,所述客户衍生特征,可见下表:
表3客户衍生特征
特征名称 英文名称 来源
间隔天数斜率 IntervalSlope 交易时间
间隔时间标准差 IntervalStd 交易时间
日均油耗趋势斜率 dayvolSlope 交易时间、加油量
日均油耗趋势标准差 dayvolStd 交易时间、加油量
间隔时间偏度 skewness 间隔天数
折扣标准差 discountStd 折扣
距最近充值天数 recharge_days 交易时间
常去加油站占比 org_rate 交易站点
价格敏感度 pearson 交易金额、加油量
标准交易间隔天数 densitymean 交易时间
最近交易与习惯差 densitymeandiff 交易时间
进一步的,本发明的一个实施例中,所述衍生特征提取单元,根据所述标准差公式,获得所述折扣标准差。
所述标准差公式如下:
其中,xi代表用于计算的变量,此处为客户每次交易行为(样本)中的折扣记录。
本实施方式中,所述日均油耗趋势标准差,也根据所述标准差公式获得。
进一步的,本发明的一个实施例中,所述衍生特征提取单元,根据线性回归函数,获得所述间隔天数斜率。
所述线性回归函数如下:
F(xi,yi)=kx+b;
其中,k为斜率;xi和yi代表用于计算的变量,此处为交易间隔天数散点图中任意两点测量值。
本实施方式中,还可以通过计算两组测量值的最小二乘解一元线性函数,略去最小二乘法线性回归求斜率方法描述,则斜率表示为:
K=F(xi)。
本实施方式中,如图3两组交易间隔天数散点图所示:通过对两幅图的交易间隔天数趋势斜率进行对比,可知:
左侧图为为典型的客户流失情况,斜率KΔt=2.872,可以看出客户两次交易之间的间隔时间越来越长;右侧图为正常的客户不流失情况,斜率KΔt=-2.272。
本实施方式中,所述日均油耗趋势斜率,也可根据所述线性回归函数获得。
需要说明的是,交易趋势在客户流失的分析中是比较重要的因素。可以通过分析客户交易行为的斜率,来判断交易趋势的变化情况。例如当日均油耗趋势斜率远大于0时,说明客户加油间隔时间逐渐增加,即客户在加油站的消费频率逐渐下降,这种情况表明客户流失的可能性也越来越大。
进一步的,本发明的一个实施例中,所述衍生特征提取单元,根据数据密度聚类方法,获得所述标准交易间隔天数。
基本实施方式中,数据密度聚类方法DBSCAN,是基于一组邻域来描述样本集密度的空间聚类算法;所述DBSCan,将具有足够密度的区域划分为簇,并采用一对参数(∈,MinPts)来描述邻域的样本分布紧密程度;其中,参数∈用来描述某一样本的邻域距离阈值;参数MinPts用来描述某一样本的距离为∈的邻域中样本个数的阈值。
可以通过DBSCan,对各个客户的交易行为规律聚类分析:
设间隔时间为变量,即设Δt为x,使用交易间隔天数的密度分簇,寻找其中最大的簇,即为“标准交易间隔天数μt”;所述标准交易间隔天数μt,与交易间隔天数的平均值、中位数或者众数相比,更接近实际情况。
本实施方式中,可以采用Python机器学习工具scikit-learn中的sklearn.cluster.DBSCAN进行交易间隔天数的聚类分析。
参照图4所述交易间隔天数的聚类分析散点图,设置以下参数:
eps=1,min_samples=2,中位数为15以及均值为19.5;
则,可以得到的聚类最大簇的平均间隔时间μt为12天,即标准交易间隔天数为12天。
进一步的,本发明的一个实施例中,所述衍生特征提取单元,根据皮尔逊相关系数方法,获得所述价格敏感度;
所述皮尔逊相关系数方法,的是用来衡量变量之间的线性相关性的,其获得的结果的取值区间为[-1,1];其中,-1表示变量之间完全的负相关,+1表示变量之间完全的正相关,0表示变量之间没有线性相关;
所述皮尔逊相关系数方法的公式表示如下:
当采用所述皮尔逊相关系数方法求取所述价格敏感系数ρ时,可采用上述公式中的X,Y分别表示客户的加油量vi和油品消费金额ai;所述皮尔逊相关系数方法,可以分析客户在价格变化的情况下加油量和油品消费金额之间的关系,即所述价格敏感系数ρ。
实施例四、结合图1说明本实施例,本实施例是对实施例一所述的一种用于加油站的客户流失预测装置的进一步限定,具体实施内容如下:
所述XGBoost分类模型子模块,由多棵分类回归树CART组成。
本实施方式中,所述XGBoost分类模型子模块,即基于机器学习技术构建的XGBoost分类模型。其中所述XGBoost的英文全称为“eXtreme Gradient Boosting”,即一种高效的梯度提升决策树算法;所述XGBoost算法是在GBDT算法基础上进行的改进优化,可以大大提升分类模型的效果。
本实施方式中,所述XGBoost分类模型,是一种前向加法模型,其核心是采用集成学习思想(即Boosting思想),将多个弱分类器集成在一起成为一个强分类器,即由多棵相关联的决策树(即多棵分类回归树CART)进行联合决策:在迭代时,用特征***生长每棵(决策)树的结果做为目标值,去拟合上次预测的残差;并将所有(决策)树对应的得分结果累加,即得到最终的预测结果。
所述XGBoost分类模型,由于是由多棵分类回归树CART组成的,所以可以处理分类、回归等问题。
本实施方式中,分类回归树CART,是假设树为二叉树,然后通过不断进行特征***来使回归树生长。
设给定的数据集D包含n个样本以及m个特征,则数据集D表示如下:
D=(xi,yi)(|D|=n,xi∈Rm,yi∈R);
使用k个加法模型函数预测输出的集成模型为:
则分类回归树CART定义如下:
F={f(x)=wq(x)}(q:R)m→T,w∈RT
其中,q代表一个树结构到每棵回归树中的页节点的映射关系;T代表一棵树中的叶子节点个数;每个fk代表一个独立的树结构q和叶子权重w。
本实施方式中,在所述XGBoost分类模型中,每棵树是不断加入的,每加一棵树就能够提升期望效果。,每添加一棵树,实质上是通过学习一个新函数去拟合上次预测的残差。
所述XGBoost分类模型获得最后结果,是每棵树样本所在的叶子节点的分数之和。
本实施方式中,所述XGBoost分类模型的损失函数,定义如下:
其中,l为损失函数,Ω为正则项。
本实施方式中,所述XGBoost分类模型(或所述XGBoost算法)中采用的树是二叉树;最初所有样本都在一个叶子节点上,然后叶子节点不断通过二***逐渐生成一棵树。
所述XGBoost分类模型使用levelwise的生成策略,即每次对同一层级的所有叶子节点尝试进行***。
所述XGBoost分类模型中,树节点***公式为:
其中,G=∑i∈Igi、H=∑i∈Ihi
若Gain>0,表示***前增益大于***后增益,***可行。
综上,寻找最优树结构q的问题,就可以简化为遍历当前节点的所有特征及其***点,并选择Gain最大的特征及***点的问题。
本实施方式中,在树的学习中一个关键问题,是根据树节点***公式找到最优的分割方案,也就是找到一种分割寻找算法。
所述XGBoost分类模型,可以以精确贪心***算法为基础进行分割方案的寻找;还可以采用为了应对大数据的近似贪心***算法以及稀疏感知***算法。
进一步的,本发明的一个实施例中,采用最大深度阈值,来限制所述XGBoost分类模型子模块的特征***。
本实施方式中,所述XGBoost分类模型中,如果不采用额外的限制,所述XGBoost算法停止特征***的标准是***增益小于0。
但实践中往往会出现过拟合的情况,因此可以通过设定额外的参数阈值,如最大深度(max depth)、叶子节点最小样本数(mindatainleaf)等阈值,来限制所述XGBoost分类模型的复杂度,也就是常说的预剪枝。
实施例五、结合图1和图5说明本实施例,本实施例是对实施例一所述的一种用于加油站的客户流失预测装置的进一步限定,具体实施内容如下:
所述深度学习CNN模型模块包括8个层次结构:输入层、第1卷积层、第1池化层、第2卷积层、第2池化层、第1全连接层、第2全连接层以及输出层;
所述输入层包括20个特征维度,每个特征维度有100个数据点;所述输入层用于输入所述客户交易时序数据;
所述第1卷积层包括16个3×3的卷积核,用于生成16个第1特征图;
所述第1池化层包括2×2的最大池化核,用于对每个第1特征图进行下采样,获得6个50×10的第1子图;
所述第2卷积包括32个3×3的卷积核,用于根据所述第1子图,生成32个第2特征图;
所述第2池化层包括2×2的最大池化核,用于对每个第2特征图进行下采样,获得32个25×5的第2子图;
所述第1全连接层包括256个神经元的全连接层,用于将所述第2子图展开为一维向量后进行全连接处理;
所述第2全连接层包括128个神经元的全连接层,用于对所述第1全连接层的输出结果进行第二次全连接处理;
所述输出层采用softmax激活函数,用于根据所述第2全连接层的输出结果,获得二分类结果;所述二分类结果,用于修正所述客户流失初步预测结果,获得客户流失预测结果。
本实施方式中,所述深度学习CNN模型模块,即为基于深度学习算法构建的CNN(神经网络)模型。所述CNN神经网络模型,基于所述客户交易时序数据进行训练获得。
需要说明的是,如果仅凭机器学习模型预测客户流失,准确率偏低,实用效果差;因此,通过引入深度学习算法,可以提高客户流失预测的准确率。
需要说明的是,所述CNN即卷积神经网络(Convolutional Neural Network),是一种前馈神经网络,被广泛应用于图像、语音和自然语言处理等领域。CNN基于神经元的卷积运算,能够有效地识别和提取输入数据的特征。
LeNet-5是一种经典的卷积神经网络结构,于1998年投入实际使用,该网络最早应用于手写体字符的识别应用。
本实施方式中,所述深度学习CNN模型模块,属于改进LeNet-5网络结构(模型);所述改进LeNet-5网络结构,将客户交易时序数据看作是一个二维图像,其中一维是(隐式)时间序列,另一维是交易特征;所述改进LeNet-5网络结构,可以用于客户流失的预测。
本实施方式中,所述深度学习CNN模型模块的输出层,采用的是softmax激活函数。
但是在原来的(即未改进的)LeNet-5模型中,采用的激活函数是Sigmoid函数或Tanh函数;另外,在其他改进型的LeNet-5模型中,还可能采用relu函数作为激活函数。
其中:
Sigmoid函数:
Relu函数:relu(x)=max(0,x)。
本实施方式中,所述二分类结果,是指根据所述客户交易时序数据,将客户划分为预测流失的客户以及预测不流失的客户的结果。
实施例六、结合图1说明本实施例,本实施例是对实施例一所述的一种用于加油站的客户流失预测装置的进一步限定,具体实施内容如下:
如上所述,所述装置采用XGBoost分类模型子模块和深度学习CNN模型模块结合的方式,进行客户流失的预测。其中,所述XGBoost分类模型子模块采用的是XGBoost分类模型;所述深度学习CNN模型模块采用的是改进LeNet-5模型(网络结构)。
现有的预测客户流失的模型还有随机森林模型。
下面通过对比实验的方式,来对比所述随机森林模型、XGBoost分类模型以及改进LeNet-5模型,在客户流失预测中的效果。
1、对比实验所采用的评价指标。
采用基于机器学习的混淆矩阵,以及准确率Acc、精准率P、召回率R、F1值(分数)、ROC与AUC曲线等作为以上用于客户流失预测的模型的评价指标。
(1)所述混淆矩阵是一个真假值表,如下所示:
所述混淆矩阵,是根据客户流失的预测值和真实值构建的二维矩阵。在客户流失的预测值中,1代表预测客户流失,0代表预测客户不流失。在客户流失的真实值中,1代表客户真实流失,0代表客户真实不流失。
所述混淆矩阵可得出4种结果,即
真阳性TP,表示客户真实流失且预测客户流失,即TP=(1,1);
真阴性TN,表示客户真实不流失且预测客户不流失,即TN=(0,0);
假阳性FP,表示客户真实不流失但预测客户流失,即FP=(0,1);
假阴性FN,表示客户真实流失但预测客户不流失,即FN=(1,0)。
(2)准确率(Accuracy):
(3)精准率(Precision):
(4)召回率(Recall):
(5)F1值(F1 score):
(6)ROC与AUC曲线:由点(TPR,FPR)组成的曲线,其中:
真阳性率(横坐标):
假阳性率(纵坐标):
2、对比实验所采用的数据样本:
所述对比实验所采用的数据样本中,流失客户与不流失客户的占比为1比1,且客户发生交易的周期大于等3个月。
同时,为了降低过拟合,在所述数据样本中分出40%的数据作为测试集。
3、对比实验所采用的客户特征。
在本次对比实验中,为简化实验流程,只选取客户衍生特征作为各个模型分析预测的基础;这是在所有客户特征中,所述客户衍生特征对客户流失预测结果的影响大于其他特征。
对于任意一个客户流失预测模型,分别采用客户衍生特征和客户基本特征(即客户交易特征和客户通用统计特征)作为分析基础,采用准确率Acc、精准率P、召回率R、F1值(分数)作为预测结果评价指标,可以看到客户衍生特征与客户基本特征对预测结果的影响力如下表所示:
表4客户衍生特征与客户基本特征对预测结果影响力对比
从表中可知,只采用客户衍生特征比只采用客户基本特征,其客户流失预测准确率提高了1.5%,即客户衍生特征比客户基本特征对预测结果的影响更大。
进一步地,不同的客户衍生特征对预测结果的影响力也是不同的,具体可以参见图6客户衍生特征重要程度排序的示意图;在所述示意图中,重要程度排序在上的客户衍生特征对预测结果的影响力更大。
除了上述优点以外,采用客户衍生特征作为客户流失预测基础,相比于客户基本特征,还无需依赖月统计数据,可在任何时候计算特征来预测客户流失,具有更好的应用灵活性。
4、所述3种模型客户流失预测对比结果。
基于所述样本数据,以所述客户衍生特征为分析基础,分别采用所述随机森林模型、XGBoost分类模型、改进LeNet-5模型进行客户流失的预测,并采用准确率Acc、精准率P、召回率R、F1值(分数)作为评价指标,则评估对比结果如下:
表5三种模型评估对比结果
评估项目 随机森林 XGBoost 改进LeNet-5
Accuracy 83.27% 85.80% 99.09%
precision Score 83.28% 85.93% 99.10%
Recall Score 83.27% 85.79% 99.10%
Roc Auc Score 89.86% 93.80% 99.70%
从表中可知,所述改进LeNet-5模型的预测准确率大于所述XGBoost分类模型,所述XGBoost分类模型的预测准确率大于所述随机森林模型。同时,本领域的技术人员都知道,相比于所述改进LeNet-5模型,所述XGBoost分类模型具有更好的解释性。
因此,将所述改进LeNet-5模型(即深度学习CNN模型模块)与所述XGBoost分类模型(即XGBoost分类模型子模块)相结合来预测客户流失,不仅准确率高,而且具有解释性。
以上通过几个具体实施例对本发明提供的技术方案进行进一步详细地描述,是为了突出本发明提供的技术方案的优点和有益之处,不过以上所述的几个具体实施例并不用于作为对本发明的限制,任何基于本发明的精神和原则范围内的,对本发明的合理更改和改进、实施例的合理组合和等同替换等,均应当包含在本发明的保护范围之内。

Claims (10)

1.一种用于加油站的客户流失预测装置,其特征在于,所述装置包括:数据获取模块、机器学习模块、机器学习XGBoost分类模型模块以及深度学习CNN模型模块;
所述数据获取模块,用于采用大数据分析的方法,根据客户原始交易数据,获得客户交易行为时序数据;
所述机器学习模块包括特征工程子模块以及XGBoost分类模型子模块;
所述特征工程子模块,用于根据所述客户交易行为时序数据,获得客户特征;
所述XGBoost分类模型子模块,用于根据所述客户特征预测客户流失,获得客户流失初步预测结果;
所述深度学习CNN模型模块,用于根据所述客户交易行为时序数据,修正所述客户流失初步预测结果,获得客户流失预测结果;所述客户流失预测结果包括活跃客户筛选结果、预警客户筛选结果以及预测流失客户筛选结果。
2.根据权利要求1所述的一种用于加油站的客户流失预测装置,所述客户交易时序数据由按时间序列采集的若干个客户交易样本组成;
第i个客户交易样本包括:交易时间ti、间隔天数Δti、油品交易金额ai、加油量vi、非油品交易金额gi、合计交易金额mi、充值金额ri、余额bi、客户总交易次数N以及充值次数M;
其中,Δti=ti-ti-1,Δt1=0,i∈[1,...N]。
3.根据权利要求1所述的一种用于加油站的客户流失预测装置,其特征在于,所述客户特征包括客户交易特征、客户通用统计特征以及客户衍生特征;
所述特征工程子模块包括交易特征提取单元,统计特征提取单元以及衍生特征提取单元;
所述交易特征提取单元,用于将所述客户交易时序数据转换为二维矩阵,所述二维矩阵中的两个维度分别为时间序列和客户交易特征;
所述统计特征提取单元,用于获取客户通用统计特征;
所述衍生特征提取单元,用于获取客户衍生特征。
4.根据权利要求3所述的一种用于加油站的客户流失预测装置,其特征在于,所述客户交易特征包括加油量、消费金额、加油站编码、物料编码、折扣金额、间隔天数、会员天数、周、加油时刻(时分)、价格差、据上次价格变动时长、实际价格差、交易类型、季节、交易数据ID、交易主ID、活动ID、时间分钟、礼物ID以及客户级别。
5.根据权利要求3所述的一种用于加油站的客户流失预测装置,其特征在于,所述客户通用统计特征包括会员天数、油品偏好、非油品偏好、月均消费、交易次数、最近余额、最近月份加油量、召回次数、最近交易间隔天数以及最近加油比最大加油量。
6.根据权利要求3所述的一种用于加油站的客户流失预测装置,其特征在于,所述客户衍生特征包括间隔天数斜率、间隔时间标准差、日均油耗趋势斜率、日均油耗趋势标准差、间隔时间偏度、折扣标准差、距最近充值天数、常去加油站占比、价格敏感度、标准交易间隔天数以及最近交易与习惯差。
7.根据权利要求6所述的一种用于加油站的客户流失预测装置,其特征在于,所述衍生特征提取单元,根据线性回归函数,获得所述间隔天数斜率。
8.根据权利要求6所述的一种用于加油站的客户流失预测装置,其特征在于,所述衍生特征提取单元,根据数据密度聚类方法,获得所述标准交易间隔天数。
9.根据权利要求1所述的一种用于加油站的客户流失预测装置,其特征在于,所述XGBoost分类模型子模块,由多棵分类回归树CART组成。
10.根据权利要求1所述的一种用于加油站的客户流失预测装置,其特征在于,所述深度学习CNN模型模块包括8个层次结构:输入层、第1卷积层、第1池化层、第2卷积层、第2池化层、第1全连接层、第2全连接层以及输出层;
所述输入层包括20个特征维度,每个特征维度有100个数据点;所述输入层用于输入所述客户交易时序数据;
所述第1卷积层包括16个3×3的卷积核,用于生成16个第1特征图;
所述第1池化层包括2×2的最大池化核,用于对每个第1特征图进行下采样,获得6个50×10的第1子图;
所述第2卷积包括32个3×3的卷积核,用于根据所述第1子图,生成32个第2特征图;
所述第2池化层包括2×2的最大池化核,用于对每个第2特征图进行下采样,获得32个25×5的第2子图;
所述第1全连接层包括256个神经元的全连接层,用于将所述第2子图展开为一维向量后进行全连接处理;
所述第2全连接层包括128个神经元的全连接层,用于对所述第1全连接层的输出结果进行第二次全连接处理;
所述输出层采用softmax激活函数,用于根据所述第2全连接层的输出结果,获得二分类结果;所述二分类结果,用于修正所述客户流失初步预测结果,获得客户流失预测结果。
CN202311653515.7A 2023-12-05 2023-12-05 一种用于加油站的客户流失预测装置 Pending CN117764227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311653515.7A CN117764227A (zh) 2023-12-05 2023-12-05 一种用于加油站的客户流失预测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311653515.7A CN117764227A (zh) 2023-12-05 2023-12-05 一种用于加油站的客户流失预测装置

Publications (1)

Publication Number Publication Date
CN117764227A true CN117764227A (zh) 2024-03-26

Family

ID=90309648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311653515.7A Pending CN117764227A (zh) 2023-12-05 2023-12-05 一种用于加油站的客户流失预测装置

Country Status (1)

Country Link
CN (1) CN117764227A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952675A (zh) * 2024-03-27 2024-04-30 山东鼎信数字科技有限公司 一种权益产品动态发放方法、***、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952675A (zh) * 2024-03-27 2024-04-30 山东鼎信数字科技有限公司 一种权益产品动态发放方法、***、装置及存储介质

Similar Documents

Publication Publication Date Title
Isa et al. Using the self organizing map for clustering of text documents
Fan et al. Robust deep auto-encoding Gaussian process regression for unsupervised anomaly detection
Huang A hybrid particle swarm optimization approach for clustering and classification of datasets
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN112967088A (zh) 基于知识蒸馏的营销活动预测模型结构和预测方法
CN117764227A (zh) 一种用于加油站的客户流失预测装置
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及***
CN113344615A (zh) 一种基于gbdt和dl融合模型的营销活动预测方法
Ozyirmidokuz et al. A data mining based approach to a firm's marketing channel
CN112784177A (zh) 一种空间距离自适应的下一个兴趣点推荐方法
Eichhorn et al. Soft computing for automated surface quality analysis of exterior car body panels
Sinaga et al. Stock trend prediction using SV-kNNC and SOM
CN116028803A (zh) 一种基于敏感属性再平衡的去偏方法
Yao Clustering in ratemaking: Applications in territories clustering
CN112749345B (zh) 一种基于神经网络的k近邻矩阵分解推荐方法
CN112435103B (zh) 一种事后多样性解释的智能推荐方法及***
Johnpaul et al. Fuzzy representational structures for trend based analysis of time series clustering and classification
Dai et al. Two novel hybrid Self-Organizing Map based emotional learning algorithms
Jatain Performance Optimization of an Enterprise using Data-Driven Strategy
Wang The application of categorical embedding and spatial-constraint clustering methods in nested GLM model
He et al. Prediction and analysis of in-vehicle coupon acceptance behavior
Vangumalli et al. Clustering, Forecasting and Cluster Forecasting: using k-medoids, k-NNs and random forests for cluster selection
TEKOUABOU et al. Using Class Membership based Approach to Improve Predictive Classification in Customer Relationship Management Systems
Gajawada et al. A framework for classification using genetic algorithm based clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination