CN109978257A

CN109978257A - 车险的续保预测方法及***

Info

Publication number: CN109978257A
Application number: CN201910228100.2A
Authority: CN
Inventors: 张伟; 杨治
Original assignee: Shanghai Win Ke Information Technology Co Ltd
Current assignee: Shanghai Win Ke Information Technology Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-05

Abstract

本发明公开了一种车险的续保预测方法及***。所述续保预测方法包括：获取目标对象的多组保单数据组；对每组保单数据组进行缺失数据补全处理；使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比；将重要性占比最高的若干参数作为训练样本训练XGBoost模型，得到续保预测模型；所述续保预测模型的输入参数包括所述重要性占比最高的若干参数，输出参数包括续保意向得分。本发明针对每个经销商建立一个续保预测模型，避免了因不同的经销商的客户组成数据结构差异巨大，导致的预测模型准确率波动性大；对单个经销商的小样本数据进行了补全操作，大大提高了预测的准确性，且准确率稳定性高。

Description

车险的续保预测方法及***

技术领域

本发明涉及计算机技术领域，特别涉及一种基于小样本的车险的续保预测方法及***。

背景技术

如何从全量客户中甄别出意向较高的进行续保的目标客户，进而依此进行人力和资源的调配来提高保险专员的效率，有利于提高客户体验和整体续保率。其中，如何对续保客户进行有效、准确的预测是关键。现有技术提供了一些数学模型对续保客户仅进行预测，但该属性模块局限于数据的质量和数量，有一定的局限性，具体而言是，由于单个经销商的车主数据量较少，且客户信息多为续保专员人工录入，数据质量参差不齐，致使模型的准确度不高。而有通用模型，将所有经销商数据作为训练样本训练得到，但该通用模型未考虑不同的经销商其客户组成结构差异巨大的问题，因此在应用到单个经销商时，会有准确率波动性大，衰退速度快等问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中对客户的续保意向进行预测，不能同时满足准确率高，且准确率较稳定的缺陷，提供一种车险的续保预测方法及***。

本发明是通过下述技术方案来解决上述技术问题：

一种车险的续保预测方法，所述续保预测方法包括：

获取目标对象的多组保单数据组；

对每组保单数据组进行缺失数据补全处理；

使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比；

将重要性占比最高的若干参数作为训练样本训练XGBoost模型，得到续保预测模型；

所述续保预测模型的输入参数包括所述重要性占比最高的若干参数，输出参数包括续保意向得分。

较佳地，对每组保单数据组进行缺失数据补全处理的步骤，具体包括：

根据所述保单数据组并基于概率模型建立数据补全模型；

基于所述数据补全模型对每组保单数据组的缺失参数进行采样，并以采样结果填充缺失数据。

较佳地，所述概率模型为：

P(x₁,x₂,…,x_n,y₁,y₂,…,y_m)＝N(x₁|μ₁,σ₁)…N(x_n|μ_n,σ_n)M(y₁|p₁₁,…,p_1k)…M(y_m|p_m1,…,p_mk)；

其中，x₁,x₂,…,x_n表示所述保单数据组中n个连续型的参数；y₁,y₂,…,y_m表示所述保单数据组中m个离散型的参数；N(x₁|μ₁,σ₁)…N(x_n|μ_n,σ_n)表示n个连续型的参数的正态分布，M(y₁|p₁₁,…,p_1k)…M(y_m|p_m1,…,p_mk)表示m个离散型的参数的多项分布；k表示每个离散型的参数可选择的选项个数；μ、σ分别表示参数的期望和方差；p表示参数不同选项的发生概率。

较佳地，所述保单数据组包括：车主数据、车辆数据和投保数据；

所述车主数据包括以下参数中的至少一种：车主的年龄、性别、居住地、保险车辆自用或者公用；

所述车辆数据包括以下参数中的至少一种：车龄、车系、车价、折旧率、是否为豪华车；

所述投保数据包括以下参数中的至少一种：去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD(无赔款优待系数)、续保状态。

一种车险的续保预测***，所述续保预测***包括：

数据获取模块，用于获取目标对象的多组保单数据组；

数据补全模块，用于对每组保单数据组进行缺失数据补全处理；

计算模块，用于使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比；

模型训练模块，用于将重要性占比最高的若干参数作为训练样本训练XGBoost模型，得到续保预测模型；

较佳地，所述数据补全模块具体包括：

模型建立单元，用于根据所述保单数据组并基于概率模型建立数据补全模型；

采样单元，用于基于所述数据补全模型对每组保单数据组的缺失参数进行采样，并以采样结果填充缺失数据。

较佳地，所述概率模型为：

所述投保数据包括以下参数中的至少一种：去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD、续保状态。

本发明的积极进步效果在于：本发明针对每个经销商建立一个续保预测模型，避免了因不同的经销商的客户组成数据结构差异巨大，导致的预测模型准确率波动性大；对单个经销商的小样本数据进行了补全操作，大大提高了预测的准确性，且准确率稳定性高。

附图说明

图1为本发明实施例1的车险的续保预测方法的流程图。

图2为本发明实施例2的车险的续保预测***的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种车险的续保预测方法，针对每个经销商建立一个续保预测模型，避免了因不同的经销商的客户组成数据结构差异巨大，导致的预测模型准确率波动性大；对单个经销商的小样本数据进行了补全操作，大大提高了预测的准确性，且准确率稳定性高。

如图1所示，本实施例的车险的续保预测方法包括以下步骤：

步骤110、获取目标对象的保单数据组。

步骤110中，目标对象例如一个经销商，步骤110也即获取在某一经销商购买车险的所有客户的保单数据组。其中，每组保单数据组包括：车主数据、车辆数据和投保数据。车主数据包括以下参数中的至少一种：车主的年龄、性别、居住地、保险车辆自用或者公用等；车辆数据包括以下参数中的至少一种：车龄、车系、车价、折旧率、是否为豪华车等；投保数据包括以下参数中的至少一种：去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD(无赔偿款优待系数)、续保状态(成功或者失败)等。

为了便于计算，本实施例中，将每组保单数组生成一条用于描述客户画像的记录数据，包含从人，从车，从保单三方面的结构化数据，结构化以后数据组表示形式如下：(LSAXXXXXXXX，27，Male，Shanghai，2，Roewe-RX5，190000，0.7，N，paic，1000000，2700，0.85，…)。

由于数据采集质量无法掌控，步骤110获取的保单数据组存在数据稀疏性问题，若使用该源数据作为小样本训练模型，容易出现模型过拟合问题，为了解决该问题，需要对源数据进行补全操作，也即执行步骤120。

步骤120、对每组保单数据组进行缺失数据补全处理。

本实施例中，步骤120具体包括：

步骤120-1、根据保单数据组并基于概率模型建立数据补全模型。

由于不同经销商的数据分布不一致，需要用不同的模型来描述每个经销商的客户意向，因此，本实施例中针对每个经销商建立一个数据补全模型。

步骤120-2、基于数据补全模型对每组保单数据组的缺失参数进行采样，并以采样结果填充缺失数据。

本实施例中，针对不同的经销商构建特定的数据补全模型，并以此进行采样，进而实现数据补全操作。概率模型可以但不限于采用以下公式：

P(x₁,x₂,…,x_n,y₁,y₂,…,y_m)＝N(x₁|μ₁,σ₁)N(x₂|μ₂,σ₂)…N(x_n|μ_n,σ_n)M(y₁|p₁₁,…,p_1k)…M(y_m|p_m1,…,p_mk)其中，x₁,x₂,…,x_n表示n个连续型的参数，例如，x₁表示车价，x₂表示保险保费等；y₁,y₂,…,y_m表示m个离散型的参数，例如，y₁表示车主性别，y₂表示投保保险公司等；N(x₁|μ₁,σ₁)…N(x_n|μ_n,σ_n)表示n个连续型参数的正态分布，M(y₁|p₁₁,…,p_1k)…M(y_m|p_m1,…,p_mk)表示m个离散型参数的多项分布；k表示每个离散参数可选择的选项个数，例如，对于车主性别，参数y₁对应的k是2(男性和女性)；对于投保保险公司，参数y₂对应的k可以是10(人保、太保、平安等9家保险公司和一个其他选项)；对于连续型参数，μ、σ表示对应的连续型参数的期望和方差，例如μ₁表示所有保单数据组中所有车辆价格的均值，σ₁是所有车辆价格的方差；p表示离散型参数不同选项的发生概率，例如，p₁₁表示所有车主中男性的概率，p₁₂表示所有车主中女性的概率。

步骤130、使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比。

本实施例中，可对保单数据组中的参数进行多次(例如10次)采样，每次采样数量以占比阈值(例如50％)随机地选择相应数量的数据组组数，例如，某个经销商的保单数据组中包括50组保单数据组，则每次从中选取25组数据组，每个参数最终的重要性占比即是上述10次采样计算的平均值。需要说明的是，每次采样的占比阈值可设置为相同，也可设置为不同。

步骤140、将重要性占比最高的若干参数作为训练样本训练XGBoost模型，得到续保预测模型。

其中，重要性占比最高的若干参数，也即依据步骤130计算各个参数的重要性占比，按照重要性占比由大到小的顺序对各个参数进行排序，并依次选取参数，直到选取的所有参数的重要性占比大于占比阈值(例如60％)，此时选取的参数即为后续模型中使用的输入参数(重要性占比最高的若干参数)。比如模型本来可以使用的潜在的参数有67个，对于某个经销商提供的数据进行计算，发现其中客户性别重要性占比20％，车龄重要性占比17％，保险公司重要性占比10％，车辆使用属性占比8％，车主属地占比6％，此5个参数重要性占比超过60％，因此从67个潜在参数中仅取此5个参数，作为续保预测模型的输入参数，而舍弃掉其余62个参数，续保预测模型的输出参数为续保意向得分。其中，续保意向得分表征客户的续保意向，分数越高说明续保意向越高，分数越低说明续保意向越低。训练得到续保预测模型即可用于预测车主的续保意向。

本实施例中，模型训练的损失函数包含数据质量的因素，可以但不限于采用如下函数：

其中，ω_i表示单条记录缺失参数数据的比例，根据单条样本计算而出；例如对于单个模型，使用(客户性别、车龄、投保保险公司、车辆使用属性、车主属地)5个参数，但是对于某个样本，从数据源仅能获得其中3个变量的准确数值，其余2个数值缺失，则ω_i＝3/5＝0.6；此项参数的意义是缺失数据的比例越高，ω_i越低，其样本在训练过程的重要性就越低；i表示第i条训练样本数据，a_i表示模型训练过程中第i条样本的续保状态(续保成功(正样本)为1，续保失败(负样本)为0)；表示第i条样本的模型预测值(训练过程中模型的输出值)。

本实施例中，模型训练结束以后输出一个.json文档，用于后续模型线上使用。该.json文档存储的是一个list(列表)类的数据结构，列表中的每个元素是一个dict(字典)类的数据结构，表示的一个树结构；对于上述的每个dict(字典)结构表示的是一个树数据结构，存储了树上每个节点的以下信息：nodeid(节点编号)、depth(节点深度)、split(***变量编号)、split_condition(***变量***点)、yes(左分支对应的下层节点编号)、no(右分支对应的下层节点编号)、missing(缺失值对应的下层节点编号)、childen(分支列表)、leaf(对于叶子节点，其为数结构的最终取值)。在模型使用时，对于单条数据，使用的循环的模型，顺序访问list(列表)中的每个dict(字典)结构，计算出在每棵树上的值，并计算其总和，作为模型的输出，即是客户最终的续保意向得分；其中每棵树的值计算是使用顺序访问树的每个节点(nodeid)，依据***变量(split)和***点(split_condition)确定下个节点号，以此循环直到访问到叶节点(leaf)取出数值。

从而，模型上线后，对任意一条客户的保单数据组，根据数据补全模型的结果进行采样并补全缺失数据，将补全以后的数据输入续保预测模型，即能准确预测该客户的续保意向。

实施例2

本实施例提供一种车险的续保预测***，针对每个经销商建立一个续保预测模型，避免了因不同的经销商的客户组成数据结构差异巨大，导致的预测模型准确率波动性大；对单个经销商的小样本数据进行了补全操作，大大提高了***预测的准确性，且***较稳定。

如图2所示，本实施例的车险的续保预测***包括：数据获取模块1、数据补全模块2、计算模块3和模型训练模块4。

数据获取模块1用于获取目标对象的多组保单数据组。目标对象例如一个经销商，数据获取模块1也即获取在某一经销商购买车险的所有客户的保单数据组。其中，每组保单数据组包括：车主数据、车辆数据和投保数据。车主数据包括以下参数中的至少一种：车主的年龄、性别、居住地、保险车辆自用或者公用等；车辆数据包括以下参数中的至少一种：车龄、车系、车价、折旧率、是否为豪华车等；投保数据包括以下参数中的至少一种：去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD(无赔偿款优待系数)、续保状态(成功或者失败)等。

数据补全模块2用于对每组保单数据组进行缺失数据补全处理，以解决保单数据组存在数据稀疏性问题。

本实施例中，数据补全模块2具体包括：模型建立单元21和采样单元22。

模型建立单元21用于根据保单数据组并基于概率模型建立数据补全模型。

具体的，概率模型可以但不限于采用：

其中，x₁,x₂,…,x_n表示n个连续型的参数，例如，x₁表示车价，x₂表示保险保费等；y₁,y₂,…,y_m表示m个离散型的参数，例如，y₁表示车主性别，y₂表示投保保险公司等；N(x₁|μ₁,σ₁)…N(x_n|μ_n,σ_n)表示n个连续型参数的正态分布，M(y₁|p₁₁,…,p_1k)…M(y_m|p_m1,…,p_mk)表示m个离散型参数的多项分布；k表示每个离散参数可选择的选项个数，例如，对于车主性别，参数y₁对应的k是2(男性和女性)；对于投保保险公司，参数y₂对应的k可以是10(人保、太保、平安等9家保险公司和一个其他选项)；对于连续型参数，μ、σ表示对应的连续型参数的期望和方差，例如μ₁表示所有保单数据组中所有车辆价格的均值，σ₁是所有车辆价格的方差；p表示离散型参数不同选项的发生概率，例如，p₁₁表示所有车主中男性的概率，p₁₂表示所有车主中女性的概率。

采样单元22用于基于数据补全模型对每组保单数据组的缺失参数进行采样，并以采样结果填充缺失数据。

本实施例中，针对不同的经销商构建特定的数据补全模型，并以此进行采样，进而实现数据补全操作，准确度较高。

计算模块3用于使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比。

模型训练模块4用于将重要性占比最高的若干参数作为训练样本训练XGBoost模型，得到续保预测模型。其中，续保预测模型的输入参数包括重要性占比最高的若干参数，输出参数包括续保意向得分。

其中，重要性占比最高的若干参数，也即将计算模块3计算得到的各个参数的重要性占比按照由大到小的顺序对各个参数进行排序，并依次选取参数，直到选取的所有参数的重要性占比大于占比阈值(例如60％)，此时选取的参数即为后续模型中使用的输入参数(重要性占比最高的若干参数)。比如模型本来可以使用的潜在的参数有67个，对于某个经销商提供的数据进行计算，发现其中客户性别重要性占比20％，车龄重要性占比17％，保险公司重要性占比10％，车辆使用属性占比8％，车主属地占比6％，此5个参数重要性占比超过60％，因此从67个潜在参数中仅取此5个参数，作为续保预测模型的输入参数，而舍弃掉其余62个参数，续保预测模型的输出参数为续保意向得分。其中，续保意向得分表征客户的续保意向，分数越高说明续保意向越高，分数越低说明续保意向越低。

本实施例中，模型训练模块4模型训练结束以后输出一个.json文档，用于后续模型线上使用。该.json文档存储的是一个list(列表)类的数据结构，列表中的每个元素是一个dict(字典)类的数据结构，表示的一个树结构；对于上述的每个dict(字典)结构表示的是一个树数据结构，存储了树上每个节点的以下信息：nodeid(节点编号)、depth(节点深度)、split(***变量编号)、split_condition(***变量***点)、yes(左分支对应的下层节点编号)、no(右分支对应的下层节点编号)、missing(缺失值对应的下层节点编号)、childen(分支列表)、leaf(对于叶子节点，其为数结构的最终取值)。在模型使用时，对于单条数据，使用的循环的模型，顺序访问list(列表)中的每个dict(字典)结构，计算出在每棵树上的值，并计算其总和，作为模型的输出，即是客户最终的续保意向得分；其中每棵树的值计算是使用顺序访问树的每个节点(nodeid)，依据***变量(split)和***点(split_condition)确定下个节点号，以此循环直到访问到叶节点(leaf)取出数值。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种车险的续保预测方法，其特征在于，所述续保预测方法包括：

获取目标对象的多组保单数据组；

对每组保单数据组进行缺失数据补全处理；

2.如权利要求1所述的车险的续保预测方法，其特征在于，对每组保单数据组进行缺失数据补全处理的步骤，具体包括：

根据所述保单数据组并基于概率模型建立数据补全模型；

3.如权利要求2所述的车险的续保预测方法，其特征在于，所述概率模型为：

4.如权利要求1所述的车险的续保预测方法，其特征在于，所述保单数据组包括：车主数据、车辆数据和投保数据；

所述投保数据包括以下参数中的至少一种：去年保单投保公司、子险投保类型、各种子险投保额、保费、无赔款优待系数NCD、续保状态。

5.一种车险的续保预测***，其特征在于，所述续保预测***包括：

数据获取模块，用于获取目标对象的多组保单数据组；

6.如权利要求5所述的车险的续保预测***，其特征在于，所述数据补全模块具体包括：

7.如权利要求6所述的车险的续保预测***，其特征在于，所述概率模型为：

8.如权利要求5所述的车险的续保预测***，其特征在于，所述保单数据组包括：车主数据、车辆数据和投保数据；