CN109978257A - 车险的续保预测方法及*** - Google Patents

车险的续保预测方法及*** Download PDF

Info

Publication number
CN109978257A
CN109978257A CN201910228100.2A CN201910228100A CN109978257A CN 109978257 A CN109978257 A CN 109978257A CN 201910228100 A CN201910228100 A CN 201910228100A CN 109978257 A CN109978257 A CN 109978257A
Authority
CN
China
Prior art keywords
insurance
data
parameter
continuation
declaration form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910228100.2A
Other languages
English (en)
Inventor
张伟
杨治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Win Ke Information Technology Co Ltd
Original Assignee
Shanghai Win Ke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Win Ke Information Technology Co Ltd filed Critical Shanghai Win Ke Information Technology Co Ltd
Priority to CN201910228100.2A priority Critical patent/CN109978257A/zh
Publication of CN109978257A publication Critical patent/CN109978257A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Operations Research (AREA)
  • Pure & Applied Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Algebra (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种车险的续保预测方法及***。所述续保预测方法包括:获取目标对象的多组保单数据组;对每组保单数据组进行缺失数据补全处理;使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比;将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型;所述续保预测模型的输入参数包括所述重要性占比最高的若干参数,输出参数包括续保意向得分。本发明针对每个经销商建立一个续保预测模型,避免了因不同的经销商的客户组成数据结构差异巨大,导致的预测模型准确率波动性大;对单个经销商的小样本数据进行了补全操作,大大提高了预测的准确性,且准确率稳定性高。

Description

车险的续保预测方法及***
技术领域
本发明涉及计算机技术领域,特别涉及一种基于小样本的车险的续保预测方法及***。
背景技术
如何从全量客户中甄别出意向较高的进行续保的目标客户,进而依此进行人力和资源的调配来提高保险专员的效率,有利于提高客户体验和整体续保率。其中,如何对续保客户进行有效、准确的预测是关键。现有技术提供了一些数学模型对续保客户仅进行预测,但该属性模块局限于数据的质量和数量,有一定的局限性,具体而言是,由于单个经销商的车主数据量较少,且客户信息多为续保专员人工录入,数据质量参差不齐,致使模型的准确度不高。而有通用模型,将所有经销商数据作为训练样本训练得到,但该通用模型未考虑不同的经销商其客户组成结构差异巨大的问题,因此在应用到单个经销商时,会有准确率波动性大,衰退速度快等问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中对客户的续保意向进行预测,不能同时满足准确率高,且准确率较稳定的缺陷,提供一种车险的续保预测方法及***。
本发明是通过下述技术方案来解决上述技术问题:
一种车险的续保预测方法,所述续保预测方法包括:
获取目标对象的多组保单数据组;
对每组保单数据组进行缺失数据补全处理;
使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比;
将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型;
所述续保预测模型的输入参数包括所述重要性占比最高的若干参数,输出参数包括续保意向得分。
较佳地,对每组保单数据组进行缺失数据补全处理的步骤,具体包括:
根据所述保单数据组并基于概率模型建立数据补全模型;
基于所述数据补全模型对每组保单数据组的缺失参数进行采样,并以采样结果填充缺失数据。
较佳地,所述概率模型为:
P(x1,x2,…,xn,y1,y2,…,ym)=N(x111)…N(xnnn)M(y1|p11,…,p1k)…M(ym|pm1,…,pmk);
其中,x1,x2,…,xn表示所述保单数据组中n个连续型的参数;y1,y2,…,ym表示所述保单数据组中m个离散型的参数;N(x111)…N(xnnn)表示n个连续型的参数的正态分布,M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)表示m个离散型的参数的多项分布;k表示每个离散型的参数可选择的选项个数;μ、σ分别表示参数的期望和方差;p表示参数不同选项的发生概率。
较佳地,所述保单数据组包括:车主数据、车辆数据和投保数据;
所述车主数据包括以下参数中的至少一种:车主的年龄、性别、居住地、保险车辆自用或者公用;
所述车辆数据包括以下参数中的至少一种:车龄、车系、车价、折旧率、是否为豪华车;
所述投保数据包括以下参数中的至少一种:去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD(无赔款优待系数)、续保状态。
一种车险的续保预测***,所述续保预测***包括:
数据获取模块,用于获取目标对象的多组保单数据组;
数据补全模块,用于对每组保单数据组进行缺失数据补全处理;
计算模块,用于使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比;
模型训练模块,用于将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型;
所述续保预测模型的输入参数包括所述重要性占比最高的若干参数,输出参数包括续保意向得分。
较佳地,所述数据补全模块具体包括:
模型建立单元,用于根据所述保单数据组并基于概率模型建立数据补全模型;
采样单元,用于基于所述数据补全模型对每组保单数据组的缺失参数进行采样,并以采样结果填充缺失数据。
较佳地,所述概率模型为:
P(x1,x2,…,xn,y1,y2,…,ym)=N(x111)…N(xnnn)M(y1|p11,…,p1k)…M(ym|pm1,…,pmk);
其中,x1,x2,…,xn表示所述保单数据组中n个连续型的参数;y1,y2,…,ym表示所述保单数据组中m个离散型的参数;N(x111)…N(xnnn)表示n个连续型的参数的正态分布,M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)表示m个离散型的参数的多项分布;k表示每个离散型的参数可选择的选项个数;μ、σ分别表示参数的期望和方差;p表示参数不同选项的发生概率。
较佳地,所述保单数据组包括:车主数据、车辆数据和投保数据;
所述车主数据包括以下参数中的至少一种:车主的年龄、性别、居住地、保险车辆自用或者公用;
所述车辆数据包括以下参数中的至少一种:车龄、车系、车价、折旧率、是否为豪华车;
所述投保数据包括以下参数中的至少一种:去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD、续保状态。
本发明的积极进步效果在于:本发明针对每个经销商建立一个续保预测模型,避免了因不同的经销商的客户组成数据结构差异巨大,导致的预测模型准确率波动性大;对单个经销商的小样本数据进行了补全操作,大大提高了预测的准确性,且准确率稳定性高。
附图说明
图1为本发明实施例1的车险的续保预测方法的流程图。
图2为本发明实施例2的车险的续保预测***的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种车险的续保预测方法,针对每个经销商建立一个续保预测模型,避免了因不同的经销商的客户组成数据结构差异巨大,导致的预测模型准确率波动性大;对单个经销商的小样本数据进行了补全操作,大大提高了预测的准确性,且准确率稳定性高。
如图1所示,本实施例的车险的续保预测方法包括以下步骤:
步骤110、获取目标对象的保单数据组。
步骤110中,目标对象例如一个经销商,步骤110也即获取在某一经销商购买车险的所有客户的保单数据组。其中,每组保单数据组包括:车主数据、车辆数据和投保数据。车主数据包括以下参数中的至少一种:车主的年龄、性别、居住地、保险车辆自用或者公用等;车辆数据包括以下参数中的至少一种:车龄、车系、车价、折旧率、是否为豪华车等;投保数据包括以下参数中的至少一种:去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD(无赔偿款优待系数)、续保状态(成功或者失败)等。
为了便于计算,本实施例中,将每组保单数组生成一条用于描述客户画像的记录数据,包含从人,从车,从保单三方面的结构化数据,结构化以后数据组表示形式如下:(LSAXXXXXXXX,27,Male,Shanghai,2,Roewe-RX5,190000,0.7,N,paic,1000000,2700,0.85,…)。
由于数据采集质量无法掌控,步骤110获取的保单数据组存在数据稀疏性问题,若使用该源数据作为小样本训练模型,容易出现模型过拟合问题,为了解决该问题,需要对源数据进行补全操作,也即执行步骤120。
步骤120、对每组保单数据组进行缺失数据补全处理。
本实施例中,步骤120具体包括:
步骤120-1、根据保单数据组并基于概率模型建立数据补全模型。
由于不同经销商的数据分布不一致,需要用不同的模型来描述每个经销商的客户意向,因此,本实施例中针对每个经销商建立一个数据补全模型。
步骤120-2、基于数据补全模型对每组保单数据组的缺失参数进行采样,并以采样结果填充缺失数据。
本实施例中,针对不同的经销商构建特定的数据补全模型,并以此进行采样,进而实现数据补全操作。概率模型可以但不限于采用以下公式:
P(x1,x2,…,xn,y1,y2,…,ym)=N(x111)N(x222)…N(xnnn)M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)其中,x1,x2,…,xn表示n个连续型的参数,例如,x1表示车价,x2表示保险保费等;y1,y2,…,ym表示m个离散型的参数,例如,y1表示车主性别,y2表示投保保险公司等;N(x111)…N(xnnn)表示n个连续型参数的正态分布,M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)表示m个离散型参数的多项分布;k表示每个离散参数可选择的选项个数,例如,对于车主性别,参数y1对应的k是2(男性和女性);对于投保保险公司,参数y2对应的k可以是10(人保、太保、平安等9家保险公司和一个其他选项);对于连续型参数,μ、σ表示对应的连续型参数的期望和方差,例如μ1表示所有保单数据组中所有车辆价格的均值,σ1是所有车辆价格的方差;p表示离散型参数不同选项的发生概率,例如,p11表示所有车主中男性的概率,p12表示所有车主中女性的概率。
步骤130、使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比。
本实施例中,可对保单数据组中的参数进行多次(例如10次)采样,每次采样数量以占比阈值(例如50%)随机地选择相应数量的数据组组数,例如,某个经销商的保单数据组中包括50组保单数据组,则每次从中选取25组数据组,每个参数最终的重要性占比即是上述10次采样计算的平均值。需要说明的是,每次采样的占比阈值可设置为相同,也可设置为不同。
步骤140、将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型。
其中,重要性占比最高的若干参数,也即依据步骤130计算各个参数的重要性占比,按照重要性占比由大到小的顺序对各个参数进行排序,并依次选取参数,直到选取的所有参数的重要性占比大于占比阈值(例如60%),此时选取的参数即为后续模型中使用的输入参数(重要性占比最高的若干参数)。比如模型本来可以使用的潜在的参数有67个,对于某个经销商提供的数据进行计算,发现其中客户性别重要性占比20%,车龄重要性占比17%,保险公司重要性占比10%,车辆使用属性占比8%,车主属地占比6%,此5个参数重要性占比超过60%,因此从67个潜在参数中仅取此5个参数,作为续保预测模型的输入参数,而舍弃掉其余62个参数,续保预测模型的输出参数为续保意向得分。其中,续保意向得分表征客户的续保意向,分数越高说明续保意向越高,分数越低说明续保意向越低。训练得到续保预测模型即可用于预测车主的续保意向。
本实施例中,模型训练的损失函数包含数据质量的因素,可以但不限于采用如下函数:
其中,ωi表示单条记录缺失参数数据的比例,根据单条样本计算而出;例如对于单个模型,使用(客户性别、车龄、投保保险公司、车辆使用属性、车主属地)5个参数,但是对于某个样本,从数据源仅能获得其中3个变量的准确数值,其余2个数值缺失,则ωi=3/5=0.6;此项参数的意义是缺失数据的比例越高,ωi越低,其样本在训练过程的重要性就越低;i表示第i条训练样本数据,ai表示模型训练过程中第i条样本的续保状态(续保成功(正样本)为1,续保失败(负样本)为0);表示第i条样本的模型预测值(训练过程中模型的输出值)。
本实施例中,模型训练结束以后输出一个.json文档,用于后续模型线上使用。该.json文档存储的是一个list(列表)类的数据结构,列表中的每个元素是一个dict(字典)类的数据结构,表示的一个树结构;对于上述的每个dict(字典)结构表示的是一个树数据结构,存储了树上每个节点的以下信息:nodeid(节点编号)、depth(节点深度)、split(***变量编号)、split_condition(***变量***点)、yes(左分支对应的下层节点编号)、no(右分支对应的下层节点编号)、missing(缺失值对应的下层节点编号)、childen(分支列表)、leaf(对于叶子节点,其为数结构的最终取值)。在模型使用时,对于单条数据,使用的循环的模型,顺序访问list(列表)中的每个dict(字典)结构,计算出在每棵树上的值,并计算其总和,作为模型的输出,即是客户最终的续保意向得分;其中每棵树的值计算是使用顺序访问树的每个节点(nodeid),依据***变量(split)和***点(split_condition)确定下个节点号,以此循环直到访问到叶节点(leaf)取出数值。
从而,模型上线后,对任意一条客户的保单数据组,根据数据补全模型的结果进行采样并补全缺失数据,将补全以后的数据输入续保预测模型,即能准确预测该客户的续保意向。
实施例2
本实施例提供一种车险的续保预测***,针对每个经销商建立一个续保预测模型,避免了因不同的经销商的客户组成数据结构差异巨大,导致的预测模型准确率波动性大;对单个经销商的小样本数据进行了补全操作,大大提高了***预测的准确性,且***较稳定。
如图2所示,本实施例的车险的续保预测***包括:数据获取模块1、数据补全模块2、计算模块3和模型训练模块4。
数据获取模块1用于获取目标对象的多组保单数据组。目标对象例如一个经销商,数据获取模块1也即获取在某一经销商购买车险的所有客户的保单数据组。其中,每组保单数据组包括:车主数据、车辆数据和投保数据。车主数据包括以下参数中的至少一种:车主的年龄、性别、居住地、保险车辆自用或者公用等;车辆数据包括以下参数中的至少一种:车龄、车系、车价、折旧率、是否为豪华车等;投保数据包括以下参数中的至少一种:去年保单投保公司、子险投保类型、各种子险投保额、保费、NCD(无赔偿款优待系数)、续保状态(成功或者失败)等。
数据补全模块2用于对每组保单数据组进行缺失数据补全处理,以解决保单数据组存在数据稀疏性问题。
本实施例中,数据补全模块2具体包括:模型建立单元21和采样单元22。
模型建立单元21用于根据保单数据组并基于概率模型建立数据补全模型。
具体的,概率模型可以但不限于采用:
P(x1,x2,…,xn,y1,y2,…,ym)=N(x111)…N(xnnn)M(y1|p11,…,p1k)…M(ym|pm1,…,pmk);
其中,x1,x2,…,xn表示n个连续型的参数,例如,x1表示车价,x2表示保险保费等;y1,y2,…,ym表示m个离散型的参数,例如,y1表示车主性别,y2表示投保保险公司等;N(x111)…N(xnnn)表示n个连续型参数的正态分布,M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)表示m个离散型参数的多项分布;k表示每个离散参数可选择的选项个数,例如,对于车主性别,参数y1对应的k是2(男性和女性);对于投保保险公司,参数y2对应的k可以是10(人保、太保、平安等9家保险公司和一个其他选项);对于连续型参数,μ、σ表示对应的连续型参数的期望和方差,例如μ1表示所有保单数据组中所有车辆价格的均值,σ1是所有车辆价格的方差;p表示离散型参数不同选项的发生概率,例如,p11表示所有车主中男性的概率,p12表示所有车主中女性的概率。
采样单元22用于基于数据补全模型对每组保单数据组的缺失参数进行采样,并以采样结果填充缺失数据。
本实施例中,针对不同的经销商构建特定的数据补全模型,并以此进行采样,进而实现数据补全操作,准确度较高。
计算模块3用于使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比。
本实施例中,可对保单数据组中的参数进行多次(例如10次)采样,每次采样数量以占比阈值(例如50%)随机地选择相应数量的数据组组数,例如,某个经销商的保单数据组中包括50组保单数据组,则每次从中选取25组数据组,每个参数最终的重要性占比即是上述10次采样计算的平均值。需要说明的是,每次采样的占比阈值可设置为相同,也可设置为不同。
模型训练模块4用于将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型。其中,续保预测模型的输入参数包括重要性占比最高的若干参数,输出参数包括续保意向得分。
其中,重要性占比最高的若干参数,也即将计算模块3计算得到的各个参数的重要性占比按照由大到小的顺序对各个参数进行排序,并依次选取参数,直到选取的所有参数的重要性占比大于占比阈值(例如60%),此时选取的参数即为后续模型中使用的输入参数(重要性占比最高的若干参数)。比如模型本来可以使用的潜在的参数有67个,对于某个经销商提供的数据进行计算,发现其中客户性别重要性占比20%,车龄重要性占比17%,保险公司重要性占比10%,车辆使用属性占比8%,车主属地占比6%,此5个参数重要性占比超过60%,因此从67个潜在参数中仅取此5个参数,作为续保预测模型的输入参数,而舍弃掉其余62个参数,续保预测模型的输出参数为续保意向得分。其中,续保意向得分表征客户的续保意向,分数越高说明续保意向越高,分数越低说明续保意向越低。
本实施例中,模型训练的损失函数包含数据质量的因素,可以但不限于采用如下函数:
其中,ωi表示单条记录缺失参数数据的比例,根据单条样本计算而出;例如对于单个模型,使用(客户性别、车龄、投保保险公司、车辆使用属性、车主属地)5个参数,但是对于某个样本,从数据源仅能获得其中3个变量的准确数值,其余2个数值缺失,则ωi=3/5=0.6;此项参数的意义是缺失数据的比例越高,ωi越低,其样本在训练过程的重要性就越低;i表示第i条训练样本数据,ai表示模型训练过程中第i条样本的续保状态(续保成功(正样本)为1,续保失败(负样本)为0);表示第i条样本的模型预测值(训练过程中模型的输出值)。
本实施例中,模型训练模块4模型训练结束以后输出一个.json文档,用于后续模型线上使用。该.json文档存储的是一个list(列表)类的数据结构,列表中的每个元素是一个dict(字典)类的数据结构,表示的一个树结构;对于上述的每个dict(字典)结构表示的是一个树数据结构,存储了树上每个节点的以下信息:nodeid(节点编号)、depth(节点深度)、split(***变量编号)、split_condition(***变量***点)、yes(左分支对应的下层节点编号)、no(右分支对应的下层节点编号)、missing(缺失值对应的下层节点编号)、childen(分支列表)、leaf(对于叶子节点,其为数结构的最终取值)。在模型使用时,对于单条数据,使用的循环的模型,顺序访问list(列表)中的每个dict(字典)结构,计算出在每棵树上的值,并计算其总和,作为模型的输出,即是客户最终的续保意向得分;其中每棵树的值计算是使用顺序访问树的每个节点(nodeid),依据***变量(split)和***点(split_condition)确定下个节点号,以此循环直到访问到叶节点(leaf)取出数值。
从而,模型上线后,对任意一条客户的保单数据组,根据数据补全模型的结果进行采样并补全缺失数据,将补全以后的数据输入续保预测模型,即能准确预测该客户的续保意向。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (8)

1.一种车险的续保预测方法,其特征在于,所述续保预测方法包括:
获取目标对象的多组保单数据组;
对每组保单数据组进行缺失数据补全处理;
使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比;
将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型;
所述续保预测模型的输入参数包括所述重要性占比最高的若干参数,输出参数包括续保意向得分。
2.如权利要求1所述的车险的续保预测方法,其特征在于,对每组保单数据组进行缺失数据补全处理的步骤,具体包括:
根据所述保单数据组并基于概率模型建立数据补全模型;
基于所述数据补全模型对每组保单数据组的缺失参数进行采样,并以采样结果填充缺失数据。
3.如权利要求2所述的车险的续保预测方法,其特征在于,所述概率模型为:
P(x1,x2,…,xn,y1,y2,…,ym)=N(x111)…N(xnnn)M(y1|p11,…,p1k)…M(ym|pm1,…,pmk);
其中,x1,x2,…,xn表示所述保单数据组中n个连续型的参数;y1,y2,…,ym表示所述保单数据组中m个离散型的参数;N(x111)…N(xnnn)表示n个连续型的参数的正态分布,M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)表示m个离散型的参数的多项分布;k表示每个离散型的参数可选择的选项个数;μ、σ分别表示参数的期望和方差;p表示参数不同选项的发生概率。
4.如权利要求1所述的车险的续保预测方法,其特征在于,所述保单数据组包括:车主数据、车辆数据和投保数据;
所述车主数据包括以下参数中的至少一种:车主的年龄、性别、居住地、保险车辆自用或者公用;
所述车辆数据包括以下参数中的至少一种:车龄、车系、车价、折旧率、是否为豪华车;
所述投保数据包括以下参数中的至少一种:去年保单投保公司、子险投保类型、各种子险投保额、保费、无赔款优待系数NCD、续保状态。
5.一种车险的续保预测***,其特征在于,所述续保预测***包括:
数据获取模块,用于获取目标对象的多组保单数据组;
数据补全模块,用于对每组保单数据组进行缺失数据补全处理;
计算模块,用于使用XGBoost模型计算经过数据补全的保单数据组中各参数的重要性占比;
模型训练模块,用于将重要性占比最高的若干参数作为训练样本训练XGBoost模型,得到续保预测模型;
所述续保预测模型的输入参数包括所述重要性占比最高的若干参数,输出参数包括续保意向得分。
6.如权利要求5所述的车险的续保预测***,其特征在于,所述数据补全模块具体包括:
模型建立单元,用于根据所述保单数据组并基于概率模型建立数据补全模型;
采样单元,用于基于所述数据补全模型对每组保单数据组的缺失参数进行采样,并以采样结果填充缺失数据。
7.如权利要求6所述的车险的续保预测***,其特征在于,所述概率模型为:
P(x1,x2,…,xn,y1,y2,…,ym)=N(x111)…N(xnnn)M(y1|p11,…,p1k)…M(ym|pm1,…,pmk);
其中,x1,x2,…,xn表示所述保单数据组中n个连续型的参数;y1,y2,…,ym表示所述保单数据组中m个离散型的参数;N(x111)…N(xnnn)表示n个连续型的参数的正态分布,M(y1|p11,…,p1k)…M(ym|pm1,…,pmk)表示m个离散型的参数的多项分布;k表示每个离散型的参数可选择的选项个数;μ、σ分别表示参数的期望和方差;p表示参数不同选项的发生概率。
8.如权利要求5所述的车险的续保预测***,其特征在于,所述保单数据组包括:车主数据、车辆数据和投保数据;
所述车主数据包括以下参数中的至少一种:车主的年龄、性别、居住地、保险车辆自用或者公用;
所述车辆数据包括以下参数中的至少一种:车龄、车系、车价、折旧率、是否为豪华车;
所述投保数据包括以下参数中的至少一种:去年保单投保公司、子险投保类型、各种子险投保额、保费、无赔款优待系数NCD、续保状态。
CN201910228100.2A 2019-03-25 2019-03-25 车险的续保预测方法及*** Pending CN109978257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910228100.2A CN109978257A (zh) 2019-03-25 2019-03-25 车险的续保预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910228100.2A CN109978257A (zh) 2019-03-25 2019-03-25 车险的续保预测方法及***

Publications (1)

Publication Number Publication Date
CN109978257A true CN109978257A (zh) 2019-07-05

Family

ID=67080460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910228100.2A Pending CN109978257A (zh) 2019-03-25 2019-03-25 车险的续保预测方法及***

Country Status (1)

Country Link
CN (1) CN109978257A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508718A (zh) * 2020-12-03 2021-03-16 中国人寿保险股份有限公司 一种保单的续费提醒方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679991A (zh) * 2017-05-22 2018-02-09 平安科技(深圳)有限公司 保单信息的处理装置、方法及计算机可读存储介质
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN108648011A (zh) * 2018-05-11 2018-10-12 上海赢科信息技术有限公司 模型生成、识别客户购买车险意向的方法及***
CN108830734A (zh) * 2018-07-03 2018-11-16 平安健康保险股份有限公司 续保预测方法、装置、计算机设备及存储介质
CN109165664A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679991A (zh) * 2017-05-22 2018-02-09 平安科技(深圳)有限公司 保单信息的处理装置、方法及计算机可读存储介质
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN108648011A (zh) * 2018-05-11 2018-10-12 上海赢科信息技术有限公司 模型生成、识别客户购买车险意向的方法及***
CN108830734A (zh) * 2018-07-03 2018-11-16 平安健康保险股份有限公司 续保预测方法、装置、计算机设备及存储介质
CN109165664A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508718A (zh) * 2020-12-03 2021-03-16 中国人寿保险股份有限公司 一种保单的续费提醒方法及装置

Similar Documents

Publication Publication Date Title
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
JP2002543538A (ja) 実験データの分布状階層的発展型モデリングと可視化の方法
JP2006085716A (ja) 自動化された評価モデルについて予測標準偏差を組み立てるための方法および装置
CN114549046A (zh) 基于融合模型的销售预测方法、***、设备及存储介质
CN106228263A (zh) 基于大数据的物流信息化方法
CN113656691A (zh) 数据预测方法、装置及存储介质
CN111401941A (zh) 一种基于XGBoost推荐算法的车辆销量预测方法
CN112614011A (zh) 电力配网物资需求预测方法和装置、存储介质及电子设备
CN113807951A (zh) 一种基于深度学习的交易数据趋势预测方法和***
CN112613637A (zh) 充电负荷的处理方法和装置
CN106294410A (zh) 一种个性化信息推送时间的确定方法及确定***
US20020161561A1 (en) System and method for association of object sets
CN110163722B (zh) 用于农产品精准销售的大数据分析***及分析方法
CN115660725A (zh) 多维度能源用户画像的刻画方法
CN109978257A (zh) 车险的续保预测方法及***
EP1107157A2 (en) System and method for performing predictive analysis
CN113345564A (zh) 一种基于图神经网络的患者住院时长早期预测方法及装置
CN117408394A (zh) 电力***的碳排放因子预测方法、装置及电子设备
CN113450004A (zh) 电力信用报告生成方法、装置、电子设备及可读存储介质
CN116611678A (zh) 数据处理方法、装置、计算机设备和存储介质
CN116245380A (zh) 目标业务的业务问题的确定方法、装置、计算机设备
CN112232945B (zh) 一种确定个人客户授信的方法及装置
CN111353797A (zh) 资源分配方法、装置以及电子设备
CN115221153A (zh) 一种缺失数据填补方法、装置和计算机可读存储介质
CN115392582A (zh) 基于增量模糊粗糙集属性约简的作物产量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination