CN110826820A - 车辆保险案件量的预测方法及装置 - Google Patents
车辆保险案件量的预测方法及装置 Download PDFInfo
- Publication number
- CN110826820A CN110826820A CN201911207732.7A CN201911207732A CN110826820A CN 110826820 A CN110826820 A CN 110826820A CN 201911207732 A CN201911207732 A CN 201911207732A CN 110826820 A CN110826820 A CN 110826820A
- Authority
- CN
- China
- Prior art keywords
- case quantity
- prediction model
- predicting
- vehicle insurance
- characteristic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种车辆保险案件量的预测方法及装置,涉及机器学习领域,能够更为准确地预测车辆保险案件量。该方法包括:服务器确定训练集,该训练集包括多个案件量样本数据,该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据;服务器基于极端梯度提升XGBoost算法构建预测模型,以训练集对预测模型进行训练,该预测模型用于预测车辆保险案件量;服务器根据训练好的预测模型,确定车辆保险案件量的预测值。本发明适用于预测未来发生案件量的过程中。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种车辆保险案件量的预测方法及装置。
背景技术
随着车辆保险行业规模的扩大,车辆保险案件量也随之增大。每当车辆行驶途中出现故障,保险公司会派工作人员进行救援。为了有效地实施救援工作,车辆保险案件量预测的研究成为了保险行业提前规划救援和及时调度的研究重点和热点。通过预测案件量,为保险行业智能调度与成本控制提供依据。
目前,传统获取案件量的方法是依据线性方式,采用多项式结合业务经验的方式预测案件量。现有的方法普遍存在预测结果与实际情况偏差很大的情况。因此,如何提高预测案件量的准确率,成为一个亟待解决的问题。
发明内容
本发明实施例提供一种车辆保险案件量的预测方法及装置,能够提高预测案件量的准确率。
为达到上述目的,本发明提供如下技术方案:
第一方面,提供一种车辆保险案件量的预测方法,包括:服务器确定训练集,该训练集包括多个案件量样本数据,该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据;天气特征数据用于反映天气特征对于车辆保险案件量的影响;地理特征数据用于反映地理特征对于车辆保险案件量的影响;时间特征数据用于反映时间特征对于车辆保险案件量的影响;案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。服务器以训练集对预测模型进行训练,预测模型用于预测车辆保险案件量,预测模型基于XGBoost算法构建。服务器根据训练好的预测模型,确定预测的车辆保险案件量。
基于上述技术方案,车辆保险案件的发生受许多因素(例如地理、天气、节假日)的影响。因此,在进行案件数量预测时,综合考虑案件量本身的规律(也即案件量特征数据)及结合这些外部因素(也即天气特征数据、地理特征数据、时间特征数据),可以有效提升预测模型的准确率;另外,针对不同维度的影响程度进行分析,可以提升预测模型的泛化能力,使得预测模型可以适应不同的场景。另外,本发明提供的预测模型是基于XGBoost算法构建的,从而能够很好地控制预测模型的复杂度,防止过拟合。
一种可能的设计中,该方法包括:服务器确定测试集,该测试集包括多个案件量样本数据,测试集与训练集之间不存在交集。服务器以测试集对训练好的预测模型进行测试。服务器根据测试结果,评价训练好的预测模型。基于该设计,服务器可以根据测试集对训练好的预测模型进行测试,得到测试结果,从而确定预测案件量的准确率。
一种可能的设计中,天气特征数据包括以下一项或多项:当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差;地理特征数据包括以下一项或多项:道路长度、道路面积、道路密度;时间特征数据包括以下一项或多项:距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度;案件量特征数据包括以下一项或多项:预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。基于该设计,服务器可以得到每种特征数据中的多个数据。
一种可能的设计中,预测模型为普通预测模型或异常预测模型;其中,异常预测模型用于预测异常天气情况下的车辆保险案件量;异常天气情况包括以下一项或多项:暴雨、高温、暴雪;普通预测模型用于预测普通天气情况下的车辆保险案件量;普通天气情况为除了异常天气情况之外的其他天气情况。基于该设计,预测模型分为两种预测模型,可以在不同的天气情况下,针对性地使用预测模型预测案件量,提高预测案件量的准确性。
一种可能的设计中,在预测模型为普通预测模型的情况下,训练集为普通训练集,普通训练集所包括的案件量样本数据未经过人工干预;在预测模型为异常预测模型的情况下,训练集为异常训练集,异常训练集所包括的案件量样本数据经过人工干预。基于该设计,对异常训练集进行人工干预,使异常训练集与异常天气情况的数据更贴近,从而使训练出的异常预测模型得到的预测数据更加准确,提高预测案件的准确率。
第二方面,提供一种服务器,该服务器包括:确定模块,用于确定训练集,该训练集包括多个案件量样本数据,该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据;天气特征数据用于反映天气特征对于车辆保险案件量的影响;地理特征数据用于反映地理特征对于车辆保险案件量的影响;时间特征数据用于反映时间特征对于车辆保险案件量的影响;案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。处理模块,用于以训练集对预测模型进行训练,预测模型用于预测车辆保险案件量,预测模型基于XGBoost算法构建。确定模块,还用于根据训练好的预测模型,确定预测的车辆保险案件量。
一种可能的设计中,确定模块,还用于确定测试集,该测试集包括多个案件量样本数据,测试集与训练集之间不存在交集。处理模块,还用于以测试集对训练好的预测模型进行测试。确定模块,还用于根据测试结果,评价训练好的预测模型。
一种可能的设计中,天气特征数据包括以下一项或多项:当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差;地理特征数据包括以下一项或多项:道路长度、道路面积、道路密度;时间特征数据包括以下一项或多项:距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度;案件量特征数据包括以下一项或多项:预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。
一种可能的设计中,预测模型为普通预测模型或异常预测模型;其中,异常预测模型用于预测异常天气情况下的车辆保险案件量;异常天气情况包括以下一项或多项:暴雨、高温、暴雪;普通预测模型用于预测普通天气情况下的车辆保险案件量;普通天气情况为除了异常天气情况之外的其他天气情况。
一种可能的设计中,在预测模型为普通预测模型的情况下,训练集为普通训练集,普通训练集所包括的案件量样本数据未经过人工干预;在预测模型为异常预测模型的情况下,训练集为异常训练集,异常训练集所包括的案件量样本数据经过人工干预。
第三方面,本发明提供了服务器,该服务器包括:处理器和通信接口;通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的车辆保险案件量的预测方法。
第四方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的车辆保险案件量的预测方法。
第五方面,本发明实施例提供一种包含指令的计算机程序产品,当计算机程序产品在服务器上运行时,使得服务器执行如第一方面和第一方面的任一种可能的实现方式中所描述的车辆保险案件量的预测方法。
第六方面,本发明实施例提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的车辆保险案件量的预测方法。
具体的,本发明实施例中提供的芯片还包括存储器,用于存储计算机程序或指令。
附图说明
图1为本发明实施例提供的一种车辆保险案件量的预测方法的流程图;
图2为本发明实施例提供的另一种车辆保险案件量的预测方法的流程图;
图3为本发明实施例提供的一种服务器的结构图;
图4为本发明实施例提供的另一种服务器的结构图。
具体实施方式
本文中字符“/”,一般表示前后关联对象是一种“或者”的关系。例如,A/B可以理解为A或者B。
在本发明的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个案件量样本数据是指两个或两个以上的案件量样本数据。
此外,本发明的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,在本发明实施例中,“示例性的”、或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、或者“例如”等词旨在以具体方式呈现概念。
极端梯度提升(eXtreme Gradient Boosting,XGBoost)是一种GB(GradientBoosting)的高效实现。GB是一种用于回归和分类问题的学习模型,该模型以弱预测模型集合的形式产生强预测模型。通过每次迭代生成一棵新树,选择指向负梯度方向的弱预测模型来优化函数空间上目标函数。XGBoost是在GBDT算法基础上进一步优化,在基学习器损失函数采用二阶泰勒展开式的形式引入正则项,具有不易过拟合、灵活性高、收敛速度快、准确度高等特点,能够处理稀疏特征,支持多线程并行处理。
案件量是指保险行业中,汽车发生拖车或者路修的事件量。其中,RSR示路修案件,TOWING表示拖车案件。
现有技术中,传统获取案件量的方法是依据线性方式,采用多项式结合业务经验的方式预测案件量,这些方法普遍存在预测结果与实际情况偏差很大的情况。因此,如何提高预测案件量的准确率,成为一个亟待解决的问题。
为了解决如何提高预测案件量的准确率的技术问题,本发明实施例提供一种车辆保险案件量的预测方法。如图1所示,该方法包括以下步骤。
S101、服务器确定训练集。
其中,该训练集包括多个案件量样本数据。
一个案件量样本数据对应一个地点;并且,一个案件量样本数据对应一个预测日。因此,服务器根据通过预设的时间和地点,确定相应的案件量样本数据。
需要说明的是,案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据。天气特征数据用于反映天气特征对于车辆保险案件量的影响;地理特征数据用于反映地理特征对于车辆保险案件量的影响;时间特征数据用于反映时间特征对于车辆保险案件量的影响;案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。
(1)天气特征数据还包括:当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差等。
示例性的,表1示出天气特征数据的特征名及其含义。表1中的一行是一条天气特征数据,一行中的左列为特征名,右列为特征名代表的含义。
表1
可以理解的是,不同的天气情况对驾驶行为、车辆状况等会产生直接的影响,而驾驶行为、车辆状况等对案件发生的概率存在影响,因此在预测模型的训练过程中需要考虑天气因素,以提高训练好的预测模型的准确度。
需要说明的是,天气特征数据是通过对历史天气数据进行预处理而得到的。
历史天气数据可以按照以下方式生成:首先,服务器对天气数据进行按小时级别的复核。若某个小时的天气数据丢失,则服务器对该小时的天气数据进行填补。其中,用于填补的数据为前两个小时与后两个小时的天气数据的均值,或前一个小时与后一个小时的天气数据的均值。之后,服务器对小时级别的天气数据进行整合,得到天级别(也即24小时级别)的天气数据。最后,服务器对天级别的天气数据按照气象局相应的规定进行打标签,标签内容可以为阴、晴、雨、雪。
(2)地理特征数据包括:道路长度、道路面积、以及道路密度。
其中,道路长度用于指示每平方公里内的道路长度。道路面积用于指示每平方公里内的道路面积。道路密度用于指示每平方公里内的道路密度。
示例性的,服务器可以利用路网地图数据,结合pgsql数据库计算得到每平方公里内的道路长度、每平方公里内的道路面积、每平方公里内的道路密度。
示例性的,表2示出地理特征数据的特征名及其含义。表2中的一行是一条地理特征数据,一行中的左列为特征名,右列为特征名代表的含义。
表2
可以理解的是,地理特征数据代表了该地区的路网通行能力。在获知区县内的道路总长度、区县内的道路总面积、区县内的道路密度后,可以得出该区县的路网通行能力。区域的路网通行能力对案件发生的概率存在影响,因此在预测模型的训练过程中需要考虑地理因素,以提高训练好的预测模型的准确度。
(3)时间特征数据包括:距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、距离下一个春节天数、距离上一个春节天数、星期日(0-6)、月份、季度、农历月份、是否为工作日等。
表3示出时间特征数据的特征名及其含义。表3中的一行是一条时间特征数据,一行中的左列为特征名,右列为特征名代表的含义。
表3
特征名 | 含义 |
afterFestival | 距离上一个节假日(除春节外)天数 |
beforeFestival | 距离下一个节假日(除春节外)天数 |
afterSpring | 距离下一个春节天数 |
beforeSpring | 距离上一个春节天数 |
month | 月份 |
quarter | 季度 |
lunarMonth | 农历月份 |
workday_0 | 是否为工作日 |
lunarDay | 农历日 |
workday_1 | 是否为周末 |
workday_2 | 是否为节假日(除春节) |
workday_3 | 是否为春节 |
dayofweek | 星期日(0-6) |
…… | …… |
需要说明的是,星期日(0-6)中,分别用数字0-6对应一周的星期一到星期日。例如,0代表星期一。
可以理解的是,由于交通需求的周期性特征,不同日期、不同星期特征日的区域交通状况存在明显差异,因此交通状况对案件发生的概率存在影响。从而,在预测模型的训练过程中需要考虑时间因素,以提高训练好的预测模型的准确度。
(4)案件量特征数据包括:预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量等。
表4示出案件量特征数据的特征名及其含义。表4中的一行是一条案件量特征数据,一行中的左列为特征名,右列为特征名代表的含义。
表4
需要说明的是,案件量特征数据是通过对历史案件数据进行预处理得到的。
可以理解的是,历史案件数据由多个案件数据组成。每一个案件数据对应一个车辆保险案件。案件数据可以包括案件发生日期和案件发生地点的经纬度信息。
可选的,以区县为筛选依据,服务器对每个区县发生的案件量进行检验。区县案件量为空时,将该区县对应的案件量设置为0。若区县经纬度信息发生变化,将区县经纬度信息发生变化前的区县案件量与区县经纬度信息发生变化后的区县案件量进行对比,取并集。这样一来,服务器可以确定一个区域在一段时间内的案件量。
示例性的,在2019年11月24日,经纬度信息为a、b、c的区域分别发生1、1、1件案件,此时经纬度信息为a、c的区域属于A区,经纬度信息为b的区域属于B区。也就是说,2019年11月24日A区发生案件量为2件,B区发生案件量为1件。在2019年11月25日,区域划分进行变更,经纬度信息为a的区域属于A区,经纬度信息为b、c的区域属于B区,无案件发生。将区县经纬度信息发生变化前的区县案件量与区县经纬度信息发生变化后的区县案件量进行对比,取并集。也就是说,在2019年11月24日至2019年11月25日期间,A区共发生2件案件,B区共发生2件案件。
可选的,服务器可以利用统计学相关函数对案件量特征数据进行计算。
示例性的,服务器利用标准差公式计算预测日前3天内案件量的标准差。服务器利用平均值公式计算预测日前n天内案件量的平均值。
S102、服务器以训练集对预测模型进行训练。
其中,预测模型用于预测车辆保险案件量,预测模型是基于XGBoost算法构建。
XGBoost的目标函数包括以下两项:
Obj(Θ)=L(Θ)+Ω(Θ) (1)
其中,L(Θ)表示误差函数,Ω(Θ)表示正则项。
XGBoost最基本的组成部分是回归树,它的模型如下:
学习的过程是不断在原有模型中添加新树,模型如下:
在学习的过程中,目标函数就是用来帮助我们寻找一个最好的预测,具体是寻找一个f来使目标函数最小,此时目标函数如下:
其中,yi为真实的案件量,
采用泰勒展开定义一个近似的目标函数,泰勒展开式如下:
则gi和hi如下:
其中,gi为L(Θ)的一阶导函数,hi为L(Θ)的二阶导函数。
得到新的目标函数,如下:
移除常数项后得到如下目标函数:
其中,f包括两部分,树的结构部分和叶子权重部分;Ω(f)为树的复杂度,包括ωj 2和T,ωj 2表示叶子权重的L2模平方,T表示叶子个数,将f带入,得到目标函数如下:
其中,ωj为第j个叶子节点的得分值。想要获取最优的ωj,可以对目标函数求偏导,得到:
将公式(11)带入公式(10)得到:
每次迭代增加一颗新树,运用算法寻找切分点,产生新一轮的树,通常情况如下:
y(t)=y(t-1)+εft(xi) (13)
其中,ε为缩减因子,目的是削弱每棵树的影响,使之后对模型的训练有更大的学习空间,避免过拟合。
以上是对XGBoost算法的简单介绍,XGBoost算法的具体实现方式可以参考现有技术,此处不再赘述。
可选的,对预测模型模型设置参数。
示例性的,表5示出XGBoost参数调优。表5中的一行是一条参数数据,一行中的左列为参数名,右列为参数值。
表5
S103、服务器根据训练好的预测模型,确定车辆保险案件量的预测值。
作为一种可能的实现方式,服务器将目标区域的天气特征数据、案件量特征数据、地理特征数据、以及时间特征数据输入训练好的预测模型,确定目标区域的车辆保险案件量的预测值。
基于上述技术方案,车辆保险案件的发生受许多因素(例如地理、天气、节假日)的影响。因此,在进行案件数量预测时,综合考虑案件量本身的规律(也即案件量特征数据)及结合这些外部因素(也即天气特征数据、地理特征数据、时间特征数据),可以有效提升预测模型的准确率;另外,针对不同维度的影响程度进行分析,可以提升预测模型的泛化能力,使得预测模型可以适应不同的场景。另外,本发明提供的预测模型是基于XGBoost算法构建的,从而能够很好地控制预测模型的复杂度,防止过拟合。
下面结合实际应用场景,对预测模型进行具体说明。
预测模型可以划分为:普通预测模型或异常预测模型。其中,普通预测模型用于预测普通天气情况下的车辆保险案件量。异常预测模型用于预测异常天气情况下的车辆保险案件量。
这样一来,通过建立各种天气情况所对应的预测模型,从而在预测某个天气的车辆保险案件量时,可以使用该天气所对应的预测模型,得到更准确的预测值。
需要说明的是,普通天气情况即为非异常天气情况,也就是说,普通天气情况为除了异常天气情况之外的其他天气情况。
需要说明的是,异常天气情况可以为:暴雨、暴雪、高温、或者低温。其中,暴雨为1小时内的雨量为16毫米或以上的雨,或者24小时内的雨量为50毫米或以上的雨。暴雪为12小时内降雪量为4毫米以上的雪,或者24小时内的降雪量为10毫米或以上的雪。高温为日最高气温达到或超过35℃。低温为日平均气温等于或低于5℃。
在本发明实施例中,普通预测模型使用普通训练集进行训练,异常预测模型使用异常训练集进行训练。
其中,普通训练集所包括的案件量样本数据未经过人工干预。
异常训练集所包括的案件量样本数据经过人工干预。
在本发明实施例中,异常训练集可以包括暴雨训练集、暴雪训练集、高温训练集等。
示例一、对于暴雨训练集来说,人工干预方式包括:获取当日降雨导致的积水量、剔除当日为节假日的案件量样本数据、剔除当日有大合同出现的案件量样本数据、剔除当日温度出现低温和高温的案件量样本数据、剔除当日有降雪量的案件量样本数据、剔除当日降水量为0的案件量样本数据。
可以理解的是,车辆数目激增或者高温等天气因素会影响案件发生的概率。因此,需要对暴雨训练集进行人工干预,排除除暴雨以外的其它干扰因素,以使得暴雨预测模型不受车辆数目激增或者高温等天气的影响,提高了预测模型预测案件量的准确率。
可选的,对于暴雨训练集来说,人工干预方式还包括:将暴雨情况下的案件量进行对应比率翻倍处理。
可以理解的是,由于暴雨情况下的案件量样本数据较少,占比重低,预测模型针对暴雨情况进行剪枝操作,导致预测结果普遍偏小,与真实值相差较大。因此,对暴雨情况下的案件量进行对应比率翻倍处理,提高暴雨情况下案件量的比重,从而提高了预测模型预测暴雨情况下案件量的准确率。
进一步的,获取人工干预后的暴雨训练集中案件量样本数据的降雨积水梯度,得到降雨积水梯度内案件量激增比率的平均值。
示例性的,表6示出各城市降雨积水梯度比率。表6中的第一列是服务类型,第二列是区域,第三列是积水梯度,第四列是案件量比率。
表6
服务类型 | 区域 | 温度梯度 | 比率 |
RSR | 110000 | 0.0--1.0 | 1.076316 |
RSR | 110000 | 0.0--0.0 | 0.941414 |
RSR | 110000 | 0.0--0.0 | 0.939083 |
TOWING | 110000 | 0.0--1.0 | 1.077665 |
TOWING | 110000 | 0.0--0.0 | 1.090187 |
TOWING | 110000 | 0.0--0.0 | 1.074449 |
RSR | 120000 | 18.0--23.0 | 1.326708 |
RSR | 120000 | 7.0--13.0 | 1.542729 |
RSR | 120000 | 3.0--5.0 | 1.37019 |
TOWING | 120000 | 18.0--23.0 | 1.222538 |
TOWING | 120000 | 7.0--13.0 | 1.541453 |
TOWING | 120000 | 3.0--5.0 | 1.17254 |
… | … | … | … |
示例二、对于高温训练集来说,人工干预方式包括:剔除当日为节假日的案件量样本数据、剔除当日有大合同出现的案件量样本数据、剔除当日有降水量的案件量样本数据、剔除当日有降雪量的案件量样本数据。
可以理解的是,车辆数目激增或者暴雨等天气因素会影响案件发生的概率。因此,对高温训练集进行人工干预,排除除高温以外的其它干扰因素,以使得高温训练集不受车辆数目激增或者暴雨等天气的影响,提高了预测模型预测案件量的准确率。
可选的,对于高温训练集来说,人工干预方式还包括:将高温情况下的案件量根据对应比率进行翻倍处理。
可以理解的是,由于高温情况下的案件量样本数据较少,占比重低,预测模型针对高温情况进行剪枝操作,导致预测结果普遍偏小,与真实值相差较大。因此,服务器对高温情况下的案件量进行对应比率翻倍处理,提高了高温情况下案件量的比重,从而提高预测模型预测高温情况下案件量的准确率。
示例性的,表7示出各城市温度梯度比率。表7中的第一列是服务类型,第二列是区域,第三列是温度梯度,第四列是案件量比率。
表7
服务类型 | 区域 | 温度梯度 | 比率 |
RSR | 110000 | <27.0<30.0 | 0.904645 |
RSR | 110000 | <26.0<27.0 | 0.871442 |
RSR | 110000 | <25.0<25.0 | 0.876985 |
TOWING | 110000 | <27.0<30.0 | 1.26797 |
TOWING | 110000 | <26.0<27.0 | 1.265943 |
TOWING | 110000 | <25.0<25.0 | 1.245183 |
RSR | 120000 | <28.0<32.0 | 1.547991 |
RSR | 120000 | <26.0<28.0 | 1.239075 |
RSR | 120000 | <25.0<26.0 | 1.172831 |
TOWING | 120000 | <28.0<32.0 | 1.669604 |
TOWING | 120000 | <26.0<28.0 | 1.143665 |
TOWING | 120000 | <25.0<26.0 | 1.469436 |
… | … | … | … |
示例三、对于暴雪训练集来说,人工干预方式包括:剔除当日为节假日的案件量样本数据、剔除当日有大合同出现的案件量样本数据、剔除当日有降水量的案件量样本数据。
可以理解的是,车辆数目激增或者降雨等天气因素会影响案件发生的概率。因此,对暴雪训练集进行人工干预,排除除暴雪以外的其它干扰因素,以使得暴雪预测模型不受车辆数目激增或者降雨等天气的影响,从而提高预测模型预测案件量的准确率。
可选的,对于暴雪训练集来说,人工干预方式还包括:将暴雪情况下的案件量根据对应比率进行翻倍处理。
可以理解的是,由于暴雪情况下的案件量样本数据较少,占比重低,预测模型针对暴雪情况进行剪枝操作,导致预测结果普遍偏小,与真实值相差较大。因此,服务器对暴雪情况下的案件量进行对应比率翻倍处理,提高了暴雪情况下案件量的比重,从而提高了预测模型预测暴雪情况下案件量的准确率。
进一步的,获取人工干预后的暴雪训练集中案件量样本数据的温度梯度,得到温度梯度内案件量激增比率的平均值。
可选的,为了测试训练好的预测模型的准确度,本发明实施例还提供一种测试方法。如图2所示,该方法包括以下步骤:
S201、服务器确定测试集。
其中,测试集包括多个案件量样本数据,测试集与训练集之间不存在交集。
可以理解的是,测试集中有多个案件量样本数据,测试集中的案件量样本数据越多,使用测试集对预测模型进行测试的结果越具有代表性。测试集与训练集之间不存在交集,可以防止使用训练集中的案件量样本数据对预测模型进行测试,从而保证测试结果的真实性。
为了实现测试集与训练集之间不存在交集这一目的,服务器可以预先确定M个案件量样本数据;之后,服务器按照预设比例,将M个案件量样本数据划分为训练集和测试集。其中,训练集包括P个案件量样本数据,测试集包括K个案件量样本数据。M=P+K,M、P、以及K均为正整数。
S202、服务器以测试集对训练好的预测模型进行测试。
S203、服务器根据测试结果,评价训练好的预测模型。
其中,测试结果为训练好的预测模型的准确率。
可选的,若训练好的预测模型的准确率大于等于预设值,则训练好的预测模型是准确的,也即训练好的预测模型是可用的;若训练好的预测模型的准确率小于预设值,则训练好的预测模式存在较大的误差,也即训练好的预测模型是不可用的。
示例性的,上述预设值可以是根据专家经验设定的。例如,上述预设值可以为80%。
示例一、服务器将普通情况下的路修测试集输入普通预测模型,得到目标区域的预测的路修案件量。
表8示出普通预测模型RSR预测效果。表8中的一列是普通预测模型RSR平均预测准确率。
表8
示例二、服务器将普通情况下的拖车测试集输入普通预测模型,得到目标区域的预测的拖车案件量。
表9示出普通预测模型TOWING预测效果。表9中的一列是普通预测模型TOWING平均预测准确率,一行中的左列为特征名,右列为特征名代表的含义。
表9
示例三、服务器将异常情况下的拖车测试集输入异常预测模型,得到目标区域的预测的拖车案件量。
表10示出异常预测模型RSR预测效果。表10中的一列是异常预测模型RSR平均预测准确率。
表10
示例四、服务器将异常情况下的路修测试集输入异常预测模型,得到目标区域的路修案件量的预测值。
表11示出异常预测模型RSR预测效果。表11中的一列是异常预测模型RSR平均预测准确率。
表11
如图3所示,为本发明实施例提供的一种服务器的结构,该服务器包括:
确定模块101,用于确定训练集,该训练集包括多个案件量样本数据,该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据;天气特征数据用于反映天气特征对于车辆保险案件量的影响;地理特征数据用于反映地理特征对于车辆保险案件量的影响;时间特征数据用于反映时间特征对于车辆保险案件量的影响;案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。
处理模块102,用于以训练集对预测模型进行训练,预测模型用于预测车辆保险案件量,预测模型基于XGBoost算法构建。
确定模块101,还用于根据训练好的预测模型,确定预测的车辆保险案件量。
可选的,确定模块101,还用于确定测试集,该测试集包括多个案件量样本数据,测试集与训练集之间不存在交集。
处理模块102,还用于以测试集对训练好的预测模型进行测试。
确定模块101,还用于根据测试结果,评价训练好的预测模型。
可选的,天气特征数据包括以下一项或多项:当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差;地理特征数据包括以下一项或多项:道路长度、道路面积、道路密度;时间特征数据包括以下一项或多项:距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度;案件量特征数据包括以下一项或多项:预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。
可选的,预测模型为普通预测模型或异常预测模型;其中,异常预测模型用于预测异常天气情况下的车辆保险案件量;异常天气情况包括以下一项或多项:暴雨、高温、暴雪;普通预测模型用于预测普通天气情况下的车辆保险案件量;普通天气情况为除了异常天气情况之外的其他天气情况。
可选的,在预测模型为普通预测模型的情况下,训练集为普通训练集,普通训练集所包括的案件量样本数据未经过人工干预;在预测模型为异常预测模型的情况下,训练集为异常训练集,异常训练集所包括的案件量样本数据经过人工干预。
图4示出了上述实施例中所涉及的服务器的一种可能的结构。该服务器包括:处理器201和收发器202。处理器201用于对服务器的动作进行控制管理,例如,执行上述处理单元101执行的步骤,和/或用于执行本文所描述的技术的其它过程。收发器202用于支持服务器与其他网络实体的通信。服务器还可以包括存储器203和总线204,存储器203用于存储服务器的程序代码和数据。
其中,存储器203可以是服务器中的存储器等,该存储器可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。
上述处理器201可以是实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线204可以是扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。总线204可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例中的车辆保险案件量的预测方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得该计算机执行上述方法实施例所示的方法流程中的车辆保险案件量的预测方法。
其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (12)
1.一种车辆保险案件量的预测方法,其特征在于,所述方法包括:
确定训练集,所述训练集包括多个案件量样本数据,所述案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据;所述天气特征数据用于反映天气特征对于车辆保险案件量的影响;所述地理特征数据用于反映地理特征对于车辆保险案件量的影响;所述时间特征数据用于反映时间特征对于车辆保险案件量的影响;所述案件量特征数据用于反映案件量特征对于车辆保险案件量的影响;
以所述训练集对预测模型进行训练,所述预测模型用于预测车辆保险案件量,所述预测模型基于极端梯度提升XGBoost算法构建;
根据训练好的预测模型,确定车辆保险案件量的预测值。
2.根据权利要求1所述的车辆保险案件量的预测方法,其特征在于,所述方法包括:
确定测试集,所述测试集包括多个案件量样本数据,所述测试集与所述训练集之间不存在交集;
以所述测试集对所述训练好的预测模型进行测试;
根据测试结果,评价所述训练好的预测模型。
3.根据权利要求1或2所述的车辆保险案件量的预测方法,其特征在于,
所述天气特征数据包括以下一项或多项:当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差;
所述地理特征数据包括以下一项或多项:道路长度、道路面积、道路密度;
所述时间特征数据包括以下一项或多项:距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度;
所述案件量特征数据包括以下一项或多项:预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。
4.根据权利要求3所述的车辆保险案件量的预测方法,其特征在于,所述预测模型为普通预测模型或异常预测模型;
其中,所述异常预测模型用于预测异常天气情况下的车辆保险案件量;所述异常天气情况包括以下一项或多项:暴雨、高温、以及暴雪;
所述普通预测模型用于预测普通天气情况下的车辆保险案件量;所述普通天气情况为除了所述异常天气情况之外的其他天气情况。
5.根据权利要求4所述的车辆保险案件量的预测方法,其特征在于,
在所述预测模型为普通预测模型的情况下,所述训练集为普通训练集,所述普通训练集所包括的案件量样本数据未经过人工干预;
在所述预测模型为异常预测模型的情况下,所述训练集为异常训练集,所述异常训练集所包括的案件量样本数据经过人工干预。
6.一种服务器,其特征在于,所述服务器包括:
确定模块,用于确定训练集,所述训练集包括多个案件量样本数据,所述案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据;所述天气特征数据用于反映天气特征对于车辆保险案件量的影响;所述地理特征数据用于反映地理特征对于车辆保险案件量的影响;所述时间特征数据用于反映时间特征对于车辆保险案件量的影响;所述案件量特征数据用于反映案件量特征对于车辆保险案件量的影响;
处理模块,用于以所述训练集对预测模型进行训练,所述预测模型用于预测车辆保险案件量,所述预测模型基于极端梯度提升XGBoost算法构建;
所述确定模块,还用于根据训练好的预测模型,确定车辆保险案件量的预测值。
7.根据权利要求6所述的服务器,其特征在于,
所述确定模块,还用于确定测试集,所述测试集包括多个案件量样本数据,所述测试集与所述训练集之间不存在交集;
所述处理模块,还用于以所述测试集对所述训练好的预测模型进行测试;
所述确定模块,还用于根据测试结果,评价所述训练好的预测模型。
8.根据权利要求6或7所述的服务器,其特征在于,
所述天气特征数据包括以下一项或多项:当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差;
所述地理特征数据包括以下一项或多项:道路长度、道路面积、道路密度;
所述时间特征数据包括以下一项或多项:距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度;
所述案件量特征数据包括以下一项或多项:预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。
9.根据权利要求8所述的服务器,其特征在于,所述预测模型为普通预测模型或异常预测模型;
其中,所述异常预测模型用于预测异常天气情况下的车辆保险案件量;所述异常天气情况包括以下一项或多项:暴雨、高温、以及暴雪;
所述普通预测模型用于预测普通天气情况下的车辆保险案件量;所述普通天气情况为除了所述异常天气情况之外的其他天气情况。
10.根据权利要求9所述的服务器,其特征在于,
在所述预测模型为普通预测模型的情况下,所述训练集为普通训练集,所述普通训练集所包括的案件量样本数据未经过人工干预;
在所述预测模型为异常预测模型的情况下,所述训练集为异常训练集,所述异常训练集所包括的案件量样本数据经过人工干预。
11.一种服务器,其特征在于,包括:处理器和通信接口;所述通信接口和所述处理器耦合,所述处理器用于运行计算机程序或指令,以实现如权利要求1-5任一项中所述的车辆保险案件量的预测方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述权利要求1-5任一项中所述的车辆保险案件量的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207732.7A CN110826820A (zh) | 2019-11-29 | 2019-11-29 | 车辆保险案件量的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911207732.7A CN110826820A (zh) | 2019-11-29 | 2019-11-29 | 车辆保险案件量的预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826820A true CN110826820A (zh) | 2020-02-21 |
Family
ID=69542326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911207732.7A Pending CN110826820A (zh) | 2019-11-29 | 2019-11-29 | 车辆保险案件量的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826820A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242170A (zh) * | 2018-08-28 | 2019-01-18 | 浙江大学城市学院 | 一种基于数据挖掘技术的城市道路管理***及方法 |
CN109543909A (zh) * | 2018-11-27 | 2019-03-29 | 平安科技(深圳)有限公司 | 车辆案件数量的预测方法、装置和计算机设备 |
CN110288096A (zh) * | 2019-06-28 | 2019-09-27 | 江苏满运软件科技有限公司 | 预测模型训练及预测方法、装置、电子设备、存储介质 |
-
2019
- 2019-11-29 CN CN201911207732.7A patent/CN110826820A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242170A (zh) * | 2018-08-28 | 2019-01-18 | 浙江大学城市学院 | 一种基于数据挖掘技术的城市道路管理***及方法 |
CN109543909A (zh) * | 2018-11-27 | 2019-03-29 | 平安科技(深圳)有限公司 | 车辆案件数量的预测方法、装置和计算机设备 |
CN110288096A (zh) * | 2019-06-28 | 2019-09-27 | 江苏满运软件科技有限公司 | 预测模型训练及预测方法、装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Danandeh Mehr et al. | Identification of the trends associated with the SPI and SPEI indices across Ankara, Turkey | |
CN109559512B (zh) | 一种区域交通流量预测方法及装置 | |
CN109544351B (zh) | 车辆风险评估方法、装置、计算机设备及存储介质 | |
US10262530B2 (en) | Determining customized safe speeds for vehicles | |
CN112382091A (zh) | 一种道路积水预警方法及装置 | |
CN110853347A (zh) | 一种短时交通路况预测方法、装置及终端设备 | |
CN114274780A (zh) | 车辆续航里程预测方法、装置、设备和存储介质 | |
CN110738523A (zh) | 一种维修订单量预测方法及装置 | |
Liu et al. | Quantifying the impact of weather on ride-hailing ridership: Evidence from Haikou, China | |
CN113838303B (zh) | 停车场推荐方法、装置、电子设备及存储介质 | |
Roh et al. | Analysis and modeling of highway truck traffic volume variations during severe winter weather conditions in Canada | |
Silva et al. | Analysis of the response of the Epitácio Pessoa reservoir (Brazilian semiarid region) to potential future drought, water transfer and LULC scenarios | |
GS et al. | Prediction of bus passenger traffic using Gaussian process regression | |
CN110826820A (zh) | 车辆保险案件量的预测方法及装置 | |
Thakali et al. | Model-based versus data-driven approach for road safety analysis: Do more data help? | |
CN111985731A (zh) | 城市公共交通站点人数的预测方法及*** | |
Boyles et al. | Quantifying travel time variability in transportation networks. | |
Hatmoko et al. | Monitoring and prediction of hydrological drought using a drought early warning system in Pemali-Comal River Basin, Indonesia | |
Van Woensel et al. | Validating state-dependent queueing models for uninterrupted traffic flows using simulation | |
Krembsler et al. | Fare revenue forecast in public transport: a comparative case study | |
Blattenberger et al. | Avalanche forecasting: Using bayesian additive regression trees (BART) | |
US20180365717A1 (en) | Method and System of Predicting Passenger Demand | |
Papagiannakis et al. | Sensitivity of NCHRP 1-37A pavement design to traffic input | |
Golabi | A Markov decision modeling approach to a multi-objective maintenance problem | |
CN115018213B (zh) | 高速公路事故持续时间预测方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |