CN110826820A

CN110826820A - 车辆保险案件量的预测方法及装置

Info

Publication number: CN110826820A
Application number: CN201911207732.7A
Authority: CN
Inventors: 麻雪丽; 马宇岩; 陈驭龙
Original assignee: Beijing Cennavi Technologies Co Ltd
Current assignee: Beijing Cennavi Technologies Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-02-21

Abstract

本发明公开一种车辆保险案件量的预测方法及装置，涉及机器学习领域，能够更为准确地预测车辆保险案件量。该方法包括：服务器确定训练集，该训练集包括多个案件量样本数据，该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据；服务器基于极端梯度提升XGBoost算法构建预测模型，以训练集对预测模型进行训练，该预测模型用于预测车辆保险案件量；服务器根据训练好的预测模型，确定车辆保险案件量的预测值。本发明适用于预测未来发生案件量的过程中。

Description

车辆保险案件量的预测方法及装置

技术领域

本发明涉及机器学习领域，尤其涉及一种车辆保险案件量的预测方法及装置。

背景技术

随着车辆保险行业规模的扩大，车辆保险案件量也随之增大。每当车辆行驶途中出现故障，保险公司会派工作人员进行救援。为了有效地实施救援工作，车辆保险案件量预测的研究成为了保险行业提前规划救援和及时调度的研究重点和热点。通过预测案件量，为保险行业智能调度与成本控制提供依据。

目前，传统获取案件量的方法是依据线性方式，采用多项式结合业务经验的方式预测案件量。现有的方法普遍存在预测结果与实际情况偏差很大的情况。因此，如何提高预测案件量的准确率，成为一个亟待解决的问题。

发明内容

本发明实施例提供一种车辆保险案件量的预测方法及装置，能够提高预测案件量的准确率。

为达到上述目的，本发明提供如下技术方案：

第一方面，提供一种车辆保险案件量的预测方法，包括：服务器确定训练集，该训练集包括多个案件量样本数据，该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据；天气特征数据用于反映天气特征对于车辆保险案件量的影响；地理特征数据用于反映地理特征对于车辆保险案件量的影响；时间特征数据用于反映时间特征对于车辆保险案件量的影响；案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。服务器以训练集对预测模型进行训练，预测模型用于预测车辆保险案件量，预测模型基于XGBoost算法构建。服务器根据训练好的预测模型，确定预测的车辆保险案件量。

基于上述技术方案，车辆保险案件的发生受许多因素(例如地理、天气、节假日)的影响。因此，在进行案件数量预测时，综合考虑案件量本身的规律(也即案件量特征数据)及结合这些外部因素(也即天气特征数据、地理特征数据、时间特征数据)，可以有效提升预测模型的准确率；另外，针对不同维度的影响程度进行分析，可以提升预测模型的泛化能力，使得预测模型可以适应不同的场景。另外，本发明提供的预测模型是基于XGBoost算法构建的，从而能够很好地控制预测模型的复杂度，防止过拟合。

一种可能的设计中，该方法包括：服务器确定测试集，该测试集包括多个案件量样本数据，测试集与训练集之间不存在交集。服务器以测试集对训练好的预测模型进行测试。服务器根据测试结果，评价训练好的预测模型。基于该设计，服务器可以根据测试集对训练好的预测模型进行测试，得到测试结果，从而确定预测案件量的准确率。

一种可能的设计中，天气特征数据包括以下一项或多项：当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差；地理特征数据包括以下一项或多项：道路长度、道路面积、道路密度；时间特征数据包括以下一项或多项：距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度；案件量特征数据包括以下一项或多项：预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。基于该设计，服务器可以得到每种特征数据中的多个数据。

一种可能的设计中，预测模型为普通预测模型或异常预测模型；其中，异常预测模型用于预测异常天气情况下的车辆保险案件量；异常天气情况包括以下一项或多项：暴雨、高温、暴雪；普通预测模型用于预测普通天气情况下的车辆保险案件量；普通天气情况为除了异常天气情况之外的其他天气情况。基于该设计，预测模型分为两种预测模型，可以在不同的天气情况下，针对性地使用预测模型预测案件量，提高预测案件量的准确性。

一种可能的设计中，在预测模型为普通预测模型的情况下，训练集为普通训练集，普通训练集所包括的案件量样本数据未经过人工干预；在预测模型为异常预测模型的情况下，训练集为异常训练集，异常训练集所包括的案件量样本数据经过人工干预。基于该设计，对异常训练集进行人工干预，使异常训练集与异常天气情况的数据更贴近，从而使训练出的异常预测模型得到的预测数据更加准确，提高预测案件的准确率。

第二方面，提供一种服务器，该服务器包括：确定模块，用于确定训练集，该训练集包括多个案件量样本数据，该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据；天气特征数据用于反映天气特征对于车辆保险案件量的影响；地理特征数据用于反映地理特征对于车辆保险案件量的影响；时间特征数据用于反映时间特征对于车辆保险案件量的影响；案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。处理模块，用于以训练集对预测模型进行训练，预测模型用于预测车辆保险案件量，预测模型基于XGBoost算法构建。确定模块，还用于根据训练好的预测模型，确定预测的车辆保险案件量。

一种可能的设计中，确定模块，还用于确定测试集，该测试集包括多个案件量样本数据，测试集与训练集之间不存在交集。处理模块，还用于以测试集对训练好的预测模型进行测试。确定模块，还用于根据测试结果，评价训练好的预测模型。

一种可能的设计中，天气特征数据包括以下一项或多项：当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差；地理特征数据包括以下一项或多项：道路长度、道路面积、道路密度；时间特征数据包括以下一项或多项：距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度；案件量特征数据包括以下一项或多项：预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。

一种可能的设计中，预测模型为普通预测模型或异常预测模型；其中，异常预测模型用于预测异常天气情况下的车辆保险案件量；异常天气情况包括以下一项或多项：暴雨、高温、暴雪；普通预测模型用于预测普通天气情况下的车辆保险案件量；普通天气情况为除了异常天气情况之外的其他天气情况。

一种可能的设计中，在预测模型为普通预测模型的情况下，训练集为普通训练集，普通训练集所包括的案件量样本数据未经过人工干预；在预测模型为异常预测模型的情况下，训练集为异常训练集，异常训练集所包括的案件量样本数据经过人工干预。

第三方面，本发明提供了服务器，该服务器包括：处理器和通信接口；通信接口和处理器耦合，处理器用于运行计算机程序或指令，以实现如第一方面和第一方面的任一种可能的实现方式中所描述的车辆保险案件量的预测方法。

第四方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在终端上运行时，使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的车辆保险案件量的预测方法。

第五方面，本发明实施例提供一种包含指令的计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行如第一方面和第一方面的任一种可能的实现方式中所描述的车辆保险案件量的预测方法。

第六方面，本发明实施例提供一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行计算机程序或指令，以实现如第一方面和第一方面的任一种可能的实现方式中所描述的车辆保险案件量的预测方法。

具体的，本发明实施例中提供的芯片还包括存储器，用于存储计算机程序或指令。

附图说明

图1为本发明实施例提供的一种车辆保险案件量的预测方法的流程图；

图2为本发明实施例提供的另一种车辆保险案件量的预测方法的流程图；

图3为本发明实施例提供的一种服务器的结构图；

图4为本发明实施例提供的另一种服务器的结构图。

具体实施方式

本文中字符“/”，一般表示前后关联对象是一种“或者”的关系。例如，A/B可以理解为A或者B。

在本发明的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个案件量样本数据是指两个或两个以上的案件量样本数据。

此外，本发明的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，在本发明实施例中，“示例性的”、或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、或者“例如”等词旨在以具体方式呈现概念。

极端梯度提升(eXtreme Gradient Boosting，XGBoost)是一种GB(GradientBoosting)的高效实现。GB是一种用于回归和分类问题的学习模型，该模型以弱预测模型集合的形式产生强预测模型。通过每次迭代生成一棵新树，选择指向负梯度方向的弱预测模型来优化函数空间上目标函数。XGBoost是在GBDT算法基础上进一步优化，在基学习器损失函数采用二阶泰勒展开式的形式引入正则项，具有不易过拟合、灵活性高、收敛速度快、准确度高等特点，能够处理稀疏特征，支持多线程并行处理。

案件量是指保险行业中，汽车发生拖车或者路修的事件量。其中，RSR示路修案件，TOWING表示拖车案件。

现有技术中，传统获取案件量的方法是依据线性方式，采用多项式结合业务经验的方式预测案件量，这些方法普遍存在预测结果与实际情况偏差很大的情况。因此，如何提高预测案件量的准确率，成为一个亟待解决的问题。

为了解决如何提高预测案件量的准确率的技术问题，本发明实施例提供一种车辆保险案件量的预测方法。如图1所示，该方法包括以下步骤。

S101、服务器确定训练集。

其中，该训练集包括多个案件量样本数据。

一个案件量样本数据对应一个地点；并且，一个案件量样本数据对应一个预测日。因此，服务器根据通过预设的时间和地点，确定相应的案件量样本数据。

需要说明的是，案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据。天气特征数据用于反映天气特征对于车辆保险案件量的影响；地理特征数据用于反映地理特征对于车辆保险案件量的影响；时间特征数据用于反映时间特征对于车辆保险案件量的影响；案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。

(1)天气特征数据还包括：当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差等。

示例性的，表1示出天气特征数据的特征名及其含义。表1中的一行是一条天气特征数据，一行中的左列为特征名，右列为特征名代表的含义。

表1

可以理解的是，不同的天气情况对驾驶行为、车辆状况等会产生直接的影响，而驾驶行为、车辆状况等对案件发生的概率存在影响，因此在预测模型的训练过程中需要考虑天气因素，以提高训练好的预测模型的准确度。

需要说明的是，天气特征数据是通过对历史天气数据进行预处理而得到的。

历史天气数据可以按照以下方式生成：首先，服务器对天气数据进行按小时级别的复核。若某个小时的天气数据丢失，则服务器对该小时的天气数据进行填补。其中，用于填补的数据为前两个小时与后两个小时的天气数据的均值，或前一个小时与后一个小时的天气数据的均值。之后，服务器对小时级别的天气数据进行整合，得到天级别(也即24小时级别)的天气数据。最后，服务器对天级别的天气数据按照气象局相应的规定进行打标签，标签内容可以为阴、晴、雨、雪。

(2)地理特征数据包括：道路长度、道路面积、以及道路密度。

其中，道路长度用于指示每平方公里内的道路长度。道路面积用于指示每平方公里内的道路面积。道路密度用于指示每平方公里内的道路密度。

示例性的，服务器可以利用路网地图数据，结合pgsql数据库计算得到每平方公里内的道路长度、每平方公里内的道路面积、每平方公里内的道路密度。

示例性的，表2示出地理特征数据的特征名及其含义。表2中的一行是一条地理特征数据，一行中的左列为特征名，右列为特征名代表的含义。

表2

可以理解的是，地理特征数据代表了该地区的路网通行能力。在获知区县内的道路总长度、区县内的道路总面积、区县内的道路密度后，可以得出该区县的路网通行能力。区域的路网通行能力对案件发生的概率存在影响，因此在预测模型的训练过程中需要考虑地理因素，以提高训练好的预测模型的准确度。

(3)时间特征数据包括：距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、距离下一个春节天数、距离上一个春节天数、星期日(0-6)、月份、季度、农历月份、是否为工作日等。

表3示出时间特征数据的特征名及其含义。表3中的一行是一条时间特征数据，一行中的左列为特征名，右列为特征名代表的含义。

表3

特征名	含义
		afterFestival	距离上一个节假日(除春节外)天数
beforeFestival	距离下一个节假日(除春节外)天数
		afterSpring	距离下一个春节天数
beforeSpring	距离上一个春节天数
		month	月份
quarter	季度
		lunarMonth	农历月份
workday_0	是否为工作日
		lunarDay	农历日
workday_1	是否为周末
		workday_2	是否为节假日(除春节)
workday_3	是否为春节
		dayofweek	星期日(0-6)
……	……

需要说明的是，星期日(0-6)中，分别用数字0-6对应一周的星期一到星期日。例如，0代表星期一。

可以理解的是，由于交通需求的周期性特征，不同日期、不同星期特征日的区域交通状况存在明显差异，因此交通状况对案件发生的概率存在影响。从而，在预测模型的训练过程中需要考虑时间因素，以提高训练好的预测模型的准确度。

(4)案件量特征数据包括：预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量等。

表4示出案件量特征数据的特征名及其含义。表4中的一行是一条案件量特征数据，一行中的左列为特征名，右列为特征名代表的含义。

表4

需要说明的是，案件量特征数据是通过对历史案件数据进行预处理得到的。

可以理解的是，历史案件数据由多个案件数据组成。每一个案件数据对应一个车辆保险案件。案件数据可以包括案件发生日期和案件发生地点的经纬度信息。

可选的，以区县为筛选依据，服务器对每个区县发生的案件量进行检验。区县案件量为空时，将该区县对应的案件量设置为0。若区县经纬度信息发生变化，将区县经纬度信息发生变化前的区县案件量与区县经纬度信息发生变化后的区县案件量进行对比，取并集。这样一来，服务器可以确定一个区域在一段时间内的案件量。

示例性的，在2019年11月24日，经纬度信息为a、b、c的区域分别发生1、1、1件案件，此时经纬度信息为a、c的区域属于A区，经纬度信息为b的区域属于B区。也就是说，2019年11月24日A区发生案件量为2件，B区发生案件量为1件。在2019年11月25日，区域划分进行变更，经纬度信息为a的区域属于A区，经纬度信息为b、c的区域属于B区，无案件发生。将区县经纬度信息发生变化前的区县案件量与区县经纬度信息发生变化后的区县案件量进行对比，取并集。也就是说，在2019年11月24日至2019年11月25日期间，A区共发生2件案件，B区共发生2件案件。

可选的，服务器可以利用统计学相关函数对案件量特征数据进行计算。

示例性的，服务器利用标准差公式计算预测日前3天内案件量的标准差。服务器利用平均值公式计算预测日前n天内案件量的平均值。

S102、服务器以训练集对预测模型进行训练。

其中，预测模型用于预测车辆保险案件量，预测模型是基于XGBoost算法构建。

XGBoost的目标函数包括以下两项：

Obj(Θ)＝L(Θ)+Ω(Θ) (1)

其中，L(Θ)表示误差函数，Ω(Θ)表示正则项。

XGBoost最基本的组成部分是回归树，它的模型如下：

其中，

为预测模型的结果，f_k表示第k棵树，x_i为案件量样本数据。每个f是一个函数空间F里面的函数，F是包含所有回归树的函数空间。

学习的过程是不断在原有模型中添加新树，模型如下：

其中，

表示组合t棵树模型对样本x_i的预测结果，

表示第t-1轮的模型预测结果，f_t(x_i)表示新加入的函数。

在学习的过程中，目标函数就是用来帮助我们寻找一个最好的预测，具体是寻找一个f来使目标函数最小，此时目标函数如下：

其中，y_i为真实的案件量，

采用泰勒展开定义一个近似的目标函数，泰勒展开式如下：

则g_i和h_i如下：

其中，g_i为L(Θ)的一阶导函数，h_i为L(Θ)的二阶导函数。

得到新的目标函数，如下：

移除常数项后得到如下目标函数：

其中，f包括两部分，树的结构部分和叶子权重部分；Ω(f)为树的复杂度，包括ω_j ²和T，ω_j ²表示叶子权重的L2模平方，T表示叶子个数，将f带入，得到目标函数如下：

其中，ω_j为第j个叶子节点的得分值。想要获取最优的ω_j，可以对目标函数求偏导，得到：

将公式(11)带入公式(10)得到：

每次迭代增加一颗新树，运用算法寻找切分点，产生新一轮的树，通常情况如下：

y^(t)＝y^(t-1)+εf_t(x_i) (13)

其中，ε为缩减因子，目的是削弱每棵树的影响，使之后对模型的训练有更大的学习空间，避免过拟合。

以上是对XGBoost算法的简单介绍，XGBoost算法的具体实现方式可以参考现有技术，此处不再赘述。

可选的，对预测模型模型设置参数。

示例性的，表5示出XGBoost参数调优。表5中的一行是一条参数数据，一行中的左列为参数名，右列为参数值。

表5

S103、服务器根据训练好的预测模型，确定车辆保险案件量的预测值。

作为一种可能的实现方式，服务器将目标区域的天气特征数据、案件量特征数据、地理特征数据、以及时间特征数据输入训练好的预测模型，确定目标区域的车辆保险案件量的预测值。

下面结合实际应用场景，对预测模型进行具体说明。

预测模型可以划分为：普通预测模型或异常预测模型。其中，普通预测模型用于预测普通天气情况下的车辆保险案件量。异常预测模型用于预测异常天气情况下的车辆保险案件量。

这样一来，通过建立各种天气情况所对应的预测模型，从而在预测某个天气的车辆保险案件量时，可以使用该天气所对应的预测模型，得到更准确的预测值。

需要说明的是，普通天气情况即为非异常天气情况，也就是说，普通天气情况为除了异常天气情况之外的其他天气情况。

需要说明的是，异常天气情况可以为：暴雨、暴雪、高温、或者低温。其中，暴雨为1小时内的雨量为16毫米或以上的雨，或者24小时内的雨量为50毫米或以上的雨。暴雪为12小时内降雪量为4毫米以上的雪，或者24小时内的降雪量为10毫米或以上的雪。高温为日最高气温达到或超过35℃。低温为日平均气温等于或低于5℃。

在本发明实施例中，普通预测模型使用普通训练集进行训练，异常预测模型使用异常训练集进行训练。

其中，普通训练集所包括的案件量样本数据未经过人工干预。

异常训练集所包括的案件量样本数据经过人工干预。

在本发明实施例中，异常训练集可以包括暴雨训练集、暴雪训练集、高温训练集等。

示例一、对于暴雨训练集来说，人工干预方式包括：获取当日降雨导致的积水量、剔除当日为节假日的案件量样本数据、剔除当日有大合同出现的案件量样本数据、剔除当日温度出现低温和高温的案件量样本数据、剔除当日有降雪量的案件量样本数据、剔除当日降水量为0的案件量样本数据。

可以理解的是，车辆数目激增或者高温等天气因素会影响案件发生的概率。因此，需要对暴雨训练集进行人工干预，排除除暴雨以外的其它干扰因素，以使得暴雨预测模型不受车辆数目激增或者高温等天气的影响，提高了预测模型预测案件量的准确率。

可选的，对于暴雨训练集来说，人工干预方式还包括：将暴雨情况下的案件量进行对应比率翻倍处理。

可以理解的是，由于暴雨情况下的案件量样本数据较少，占比重低，预测模型针对暴雨情况进行剪枝操作，导致预测结果普遍偏小，与真实值相差较大。因此，对暴雨情况下的案件量进行对应比率翻倍处理，提高暴雨情况下案件量的比重，从而提高了预测模型预测暴雨情况下案件量的准确率。

进一步的，获取人工干预后的暴雨训练集中案件量样本数据的降雨积水梯度，得到降雨积水梯度内案件量激增比率的平均值。

示例性的，表6示出各城市降雨积水梯度比率。表6中的第一列是服务类型，第二列是区域，第三列是积水梯度，第四列是案件量比率。

表6

服务类型	区域	温度梯度	比率
				RSR	110000	0.0--1.0	1.076316
RSR	110000	0.0--0.0	0.941414
				RSR	110000	0.0--0.0	0.939083
TOWING	110000	0.0--1.0	1.077665
				TOWING	110000	0.0--0.0	1.090187
TOWING	110000	0.0--0.0	1.074449
				RSR	120000	18.0--23.0	1.326708
RSR	120000	7.0--13.0	1.542729
				RSR	120000	3.0--5.0	1.37019
TOWING	120000	18.0--23.0	1.222538
				TOWING	120000	7.0--13.0	1.541453
TOWING	120000	3.0--5.0	1.17254
				…	…	…	…

示例二、对于高温训练集来说，人工干预方式包括：剔除当日为节假日的案件量样本数据、剔除当日有大合同出现的案件量样本数据、剔除当日有降水量的案件量样本数据、剔除当日有降雪量的案件量样本数据。

可以理解的是，车辆数目激增或者暴雨等天气因素会影响案件发生的概率。因此，对高温训练集进行人工干预，排除除高温以外的其它干扰因素，以使得高温训练集不受车辆数目激增或者暴雨等天气的影响，提高了预测模型预测案件量的准确率。

可选的，对于高温训练集来说，人工干预方式还包括：将高温情况下的案件量根据对应比率进行翻倍处理。

可以理解的是，由于高温情况下的案件量样本数据较少，占比重低，预测模型针对高温情况进行剪枝操作，导致预测结果普遍偏小，与真实值相差较大。因此，服务器对高温情况下的案件量进行对应比率翻倍处理，提高了高温情况下案件量的比重，从而提高预测模型预测高温情况下案件量的准确率。

示例性的，表7示出各城市温度梯度比率。表7中的第一列是服务类型，第二列是区域，第三列是温度梯度，第四列是案件量比率。

表7

服务类型	区域	温度梯度	比率
				RSR	110000	<27.0<30.0	0.904645
RSR	110000	<26.0<27.0	0.871442
				RSR	110000	<25.0<25.0	0.876985
TOWING	110000	<27.0<30.0	1.26797
				TOWING	110000	<26.0<27.0	1.265943
TOWING	110000	<25.0<25.0	1.245183
				RSR	120000	<28.0<32.0	1.547991
RSR	120000	<26.0<28.0	1.239075
				RSR	120000	<25.0<26.0	1.172831
TOWING	120000	<28.0<32.0	1.669604
				TOWING	120000	<26.0<28.0	1.143665
TOWING	120000	<25.0<26.0	1.469436
				…	…	…	…

示例三、对于暴雪训练集来说，人工干预方式包括：剔除当日为节假日的案件量样本数据、剔除当日有大合同出现的案件量样本数据、剔除当日有降水量的案件量样本数据。

可以理解的是，车辆数目激增或者降雨等天气因素会影响案件发生的概率。因此，对暴雪训练集进行人工干预，排除除暴雪以外的其它干扰因素，以使得暴雪预测模型不受车辆数目激增或者降雨等天气的影响，从而提高预测模型预测案件量的准确率。

可选的，对于暴雪训练集来说，人工干预方式还包括：将暴雪情况下的案件量根据对应比率进行翻倍处理。

可以理解的是，由于暴雪情况下的案件量样本数据较少，占比重低，预测模型针对暴雪情况进行剪枝操作，导致预测结果普遍偏小，与真实值相差较大。因此，服务器对暴雪情况下的案件量进行对应比率翻倍处理，提高了暴雪情况下案件量的比重，从而提高了预测模型预测暴雪情况下案件量的准确率。

进一步的，获取人工干预后的暴雪训练集中案件量样本数据的温度梯度，得到温度梯度内案件量激增比率的平均值。

可选的，为了测试训练好的预测模型的准确度，本发明实施例还提供一种测试方法。如图2所示，该方法包括以下步骤：

S201、服务器确定测试集。

其中，测试集包括多个案件量样本数据，测试集与训练集之间不存在交集。

可以理解的是，测试集中有多个案件量样本数据，测试集中的案件量样本数据越多，使用测试集对预测模型进行测试的结果越具有代表性。测试集与训练集之间不存在交集，可以防止使用训练集中的案件量样本数据对预测模型进行测试，从而保证测试结果的真实性。

为了实现测试集与训练集之间不存在交集这一目的，服务器可以预先确定M个案件量样本数据；之后，服务器按照预设比例，将M个案件量样本数据划分为训练集和测试集。其中，训练集包括P个案件量样本数据，测试集包括K个案件量样本数据。M＝P+K，M、P、以及K均为正整数。

S202、服务器以测试集对训练好的预测模型进行测试。

S203、服务器根据测试结果，评价训练好的预测模型。

其中，测试结果为训练好的预测模型的准确率。

可选的，若训练好的预测模型的准确率大于等于预设值，则训练好的预测模型是准确的，也即训练好的预测模型是可用的；若训练好的预测模型的准确率小于预设值，则训练好的预测模式存在较大的误差，也即训练好的预测模型是不可用的。

示例性的，上述预设值可以是根据专家经验设定的。例如，上述预设值可以为80％。

示例一、服务器将普通情况下的路修测试集输入普通预测模型，得到目标区域的预测的路修案件量。

表8示出普通预测模型RSR预测效果。表8中的一列是普通预测模型RSR平均预测准确率。

表8

示例二、服务器将普通情况下的拖车测试集输入普通预测模型，得到目标区域的预测的拖车案件量。

表9示出普通预测模型TOWING预测效果。表9中的一列是普通预测模型TOWING平均预测准确率，一行中的左列为特征名，右列为特征名代表的含义。

表9

示例三、服务器将异常情况下的拖车测试集输入异常预测模型，得到目标区域的预测的拖车案件量。

表10示出异常预测模型RSR预测效果。表10中的一列是异常预测模型RSR平均预测准确率。

表10

示例四、服务器将异常情况下的路修测试集输入异常预测模型，得到目标区域的路修案件量的预测值。

表11示出异常预测模型RSR预测效果。表11中的一列是异常预测模型RSR平均预测准确率。

表11

如图3所示，为本发明实施例提供的一种服务器的结构，该服务器包括：

确定模块101，用于确定训练集，该训练集包括多个案件量样本数据，该案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据；天气特征数据用于反映天气特征对于车辆保险案件量的影响；地理特征数据用于反映地理特征对于车辆保险案件量的影响；时间特征数据用于反映时间特征对于车辆保险案件量的影响；案件量特征数据用于反映案件量特征对于车辆保险案件量的影响。

处理模块102，用于以训练集对预测模型进行训练，预测模型用于预测车辆保险案件量，预测模型基于XGBoost算法构建。

确定模块101，还用于根据训练好的预测模型，确定预测的车辆保险案件量。

可选的，确定模块101，还用于确定测试集，该测试集包括多个案件量样本数据，测试集与训练集之间不存在交集。

处理模块102，还用于以测试集对训练好的预测模型进行测试。

确定模块101，还用于根据测试结果，评价训练好的预测模型。

可选的，天气特征数据包括以下一项或多项：当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差；地理特征数据包括以下一项或多项：道路长度、道路面积、道路密度；时间特征数据包括以下一项或多项：距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度；案件量特征数据包括以下一项或多项：预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。

可选的，预测模型为普通预测模型或异常预测模型；其中，异常预测模型用于预测异常天气情况下的车辆保险案件量；异常天气情况包括以下一项或多项：暴雨、高温、暴雪；普通预测模型用于预测普通天气情况下的车辆保险案件量；普通天气情况为除了异常天气情况之外的其他天气情况。

可选的，在预测模型为普通预测模型的情况下，训练集为普通训练集，普通训练集所包括的案件量样本数据未经过人工干预；在预测模型为异常预测模型的情况下，训练集为异常训练集，异常训练集所包括的案件量样本数据经过人工干预。

图4示出了上述实施例中所涉及的服务器的一种可能的结构。该服务器包括：处理器201和收发器202。处理器201用于对服务器的动作进行控制管理，例如，执行上述处理单元101执行的步骤，和/或用于执行本文所描述的技术的其它过程。收发器202用于支持服务器与其他网络实体的通信。服务器还可以包括存储器203和总线204，存储器203用于存储服务器的程序代码和数据。

其中，存储器203可以是服务器中的存储器等，该存储器可以包括易失性存储器，例如随机存取存储器；该存储器也可以包括非易失性存储器，例如只读存储器，快闪存储器，硬盘或固态硬盘；该存储器还可以包括上述种类的存储器的组合。

上述处理器201可以是实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器可以是中央处理器，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线204可以是扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。总线204可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行上述方法实施例中的车辆保险案件量的预测方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得该计算机执行上述方法实施例所示的方法流程中的车辆保险案件量的预测方法。

其中，计算机可读存储介质，例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit，ASIC)中。在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种车辆保险案件量的预测方法，其特征在于，所述方法包括：

确定训练集，所述训练集包括多个案件量样本数据，所述案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据；所述天气特征数据用于反映天气特征对于车辆保险案件量的影响；所述地理特征数据用于反映地理特征对于车辆保险案件量的影响；所述时间特征数据用于反映时间特征对于车辆保险案件量的影响；所述案件量特征数据用于反映案件量特征对于车辆保险案件量的影响；

以所述训练集对预测模型进行训练，所述预测模型用于预测车辆保险案件量，所述预测模型基于极端梯度提升XGBoost算法构建；

根据训练好的预测模型，确定车辆保险案件量的预测值。

2.根据权利要求1所述的车辆保险案件量的预测方法，其特征在于，所述方法包括：

确定测试集，所述测试集包括多个案件量样本数据，所述测试集与所述训练集之间不存在交集；

以所述测试集对所述训练好的预测模型进行测试；

根据测试结果，评价所述训练好的预测模型。

3.根据权利要求1或2所述的车辆保险案件量的预测方法，其特征在于，

所述天气特征数据包括以下一项或多项：当天降水量的平均值、距离上一次下中雨及以上的天数、距离上一次下雨的雨量、当天温度的平均值、与前一天温度的温差；

所述地理特征数据包括以下一项或多项：道路长度、道路面积、道路密度；

所述时间特征数据包括以下一项或多项：距离上一个节假日(除春节外)天数、距离下一个节假日(除春节外)天数、工作日、节假日、月份、季度；

所述案件量特征数据包括以下一项或多项：预测日前n天案件量、预测日前n天内相邻天案件量差的平均值、预测日前n天内案件量的平均值、预测日前n天内案件量的标准差、预测日前n天内案件量的中位数、预测日前n天内工作日的案件量。

4.根据权利要求3所述的车辆保险案件量的预测方法，其特征在于，所述预测模型为普通预测模型或异常预测模型；

其中，所述异常预测模型用于预测异常天气情况下的车辆保险案件量；所述异常天气情况包括以下一项或多项：暴雨、高温、以及暴雪；

所述普通预测模型用于预测普通天气情况下的车辆保险案件量；所述普通天气情况为除了所述异常天气情况之外的其他天气情况。

5.根据权利要求4所述的车辆保险案件量的预测方法，其特征在于，

在所述预测模型为普通预测模型的情况下，所述训练集为普通训练集，所述普通训练集所包括的案件量样本数据未经过人工干预；

在所述预测模型为异常预测模型的情况下，所述训练集为异常训练集，所述异常训练集所包括的案件量样本数据经过人工干预。

6.一种服务器，其特征在于，所述服务器包括：

确定模块，用于确定训练集，所述训练集包括多个案件量样本数据，所述案件量样本数据包括天气特征数据、地理特征数据、时间特征数据、以及案件量特征数据；所述天气特征数据用于反映天气特征对于车辆保险案件量的影响；所述地理特征数据用于反映地理特征对于车辆保险案件量的影响；所述时间特征数据用于反映时间特征对于车辆保险案件量的影响；所述案件量特征数据用于反映案件量特征对于车辆保险案件量的影响；

处理模块，用于以所述训练集对预测模型进行训练，所述预测模型用于预测车辆保险案件量，所述预测模型基于极端梯度提升XGBoost算法构建；

所述确定模块，还用于根据训练好的预测模型，确定车辆保险案件量的预测值。

7.根据权利要求6所述的服务器，其特征在于，

所述确定模块，还用于确定测试集，所述测试集包括多个案件量样本数据，所述测试集与所述训练集之间不存在交集；

所述处理模块，还用于以所述测试集对所述训练好的预测模型进行测试；

所述确定模块，还用于根据测试结果，评价所述训练好的预测模型。

8.根据权利要求6或7所述的服务器，其特征在于，

9.根据权利要求8所述的服务器，其特征在于，所述预测模型为普通预测模型或异常预测模型；

10.根据权利要求9所述的服务器，其特征在于，

11.一种服务器，其特征在于，包括：处理器和通信接口；所述通信接口和所述处理器耦合，所述处理器用于运行计算机程序或指令，以实现如权利要求1-5任一项中所述的车辆保险案件量的预测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当计算机执行该指令时，该计算机执行上述权利要求1-5任一项中所述的车辆保险案件量的预测方法。