CN112862621A

CN112862621A - 车险风险评估方法、装置和计算机设备

Info

Publication number: CN112862621A
Application number: CN202110054962.5A
Authority: CN
Inventors: 邱嘉寅; 宁春贵; 胡鹏; 冯智泉; 江勇
Original assignee: Guangzhou Yame Information Technology Co ltd
Current assignee: GUANGZHOU YAME INFORMATION TECHNOLOGY Co.,Ltd.; Yamei Zhilian Data Technology Co., Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-28

Abstract

本申请涉及风险评估技术领域，提供了一种车险风险评估方法、装置、计算机设备和存储介质。本申请能够提高车险风险评估准确性且使得车险风险评估过程完整、有效以及操作性强。该方法包括：获取待评估车辆的车辆基础数据以及在历史时段的历史行车数据，将基础数据和行车数据按照多种预设的特征类别划分为多组车辆特征数据，并将各组车辆特征数据转化为适配于模型输入的车辆特征数据集，然后将车辆特征数据集输入到出险次数预测模型，以使出险次数预测模型根据输出该待评估车辆在未来时段的出险次数预测值，最后可根据出险次数预测值评估待评估车辆在未来时段的车险风险。

Description

车险风险评估方法、装置和计算机设备

技术领域

本申请涉及风险评估技术领域，特别是涉及一种车险风险评估方法、装置、计算机设备和存储介质。

背景技术

风险评估技术领域中存在基于车辆信息对相应车险风险进行评估的技术。

传统技术所提供的车险风险评估方案，主要是考虑车辆自身的因素，例如车辆品牌、所属车系和车龄等，而仅考虑车辆自身因素会导致这种技术存在对车险风险的评估不够准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种车险风险评估方法、装置、计算机设备和存储介质。

一种车险风险评估方法，所述方法包括：

获取待评估车辆在历史时段的历史行车数据，以及获取所述待评估车辆的车辆基础数据；

将所述历史行车数据和所述车辆基础数据按照多种预设的特征类别划分为多组车辆特征数据；其中，不同组的车辆特征数据对应不同种的特征类别；

将各组车辆特征数据转化为适配于模型输入的车辆特征数据集；

将所述车辆特征数据集输入到预先构建的出险次数预测模型，以使所述出险次数预测模型根据所述车辆特征数据集输出所述待评估车辆在未来时段的出险次数预测值；

根据所述出险次数预测值，评估所述待评估车辆在所述未来时段的车险风险。

一种车险风险评估装置，包括：

数据获取模块，用于获取待评估车辆在历史时段的历史行车数据，以及获取所述待评估车辆的车辆基础数据；

数据划分模块，用于将所述历史行车数据和所述车辆基础数据按照多种预设的特征类别划分为多组车辆特征数据；其中，不同组的车辆特征数据对应不同种的特征类别；

数据转化模块，用于将各组车辆特征数据转化为适配于模型输入的车辆特征数据集；

模型预测模块，用于将所述车辆特征数据集输入到预先构建的出险次数预测模型，以使所述出险次数预测模型根据所述车辆特征数据集输出所述待评估车辆在未来时段的出险次数预测值；

风险评估模块，用于根据所述出险次数预测值，评估所述待评估车辆在所述未来时段的车险风险。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待评估车辆在历史时段的历史行车数据，以及获取所述待评估车辆的车辆基础数据；将所述历史行车数据和所述车辆基础数据按照多种预设的特征类别划分为多组车辆特征数据；其中，不同组的车辆特征数据对应不同种的特征类别；将各组车辆特征数据转化为适配于模型输入的车辆特征数据集；将所述车辆特征数据集输入到预先构建的出险次数预测模型，以使所述出险次数预测模型根据所述车辆特征数据集输出所述待评估车辆在未来时段的出险次数预测值；根据所述出险次数预测值，评估所述待评估车辆在所述未来时段的车险风险。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述车险风险评估方法、装置、计算机设备和存储介质，确定待评估车辆后，获取该待评估车辆的车辆基础数据以及在历史时段的历史行车数据，将该基础数据和行车数据按照多种预设的特征类别划分为多组车辆特征数据，并将各组车辆特征数据转化为适配于模型输入的车辆特征数据集，然后将车辆特征数据集输入到预先构建的出险次数预测模型，以使出险次数预测模型根据输出该待评估车辆在未来时段的出险次数预测值，最后根据出险次数预测值评估待评估车辆在未来时段的车险风险，该方案能够结合车辆基础数据和历史时段的历史行车数据，利用出险次数预测模型对车辆在未来时段的车险风险进行预测，提高车险风险评估准确性，且使得车险风险评估过程完整、有效以及操作性强。

附图说明

图1为一个实施例中车险风险评估方法的应用环境图；

图2为一个实施例中车险风险评估方法的流程示意图；

图3为一个实施例中构建出险次数预测模型的步骤的流程示意图；

图4为一个实施例中将车辆特征数据样本转化为适配于模型输入的车辆特征数据样本集的步骤的流程示意图；

图5为一个实施例中车险风险评估装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的车险风险评估方法，可以应用于如图1所示的应用环境中。其中，服务器120可以获取不同车辆110的数据，这些车辆110中的一个或者多个都可以作为待评估车辆，服务器120基于所获取的关于这些待评估车辆的数据可对其车险风险进行评估。具体的，服务器120所获取的数据包括待评估车辆的车辆基础数据，以及在历史时段的历史行车数据，服务器120可基于历史行车数据和车辆基础数据对待评估车辆在未来时段内的车险风险进行评估，该未来时段和历史时段是以当前时刻为基准划分的时段，且未来时段与历史时段相同，举例来说，设当前时刻为2020年2月1日，若需要预测车辆在2020年2月1日起未来一年的车险风险，则服务器120需要采集该车辆在2019年2月1日至2020年1月31日的行车数据作为历史行车数据，并获取该车辆的车辆基础数据，基于该历史行车数据和车辆基础数据进行前述未来一年的车险风险评估，即使用车辆过去例如一年的历史行车数据及其车辆基础数据，预测该车辆未来一年的车险风险。进一步的，本申请提供的车险风险评估方法可应用于UBI保险(Usage-based insurance)产品中，UBI保险是指基于车辆使用情况进行差异化定价的车险产品，可从例如驾驶行为、道路情况、天气情况等多维度评估全面综合地评估被保险人的车险风险。

上述应用场景中，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

下面结合实施例和相应附图对本申请所提供的车险风险评估方法做进一步说明。

在一个实施例中，如图2所示，提供了一种车险风险评估方法，以该方法应用于图1中的服务器120为例进行说明，该方法可以包括以下步骤：

步骤S201，获取待评估车辆在历史时段的历史行车数据，以及获取待评估车辆的车辆基础数据。

其中，服务器120可通过车联网获取多台车辆的数据，服务器120可对各车辆进行车险风险评估，服务器120所要评估的车辆称作待评估车辆，服务器120可对该待评估车辆在未来时段的车险风险进行评估。其中，未来时段与前述历史时段可以是以当前时刻为基准划分的时段，在一些实施例中，该未来时段与历史时段的时段长度可以是相同的，利用时段长度相同的历史时段行车数据对未来时段车险风险数据进行预测能够使车险风险的评估更加精确可靠。示例性的，设当前时刻也即服务器120对待评估车辆进行车险风险预测的日期为2020年2月1日，当需要预测待评估车辆在2020年2月1日该当前时刻起的未来一年的车险风险时，服务器120可以获取待评估车辆在2019年2月1日至2020年1月31日这一历史时段的行车数据并作为前述历史行车数据，服务器120在评估车险风险时，还需获取该待评估车辆的车辆基础数据。

其中，历史行车数据是指待评估车辆在历史时段的行车数据，该行车数据可以具体包括：驾驶行为数据、道路情况数据、天气情况数据和保险报价数据等。进一步的，对于驾驶行为数据，具体可以包括：驾驶里程、开始时间、结束时间、急加速次数、急刹车次数、急转弯次数、急变道次数、水平碰撞事故、翻转事故和经纬度等；对于道路情况数据，具体可以包括：道路限速、道路等级等；对于天气情况数据，具体可以包括：实时天气状况、天气预警等；对于保险报价数据，具体可以包括交强险ncd系数、商业险ncd系数等。而对于车辆基础数据，也可以称为车辆基本信息，具体可以包括车架号、车牌号、车辆类型、使用性质和核载人数等。以上数据具体的数据字段和采集口径可以参考如下表1：

表1

上述驾驶行为数据中，可以以一个驾驶行程为统计粒度，而当前由于各种车辆的发动机技术不一致，因此可以定义各类车型的单个驾驶行程划分标准，具体划分标准可参见下表2：

表2

步骤S202，将历史行车数据和车辆基础数据按照多种预设的特征类别划分为多组车辆特征数据。

本步骤中，服务器120将所采集的关于待评估车辆的历史行车数据和车辆基础数据按照多种预设的特征类别划分为多组车辆特征数据，其中，不同组的车辆特征数据对应不同种的特征类别。这些特征类别可以包括但不限于是：车辆静态特征、出行强度、出行时段、驾驶风险、驾驶习惯和驾驶区域，具体的，车辆静态特征可以被进一步细分为车辆类型、使用性质、核载人数、注册日期距当前年份数、上次过户距当前年份数等；出行强度可被进一步划分为年化驾驶次数、年化驾驶里程、年化驾驶时长和年化驾驶天数等；关于其他特征类别及其具体细分，可参考如下表3：

表3

也即，本步骤中，服务器120可基于S201所获取的历史行车数据和车辆基础数据，将其按照上述表3的特征类别及其细分类别划分为多组车辆特征数据，每组车辆特征数据对应不同种的特征类别，例如划分为车辆类型、使用性质、年化驾驶次数等对应多种特征类别的多组车辆特征数据。

步骤S203，将各组车辆特征数据转化为适配于模型输入的车辆特征数据集；

本步骤中，服务器120可将每一组车辆特征数据转化为适配于模型输入的车辆特征数据，形成用于输入到后续出险次数预测模型的车辆特征数据集。

具体的，服务器120可将各组车辆特征数据中的车辆特征数据进行单变量处理，进行单变量处理的方法可以为将连续型特征转化为类别型特征，也即出险次数预测模型将类别型的车辆特征数据作为输入，该以类别型的车辆特征数据作为输入的出险次数预测模型具有更高的鲁棒性，能够更可靠地对车险风险进行评估。示例性的，连续型特征可以是上述表3中的年化驾驶次数，服务器120可将年化驾驶次数组中的车辆特征数据进行连续型特征分箱，将年化驾驶次数组中的车辆特征数据转化为类别型特征。进一步的，服务器120还可以根据后续出险次数预测模型的具体形式，选择是否做独热编码，在一些实施例中，如下表4所示，如果后续使用出险次数预测模型为线性模型，则服务器120可进行独热编码处理以增强出险次数预测模型的拟合精度，如果后续使用的出险次数预测模型是基于决策树的模型，则服务器120可以不做独热编码。

表4

步骤S204，将车辆特征数据集输入到预先构建的出险次数预测模型，以使出险次数预测模型根据车辆特征数据集输出待评估车辆在未来时段的出险次数预测值。

本步骤中，出险次数预测模型的模型类型可以是线性模型或者基于决策树的模型。其中，选择线性模型作为出险次数预测模型的模型类型时，可先判断所需预测的目标变量即出险次数的分布情况，如果出险次数是正态分布，则可以直接使用线性回归模型，如果目标变量即出险次数并非正态分布，例如是泊松分布，则可以使用广义线性模型，即在线性回归模型的基础上加上一个连接函数。对于基于决策树的模型，可以采用例如随机森林、GBDT、XGBOOST等。

服务器120将车辆特征数据集输入到前述出险次数预测模型，出险次数预测模型根据车辆特征数据集输出待评估车辆在未来时段的出险次数预测值，服务器120获取出险次数预测模型输出的出险次数预测值。

步骤S205，根据出险次数预测值，评估待评估车辆在未来时段的车险风险。

本步骤中，服务器120根据出险次数预测模型所输出的出险次数预测值，对待评估车辆在未来时段的车险风险进行评估。也即，服务器120可通过预先构建一个出险次数预测模型，模型使用车辆例如过去一年的驾驶行为、道路情况、天气情况和违章信息等行车数据和车辆基本信息，预测车辆未来一年的车险出险次数，其中，出险次数预测模型输出的预测结果是预测出险次数即前述出险次数预测值，如果服务器120将出险次数预测值直接作为车险风险的评估值进行应用则不够方便和直观。

基于此，在一些实施例中，服务器120可以利用预设的出险次数与风险值转化关系，将出险次数预测值转化为车险风险值，再根据车险风险值的大小，得到该待评估车辆在未来时段的车险风险；其中，车险风险值与车险风险呈正相关关系，也即车险风险值越大表示车险风险也越大，在车险风险预测实例中，前述未来时段与历史时段的时段长度可以相同，也即可以用例如2019年2月1日至2020年1月31日这一历史时段的行车数据对待评估车辆在2020年2月1日起未来一年的车险风险，使得对车险风险的评估更加精确可靠。具体的，服务器120可基于正态性转换方法构建该出险次数与风险值转化关系，将模型预测得到的出险次数预测值转化为例如取值为1至100的得分，该得分称为车险风险值，所得的分数越高表示出险风险越大，采用这种方式服务器120能够使得对车险风险的预测更方便直观。

上述车险风险评估方法，服务器120确定待评估车辆后，获取该待评估车辆的车辆基础数据以及在历史时段的历史行车数据，服务器120将该基础数据和行车数据按照多种预设的特征类别划分为多组车辆特征数据，并将各组车辆特征数据转化为适配于模型输入的车辆特征数据集，然后服务器120将车辆特征数据集输入到预先构建的出险次数预测模型，以使出险次数预测模型根据输出该待评估车辆在未来时段的出险次数预测值，最后服务器120可根据出险次数预测值评估待评估车辆在未来时段的车险风险，该方案能够结合车辆基础数据和历史时段的历史行车数据，利用出险次数预测模型对车辆在未来时段的车险风险进行预测，提高车险风险评估准确性，且使得车险风险评估过程完整、有效以及操作性强。

在一个实施例中，上述各组车辆特征数据可以具体包括类别型特征数据组和连续型特征数据组，类别型特征数据组所包含的车辆特征数据属于类别型车辆特征的数据，连续型特征数据组所包含的车辆特征数据属于连续型车辆特征的数据，基于此，上述步骤S203中的将各组车辆特征数据转化为适配于模型输入的车辆特征数据集，具体包括：

将连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据；根据转化得到的类别型的车辆特征数据以及类别型特征数据组中的车辆特征数据，得到车辆特征数据集。

本实施例主要是当各组车辆特征数据包含有类别型特征数据组和连续型特征数据组时，服务器120需要将连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据，然后服务器120再利用转化得到的类别型的车辆特征数据以及类别型特征数据组中的车辆特征数据形成车辆特征数据集，以使得所形成的车辆特征数据集能够使得出险次数预测模型所预测的待评估车辆在未来时段的出险次数预测值更可靠。

在一个实施例中，进一步的，上述实施例中将连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据，具体包括：

确定连续型特征数据组对应的多个数值区间范围；基于多个数值区间范围，确定连续型特征数据组中的车辆特征数据落入的目标数值区间范围；将连续型特征数据组中的车辆特征数据转化为目标数值区间范围对应的区间编号，并将目标数值区间范围对应的区间编号作为转化得到的类别型的车辆特征数据。

本实施例提供了一种将连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据的方式。本实施例中，服务器120可先获取待处理的每一连续型特征数据组对应的多个数值区间范围，并判断连续型特征数据组所包含的车辆特征数据所落入的数值区间范围，该所落入的数值区间范围称为目标数值区间范围，从而服务器120将该目标数值区间范围对应的区间编号作为前述转化得到的类别型的车辆特征数据，也即服务器120将每一连续型特征数据组中的车辆特征数据转化为相应目标数值区间范围对应的区间编号。

示例性的，设服务器120需将年化驾驶次数这个连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据，服务器120可获取该年化驾驶次数对应的多个数值区间范围，如小于500，500至800，800至1000等，相应的区间编号为1至3，服务器120只需判断所获取的待评估车辆的年化驾驶次数落入到哪个区间，即可将相应的区间编号作为其转化得到的类别型的车辆特征数据。

在一个实施例中，如图3所示，服务器120可以采用如下步骤构建上述出险次数预测模型，具体步骤包括：

步骤S301，获取模型训练数据样本。

本实施例属于模型建立阶段。本步骤中，服务器120获取模型训练数据样本，该模型训练数据样本用于对待训练的出险次数预测模型进行训练，以构建出前述实施例的模型应用阶段所使用的出险次数预测模型。具体的，模型训练数据样本包括样本车辆在第一设定时段的行车数据样本、在第二设定时段的出险次数样本和样本车辆的车辆基础数据样本。其中，每一用于模型训练的车辆称为样本车辆，样本车辆的数量可以是多个，通过多个样本车辆的数据训练模型，而关于该车辆的已知数据均可称为数据样本，例如：样本车辆的车辆基础数据称为车辆基础数据样本，样本车辆在第一设定时段的行车数据称为行车数据样本，样本车辆在第二设定时段的出险次数称为出险次数样本。其中，第一设定时段和第二设定时段以设定时刻为基准进行划分，且第一设定时段和第二设定时段的时段长度相同，示例性的，设定时刻为2019年1月1日，第二设定时段为2019年1月1日至2019年12月31日，则第一设定时段为2018年1月1日至2018年12月31日，也即服务器120以2019年1月1日至2019年12月31日这一第二设定时段的出险次数作为出险次数样本也作为目标变量构建模型，则服务器120需要采集自变量数据的时间范围应该为2018年1月1日至2018年12月31日这一第一设定时段，自变量数据即为样本车辆在2018年1月1日至2018年12月31日的行车数据及其自身的车辆基础数据。示例性的，服务器120所获取的关于样本车辆的行车数据及其自身的车辆基础数据的具体数据类别可参考上述表1。

步骤S302，将行车数据样本和车辆基础数据样本按照多种初始特征类别划分为多组车辆特征初始数据样本；

本步骤中，服务器120按照多种初始特征类别将行车数据样本和车辆基础数据样本划分为多组车辆特征初始数据样本，同样的，不同组的数据样本对应于不同种的初始特征类别。此处称为初始特征类别，是由于服务器120可对初始特征类别作进一步筛选形成最终的特征类别以供模型训练使用，以期所训练的模型能够更有效可靠地对出险次数进行预测。示例性的，初始特征类别可以包括如上表3中的“特征类别”及其细分的“特征名称”项，即初始特征类别可以包括如上表3中的64个特征，每个特征对应一个组，每个组包含相应的车辆特征初始数据样本，由此服务器120可以得到多组车辆特征初始数据样本。

步骤S303，基于各组车辆特征初始数据样本的样本数据属性，从初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为预设的特征类别，并得到预设的特征类别对应的多组车辆特征数据样本。

本步骤主要是服务器120可基于各组车辆特征初始数据样本的样本数据属性，对初始特征类别进行筛选，以从中筛选出用于前述实施例对模型应用阶段的预设的特征类别。筛选出各预设的特征类别后，服务器120还得到各预设的特征类别对应的多组车辆特征数据样本。

具体的，样本数据属性可以包括但不限于是组内数据样本的完整度、组内数据样本与出险次数间的相关性和组间数据样本的相关性；其中，组内数据样本的完整度可用于评估每一组各自的数据样本是否完整；组内数据样本与出险次数间的相关性可用于评估每一组各自的数据样本与目标变量即出险次数样本之间的相关性，即判断自变量与目标变量之间的相关性；组间数据样本的相关性可用于评估不同组的数据样本之间的相关性，也即判断各自变量之间的相关性。

另外，在一些实施例中，服务器120还可针对各组数据样本分别进行例如缺失值填充和异常值处理。其中，对于缺失值填充，可分为两种情况，一种是连续型特征，在单个特征中某些数据样本的取值存在缺失时，则服务器120可使用该特征中非缺失数据样本的中位数进行填充；第二种是类别型特征，在单个特征中某些数据样本的取值存在缺失，则使用一个新的类别取值进行填充。对于异常值处理，异常值是指某个特征中少量数据样本的取值位于较罕见的范围(例如特别小或特别大)，一般出现在连续型特征中，示例性的，可将单个特征中取值小于5％分位数或大于95％分位数的定义为异常值，处理方法可以是对异常值数据样本使用该特征的中位数进行替换。

进一步的，在其中一些实施例中，样本数据属性包括组内数据样本的完整度的情况下，上述步骤S303中的基于各组车辆特征初始数据样本的样本数据属性，从初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为预设的特征类别，具体包括：

根据各组车辆特征初始数据样本中缺失数据样本的占比，得到各组车辆特征初始数据样本对应的组内数据样本的完整度；确定组内数据样本的完整度大于或者等于组内样本完整度阈值的第一目标组车辆特征初始数据样本；基于第一目标组车辆特征初始数据样本对应的特征类别，确定预设的特征类别。

本实施例主要是服务器120选取组内数据样本完整度大于或者等于组内样本完整度阈值的组的车辆特征初始数据样本，作为第一目标组车辆特征初始数据样本，并可将该组所对应的特征类别作为前述预设的特征类别，也可以在该特征类别的基础上结合例如组内数据样本与出险次数间的相关性和组间数据样本的相关性等因素作进一步筛选。

具体的，组内数据样本完整度或称特征完整度是指某个特征对应的组中，非缺失数据样本的数量占该组全部数据样本数量的比例(即各组车辆特征初始数据样本中缺失数据样本的占比)，如果组内数据样本完整度低于0.5(即组内样本完整度阈值)，则服务器120可选择不使用这个特征进入后续的建模；若高于或者等于该组内样本完整度阈值，服务器120选择将其设为前述预设的特征类别并采用该组的数据样本进入后续的建模。

在其中一些实施例中，样本数据属性包括组内数据样本与出险次数间的相关性的情况下，上述步骤S303中的基于各组车辆特征初始数据样本的样本数据属性，从初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为预设的特征类别，具体包括：

获取用于表征各组车辆特征初始数据样本分别与出险次数的相关性的第一相关系数，得到多个第一相关系数；根据各第一相关系数的大小，从各组车辆特征初始数据样本中确定第二目标组车辆特征初始数据样本；基于第二目标组车辆特征初始数据样本对应的特征类别，确定预设的特征类别。

本实施例主要是服务器120利用多个第一相关系数分别表示每一组车辆特征初始数据样本分别与出险次数样本的相关性，从而依据该第一相关系数的大小，服务器120可从各组车辆特征初始数据样本中确定第二目标组车辆特征初始数据样本，服务器120将该第二目标组对应的特征类别确定为前述预设的特征类别。

具体的，服务器120可以目标变量即出险次数样本为依据，判断各组对应的自变量特征是否和该目标变量具有较强相关性。其中，针对不同的特征类型，服务器120可采用两种方法进行筛选，第一种是针对连续型特征，服务器120计算各连续型特征分别和目标变量之间的斯皮尔曼相关系数(可对应第一相关系数)，如果该系数不小于0.6，则该连续型特征可入选前述预设的特征类别；第二种是对于类别型特征，将类别型特征和目标变量进行方差分析，采用10％的置信度，如果结果拒绝原假设，则该类别型特征可入选前述预设的特征类别。服务器120也可以在该入选预设的特征类别的基础上进一步结合例如组内数据样本的完整度和组间数据样本的相关性等因素作进一步筛选。

在其中一些实施例中，样本数据属性包括组间数据样本的相关性的情况下，上述步骤S303中的基于各组车辆特征初始数据样本的样本数据属性，从初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为预设的特征类别，具体包括：

获取用于表征各组车辆特征初始数据样本两两之间的相关性的第二相关系数，得到多个第二相关系数；基于多个第二相关系数，确定相关组车辆特征初始数据样本；从各相关组车辆特征初始数据样本中分别选取其中一组车辆特征初始数据样本，得到第三目标组车辆特征初始数据样本；基于第三目标组车辆特征初始数据样本对应的特征类别，确定预设的特征类别。

本实施例主要是服务器120利用多个第二相关系数分别表示各组车辆特征初始数据样本两两之间的相关性，从而依据该第二相关系数的大小，判断具有较高相关性的组即相关组，从而确定该相关组的车辆特征初始数据样本即相关组车辆特征初始数据样本，由于相关组具有较高的相关性，因此服务器120只需从中选择其中一组进入后续的建模即可，也即服务器120可从各相关组车辆特征初始数据样本中分别选取其中一组车辆特征初始数据样本，作为第三目标组车辆特征初始数据样本，并基于每一第三目标组车辆特征初始数据样本对应的特征类别确定预设的特征类别，在此基础上，服务器120还可以进一步结合例如组内数据样本的完整度和组内数据样本与出险次数间的相关性等因素作进一步筛选。对于本实施例中的组间的相关性检查，是指检查自变量特征两两之间的相关性，如果某两个自变量特征的相关性很高，则只需选择其中一个特征进入后续的建模，并且服务器120对组间的相关性检查一般只用于连续型特征之间，相关性的评价指标可以使用皮尔逊相关系数(即第二相关系数)，如果该皮尔逊相关系数大于0.9，则服务器120可认为两个特征相关度很高，将该两个组作为相关组，形成相关组车辆特征初始数据样本，从中选择其中一组车辆特征初始数据样本作为第三目标组车辆特征初始数据样本，并由此确定预设的特征类别。

服务器120通过上述实施例提供的方式可实现从初始特征类别到预设的特征类别的筛选。

步骤S304，将各组车辆特征数据样本转化为适配于模型输入的车辆特征数据样本集。

服务器120在完成特征处理与筛选，得到各组车辆特征数据样本后，可将这些车辆特征数据样本转化为适配于模型输入的车辆特征数据样本集，即选出用于建模的特征数据样本集，此时服务器120需要对这些特征数据样本集进行单变量处理，进行单变量处理的方法可以是将连续型特征数据样本组中的数据样本进行分箱处理转换为类别型特征数据，目的是提升模型的鲁棒性。

在一个实施例中，服务器120所获得的各组车辆特征数据样本包括类别型特征数据样本组和连续型特征数据样本组；其中，类别型特征数据样本组所包含的车辆特征数据样本属于类别型车辆特征的数据样本，连续型特征数据样本组所包含的车辆特征数据样本属于连续型车辆特征的数据样本。基于此，如图4所示，步骤S304具体包括：

步骤S401，将连续型特征数据样本组中的车辆特征数据样本进行等频分箱，得到多个初始数值区间范围；

本步骤是等频分箱，服务器120首先将连续型特征数据样本组中的车辆特征数据样本按照取值从小到大排序，然后每个样本划入一个区间，使得每个区间的数据样本数量基本一致，而划分的区间个数可以取10至20。其中，该划分的多个区间可称为多个初始数值区间范围。

步骤S402，确定各初始数值区间范围内的车辆特征数据样本对应的出险次数样本的平均值，得到多个平均值；

本步骤中，服务器120统计每个初始数值区间范围内的目标变量均值，也即统计每个初始数值区间范围内的车辆特征数据样本对应的出险次数样本的平均值，从而得到多个平均值，分别对应于不同的初始数值区间范围。

步骤S403，基于多个平均值，对各初始数值区间范围进行合并得到多个数值区间范围；

本步骤主要是合并相似度高的区间。其中，服务器120将每个初始数值区间范围的平均值为合并依据，将平均值较接近的相邻的初始数值区间范围合并为一个大区间即合并得到多个数值区间范围，反复操作，通常需要使得合并得到的数值区间范围的总数不多于五个。其中，对于两个区间对应的平均值是否属于较接近的评估方式，通常可以采用均值差值阈值进行评估，即将两个区间的平均值相减得到均值差值，将均值差值与预设的均值差值阈值进行比对，若均值差值小于该预设的均值差值阈值，则服务器120可以判断两相邻的初始数值区间范围的平均值较接近。

对于上述步骤S401至S403的区间合并方式，结合下表5进一步以将年化驾驶次数这个连续型特征的分箱进行说明：

表5

服务器120首先将该年化驾驶次数对应组的车辆特征数据样本等频划分为10个区间，然后统计每个区间的出险次数的平均值，对此，服务器120可将第1和第2个区间合并为新区间、将第3和第4个区间合并为新区间、将第5和第6和第7个区间合并为新区间、将第9和第10个区间合并为新区间，从而得到合并后的五个数值区间范围(五个新区间)，分别对应编号1至5。

步骤S404，基于多个数值区间范围，确定连续型特征数据样本组中的车辆特征数据样本落入的目标数值区间范围样本；

在区间合并后，服务器120针对合并得到的多个数值区间范围，可确定各连续型特征数据样本组中的车辆特征数据样本所落入的数值区间范围，该数据样本落入的数值区间范围称为目标数值区间范围样本。举例来说，在上表5中，合并得到五个数值区间范围，服务器120可判断年化驾驶次数对应组的车辆特征数据样本落入哪一个数值区间范围，例如落入到数值区间范围1000<X≤1200，则该数值区间范围1000<X≤1200称为目标数值区间范围样本。

步骤S405，将连续型特征数据样本组中的车辆特征数据样本转化为目标数值区间范围样本对应的样本区间编号，并将目标数值区间范围样本对应的样本区间编号作为转化得到的类别型的车辆特征数据样本；

本步骤是将目标数值区间范围样本对应的样本区间编号作为连续型的车辆特征数据样本向类别型的车辆特征数据样本进行转化得到的转化结果，也即将连续型特征数据样本组中的车辆特征数据样本转化为目标数值区间范围样本对应的样本区间编号，并将该编号作为转化得到的类别型的车辆特征数据样本。仍以上述步骤S404的年化驾驶次数为例，确定数值区间范围1000<X≤1200为目标数值区间范围样本后，该范围所对应的样本区间编号为4，则服务器120将样本区间编号4作为相应车辆特征数据样本对应的类别型转化结果。通过这种方式，服务器120可以将各连续型特征变量转化为类别型特征变量，提升模型的鲁棒性。

步骤S406，根据转化得到的类别型的车辆特征数据样本以及类别型特征数据样本组中的车辆特征数据样本，得到车辆特征数据样本集。

本步骤中，服务器120将前述步骤中转化得到的类别型的车辆特征数据样本，以及车辆特征数据样本本身所包含的类别型特征数据样本组中的车辆特征数据样本一并形成车辆特征数据样本集，从而服务器120完成将各组车辆特征数据样本向适配于模型输入的车辆特征数据样本集的转换过程。

步骤S305，利用车辆特征数据样本集以及出险次数样本对待训练的出险次数预测模型进行训练，构建得到出险次数预测模型。

本步骤中，服务器120得到车辆特征数据样本集后，可根据待训练的出险次数预测模型的具体类型，判断是否需要做独热编码，独热编码可具体参考上表4。其中，如果待训练的出险次数预测模型使用线性模型，则服务器120可对车辆特征数据样本集做独热编码，增强模型的拟合精度；如果待训练的出险次数预测模型使用基于决策树的模型，可以不做独热编码。然后服务器120可以基于车辆特征数据样本集和出险次数样本对待训练的出险次数预测模型进行训练，从而构建得到出险次数预测模型。其中，对于待训练的出险次数预测模型的类型可以采用：

①线性模型。选择线性模型时，服务器120可先判断目标变量(即出险次数)的分布情况，如果目标变量是正态分布，则服务器120可直接使用线性回归模型；如果目标变量并非正态分布，例如是泊松分布，则服务器120可使用广义线性模型，即在线性回归模型的基础上加上一个连接函数。

②基于决策树的模型。基于决策树的模型，可以具体采用随机森林、GBDT、XGBOOST等。

通过本实施例的方案，服务器120可构建得到对车辆在未来时段的出险次数的预测具有一定准确性和鲁棒性的出险次数预测模型，模型构建后，服务器120就可以使用该模型对车辆在未来时段的出险次数进行预测。

本申请所提供的车险风险评估方法中，提供了明确的车辆数据采集口径和加工口径，提供了详细的能够应用于例如UBI保险风险评估的流程，使车险风险评估具有更高准确性且其评估过程具有完整、有效和操作性强的特点。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种车险风险评估装置，该装置500可以包括：

数据获取模块501，用于获取待评估车辆在历史时段的历史行车数据，以及获取所述待评估车辆的车辆基础数据；

数据划分模块502，用于将所述历史行车数据和所述车辆基础数据按照多种预设的特征类别划分为多组车辆特征数据；其中，不同组的车辆特征数据对应不同种的特征类别；

数据转化模块503，用于将各组车辆特征数据转化为适配于模型输入的车辆特征数据集；

模型预测模块504，用于将所述车辆特征数据集输入到预先构建的出险次数预测模型，以使所述出险次数预测模型根据所述车辆特征数据集输出所述待评估车辆在未来时段的出险次数预测值；

风险评估模块505，用于根据所述出险次数预测值，评估所述待评估车辆在所述未来时段的车险风险。

在一个实施例中，所述各组车辆特征数据包括类别型特征数据组和连续型特征数据组；数据转化模块503，进一步用于将所述连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据；根据转化得到的所述类别型的车辆特征数据以及所述类别型特征数据组中的车辆特征数据，得到所述车辆特征数据集。

在一个实施例中，数据转化模块503，进一步用于确定所述连续型特征数据组对应的多个数值区间范围；基于所述多个数值区间范围，确定所述连续型特征数据组中的车辆特征数据落入的目标数值区间范围；将所述连续型特征数据组中的车辆特征数据转化为所述目标数值区间范围对应的区间编号，并将所述目标数值区间范围对应的区间编号作为所述转化得到的所述类别型的车辆特征数据。

在一个实施例中，风险评估模块505，进一步用于利用预设的出险次数与风险值转化关系，将所述出险次数预测值转化为车险风险值；根据所述车险风险值的大小，得到所述待评估车辆在所述未来时段的车险风险；所述车险风险值与所述车险风险呈正相关关系。

在一个实施例中，上述装置500还可以包括：模型构建模块，用于：获取模型训练数据样本；所述模型训练数据样本包括样本车辆在第一设定时段的行车数据样本、在第二设定时段的出险次数样本和所述样本车辆的车辆基础数据样本；所述第一设定时段和第二设定时段以设定时刻为基准进行划分，所述第一设定时段与第二设定时段的时段长度相同；将所述行车数据样本和所述车辆基础数据样本按照多种初始特征类别划分为多组车辆特征初始数据样本；基于各组车辆特征初始数据样本的样本数据属性，从所述初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为所述预设的特征类别，并得到所述预设的特征类别对应的多组车辆特征数据样本；将各组车辆特征数据样本转化为适配于模型输入的车辆特征数据样本集；利用所述车辆特征数据样本集以及所述出险次数样本对待训练的出险次数预测模型进行训练，构建得到所述出险次数预测模型。

在一个实施例中，

所述样本数据属性包括组内数据样本的完整度；模型构建模块，进一步用于：根据所述各组车辆特征初始数据样本中缺失数据样本的占比，得到所述各组车辆特征初始数据样本对应的所述组内数据样本的完整度；确定所述组内数据样本的完整度大于或者等于组内样本完整度阈值的第一目标组车辆特征初始数据样本；基于所述第一目标组车辆特征初始数据样本对应的特征类别，确定所述预设的特征类别；

和/或，

所述样本数据属性包括组内数据样本与出险次数间的相关性；模型构建模块，进一步用于：获取用于表征所述各组车辆特征初始数据样本分别与出险次数的相关性的第一相关系数，得到多个第一相关系数；根据各第一相关系数的大小，从所述各组车辆特征初始数据样本中确定第二目标组车辆特征初始数据样本；基于所述第二目标组车辆特征初始数据样本对应的特征类别，确定所述预设的特征类别；

和/或，

所述样本数据属性包括组间数据样本的相关性；模型构建模块，进一步用于：获取用于表征所述各组车辆特征初始数据样本两两之间的相关性的第二相关系数，得到多个第二相关系数；基于所述多个第二相关系数，确定相关组车辆特征初始数据样本；从各相关组车辆特征初始数据样本中分别选取其中一组车辆特征初始数据样本，得到第三目标组车辆特征初始数据样本；基于所述第三目标组车辆特征初始数据样本对应的特征类别，确定所述预设的特征类别。

在一个实施例中，所述各组车辆特征数据样本包括类别型特征数据样本组和连续型特征数据样本组；模型构建模块，进一步用于：将连续型特征数据样本组中的车辆特征数据样本进行等频分箱，得到多个初始数值区间范围；确定各初始数值区间范围内的车辆特征数据样本对应的出险次数样本的平均值，得到多个平均值；基于所述多个平均值，对所述各初始数值区间范围进行合并得到多个数值区间范围；基于所述多个数值区间范围，确定所述连续型特征数据样本组中的车辆特征数据样本落入的目标数值区间范围样本；将所述连续型特征数据样本组中的车辆特征数据样本转化为所述目标数值区间范围样本对应的样本区间编号，并将所述目标数值区间范围样本对应的样本区间编号作为所述转化得到的所述类别型的车辆特征数据样本；根据所述转化得到的所述类别型的车辆特征数据样本以及所述类别型特征数据样本组中的车辆特征数据样本，得到所述车辆特征数据样本集。

在一个实施例中，所述未来时段与历史时段的时段长度相同。

关于车险风险评估装置的具体限定可以参见上文中对于车险风险评估方法的限定，在此不再赘述。上述车险风险评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史行车数据、车辆基础数据、多组车辆特征、车辆特征数据集、出险次数预测值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车险风险评估方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种车险风险评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述各组车辆特征数据包括类别型特征数据组和连续型特征数据组；所述将各组车辆特征数据转化为适配于模型输入的车辆特征数据集，包括：

将所述连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据；

根据所述转化得到的类别型的车辆特征数据以及所述类别型特征数据组中的车辆特征数据，得到所述车辆特征数据集。

3.根据权利要求2所述的方法，其特征在于，所述将所述连续型特征数据组中的车辆特征数据转化为类别型的车辆特征数据，包括：

确定所述连续型特征数据组对应的多个数值区间范围；

基于所述多个数值区间范围，确定所述连续型特征数据组中的车辆特征数据落入的目标数值区间范围；

将所述连续型特征数据组中的车辆特征数据转化为所述目标数值区间范围对应的区间编号，并将所述目标数值区间范围对应的区间编号作为所述转化得到的所述类别型的车辆特征数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所述出险次数预测值，评估所述待评估车辆在所述未来时段的车险风险，包括：

利用预设的出险次数与风险值转化关系，将所述出险次数预测值转化为车险风险值；

根据所述车险风险值的大小，得到所述待评估车辆在所述未来时段的车险风险；所述车险风险值与所述车险风险呈正相关关系。

5.根据权利要求1所述的方法，其特征在于，所述将所述车辆特征数据集输入到预先构建的出险次数预测模型之前，所述方法还包括：

获取模型训练数据样本；所述模型训练数据样本包括样本车辆在第一设定时段的行车数据样本、在第二设定时段的出险次数样本和所述样本车辆的车辆基础数据样本；所述第一设定时段和第二设定时段以设定时刻为基准进行划分，所述第一设定时段与第二设定时段的时段长度相同；

将所述行车数据样本和所述车辆基础数据样本按照多种初始特征类别划分为多组车辆特征初始数据样本；

基于各组车辆特征初始数据样本的样本数据属性，从所述初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为所述预设的特征类别，并得到所述预设的特征类别对应的多组车辆特征数据样本；

将各组车辆特征数据样本转化为适配于模型输入的车辆特征数据样本集；

利用所述车辆特征数据样本集以及所述出险次数样本对待训练的出险次数预测模型进行训练，构建得到所述出险次数预测模型。

6.根据权利要求5所述的方法，其特征在于，

所述样本数据属性包括组内数据样本的完整度；所述基于各组车辆特征初始数据样本的样本数据属性，从所述初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为所述预设的特征类别，包括：

根据所述各组车辆特征初始数据样本中缺失数据样本的占比，得到所述各组车辆特征初始数据样本对应的所述组内数据样本的完整度；确定所述组内数据样本的完整度大于或者等于组内样本完整度阈值的第一目标组车辆特征初始数据样本；基于所述第一目标组车辆特征初始数据样本对应的特征类别，确定所述预设的特征类别；

和/或，

所述样本数据属性包括组内数据样本与出险次数间的相关性；所述基于各组车辆特征初始数据样本的样本数据属性，从所述初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为所述预设的特征类别，包括：

获取用于表征所述各组车辆特征初始数据样本分别与出险次数的相关性的第一相关系数，得到多个第一相关系数；根据各第一相关系数的大小，从所述各组车辆特征初始数据样本中确定第二目标组车辆特征初始数据样本；基于所述第二目标组车辆特征初始数据样本对应的特征类别，确定所述预设的特征类别；

和/或，

所述样本数据属性包括组间数据样本的相关性；所述基于各组车辆特征初始数据样本的样本数据属性，从所述初始特征类别中筛选出满足预设样本数据属性条件的特征类别，作为所述预设的特征类别，包括：

获取用于表征所述各组车辆特征初始数据样本两两之间的相关性的第二相关系数，得到多个第二相关系数；基于所述多个第二相关系数，确定相关组车辆特征初始数据样本；从各相关组车辆特征初始数据样本中分别选取其中一组车辆特征初始数据样本，得到第三目标组车辆特征初始数据样本；基于所述第三目标组车辆特征初始数据样本对应的特征类别，确定所述预设的特征类别。

7.根据权利要求5或6所述的方法，其特征在于，所述各组车辆特征数据样本包括类别型特征数据样本组和连续型特征数据样本组；所述将各组车辆特征数据样本转化为适配于模型输入的车辆特征数据样本集，包括：

将连续型特征数据样本组中的车辆特征数据样本进行等频分箱，得到多个初始数值区间范围；

确定各初始数值区间范围内的车辆特征数据样本对应的出险次数样本的平均值，得到多个平均值；

基于所述多个平均值，对所述各初始数值区间范围进行合并得到多个数值区间范围；

基于所述多个数值区间范围，确定所述连续型特征数据样本组中的车辆特征数据样本落入的目标数值区间范围样本；

将所述连续型特征数据样本组中的车辆特征数据样本转化为所述目标数值区间范围样本对应的样本区间编号，并将所述目标数值区间范围样本对应的样本区间编号作为所述转化得到的所述类别型的车辆特征数据样本；

根据所述转化得到的所述类别型的车辆特征数据样本以及所述类别型特征数据样本组中的车辆特征数据样本，得到所述车辆特征数据样本集。

8.根据权利要求1所述的方法，其特征在于，所述未来时段与历史时段的时段长度相同。

9.一种车险风险评估装置，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。