CN108596409A

CN108596409A - 提升交通危险人员事故风险预测精度的方法

Info

Publication number: CN108596409A
Application number: CN201810783017.7A
Authority: CN
Inventors: 刘林; 陈凝; 吕伟韬; 马党生
Original assignee: JIANGSU INTELLIGENT TRANSPORTATION SYSTEMS Co Ltd
Current assignee: JIANGSU INTELLIGENT TRANSPORTATION SYSTEMS Co Ltd
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2018-09-28
Anticipated expiration: 2038-07-16
Also published as: CN108596409B

Abstract

本发明提供一种提升交通危险人员事故风险预测精度的方法，以优化的抽样方法获取交通违法数据与事故数据样本，采用集成学习算法训练交通参与者交通事故风险预测模型，并通过遗传算法进行模型优化。本发明以集成学习算法在交通违法数据中挖掘交通出行者的安全特性，在模型构建的抽样环节采用优化抽样方法提高基于初始模型性能，并运用遗传算法进行模型参数优化，有效提升高危人员事故风险预测精度。

Description

提升交通危险人员事故风险预测精度的方法

技术领域

本发明涉及一种提升交通危险人员事故风险预测精度的方法。

背景技术

有研究表明，交通违法与交通事故间存在相关关系，交通违法保留的驾驶人、行人等交通参与者属性与行为能够为交通安全中的人为因素分析提供数据支撑。数据的挖掘可运用分类思想，根据人员属性变量对交通违法人员的安全特性进行挖掘。

传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器，但实际情况下通常只能得到有偏好的弱监督模型，模型的可靠性不佳。集成学习算法通过弱监督模型的组合提升了最终模型的性能。但集成学习模型复杂的参数组成，为模型效果提升带来一定难度。而遗传算法恰能很好地求解全局最优或近似最优的结果，提供了提升精度的可行性方案。

发明内容

本发明的目的是提供一种提升交通危险人员事故风险预测精度的方法，采用优化抽样的集成学习算法，并通过遗传算法进行参数优化，从而对存在交通违法记录的交通参与者危险度进行定量评估，填补当前在交通安全参与者因素定量分析方法的缺失，并有效提升高危人员事故风险预测精度。

本发明的技术解决方案是：

一种提升交通危险人员事故风险预测精度的方法，以优化的抽样方法获取交通违法数据与事故数据样本，采用集成学习算法训练交通参与者交通事故风险预测模型，进一步通过遗传算法进行模型优化以提升预测结果精确度，包括以下步骤，

S1、基于原始的交通违法数据与事故数据，构建违法数据集、严重事故数据集、轻微事故数据集。

S2、将违法数据集二分类，即高危人员、一般人员，根据分类规则确定数据标记值label，据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U。

S3、采用优化抽样方法与集成学习算法构建初始交通参与者危险度预测模型P0，确定模型抽样数、SMOTE抽样比例。

S4、采用遗传算法对模型P0进行性能优化，其优化目标函数为测试集预测精确度最大化，其中测试集精确度分析方法为k折交叉验证；设置遗传算法参数，使目标函数收敛速度快、避免震荡不收敛的情况；其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量。

S5、根据遗传算法输出的目标最优模型参数，构建危险人员事故风险预测的最优拟合模型P，确定模型覆盖率recall以及模型判别阈值；

S6、将S2的待识别子集数据输入模型P，输出目标对象危险度。

进一步地，步骤S3中所述的集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。

进一步地，步骤S3中所述的优化抽样方法具体步骤为：

S31、根据数据集N样本量设定抽样区间S以及循环步长k，区间上边界s一般不超过总样本量25％；

S32、样本量n_m＝s₀+(m-1)·k，s0为抽样区间下限值，m为循环次数，初值为1；从数据集N中随机抽取样本量为nm的样本Nm；

S33、将数据集D与Nm合集Gm拆分为训练集和测试集；

S34、对训练集进行SMOTE抽样，设置高危人员数据子集D扩样比例ai；其中，当i＝1时，ai＝1，当i>1时，ai＝ai-1+1，i初值为1，i设有设定的取值上限；

S35、对于高危人员扩样比例ai，设置一般人员Nm数据子集缩样比例bj；其中，当j＝1时，bj＝1，当j>1时，bj＝bj-1+1，j初值为1，j设有设定的取值上限；对于SMOTE抽样比例ai:bj，进行训练集内两类标签样本的扩样、缩样处理，作为分类器的训练样本集；

S36、运用集成学习算法进行高危人员分类器的训练，确定模型参数，实现交通参与者交通事故风险预测模型的拟合，模型能够输出标记值以及风险概率；

S37、以测试集数据进行模型评估，获得不同覆盖率的模型精确度

S38、将一般人员数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类，并按类别输入模型对不同覆盖率下模型输出的人员标签误判率进行统计

S39、j是否达到取值上限；若是，判断i是否达到取值上限，若是，则进入S310，否则i＝i+1，转入S34；否则，j＝j+1，转到S35；

S310、检测nm是否达到抽样区间上限值s，若是则进入S311，否则m＝m+1，返回S32；

S311、由模型精确度、误判率分析具有最优性能的模型确定最优的随机抽样数M、SMOTE抽样比例I、J。

进一步地，步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为：

高危人员：一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的人员；另一类为存在违法记录，仅存在轻微事故记录，且事故记录不低于2条的人员；

一般人员：存在违法记录但无事故记录的人员；

不满足上述判别条件的数据构成待识别子集。

进一步地，步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息；对违法记录进行汇集、分类处理操作后获得违法数据集；违法数据集为违法记录全样本数据，违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。

进一步地，步骤S1中事故相关违法行为发生情况通过对应分析方式获得，并提取交通事故影响程度较高的违法类型，作为违法数据集的数据属性。

进一步地，步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量，根据违法时间特征进行分类。

本发明的有益效果是：

一、本发明采用了遗传算法对初始拟合模型参数进行优化，显著提升了交通危险人员事故风险预测精度。

二、本发明采用的集成学习算法，相较于决策树、神经网络等传统分类方法，在预测性能上具有显著的优势，保证了危险人员交通事故风险预测的准确度。

三、本发明采用优化的集成学习算法对交通违法数据进行挖掘，实现基于交通参与者违法记录的交通安全风险度定量评估，模型能够输出人员的交通危险度。

附图说明

图1是本发明实施例提升交通危险人员事故风险预测精度的方法流程示意图。

图2是实施例中S3采用的优化抽样方法的具体流程示意图。

图3是实施例中数据集的说明示意图。

图4是实施例中S5采用的遗传算法繁殖过程示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例

一种提升交通危险人员事故风险预测精度的方法，以优化的抽样方法获取交通违法数据与事故数据样本，采用集成学习算法训练交通参与者交通事故风险预测模型，进一步通过遗传算法进行模型优化以提升预测结果精确度，如图1。实施例方法以集成学习算法在交通违法数据中挖掘交通出行者的安全特性，在模型构建的抽样环节采用优化抽样方法提高基于初始模型性能，并运用遗传算法进行模型参数优化，有效提升高危人员事故风险预测精度。具体的方法流程为：

其中，原始的交通违法数据与事故数据包含相关人员证件信息；对违法记录进行汇集、分类处理操作后获得违法数据集；违法数据集为违法记录全样本数据，违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段；事故相关违法行为发生情况通过对应分析方式获得，并提取交通事故影响程度较高的违法类型，作为违法数据集的数据属性；违法发生时段是将时间连续型变量转化为离散变量，根据违法时间特征进行分类。

其中分类规则具体为：高危人员指(1)存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者(包括机动车、非机动车驾驶人以及行人)；(2)存在违法记录，仅存在轻微事故记录，且事故记录不低于2条的交通参与者；一般人员指存在违法记录但无事故记录的交通参与者；不满足上述判别条件的数据构成待识别子集。

S3、采用优化抽样方法与集成学习算法构建初始交通参与者危险度预测模型P0，确定模型抽样数、SMOTE抽样比例；其中集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。如图2所示，具体流程为：

S33、将数据集D与Nm合集Gm拆分为训练集和测试集；

S34、对训练集进行SMOTE抽样，设置高危人员数据子集D扩样比例ai；其中，当i＝1时，ai＝1，当i>1时，ai＝ai-1+1，i取值上限通常为4；

S35、对于高危人员扩样比例ai，设置一般人员Nm数据子集缩样比例bj；其中，当j＝1时，bj＝1，当j>1时，bj＝bj-1+1，j取值上限通常为4；对于SMOTE抽样比例ai:bj，进行训练集内两类标签样本的扩样、缩样处理，作为分类器的训练样本集；

具体示例

本实施例以机动车驾驶人为分析对象。

S1、通过与数据库对接获取区域内2年的交通违法记录以及事故记录。

将发生死亡或受伤严重或发生肇事逃逸的交通事故作为严重事故，其他事故作为轻微事故，据此对原始的事故记录进行分类，并将事故类型与驾驶人证件信息作为严重事故数据集与轻微事故数据集的属性特征，获取两数据集样本数据。

进一步地，对违法原始数据进行预处理，对驾驶人的违法信息进行汇集统计，包括累计违法次数、违法种类、累计扣分分值、平均扣分分值(分/次)、单次最大扣分分值、累计罚款金额、平均罚款金额(元/次)。

采用对应分析法对交通事故数据与违法原始数据进行降维处理，根据违法与事故在类型上的相关性对违法种类进行分类，并提取其中相关性最高的五类作为事故风险违法行为字段的数据属性，如表1所示。

表1.事故相关违法类型划分情况

根据实施例所在区域路网的交通流运行以及交通违法事件发生规律特征，将时间进行聚合，并划分分析时段，将连续型变量转化为标称型变量；在另一个实施例中，通过聚类等其他统计方式进行时段划分。

驾驶人特征数据则根据驾驶人证件号码中提取驾驶人年龄、性别、所属省市编码；根据上述各环节提取的信息生成违法数据集，如表2所示。

表2.违法数据集部分数据

S2、对违法数据集内全样本I进行高危驾驶人与一般驾驶人二分类。如图4，将存在违法记录且存在负主要责任或全部责任的严重交通事故记录的驾驶人作为高危驾驶人的一种情况，符合条件的数据划为数据集D1；将存在违法记录，仅存在轻微事故记录，且事故记录不低于2条的驾驶人作为高危驾驶人的另一种情况，符合条件的数据划为数据集D2；高危驾驶人数据集D＝D1+D2。存在违法记录但无事故记录的驾驶人对应数据合成一般驾驶人数据集N。

据此对违法数据集中满足规则的数据确定高危或一般的数据标记值label，另外无法适用于此分类规则的数据子集U＝I-N-D，则为待识别数据子集。

S3、采用优化抽样方法与XgBoost算法构建初始车辆驾驶人危险度预测模型P0，确定模型抽样数、SMOTE抽样比例；

S31、根据数据集N样本量设定抽样区间S以及循环步长k，区间上边界s一般不超过总样本量25％；本实施例中，数据集样本量超过84000，抽样区间S＝[200,4000]，循环步长k为200。

S32、样本量n_m＝s₀+(m-1)·k，s0为抽样区间下限值，m为循环次数，初值为1；从数据集N中随机抽取样本量为nm的样本Nm；本实施例中，初始抽样数为200。

S33、将数据集D与Nm合集Gm拆分为训练集和测试集；本实施例中，训练集与测试集的拆分比例为9:1。

S34、对训练集进行SMOTE抽样，设置高危驾驶人数据子集D扩样比例ai，其中a1＝1，ai＝ai-1+1，i初值为1，i设有设定的取值上限，i最大值为4；

S35、对于高危驾驶人扩样比例ai，设置一般驾驶人Nm数据子集缩样比例bj，其中b1＝1，bj＝bj-1+1，j初值为1，j设有设定的取值上限，j最大值为4；对于SMOTE抽样比例ai:bj，进行训练集内两类标签样本的扩样、缩样处理，作为分类器的训练样本集；

S36、运用XgBoost算法进行高危驾驶人分类器的训练，确定模型参数，实现驾驶人交通事故风险预测模型的拟合，模型能够输出驾驶人标记值以及风险概率；模型参数包括学***衡项、提前终止训练条件；

S38、将一般驾驶人数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类，并按类别输入模型对不同覆盖率下模型输出的驾驶人标签误判率进行统计

S39、j是否达到设定最大值；若是，判断i是否达到设定最大值，若是，则进入S310，否则i＝i+1，转入S34；否则，j＝j+1，转到S35；

S310、检测nm是否达到区间上限s，若是则进入S311，否则m＝m+1，返回S32；

本实施例中，综合误判率、精确度及指标稳定性进行对比分析，确定的最优性能模型为即随机抽样样本数为2400，SMOTE比例为2:2。

S4、采用遗传算法对模型P0进行性能优化，其优化目标函数为测试集预测精度最大化，其中测试集精度分析方法为k折交叉验证；设置遗传算法参数，使目标函数收敛速度快、避免震荡不收敛的情况；其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量。

该实施例中，采用10折交叉验证下的测试集精度为目标函数，遗传算法参数具体设置为：交叉选择概率CrossoverProbaiblity＝0.8，变异概率MutationProbability＝0.5，变异区间Sigma＝[[-10,10],[-2,2],[-2,2],[-2,2],[-2,2]]，种群繁殖代数Iteration＝500，初始种群数量Population＝100。参数优化的遗传算法繁殖过程如图4所示。

S5、根据遗传算法输出的目标最优模型参数，构建车辆驾驶人危险度预测的最优拟合模型P，确定模型覆盖率recall以及模型判别阈值。

实施例中，基于XgBoost的初始模型经遗传算法优化后的具体参数为：学***衡项scale_pos_weight_value＝1、提前终止训练条件early_stopping_rounds_value＝37。

参数优化后的模型精确度达到0.76。

S6、将S2的待识别子集数据输入模型P，输出驾驶人危险度。部分结果如表3所示。

表3.运用本发明方法的高危驾驶人危险度分析结果

Claims

1.一种提升交通危险人员事故风险预测精度的方法，其特征在于：以优化的抽样方法获取交通违法数据与事故数据样本，采用集成学习算法训练交通参与者交通事故风险预测模型，进一步通过遗传算法进行模型优化以提升预测结果精确度，具体包括以下步骤：

S1、基于原始的交通违法数据与事故数据，构建违法数据集、严重事故数据集、轻微事故数据集；

S2、将违法数据集二分类，即高危人员、一般人员，根据分类规则确定数据标记值label，据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U；

S3、采用优化抽样方法与集成学习算法构建初始危险人员事故风险预测模型P₀，确定模型抽样数、SMOTE抽样比例；

S4、采用遗传算法对模型P₀进行性能优化，其优化目标函数为测试集预测精确度最大化，其中测试集精确度分析方法为k折交叉验证；设置遗传算法参数，使目标函数收敛速度快、避免震荡不收敛的情况；其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量；

S6、将步骤S2的待识别子集数据输入模型P，输出目标对象危险度。

2.如权利要求1所述的提升交通危险人员事故风险预测精度的方法，其特征在于，步骤S3中所述的集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。

3.如权利要求1所述的提升交通危险人员事故风险预测精度的方法，其特征在于，步骤S3中所述的优化抽样方法具体步骤为：

S31、根据数据集N样本量设定抽样区间S以及循环步长k；

S32、样本量n_m＝s₀+(m-1)·k，s₀为抽样区间下限值，m为循环次数，初值为1；从数据集N中随机抽取样本量为n_m的样本N_m；

S33、将数据集D与N_m合集G_m拆分为训练集和测试集；

S34、对训练集进行SMOTE抽样，设置高危人员数据子集D扩样比例a_i；其中，当i＝1时，a_i＝1，当i>1时，a_i＝a_i-1+1，i初值为1，i设有设定的取值上限；

S35、对于高危人员扩样比例a_i，设置一般人员N_m数据子集缩样比例b_j；其中，当j＝1时，b_j＝1，当j>1时，b_j＝b_j-1+1，j初值为1，j设有设定的取值上限；对于SMOTE抽样比例a_i:b_j，进行训练集内两类标签样本的扩样、缩样处理，作为分类器的训练样本集；

S38、将一般人员数据子集N中的抽样样本N_m补集N_m’内数据根据违法次数分类，并按类别输入模型对不同覆盖率下模型输出的人员标签误判率进行统计

S310、检测n_m是否达到抽样区间上限值s，若是则进入S311，否则m＝m+1，返回S32；

4.如权利要求1所述的提升交通危险人员事故风险预测精度的方法，其特征在于，步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为：

一般人员：存在违法记录但无事故记录的人员；

不满足上述判别条件的数据构成待识别子集。

5.如权利要求1所述的提升交通危险人员事故风险预测精度的方法，其特征在于：步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息；对违法记录进行汇集、分类处理操作后获得违法数据集；违法数据集为违法记录全样本数据，违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。

6.如权利要求1所述的提升交通危险人员事故风险预测精度的方法，其特征在于：步骤S1中事故相关违法行为发生情况通过对应分析方式获得，并提取交通事故影响程度较高的违法类型，作为违法数据集的数据属性。

7.如权利要求1所述的提升交通危险人员事故风险预测精度的方法，其特征在于：步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量，根据违法时间特征进行分类。