CN108596409A - 提升交通危险人员事故风险预测精度的方法 - Google Patents
提升交通危险人员事故风险预测精度的方法 Download PDFInfo
- Publication number
- CN108596409A CN108596409A CN201810783017.7A CN201810783017A CN108596409A CN 108596409 A CN108596409 A CN 108596409A CN 201810783017 A CN201810783017 A CN 201810783017A CN 108596409 A CN108596409 A CN 108596409A
- Authority
- CN
- China
- Prior art keywords
- data
- personnel
- model
- sampling
- accident
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001737 promoting effect Effects 0.000 title claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 62
- 238000005070 sampling Methods 0.000 claims abstract description 61
- 238000005457 optimization Methods 0.000 claims abstract description 34
- 230000002068 genetic effect Effects 0.000 claims abstract description 29
- 238000013480 data collection Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 206010039203 Road traffic accident Diseases 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000035772 mutation Effects 0.000 claims description 5
- 230000007547 defect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000452 restraining effect Effects 0.000 claims description 4
- 238000013058 risk prediction model Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000009514 concussion Effects 0.000 claims description 2
- 230000001850 reproductive effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000009395 breeding Methods 0.000 description 3
- 230000001488 breeding effect Effects 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000027272 reproductive process Effects 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种提升交通危险人员事故风险预测精度的方法,以优化的抽样方法获取交通违法数据与事故数据样本,采用集成学习算法训练交通参与者交通事故风险预测模型,并通过遗传算法进行模型优化。本发明以集成学习算法在交通违法数据中挖掘交通出行者的安全特性,在模型构建的抽样环节采用优化抽样方法提高基于初始模型性能,并运用遗传算法进行模型参数优化,有效提升高危人员事故风险预测精度。
Description
技术领域
本发明涉及一种提升交通危险人员事故风险预测精度的方法。
背景技术
有研究表明,交通违法与交通事故间存在相关关系,交通违法保留的驾驶人、行人等交通参与者属性与行为能够为交通安全中的人为因素分析提供数据支撑。数据的挖掘可运用分类思想,根据人员属性变量对交通违法人员的安全特性进行挖掘。
传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器,但实际情况下通常只能得到有偏好的弱监督模型,模型的可靠性不佳。集成学习算法通过弱监督模型的组合提升了最终模型的性能。但集成学习模型复杂的参数组成,为模型效果提升带来一定难度。而遗传算法恰能很好地求解全局最优或近似最优的结果,提供了提升精度的可行性方案。
发明内容
本发明的目的是提供一种提升交通危险人员事故风险预测精度的方法,采用优化抽样的集成学习算法,并通过遗传算法进行参数优化,从而对存在交通违法记录的交通参与者危险度进行定量评估,填补当前在交通安全参与者因素定量分析方法的缺失,并有效提升高危人员事故风险预测精度。
本发明的技术解决方案是:
一种提升交通危险人员事故风险预测精度的方法,以优化的抽样方法获取交通违法数据与事故数据样本,采用集成学习算法训练交通参与者交通事故风险预测模型,进一步通过遗传算法进行模型优化以提升预测结果精确度,包括以下步骤,
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集。
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U。
S3、采用优化抽样方法与集成学习算法构建初始交通参与者危险度预测模型P0,确定模型抽样数、SMOTE抽样比例。
S4、采用遗传算法对模型P0进行性能优化,其优化目标函数为测试集预测精确度最大化,其中测试集精确度分析方法为k折交叉验证;设置遗传算法参数,使目标函数收敛速度快、避免震荡不收敛的情况;其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量。
S5、根据遗传算法输出的目标最优模型参数,构建危险人员事故风险预测的最优拟合模型P,确定模型覆盖率recall以及模型判别阈值;
S6、将S2的待识别子集数据输入模型P,输出目标对象危险度。
进一步地,步骤S3中所述的集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。
进一步地,步骤S3中所述的优化抽样方法具体步骤为:
S31、根据数据集N样本量设定抽样区间S以及循环步长k,区间上边界s一般不超过总样本量25%;
S32、样本量nm=s0+(m-1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;
S33、将数据集D与Nm合集Gm拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,设置高危人员数据子集D扩样比例ai;其中,当i=1时,ai=1,当i>1时,ai=ai-1+1,i初值为1,i设有设定的取值上限;
S35、对于高危人员扩样比例ai,设置一般人员Nm数据子集缩样比例bj;其中,当j=1时,bj=1,当j>1时,bj=bj-1+1,j初值为1,j设有设定的取值上限;对于SMOTE抽样比例ai:bj,进行训练集内两类标签样本的扩样、缩样处理,作为分类器的训练样本集;
S36、运用集成学习算法进行高危人员分类器的训练,确定模型参数,实现交通参与者交通事故风险预测模型的拟合,模型能够输出标记值以及风险概率;
S37、以测试集数据进行模型评估,获得不同覆盖率的模型精确度
S38、将一般人员数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类,并按类别输入模型对不同覆盖率下模型输出的人员标签误判率进行统计
S39、j是否达到取值上限;若是,判断i是否达到取值上限,若是,则进入S310,否则i=i+1,转入S34;否则,j=j+1,转到S35;
S310、检测nm是否达到抽样区间上限值s,若是则进入S311,否则m=m+1,返回S32;
S311、由模型精确度、误判率分析具有最优性能的模型确定最优的随机抽样数M、SMOTE抽样比例I、J。
进一步地,步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:
高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的人员;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的人员;
一般人员:存在违法记录但无事故记录的人员;
不满足上述判别条件的数据构成待识别子集。
进一步地,步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
进一步地,步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
进一步地,步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
本发明的有益效果是:
一、本发明采用了遗传算法对初始拟合模型参数进行优化,显著提升了交通危险人员事故风险预测精度。
二、本发明采用的集成学习算法,相较于决策树、神经网络等传统分类方法,在预测性能上具有显著的优势,保证了危险人员交通事故风险预测的准确度。
三、本发明采用优化的集成学习算法对交通违法数据进行挖掘,实现基于交通参与者违法记录的交通安全风险度定量评估,模型能够输出人员的交通危险度。
附图说明
图1是本发明实施例提升交通危险人员事故风险预测精度的方法流程示意图。
图2是实施例中S3采用的优化抽样方法的具体流程示意图。
图3是实施例中数据集的说明示意图。
图4是实施例中S5采用的遗传算法繁殖过程示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
一种提升交通危险人员事故风险预测精度的方法,以优化的抽样方法获取交通违法数据与事故数据样本,采用集成学习算法训练交通参与者交通事故风险预测模型,进一步通过遗传算法进行模型优化以提升预测结果精确度,如图1。实施例方法以集成学习算法在交通违法数据中挖掘交通出行者的安全特性,在模型构建的抽样环节采用优化抽样方法提高基于初始模型性能,并运用遗传算法进行模型参数优化,有效提升高危人员事故风险预测精度。具体的方法流程为:
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集。
其中,原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段;事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性;违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U。
其中分类规则具体为:高危人员指(1)存在违法记录且存在负主要责任或全部责任的严重交通事故记录的交通参与者(包括机动车、非机动车驾驶人以及行人);(2)存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的交通参与者;一般人员指存在违法记录但无事故记录的交通参与者;不满足上述判别条件的数据构成待识别子集。
S3、采用优化抽样方法与集成学习算法构建初始交通参与者危险度预测模型P0,确定模型抽样数、SMOTE抽样比例;其中集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。如图2所示,具体流程为:
S31、根据数据集N样本量设定抽样区间S以及循环步长k,区间上边界s一般不超过总样本量25%;
S32、样本量nm=s0+(m-1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;
S33、将数据集D与Nm合集Gm拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,设置高危人员数据子集D扩样比例ai;其中,当i=1时,ai=1,当i>1时,ai=ai-1+1,i取值上限通常为4;
S35、对于高危人员扩样比例ai,设置一般人员Nm数据子集缩样比例bj;其中,当j=1时,bj=1,当j>1时,bj=bj-1+1,j取值上限通常为4;对于SMOTE抽样比例ai:bj,进行训练集内两类标签样本的扩样、缩样处理,作为分类器的训练样本集;
S36、运用集成学习算法进行高危人员分类器的训练,确定模型参数,实现交通参与者交通事故风险预测模型的拟合,模型能够输出标记值以及风险概率;
S37、以测试集数据进行模型评估,获得不同覆盖率的模型精确度
S38、将一般人员数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类,并按类别输入模型对不同覆盖率下模型输出的人员标签误判率进行统计
S39、j是否达到取值上限;若是,判断i是否达到取值上限,若是,则进入S310,否则i=i+1,转入S34;否则,j=j+1,转到S35;
S310、检测nm是否达到抽样区间上限值s,若是则进入S311,否则m=m+1,返回S32;
S311、由模型精确度、误判率分析具有最优性能的模型确定最优的随机抽样数M、SMOTE抽样比例I、J。
S4、采用遗传算法对模型P0进行性能优化,其优化目标函数为测试集预测精确度最大化,其中测试集精确度分析方法为k折交叉验证;设置遗传算法参数,使目标函数收敛速度快、避免震荡不收敛的情况;其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量。
S5、根据遗传算法输出的目标最优模型参数,构建危险人员事故风险预测的最优拟合模型P,确定模型覆盖率recall以及模型判别阈值;
S6、将S2的待识别子集数据输入模型P,输出目标对象危险度。
具体示例
本实施例以机动车驾驶人为分析对象。
S1、通过与数据库对接获取区域内2年的交通违法记录以及事故记录。
将发生死亡或受伤严重或发生肇事逃逸的交通事故作为严重事故,其他事故作为轻微事故,据此对原始的事故记录进行分类,并将事故类型与驾驶人证件信息作为严重事故数据集与轻微事故数据集的属性特征,获取两数据集样本数据。
进一步地,对违法原始数据进行预处理,对驾驶人的违法信息进行汇集统计,包括累计违法次数、违法种类、累计扣分分值、平均扣分分值(分/次)、单次最大扣分分值、累计罚款金额、平均罚款金额(元/次)。
采用对应分析法对交通事故数据与违法原始数据进行降维处理,根据违法与事故在类型上的相关性对违法种类进行分类,并提取其中相关性最高的五类作为事故风险违法行为字段的数据属性,如表1所示。
表1.事故相关违法类型划分情况
根据实施例所在区域路网的交通流运行以及交通违法事件发生规律特征,将时间进行聚合,并划分分析时段,将连续型变量转化为标称型变量;在另一个实施例中,通过聚类等其他统计方式进行时段划分。
驾驶人特征数据则根据驾驶人证件号码中提取驾驶人年龄、性别、所属省市编码;根据上述各环节提取的信息生成违法数据集,如表2所示。
表2.违法数据集部分数据
S2、对违法数据集内全样本I进行高危驾驶人与一般驾驶人二分类。如图4,将存在违法记录且存在负主要责任或全部责任的严重交通事故记录的驾驶人作为高危驾驶人的一种情况,符合条件的数据划为数据集D1;将存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的驾驶人作为高危驾驶人的另一种情况,符合条件的数据划为数据集D2;高危驾驶人数据集D=D1+D2。存在违法记录但无事故记录的驾驶人对应数据合成一般驾驶人数据集N。
据此对违法数据集中满足规则的数据确定高危或一般的数据标记值label,另外无法适用于此分类规则的数据子集U=I-N-D,则为待识别数据子集。
S3、采用优化抽样方法与XgBoost算法构建初始车辆驾驶人危险度预测模型P0,确定模型抽样数、SMOTE抽样比例;
S31、根据数据集N样本量设定抽样区间S以及循环步长k,区间上边界s一般不超过总样本量25%;本实施例中,数据集样本量超过84000,抽样区间S=[200,4000],循环步长k为200。
S32、样本量nm=s0+(m-1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;本实施例中,初始抽样数为200。
S33、将数据集D与Nm合集Gm拆分为训练集和测试集;本实施例中,训练集与测试集的拆分比例为9:1。
S34、对训练集进行SMOTE抽样,设置高危驾驶人数据子集D扩样比例ai,其中a1=1,ai=ai-1+1,i初值为1,i设有设定的取值上限,i最大值为4;
S35、对于高危驾驶人扩样比例ai,设置一般驾驶人Nm数据子集缩样比例bj,其中b1=1,bj=bj-1+1,j初值为1,j设有设定的取值上限,j最大值为4;对于SMOTE抽样比例ai:bj,进行训练集内两类标签样本的扩样、缩样处理,作为分类器的训练样本集;
S36、运用XgBoost算法进行高危驾驶人分类器的训练,确定模型参数,实现驾驶人交通事故风险预测模型的拟合,模型能够输出驾驶人标记值以及风险概率;模型参数包括学***衡项、提前终止训练条件;
S37、以测试集数据进行模型评估,获得不同覆盖率的模型精确度
S38、将一般驾驶人数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类,并按类别输入模型对不同覆盖率下模型输出的驾驶人标签误判率进行统计
S39、j是否达到设定最大值;若是,判断i是否达到设定最大值,若是,则进入S310,否则i=i+1,转入S34;否则,j=j+1,转到S35;
S310、检测nm是否达到区间上限s,若是则进入S311,否则m=m+1,返回S32;
S311、由模型精确度、误判率分析具有最优性能的模型确定最优的随机抽样数M、SMOTE抽样比例I、J。
本实施例中,综合误判率、精确度及指标稳定性进行对比分析,确定的最优性能模型为即随机抽样样本数为2400,SMOTE比例为2:2。
S4、采用遗传算法对模型P0进行性能优化,其优化目标函数为测试集预测精度最大化,其中测试集精度分析方法为k折交叉验证;设置遗传算法参数,使目标函数收敛速度快、避免震荡不收敛的情况;其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量。
该实施例中,采用10折交叉验证下的测试集精度为目标函数,遗传算法参数具体设置为:交叉选择概率CrossoverProbaiblity=0.8,变异概率MutationProbability=0.5,变异区间Sigma=[[-10,10],[-2,2],[-2,2],[-2,2],[-2,2]],种群繁殖代数Iteration=500,初始种群数量Population=100。参数优化的遗传算法繁殖过程如图4所示。
S5、根据遗传算法输出的目标最优模型参数,构建车辆驾驶人危险度预测的最优拟合模型P,确定模型覆盖率recall以及模型判别阈值。
实施例中,基于XgBoost的初始模型经遗传算法优化后的具体参数为:学***衡项scale_pos_weight_value=1、提前终止训练条件early_stopping_rounds_value=37。
参数优化后的模型精确度达到0.76。
S6、将S2的待识别子集数据输入模型P,输出驾驶人危险度。部分结果如表3所示。
表3.运用本发明方法的高危驾驶人危险度分析结果
Claims (7)
1.一种提升交通危险人员事故风险预测精度的方法,其特征在于:以优化的抽样方法获取交通违法数据与事故数据样本,采用集成学习算法训练交通参与者交通事故风险预测模型,进一步通过遗传算法进行模型优化以提升预测结果精确度,具体包括以下步骤:
S1、基于原始的交通违法数据与事故数据,构建违法数据集、严重事故数据集、轻微事故数据集;
S2、将违法数据集二分类,即高危人员、一般人员,根据分类规则确定数据标记值label,据此将违法数据集分为高危人员数据子集D、一般人员数据子集N以及待识别子集U;
S3、采用优化抽样方法与集成学习算法构建初始危险人员事故风险预测模型P0,确定模型抽样数、SMOTE抽样比例;
S4、采用遗传算法对模型P0进行性能优化,其优化目标函数为测试集预测精确度最大化,其中测试集精确度分析方法为k折交叉验证;设置遗传算法参数,使目标函数收敛速度快、避免震荡不收敛的情况;其中遗传算法参数包括交叉选择概率、变异概率、变异区间、种群繁殖代数、初始种群数量;
S5、根据遗传算法输出的目标最优模型参数,构建危险人员事故风险预测的最优拟合模型P,确定模型覆盖率recall以及模型判别阈值;
S6、将步骤S2的待识别子集数据输入模型P,输出目标对象危险度。
2.如权利要求1所述的提升交通危险人员事故风险预测精度的方法,其特征在于,步骤S3中所述的集成学习算法包括随机森林算法、AdaBoost算法、XgBoost算法、GBDT算法。
3.如权利要求1所述的提升交通危险人员事故风险预测精度的方法,其特征在于,步骤S3中所述的优化抽样方法具体步骤为:
S31、根据数据集N样本量设定抽样区间S以及循环步长k;
S32、样本量nm=s0+(m-1)·k,s0为抽样区间下限值,m为循环次数,初值为1;从数据集N中随机抽取样本量为nm的样本Nm;
S33、将数据集D与Nm合集Gm拆分为训练集和测试集;
S34、对训练集进行SMOTE抽样,设置高危人员数据子集D扩样比例ai;其中,当i=1时,ai=1,当i>1时,ai=ai-1+1,i初值为1,i设有设定的取值上限;
S35、对于高危人员扩样比例ai,设置一般人员Nm数据子集缩样比例bj;其中,当j=1时,bj=1,当j>1时,bj=bj-1+1,j初值为1,j设有设定的取值上限;对于SMOTE抽样比例ai:bj,进行训练集内两类标签样本的扩样、缩样处理,作为分类器的训练样本集;
S36、运用集成学习算法进行高危人员分类器的训练,确定模型参数,实现交通参与者交通事故风险预测模型的拟合,模型能够输出标记值以及风险概率;
S37、以测试集数据进行模型评估,获得不同覆盖率的模型精确度
S38、将一般人员数据子集N中的抽样样本Nm补集Nm’内数据根据违法次数分类,并按类别输入模型对不同覆盖率下模型输出的人员标签误判率进行统计
S39、j是否达到取值上限;若是,判断i是否达到取值上限,若是,则进入S310,否则i=i+1,转入S34;否则,j=j+1,转到S35;
S310、检测nm是否达到抽样区间上限值s,若是则进入S311,否则m=m+1,返回S32;
S311、由模型精确度、误判率分析具有最优性能的模型确定最优的随机抽样数M、SMOTE抽样比例I、J。
4.如权利要求1所述的提升交通危险人员事故风险预测精度的方法,其特征在于,步骤S2中所述的基于分类规则赋予对应数据标记值label的方法具体为:
高危人员:一类为存在违法记录且存在负主要责任或全部责任的严重交通事故记录的人员;另一类为存在违法记录,仅存在轻微事故记录,且事故记录不低于2条的人员;
一般人员:存在违法记录但无事故记录的人员;
不满足上述判别条件的数据构成待识别子集。
5.如权利要求1所述的提升交通危险人员事故风险预测精度的方法,其特征在于:步骤S1中原始的交通违法数据与事故数据包含相关人员证件信息;对违法记录进行汇集、分类处理操作后获得违法数据集;违法数据集为违法记录全样本数据,违法数据集信息包含人员证件号码、违法次数、违法种类、扣分罚款情况、事故相关违法行为发生情况、违法发生时段。
6.如权利要求1所述的提升交通危险人员事故风险预测精度的方法,其特征在于:步骤S1中事故相关违法行为发生情况通过对应分析方式获得,并提取交通事故影响程度较高的违法类型,作为违法数据集的数据属性。
7.如权利要求1所述的提升交通危险人员事故风险预测精度的方法,其特征在于:步骤S1中所述违法发生时段是将时间连续型变量转化为离散变量,根据违法时间特征进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810783017.7A CN108596409B (zh) | 2018-07-16 | 2018-07-16 | 提升交通危险人员事故风险预测精度的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810783017.7A CN108596409B (zh) | 2018-07-16 | 2018-07-16 | 提升交通危险人员事故风险预测精度的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596409A true CN108596409A (zh) | 2018-09-28 |
CN108596409B CN108596409B (zh) | 2021-07-20 |
Family
ID=63617732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810783017.7A Active CN108596409B (zh) | 2018-07-16 | 2018-07-16 | 提升交通危险人员事故风险预测精度的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596409B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408557A (zh) * | 2018-09-29 | 2019-03-01 | 东南大学 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
CN109558969A (zh) * | 2018-11-07 | 2019-04-02 | 南京邮电大学 | 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型 |
CN109598931A (zh) * | 2018-11-30 | 2019-04-09 | 江苏智通交通科技有限公司 | 基于交通安全风险的群体划分与差异性分析方法及*** |
CN109635990A (zh) * | 2018-10-12 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 一种训练方法、预测方法、装置及电子设备 |
CN110379161A (zh) * | 2019-07-18 | 2019-10-25 | 中南大学 | 一种城市路网交通流量分配方法 |
CN111081016A (zh) * | 2019-12-18 | 2020-04-28 | 北京航空航天大学 | 一种基于复杂网络理论的城市交通异常识别方法 |
CN111080012A (zh) * | 2019-12-17 | 2020-04-28 | 北京明略软件***有限公司 | 人员危险度预测方法、装置、电子设备和可读存储介质 |
WO2020083400A1 (zh) * | 2018-10-26 | 2020-04-30 | 江苏智通交通科技有限公司 | 交通事故数据智能分析与综合应用*** |
CN111881988A (zh) * | 2020-07-31 | 2020-11-03 | 北京航空航天大学 | 基于少数类过采样方法的异质不平衡数据故障检测方法 |
CN112016735A (zh) * | 2020-07-17 | 2020-12-01 | 厦门大学 | 一种基于交通违法热点预测的巡逻路线规划方法、***和可读存储介质 |
CN112667919A (zh) * | 2020-12-28 | 2021-04-16 | 山东大学 | 一种基于文本数据的个性化社区矫正方案推荐***及其工作方法 |
CN113076974A (zh) * | 2021-03-09 | 2021-07-06 | 麦哲伦科技有限公司 | 多层感知机构建缺失值填补与分类并行的多任务学习方法 |
CN113793502A (zh) * | 2021-09-15 | 2021-12-14 | 国网电动汽车服务(天津)有限公司 | 无信号灯控制下的行人过街预测方法 |
CN115035722A (zh) * | 2022-06-20 | 2022-09-09 | 浙江嘉兴数字城市实验室有限公司 | 基于时空特征和社交媒体相结合的道路安全风险预测方法 |
CN117009767A (zh) * | 2023-08-10 | 2023-11-07 | 中国环境科学研究院 | 一种基于生物有效性的土壤基准制定及风险评估的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246897A (zh) * | 2013-05-27 | 2013-08-14 | 南京理工大学 | 一种基于AdaBoost的弱分类器内部结构调整方法 |
CN103462618A (zh) * | 2013-09-04 | 2013-12-25 | 江苏大学 | 一种基于转向盘转角特性的汽车驾驶员疲劳检测方法 |
JP5892663B2 (ja) * | 2011-06-21 | 2016-03-23 | 国立大学法人 奈良先端科学技術大学院大学 | 自己位置推定装置、自己位置推定方法、自己位置推定プログラム、及び移動体 |
CN107480839A (zh) * | 2017-10-13 | 2017-12-15 | 深圳市博安达信息技术股份有限公司 | 基于主成分分析和随机森林的高危污染源的分类预测方法 |
CN107563425A (zh) * | 2017-08-24 | 2018-01-09 | 长安大学 | 一种基于随机森林的隧道运营状态感知模型的建立方法 |
-
2018
- 2018-07-16 CN CN201810783017.7A patent/CN108596409B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5892663B2 (ja) * | 2011-06-21 | 2016-03-23 | 国立大学法人 奈良先端科学技術大学院大学 | 自己位置推定装置、自己位置推定方法、自己位置推定プログラム、及び移動体 |
CN103246897A (zh) * | 2013-05-27 | 2013-08-14 | 南京理工大学 | 一种基于AdaBoost的弱分类器内部结构调整方法 |
CN103462618A (zh) * | 2013-09-04 | 2013-12-25 | 江苏大学 | 一种基于转向盘转角特性的汽车驾驶员疲劳检测方法 |
CN107563425A (zh) * | 2017-08-24 | 2018-01-09 | 长安大学 | 一种基于随机森林的隧道运营状态感知模型的建立方法 |
CN107480839A (zh) * | 2017-10-13 | 2017-12-15 | 深圳市博安达信息技术股份有限公司 | 基于主成分分析和随机森林的高危污染源的分类预测方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408557A (zh) * | 2018-09-29 | 2019-03-01 | 东南大学 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
CN109408557B (zh) * | 2018-09-29 | 2021-09-28 | 东南大学 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
CN109635990A (zh) * | 2018-10-12 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 一种训练方法、预测方法、装置及电子设备 |
CN109635990B (zh) * | 2018-10-12 | 2022-09-16 | 创新先进技术有限公司 | 一种训练方法、预测方法、装置、电子设备及存储介质 |
WO2020083400A1 (zh) * | 2018-10-26 | 2020-04-30 | 江苏智通交通科技有限公司 | 交通事故数据智能分析与综合应用*** |
CN109558969A (zh) * | 2018-11-07 | 2019-04-02 | 南京邮电大学 | 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型 |
WO2020093701A1 (zh) * | 2018-11-07 | 2020-05-14 | 南京邮电大学 | 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型 |
CN109598931A (zh) * | 2018-11-30 | 2019-04-09 | 江苏智通交通科技有限公司 | 基于交通安全风险的群体划分与差异性分析方法及*** |
WO2020108219A1 (zh) * | 2018-11-30 | 2020-06-04 | 江苏智通交通科技有限公司 | 基于交通安全风险的群体划分与差异性分析方法及*** |
CN110379161B (zh) * | 2019-07-18 | 2021-02-02 | 中南大学 | 一种城市路网交通流量分配方法 |
CN110379161A (zh) * | 2019-07-18 | 2019-10-25 | 中南大学 | 一种城市路网交通流量分配方法 |
CN111080012A (zh) * | 2019-12-17 | 2020-04-28 | 北京明略软件***有限公司 | 人员危险度预测方法、装置、电子设备和可读存储介质 |
CN111081016B (zh) * | 2019-12-18 | 2021-07-06 | 北京航空航天大学 | 一种基于复杂网络理论的城市交通异常识别方法 |
CN111081016A (zh) * | 2019-12-18 | 2020-04-28 | 北京航空航天大学 | 一种基于复杂网络理论的城市交通异常识别方法 |
CN112016735A (zh) * | 2020-07-17 | 2020-12-01 | 厦门大学 | 一种基于交通违法热点预测的巡逻路线规划方法、***和可读存储介质 |
CN112016735B (zh) * | 2020-07-17 | 2023-03-28 | 厦门大学 | 一种基于交通违法热点预测的巡逻路线规划方法、***和可读存储介质 |
CN111881988B (zh) * | 2020-07-31 | 2022-06-14 | 北京航空航天大学 | 基于少数类过采样方法的异质不平衡数据故障检测方法 |
CN111881988A (zh) * | 2020-07-31 | 2020-11-03 | 北京航空航天大学 | 基于少数类过采样方法的异质不平衡数据故障检测方法 |
CN112667919A (zh) * | 2020-12-28 | 2021-04-16 | 山东大学 | 一种基于文本数据的个性化社区矫正方案推荐***及其工作方法 |
CN113076974A (zh) * | 2021-03-09 | 2021-07-06 | 麦哲伦科技有限公司 | 多层感知机构建缺失值填补与分类并行的多任务学习方法 |
CN113793502A (zh) * | 2021-09-15 | 2021-12-14 | 国网电动汽车服务(天津)有限公司 | 无信号灯控制下的行人过街预测方法 |
CN115035722A (zh) * | 2022-06-20 | 2022-09-09 | 浙江嘉兴数字城市实验室有限公司 | 基于时空特征和社交媒体相结合的道路安全风险预测方法 |
CN115035722B (zh) * | 2022-06-20 | 2024-04-05 | 浙江嘉兴数字城市实验室有限公司 | 基于时空特征和社交媒体相结合的道路安全风险预测方法 |
CN117009767A (zh) * | 2023-08-10 | 2023-11-07 | 中国环境科学研究院 | 一种基于生物有效性的土壤基准制定及风险评估的方法 |
CN117009767B (zh) * | 2023-08-10 | 2024-04-26 | 中国环境科学研究院 | 一种基于生物有效性的土壤基准制定及风险评估的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108596409B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596409A (zh) | 提升交通危险人员事故风险预测精度的方法 | |
Tang et al. | Crash injury severity analysis using a two-layer Stacking framework | |
CN104268599B (zh) | 一种基于车辆轨迹时空特征分析的黑车智能发现方法 | |
CN105303197B (zh) | 一种基于机器学习的车辆跟车安全自动评估方法 | |
CN109410577B (zh) | 基于空间数据挖掘的自适应交通控制子区划分方法 | |
CN106778583A (zh) | 基于卷积神经网络的车辆属性识别方法与装置 | |
CN106372571A (zh) | 路面交通标志检测与识别方法 | |
CN109671274B (zh) | 一种基于特征构造和融合的公路风险自动评估方法 | |
CN106056162A (zh) | 一种基于gps轨迹和交通违法记录的交通安全信用评分方法 | |
CN109191828A (zh) | 基于集成学习的交通参与者事故风险预测方法 | |
CN109522876B (zh) | 基于bp神经网络的地铁站楼扶梯选择预测方法及*** | |
Mihaita et al. | Arterial incident duration prediction using a bi-level framework of extreme gradient-tree boosting | |
CN112232389A (zh) | 一种大型活动突发事件交通应急预案动态调整方法及*** | |
CN105809193A (zh) | 一种基于kmeans算法的非法运营车辆的识别方法 | |
CN114924556A (zh) | 一种自动驾驶车辆的方法和*** | |
Mafi et al. | Analysis of gap acceptance behavior for unprotected right and left turning maneuvers at signalized intersections using data mining methods: A driving simulation approach | |
CN111563555A (zh) | 一种司机驾驶行为分析方法及*** | |
WO2023143000A1 (zh) | 一种基于多源大数据的老龄友好街道建成环境审计*** | |
Akomolafe et al. | Using data mining technique to predict cause of accident and accident prone locations on highways | |
Shamsashtiany et al. | Road accidents prediction with multilayer perceptron MLP modelling case study: roads of Qazvin, Zanjan and Hamadan | |
CN109101568A (zh) | 基于XgBoost算法的交通高危人员识别方法 | |
CN109063751A (zh) | 基于梯度提升决策树算法的交通高危人员识别方法 | |
Mohamad et al. | Using a decision tree to compare rural versus highway motorcycle fatalities in Thailand | |
Murat et al. | An integration of different computing approaches in traffic safety analysis | |
CN112308136A (zh) | 一种基于SVM-Adaboost的驾驶分心检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 211100 No. 19 Suyuan Avenue, Jiangning Economic and Technological Development Zone, Nanjing City, Jiangsu Province Applicant after: JIANGSU ZHITONG TRAFFIC TECHNOLOGY Co.,Ltd. Address before: 210006, Qinhuai District, Jiangsu, Nanjing should be 388 days street, Chenguang 1865 Technology Creative Industry Park E10 building on the third floor Applicant before: JIANGSU ZHITONG TRAFFIC TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |