CN114970943A

CN114970943A - 一种高速公路事故类型与严重程度预测方法

Info

Publication number: CN114970943A
Application number: CN202210318270.1A
Authority: CN
Inventors: 汤厚骏; 徐铖铖; 金忠富; 李炎; 罗曦; 高雪林; 彭畅; 焦利娟
Original assignee: Intelligent Transportation Research Branch Of Zhejiang Transportation Investment Group Co ltd; Southeast University
Current assignee: Intelligent Transportation Research Branch Of Zhejiang Transportation Investment Group Co ltd; Southeast University
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-08-30
Anticipated expiration: 2042-03-29
Also published as: CN114970943B

Abstract

本发明涉及道路交通安全设计领域，具体是一种高速公路事故发生‑事故类型‑事故严重程度的联合预测方法。本发明具有预测准确、效率高的特点，可以有利于降低事故发生概率、提升高速公路路段安全水平。本发明的技术方案包括以下步骤：1)提取初始交通信息；2)采集事故前兆交通流数据；3)采集正常交通流数据；4)建立交通流数据总样本；5)交通流参数梳理；6)建立并标定的事故类型和事故严重程度预测模型；7)实时预测。

Description

一种高速公路事故类型与严重程度预测方法

技术领域

本发明属于高速公路交通安全技术领域，具体是涉及一种高速公路事故发生-事故类型-事故严重程度的联合预测方法。

背景技术

近年来，随着我国经济的迅猛增长，高速公路从无到有发展迅速，极大便利了人们的出行。但同时，由于机动车保有量的迅速增长以及交通管理的不当，高速公路交通安全形势愈发严峻，高速公路行车安全成为了人们极为关注的问题之一，高速公路事故类型与严重性预测也是交通安全领域的研究重点。

随着智能交通的发展，对于事故类型和严重性预测方面，呈现出了许多新方法。交通安全领域开始利用交通流检测设备获取的实时交通流数据建立事故预测模型。相比于传统的基于历史事故数据黑点预测，其优点在于可以反应交通流动态特征对事故风险的影响，实时监测高事故风险的交通流特征，非常适用于高速公路交通***。

传统的基于历史事故数据进行事故黑点预测的方法忽略了交通流的动态特征，预测结果不具备实时性；现有方法大多利用交通检测设备获取实时交通流信息，基于梯度提升树、深度学习、判别分析、支持向量机等方法对事故风险、事故碰撞类型、事故严重程度进行预测。目前研究中，有分别对事故风险、事故碰撞类型、事故严重程度进行预测，但缺乏对事故发生-事故类型-事故严重程度进行联合预测的方法。

发明内容

本发明的目的是克服上述背景技术中的不足，提供一种高速公路事故类型与严重程度预测方法，该方法应具有预测准确、效率高的特点，可以有利于降低事故发生概率、提升高速公路路段安全水平。

本发明的技术方案是：

一种高速公路事故类型与严重程度预测方法，包括以下步骤：

1)提取初始交通信息

采集电子收费门架历史数据，将每个电子收费门架的同一分钟数据合并为一条历史交通流数据；

采集事故数据，每条事故数据包括上游电子收费门架编号、下游电子收费门架编号、事故时间、事故类型、事故严重程度；

历史交通流数据包括以下交通流参数：样本发生时间x₁、同时通过该断面与下游断面的交通量x₂、只通过该断面而未通过下游断面的交通量x₃、未通过该断面而通过下游断面的交通量x₄、日断面交通量x₅、日累计交通量x₆、分钟断面流率比x₇、对应分钟结束时刻的路段车辆数x₇、该分钟内通过该门架的车辆到达下一门架的平均速度x₉、自由流行程时间x₁₀、该分钟内通过该门架的车辆到达下一门架的平均延误x₁₁；

2)采集事故前兆交通流数据

根据每条事故数据定位到一组由相同上游电子收费门架在事故发生前T₁时间段内所有历史交通流数据，将同一组历史交通流数据的相同参数取均值后合并为一条事故前兆交通流数据，并且将事故数据与事故前兆交通流数据进行关联；

3)采集正常交通流数据

在产生事故前兆交通流数据的电子收费门架中随机选取若干个T₂时间段，将同一T₂时间段内所有历史交通流数据的相同参数取均值后合并为一条正常交通流数据；正常交通流数据的数量大于事故前兆交通流数据；

4)建立交通流数据总样本

将事故前兆交通流数据和正常交通流数据作为子样本，组合为交通流数据总样本；

5)交通流参数梳理

5.1)数据处理：当样本发生时间为白天时x₁＝0，当样本发生时间为晚上时x₁＝1；使用标准化公式处理交通流数据总样本的其余参数；

5.2)变量的筛选：从子样本的参数中筛选出分别对事故发生、事故类型、事故严重程度有显著影响的参数作为三个阶段模型的自变量；

6)建立事故类型和事故严重程度预测模型

6.1)第一阶段：建立事故概率预测模型

将交通流数据总样本分为第一训练集与第一测试集，以事故是否发生为因变量，筛选出的变量为自变量，基于第一训练集建立Logistic模型，对事故发生概率P_Crash进行预测；

6.1.1)Logistic模型的事故发生概率预测函数为：

g_1(x)＝β_{1_0}+∑β_{1_m}x_{1_mi}

其中：P⁽¹⁾(y_1i＝1|x_i)表示第一阶段第i个子样本发生交通事故的概率；自变量x_{1_mi}表示第一阶段第i个子样本的第m个交通流参数；β_{1_0}表示常数项，β_{1_m}表示自变量x_{1_mi}的系数；

6.1.2)求解第一阶段模型的自变量系数以及常数项的值，通过第一测试集验证模型的精度和有效性；

6.2)第二阶段：建立不同事故类型概率预测模型

将交通流数据总样本中的事故前兆交通流数据分为第二训练集与第二测试集，以事故类型为因变量，筛选出的变量为自变量，基于第二训练集建立Logistic模型，预测不同事故类型发生的概率：

P_RE表示事故发生时事故类型为追尾事故的概率，1-P_RE表示事故发生时事故类型为其他事故的概率；

6.2.1)Logistic模型的事故类型概率预测函数为：

g_2(x)＝β_{2_0}+∑β_{2_m}x_{2_mi}

其中：P⁽²⁾(y_2i＝1|x_i)表示第二阶段第i个子样本事故类型为追尾事故的概率；自变量x_{2_mi}表示第二阶段第i个子样本的第m个交通流参数；β_{2_0}表示常数项，β_{2_m}表示自变量x_{2_mi}的系数；

6.2.2)求解第二阶段模型的自变量系数以及常数项的值，通过第二测试集验证模型的精度和有效性；

6.3)第三阶段：建立事故严重程度概率预测模型

将交通流数据总样本中事故类型为追尾事故的事故前兆交通流数据分为第三训练集与第三测试集，以事故严重程度为因变量，筛选出的变量为自变量，基于第三训练集建立Logistic模型，预测事故的严重程度：

P_RE-I表示发生追尾事故时事故严重程度为有人员伤亡的概率，1-P_RE-I表示发生追尾事故时事故严重程度为仅财产损失的概率；

6.3.1)Logistic模型的事故严重程度概率预测函数为：

g_3(x)＝β_{3_0}+∑β_{3_m}x_{3_mi}

其中：P⁽³⁾(y_3i＝1|x_i)表示第i个子样本发生追尾事故的概率；自变量x_{3_mi}表示第三阶段第i个子样本的第m个交通流参数；β_{3_0}表示常数项，β_{3_m}表示自变量x_{3_mi}的系数；

6.3.2)求解第三阶段模型的自变量系数以及常数项的值，通过第三测试集验证模型的精度和有效性；

6.4)建立事故类型和事故严重程度预测模型

P_{(发生追尾事故)}＝P_RE×P_Crash

P_{(发生其他事故)}＝(1-P_RE)×P_Crash

P_{(发生有人员伤亡的追尾事故)}＝P_RE-I×P_RE×P_Crash

P_{(发生仅财产损失的追尾事故)}＝(1-P_RE-I)×P_RE×P_Crash

6.5)根据事故类型和事故严重程度预测模型设定风险阈值

7)实时预测

采集电子收费门架实时数据，将每个电子收费门架的同一分钟数据合并为一条实时交通流数据，实时交通流数据的参数与历史交通流数据的参数相同，将实时交通流数据输入事故类型和事故严重程度预测模型得到概率值，若概率值大于风险阈值时发出预警。

所述步骤1)中，电子收费门架数据包括门架编号、车牌号、时间戳；每个电子收费门架每分钟生成一条历史交通流数据。

所述步骤1)中，事故类型为追尾事故或其他事故，事故严重程度为有人员伤亡或仅财产损失。

所述步骤2)中，T₁时间段为5-10分钟。

所述步骤3)中，正常状态为正常交通流数据所在时间没有发生事故，并且正常交通流数据的前一小时和后一小时均没有发生事故；所述T₂时间段为5分钟。

所述步骤3)中，事故前兆交通流数据与正常交通流数据的数量比例为1:10。

所述步骤6)中，第一训练集与第一测试集的数量比例为8:2，第二训练集与第二测试集的数量比例为8:2，第三训练集与第三测试集的数量比例为8:2。

所述步骤5.2)的变量的筛选包括：

5.2.1)利用单元Logistic模型筛选从子样本的参数中显著的参数；

5.2.2)利用逐步回归分析法从显著的参数中选择变量，并通过计算所选变量之间的皮尔逊相关系数来检查变量间的相关性；

5.2.3)在某两个或多个变量高度相关的情况下，利用对数似然值选出其中一个，保留下来的变量作为模型的自变量。

所述步骤6.5)的风险阈值包括：第一阶段风险阈值为第一训练集中事故前兆交通流数据的样本和正常交通流数据的样本的预测精度相等时的概率切割值；第二阶段风险阈值为第二训练集中追尾事故的样本和其他事故的样本的预测精度相等时的概率切割值；第三阶段风险阈值为第三训练集中有人员伤亡的样本和仅财产损失的样本的预测精度相等时的概率切割值。

本发明的有益效果是：

本发明通过高速公路交通检测设备(电子收费门架)获取的事故发生前的事故前兆信息以及正常状态下的交通流数据，基于序列Logistic回归模型对事故发生-事故类型-事故严重程度进行实时预测，只需输入采集到的交通流数据，即可得到事故发生概率、发生事故条件下的事故类型概率(追尾或其他)、追尾事故下的不同事故严重程度概率(有人员伤亡或仅财产损失)，若输出概率大于事先设定的阈值，则发起事故预警，提醒工作人员采取限速措施降低事故风险；与现有的方法相比，本发明简单有效，对事故风险的预测更加细致(包括事故类型与事故严重程度的预测)，进而可以针对不同事故类型采取不同的控制策略、针对不同严重程度的事故前兆进行不同等级的控制，有效降低事故的发生、提升高速公路路段的安全水平，在实际工程中具有一定的应用价值。

附图说明

图1是本发明的流程图。

图2是本发明的ROC曲线图之一。

图3是本发明的ROC曲线图之二。

图4是本发明的ROC曲线图之三。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。

如图1所示，一种高速公路事故类型与严重程度预测方法，包括以下步骤：

1)提取初始交通信息

采集电子收费门架历史数据，将每个电子收费门架的同一分钟历史数据合并为一条历史交通流数据；电子收费门架数据包括门架编号、车牌号、时间戳；每个电子收费门架每分钟生成一条历史交通流数据；

采集事故数据，每条事故数据包括上游电子收费门架编号、上游电子收费门架编号、事故时间、事故类型、事故严重程度；事故类型为追尾事故或其他事故，事故严重程度为有人员伤亡或仅财产损失；

历史交通流数据包括以下交通流参数：

①样本对应的时间x₁，表示交通流数据的统计时间；

②同时通过该断面与下游断面的交通量x₂，表示在统计时间内通过当前电子收费门架与下游电子收费门架的车辆数之和；

③只通过该断面而未通过下游断面的交通量x₃，可视为分流交通量，表示在统计时间内只通过当前电子收费门架的车辆数；

④未通过该断面而通过下游断面的交通量x₄，可视为合流交通量，单位为veh，表示在统计时间内只通过下游电子收费门架的车辆数；

⑤日断面交通量x₅，单位为veh，是一天内通过某断面(当前电子收费门架)的交通量，表示该断面的流量特征；

⑥日累计交通量x₆，单位为veh，从零点开始至统计时间为止，将每分钟通过该断面(当前电子收费门架)的交通量进行累加，表示该断面的流量特征；

⑦分钟断面流率比x₇，一分钟通过该断面的交通量乘以60再乘以24的值与日断面交通量的比值，是某分钟流量与全天流量的比值，表示统计时间内的路段交通量状况；

⑧对应分钟结束时刻的路段车辆数x₈，单位为veh，该路段在统计时间内的现存车辆数，反映了路段的密度状况，表示统计时间内路段的密度状况；

⑨该分钟内通过该门架的车辆到达下一门架的平均速度x₉，单位为km/h，在统计时间内通过当前电子收费门架的车辆，在通过当前电子收费门架与下游电子收费门架之间平均速度；

⑩自由流行程时间x₁₀，单位为s，为路段长度与自由流速度的比值，自由流速度是指密度为零时交通流的理论速度,或者说是不受其他车辆干扰、根据驾驶员主观意愿自由选择的行驶速度，表示统计时间内车辆通过路段的速度情况；

该分钟内通过该门架的车辆到达下一门架的平均延误x₁₁，单位为s，为实际行程时间与自由流行程时间之差，表示在统计时间内该路段的拥挤状况；

2)采集事故前兆交通流数据

根据每条事故数据定位到一组由相同上游电子收费门架在事故发生前5-10内所有历史交通流数据(5条时间连续的历史交通流数据)，将同一组历史交通流数据的仙童参数取均值后合并为一条事故前兆交通流数据，并且将事故数据与事故前兆交通流数据进行关联；

同时，修改事故前兆交通流数据中的第一个参数(样本对应的时间x₁)，删除分钟位置的数值，保留小时位置的数值(24小时制)；

3)采集正常交通流数据

在产生事故前兆交通流数据的电子收费门架中随机选取若干个5分钟，将同一5分钟内所有历史交通流数据(5条时间连续的历史交通流数据)的相同参数取均值后合并为一条正常交通流数据；正常交通流数据的数量大于事故前兆交通流数据；

正常状态为正常交通流数据所在时间没有发生事故，并且正常交通流数据的前一小时和后一小时均没有发生事故；事故前兆交通流数据与正常交通流数据的数量比例为1:10；

4)建立交通流数据总样本

将事故前兆交通流数据和正常交通流数据作为子样本，组合为交通流数据总样本；子样本的数量为事故前兆交通流数据的数量与正常交通流数据的数量之和；

5)交通流参数梳理

处理交通流数据总样本中各子样本的参数并筛选变量

5.1)数据处理：

为了分析样本发生时间对事故类型及严重程度的影响，将样本发生时间x₁这个参数做虚拟变量处理，样本发生时间为白天时x₁＝0，当样本发生时间为晚上时x₁＝1，引入虚拟变量后可以将不能够定量处理的变量量化；

子样本的其他参数为连续变量，因为每个变量有不同的单位，很难看出不同变量哪个对事故类型和严重程度的影响更大，为了消除量纲、变量自身变异和数值大小的影响，比较不同变量之间的相对作用，对这些变量进行标准化处理，经过Z-score标准化后，数据将符合标准正态分布，即将有约一半观察值的数值小于0，另一半观察值的数值大于0，变量的均值为0，标准差为1，变化范围为-1到1，标准化公式如下所示：

其中，μ为样本总体的均值，σ为样本总体的标准差，N为样本总数，x为样本本身的取值，z为样本标准化后的取值；

5.2)变量的筛选

为了解决变量之间可能存在的相关性，并且选择拟合精度最好的Logistic回归模型，对每个阶段的Logistic回归模型自变量的选择都采用了如下流程：

5.2.1)利用单元Logistic回归模型(即每次回归中只包含一个参数)检验每一个参数是否与事故风险相关，不显著相关的参数直接剔除，不参与后续建模分析；

5.2.2)利用Logistic模型中的逐步回归分析法从显著的参数中继续选择变量，并计算所选变量之间的皮尔逊相关系数(皮尔逊相关系数r变化范围从-1到1，r的绝对值越大，则两变量相关性越强,一般当|r|≥0.8时，可认为两变量间高度相关,后续三个阶段建模过程中要求自变量之间皮尔逊相关系数的绝对值不大于0.5)，某些变量间可能存在高度相关性；

5.2.3)在某两个或多个变量高度相关的情况下，针对每个相关变量分别建立Logistic回归模型，比较每个模型在收敛时的对数似然函数值，如果某个模型的对数似然函数值最小，则保留该模型中含有的变量，去掉与其高度相关的其他变量，用最终选择的变量作为自变量建立Logistic回归模型；

6)建立并标定事故类型和事故严重程度预测模型

基于序列Logistic模型建立模型对事故发生-事故类型-事故严重程度进行联合预测，使用统计学软件Stata进行建模，建模过程主要包括三个阶段：

第一阶段、使用步骤5)获得的交通流数据总样本，建立Logistic模型，预测事故发生以及不发生的概率；

第二阶段、剔除第一阶段所用样本中的正常交通流数据，追尾事故为主要的高速公路事故类型，将事故类型划分为追尾事故和其他事故，建立Logistic模型，预测不同事故类型发生的概率；

第三阶段、剔除第二阶段所用样本中的其他事故的事故数据，追尾事故的严重程度分为有人员伤亡和仅财产损失，建立Logistic模型，预测事故的严重程度；

6.1)第一阶段：建立事故概率预测模型

将交通流数据总样本分为第一训练集与第一测试集(比例为8:2)，以步骤5.2)中筛选出来的变量为自变量，以事故是否发生为因变量，基于第一训练集建立Logistic模型，对事故发生概率P_Crash进行预测；

6.1.1)事故发生概率预测函数为：

g_1(x)＝β_{1_0}+∑β_{1_m}x_{1_mi}

其中：i为第一阶段子样本的序号，m为第一阶段每个子样本的参数序号；

P⁽¹⁾(y_1i＝1|x_i)表示第一阶段第i个子样本发生交通事故的概率；

y_1i＝1表示第i个子样本发生交通事故，y_1i＝0则表示第i个子样本没有发生交通事故；

自变量x_{1_mi}为第一阶段第i个子样本的第m个交通流参数；

β_{1_0}表示常数项，β_{1_m}表示自变量x_{1_mi}的系数；；

6.2)第二阶段：建立不同事故类型概率预测模型

剔除第一阶段样本(交通流数据总样本)中的正常交通流数据，仅保留事故前兆交通流数据，将其分为第二训练集与第二测试集(比例为8:2)，由于追尾事故为主要的高速公路事故类型，将事故类型划分为追尾事故和其他事故，以步骤5.2)中筛选出来的变量为自变量，以事故类型为因变量，基于第二训练集建立Logistic模型，预测不同事故类型发生的概率：P_RE表示事故发生时事故类型为追尾事故的概率，1-P_RE表示事故发生时事故类型为其他事故的概率；

6.2.1)事故类型概率预测函数为：

g_2(x)＝β_{2_0}+∑β_{2_m}x_{2_mi}

其中：ii为第二阶段子样本的序号，m为第二阶段每个子样本的参数序号；

P⁽²⁾(y_2i＝1|x_i)表示第二阶段第i个子样本事故类型为追尾事故的概率；

y_2i＝1表示第i个子样本事故类型为追尾事故，y_2i＝0表示第i个子样本事故类型为其他事故；

自变量x_{2_mi}表示第二阶段第i个子样本的第m个交通流参数；

β_{2_0}表示常数项，β_{2_m}表示自变量x_{2_mi}的系数；

6.3)第三阶段：建立事故严重程度概率预测模型

剔除第二阶段样本中事故类型为其他事故的事故前兆交通流数据，仅保留事故类型为追尾事故的事故前兆交通流数据，将其分为第三训练集与第三测试集，由于追尾事故的严重程度分为有人员伤亡和仅财产损失，以步骤5.2)中筛选出来的变量为自变量，以事故严重程度为因变量，基于第三训练集建立Logistic模型，预测事故的严重程度：P_RE-I表示发生追尾事故时有人员伤亡的概率，1-P_RE-I表示发生追尾事故时仅财产损失的概率；

6.3.1)事故严重程度概率预测函数为：

g_3(x)＝β_{3_0}+∑β_{3_m}x_{3_mi}

其中：i为第三阶段子样本的序号，m为第三阶段每个子样本的参数序号；

P⁽³⁾(y_3i＝1|x_i)表示第三阶段第i个追尾事故子样本发生追尾事故的概率；

y_3i＝1表示第i个子样本的事故严重程度为有人员伤亡，y_3i＝0表示第i个子样本的事故严重程度为仅财产损失；

自变量x_{3_mi}表示第三阶段第i个子样本的第m个交通流参数；

β_{3_0}表示常数项，β_{3_m}表示自变量x_{3_mi}的系数；

6.4)建立事故类型和事故严重程度预测模型

P_{(发生追尾事故)}＝P_RE×P_Crash

P_{(发生其他事故)}＝(1-P_RE)×P_Crash

P_{(发生有人员伤亡的追尾事故)}＝P_RE-I×P_RE×P_Crash

P_{(发生仅财产损失的追尾事故)}＝(1-P_RE-I)×P_RE×P_Crash

6.5)设定风险阈值

第一阶段风险阈值设定为第一阶段的第一训练集中，事故前兆交通流数据的样本和正常交通流数据的样本的预测精度相等(也可以是接近相等)时的概率切割值；

第二阶段风险阈值设定为第二阶段的第二训练集的事故前兆交通流数据中，追尾事故的样本和其他事故的样本的预测精度相等(也可以是接近相等)时的概率切割值；

第三阶段风险阈值设定为第三阶段的第三训练集的追尾事故的事故前兆交通流数据中，有人员伤亡的样本和仅财产损失的样本的预测精度相等(也可以是接近相等)时的概率切割值；

7)实时预测

采集电子收费门架实时数据，将每个电子收费门架的同一分钟实时数据合并为一条实时交通流数据，实时交通流数据的参数与历史交通流数据的参数相同，将实时交通流数据输入事故类型和事故严重程度预测模型得到概率值，若概率值大于风险阈值时发出预警；

具体的预警步骤如下：

第一步，计算P_Crash，当其概率值超过风险阈值时，进入下一步；

第二步，计算P_{(发生追尾事故)}，当其概率值超过风险阈值时，进入下一步，否则发出事故预警；

第三步，计算P_{(发生有人员伤亡的追尾事故)}，当其概率值超过风险阈值时，发出有人伤亡事故预警，否则发出追尾事故预警。

实施例

根据国内某高速公路双向的交通流和交通事故数据来测试本发明对不同事故类型及严重程度的检测精度。样本采集时间为2020年8月到2021年9月，路段的电子收费门架数量为44台，高速公路里程248公里。

按照本发明的步骤1)到步骤3)，收集该高速公路路段的事故前兆交通流数据和正常交通流数据，建立9878条交通流数据样本，其中包含520个追尾事故的事故前兆交通流数据、378个其他事故的事故前兆交通流数据、8980个正常交通流数据。

利用上述交通流数据样本，根据本发明的步骤4)到步骤6)，分别得到标定后的第一阶段的事故发生概率预测函数中的自变量系数以及常数项(表1所示)、标定后的第二阶段的事故类型预测函数中的自变量系数以及常数项(表2所示)、标定后的第三阶段的事故严重程度概率预测函数中的自变量系数以及常数项(表3所示)。这三个表中，第一列为模型的自变量，第二列为自变量的系数，第三列为相应系数的标准差，第四列为判定假设检验结果的一个参数，是结果可信程度的一个递减指标，只有p值小于等于0.05，结果才是可信的，第五、六列为参数预测的95％的置信区间。

第一阶段模型自变量的筛选：基于第一训练集，首先分别对每个变量进行单元Logistic回归，此时x₁₀对应系数的p值大于0.05，则剔除x₁₀；然后对其他十个变量进行逐步回归，得到了包含x₄、x₅、x₆、x₇、x₈、x₉、x₁₁七个变量的模型，计算这七个变量之间的皮尔逊相关系数，结果发现七个变量之间相关系数的绝对值均不大于0.5，所以最终模型中选用了x₄、x₅、x₆、x₇、x₈、x₉、x₁₁作为模型的自变量，事故是否发生作为因变量，模型结果如下：

表1事故概率预测模型结果

即事故概率预测模型的计算公式为：

第二阶段模型自变量的筛选：基于第二训练集，首先分别对每个变量进行单元Logistic回归，此时所有变量的p值均小于0.05，这一步不剔除变量；然后对这十一个变量进行逐步回归，得到了包含x₁、x₂、x₃、x₉、x₁₀五个变量的模型，计算这五个变量之间的皮尔逊相关系数，结果发现这五个变量之间相关系数的绝对值均不大于0.5，所以最终模型中选用了x₁、x₂、x₃、x₉、x₁₀作为模型的自变量，事故类型作为因变量，模型结果如下：

表2事故类型概率预测模型结果

即不同事故类型概率预测模型的计算公式为：

第三阶段模型自变量的筛选：基于第三训练集，首先分别对每个变量进行单元Logistic回归，此时变量x₅、x₉、x₁₀、x₁₁的p值均大于0.05，将这四个变量剔除；然后对其他七个变量进行逐步回归，得到了包含x₁、x₃、x₆三个变量的模型，计算这三个变量之间的皮尔逊相关系数，结果发现这三个变量之间相关系数的绝对值均不大于0.5，所以最终模型中选用了x₁、x₃、x₆、作为模型的自变量，事故严重程度作为因变量，模型结果如下：

表3事故严重程度概率预测模型结果

即事故严重程度概率预测模型的计算公式为：

分别使用第一测试集、第二测试集、第三测试集对上述过程建立的三个模型的精度通过ROC曲线进行检验。ROC曲线图是反映了敏感性与特异性之间的关系，是以真阳性率(敏感度)为纵坐标，假阳性率(特异度)为横坐标绘制的曲线。根据曲线位置，把整个图划分成了两部分，曲线下方的面积被称为AUC(Area Under Curve)，用来表示预测准确性，AUC值越大(曲线下方面积越大)，说明预测的准确率越高。

本实施例的三个阶段建立的Logistic回归模型中(如图2、图3、图4所示)，图2中ROC曲线下的AUC值为0.7203，图3中ROC曲线下的AUC值为0.7118，图4中ROC曲线下的AUC值为0.7439，三个图的AUC值均大于0.7，说明模型拟合度较好。在Stata中，建立模型后输出模型的分类预测结果表，得到：对事故发生概率预测的准确率为91.90％，对事故类型预测准确率为64.81％，对事故严重程度预测准确率为93.85％。

当概率切割值从0到1变化时，每一个概率切割值都会对应一组敏感度和特异度数据，当特异度与敏感度相等(或接近相等)时，对应的概率切割值为阈值。测算得到发生事故的风险阈值为0.0803，追尾事故的风险阈值为0.5395，有人员伤亡的风险阈值为0.0625。

最后，根据本发明的步骤7)，采集电子收费门架实时数据进行预测，当概率值大于风险阈值时发出事故预警，提醒工作人员采取限速措施降低事故风险。

本发明在联合预测方面有一定的优势，可以预测事故风险、事故类型及严重程度并发出预警，以实现达到降低事故风险、提高安全性的目的。本发明基于序列Logistic回归模型，对不同事故类型及事故严重性均具有较高的检测精度，预测步骤简便，可大大降低风险预警的成本及工作量，具有较高的实际工程运用价值。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种高速公路事故类型与严重程度预测方法，包括以下步骤：

1)提取初始交通信息

2)采集事故前兆交通流数据

3)采集正常交通流数据

4)建立交通流数据总样本

5)交通流参数梳理

6)建立事故类型和事故严重程度预测模型

6.1)第一阶段：建立事故概率预测模型

6.1.1)Logistic模型的事故发生概率预测函数为：

g_1(x)＝β_{1_0}+∑β_{1_m}x_{1_mi}

6.2)第二阶段：建立不同事故类型概率预测模型

6.2.1)Logistic模型的事故类型概率预测函数为：

g_2(x)＝β_{2_0}+∑β_{2_m}x_{2_mi}

6.3)第三阶段：建立事故严重程度概率预测模型

6.3.1)Logistic模型的事故严重程度概率预测函数为：

g_3(x)＝β_{3_0}+∑β_{3_m}x_{3_mi}

6.4)建立事故类型和事故严重程度预测模型

P_{(发生追尾事故)}＝P_RE×P_Crash

P_{(发生其他事故)}＝(1-P_RE)×P_Crash

P_{(发生有人员伤亡的追尾事故)}＝P_RE-I×P_RE×P_Crash

P_{(发生仅财产损失的追尾事故)}＝(1-P_RE-I)×P_RE×P_Crash

6.5)根据事故类型和事故严重程度预测模型设定风险阈值

7)实时预测

2.根据权利要求1所述的高速公路事故类型与严重程度预测方法，其特征在于：所述步骤1)中，电子收费门架数据包括门架编号、车牌号、时间戳；每个电子收费门架每分钟生成一条历史交通流数据。

3.根据权利要求1所述的一种高速公路事故类型与严重程度预测方法，其特征在于：所述步骤1)中，事故类型为追尾事故或其他事故，事故严重程度为有人员伤亡或仅财产损失。

4.根据权利要求1所述的一种高速公路事故类型与严重程度预测方法，其特征在于：所述步骤2)中，T₁时间段为5-10分钟。

5.根据权利要求1所述的一种高速公路事故类型与严重程度预测方法，其特征在于：所述步骤3)中，正常状态为正常交通流数据所在时间没有发生事故，并且正常交通流数据的前一小时和后一小时均没有发生事故；所述T₂时间段为5分钟。

6.根据权利要求1所述的高速公路事故类型与严重程度预测方法，其特征在于：所述步骤3)中，事故前兆交通流数据与正常交通流数据的数量比例为1∶10。

7.根据权利要求1所述的高速公路事故类型与严重程度预测方法，其特征在于：所述步骤6)中，第一训练集与第一测试集的数量比例为8∶2，第二训练集与第二测试集的数量比例为8∶2，第三训练集与第三测试集的数量比例为8∶2。

8.根据权利要求1所述的高速公路事故类型与严重程度预测方法，其特征在于：所述步骤5.2)的变量的筛选包括：

9.根据权利要求1所述的高速公路事故类型与严重程度预测方法，其特征在于：所述步骤6.5)的风险阈值包括：第一阶段风险阈值为第一训练集中事故前兆交通流数据的样本和正常交通流数据的样本的预测精度相等时的概率切割值；第二阶段风险阈值为第二训练集中追尾事故的样本和其他事故的样本的预测精度相等时的概率切割值；第三阶段风险阈值为第三训练集中有人员伤亡的样本和仅财产损失的样本的预测精度相等时的概率切割值。