CN112233418A

CN112233418A - 一种智能网联混合交通流环境下二次交通事故预防控制方法

Info

Publication number: CN112233418A
Application number: CN202011030953.4A
Authority: CN
Inventors: 徐铖铖; 彭畅; 王炜
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-15
Anticipated expiration: 2040-09-27
Also published as: CN112233418B

Abstract

本发明提出了智能网联混合交通流环境下二次交通事故预防控制方法。在事故发生后，交管中心基于摄像头获取的实时交通流数据评估事故影响与上游交通状态。一方面控制事故断面上游2000米范围内的RSU设备发布安全信息，并通过车车通信转发，向网联车提前告知下游事故状况。另一方面控制不同断面处的可变信号标识与RSU设备共同发布可变限速控制指令，引导上游来车提前于上游自由流段提前减速以降低二次事故风险，并提高城市快速路通行能力。控制指令不通过车车通信转发。本发明基于深度强化学习算法优化控制模型。设置奖励函数时兼顾安全与效率两项指标，并设置惩罚因子以引导模型学习更简洁合理的控制策略。模型采用演员‑评论家框架优化。

Description

一种智能网联混合交通流环境下二次交通事故预防控制方法

技术领域

本发明属于道路交通安全预警、道路交通安全设计、智能交通管理与控制技术领域，尤其涉及一种智能网联混合交通流环境下二次交通事故预防控制方法。

背景技术

快速道路属于少数能提供完全不间断高速交通流的公路设施类型，在区域交通运输体系中起骨架作用，而事故的发生会形成固定瓶颈，造成伤亡与财产损失，还会产生额外的排放和能源浪费。另外，事故的发生还可能引发二次事故，不仅进一步加剧已有事故的影响，还会极大危害应急人员的生命健康。因此对二次事故发生概率及严重程度的有效控制即是事故预防管理领域的重要任务。

事故发生后会在上游形成一定的空间影响范围。在该范围内交通处于低速拥挤状态，而范围之外交通则处于自由流状态。处于自由流状态的上游来车进入事故影响范围时不可避免地需要剧烈减速，这一沿纵向的强烈速度差将产生较大的二次事故风险，且该处也是最容易发生较严重二次事故的位置。

动态限速控制技术以此出发，基于探测器获取的交通信息在事故发生后于上游交通条件较好处发布合理限速建议以降低二次事故风险。上游减速车辆将在其前方形成一段空隙，有助于已有拥挤队列的消散。同时减速车辆也会在其后方形成新的减速瓶颈，减速瓶颈的出现使得上游自由流状态与下游低速拥堵状态之间产生一过渡状态，缓和了纵向速度的变化梯度。综上所述动态限速控制技术既压缩了事故的影响范围，也缓和了纵向速度差，从而改善事故影响、降低二次事故发生概率与严重程度。

车载自组网是目前交通运输领域发展的重要方向之一。路段内具有通信功能的网联车配合RSU设备通过车车、车路通信组网。控制中心可借助RSU对网联车发布安全信息或控制指令。网联车也可借车车通信获取更丰富、准确的路段交通信息，从而表现出更准确、合理的交通行为，而网联车行为的改变也会约束引导其它常规车，从而改善整体交通环境。与传统手段相比，车载自组网技术在为网联车提供超视距交通信息或控制指令时具有断面更连续、效果更稳定、驾驶员获取信息更丰富等优点，在二次事故预防领域具有广阔的应用前景。

发明内容

发明目的：本发明的目的是提出智能网联混合交通流环境下二次交通事故预防控制方法，通过可变限速控制降低快速道路事故发生后受迫减速等行为形成的追尾等二次事故风险。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种智能网联混合交通流环境下二次交通事故预防控制方法，该方法包括以下步骤：

1)构建智能网联混合交通流环境下二次交通事故预防控制***，包括信息指令发布设备、交通数据采集设备、控制模型(Actor)与评价模型(Critic)，交通指令发布设备与交通数据采集设备沿快速道路布设，控制模型与评价模型均为神经网络模型。控制模型与评价模型共同组成控制-评价模型(Actor-Critic)；

2)选择可变信号板与RSU设备作为信息指令发布设备，可变信号板布设于交通龙门架上，悬于道路横断面上方。一台龙门架挂有多片可变信号板，一片可变信号板针对一车道发布可变限速指令。可变限速指令包括“保持默认限速”、“下调限速20km/h”两种。可变限速控制指令不区分车道，同一断面的所有车道具有相同的限速。RSU同样安装于龙门架上，一台龙门架仅需一台RSU设备，通信半径200米，采用DSRC(Dedicated Short RangeCommunication)通信技术，RSU既可发布与可变信号板相同的限速指令，也可同时发布反映下游事故情况的安全信息。RSU发布控制指令和安全信息的周期为1秒。包含可变信号板与RSU的一台龙门架即为一道控制断面，断面间距设为500米。

3)选择流量监测摄像头作为交通数据采集设备，间隔地布设于交通龙门架与单悬臂杆上，悬于道路横断面上方。一台龙门架或一支悬臂杆即为一道探测断面，挂有多台摄像头，一台摄像头针对一车道，监控上游50米长区间，每隔1秒采集监控区间内的车道占用率(％)、速度(m/s)、排队长度(m)等交通信息(车道占用率反映交通密度，当一车道被机动车完全占满时对应的占用率为100％)。多道探测断面共同采集的交通信息经过预处理后共同组成交通状态。探测断面间距设为250米。当探测断面与控制断面重合时，摄像头与可变信号板共用相同的龙门架；当探测断面位于俩控制断面中间时，摄像头安装于单臂悬臂杆上。

4)构造一神经网络作为控制-评价模型，包含控制模型与评价模型两部分。控制模型与评价模型共用相同的输入层和中间层，仅输出层不同。每隔一个控制周期T，神经网络以交通状态作为输入值，同时输出控制策略与控制策略的“价值”(Value)。其中控制策略为可变限速控制，引导上游来车提前于合理断面处减速；“价值”为一个实数，是对控制策略的长短期综合效益的量化，越大表示相应控制策略在相应交通状态下具有越大的效益，也就是越合适。

进一步的，其特征在于，所述步骤2)中安全信息包括更新时间、事故位置、封闭车道情况以及排队长度四类信息。安全信息在事故上游事故断面上游2000米范围内有效，由该范围内的RSU设备发布给安装OBU设备的网联车，并通过车车通信转发给其它网联车。所有网联车仅转发一次安全信息，且不重复接收相同地安全信息。安全信息中的排队长度由沿线摄像头所采集的速度信息推算，包括以下步骤：

1)基于样条插值算法对事故断面上游2000米范围内所采集的速度信息进行补充差值，补充至40组数据，使得位置估算精度为50米。

2)在采用有序聚类技术对上述20组速度数据进行聚类，设置聚类组数为2，分别表示“排队”与“未排队”，则被归入“排队”类的路段的长度即为排队长度。

3.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤3)中，交通状态由摄像头采集。记摄像头每隔1秒采集实时交通状态为矩阵

下标t为相应的时刻，其中t＝1指代事故开始的时刻。矩阵

由各车道各摄像头采集所得占用率(％)、速度(m/s)、排队长度(m)共同组成。前两项交通变量为宏观交通流基本变量，描述宏观交通特征，最后一项变量更具体地刻画事故影响。在

基础上计算修正交通状态S_t，递推式如下

注意到修正交通状态S_t不仅包括当前的交通状态

也包括此前的所有交通状态

从而反映了t时刻之前的综合交通状态。α表示遗忘因子，以确保在决定S_t的所有交通状态

中近期的交通状态对S_t具有更大的影响。α越接近1意味着近期信息影响越大，本发明设置其为0.3。

与S_t具有相同的维度3×M×N，其中3表示采集的3类交通变量，M为路段的车道数，N为路段中探测断面的数量。

进一步的，所述步骤4)中控制-评价模型每隔一个控制周期T＝25s，基于该时刻的修正交通状态S_t,t＝kT,

输出一次控制指令A_t,t＝kT,

和对控制指令的期望“价值”V(S_t),t＝kT,

A_kT通过可变信号板和RSU共同发布，引导上游来车于适当断面减速，持续整个控制周期。因为网联车既可通过目视接收可变信号板的控制指令，又可通过无线通讯接收控制指令，为避免信息冲突，规定网联车不通过车车通信转发控制指令，从而保证网联车所接受的指令仅来源于最近断面的RSU设备，与相应断面的可变信号板指令保持一致。另外，因为无线传输远比目视稳定，规定无线传输的指令具有更高的优先级。与此同时，每隔一个控制周期更新一次安全信息。

进一步的，所述步骤4)中，为量化控制-评价模型于kT时刻输出的动作A_kT的实际效果，计算该控制周期结束后的(k+1)T时刻的奖励值R_(k+1)T：

式中，S_kT,spd即为修正交通状态S_kT中与速度有关的元素集合，路段速度均值MEAN(S_kT,spd)与标准差S.D.(S_kT,spd)共同定义实际奖励值

其中速度均值越大说明运输效率越高，而速度变异性越低则意味着相对越安全；

定义为修正奖励值，在

的基础上加入针对限速控制的修正因子

以约束限速控制策略的复杂性与不合理性，具体定义如下：

在至少一个断面的限速控制被激活时，修正因子

由两项乘积而成，第一项中V_limit(m/s)为具体的限速大小，MEAN(S_kT,spd)为路段速度均值，第二项中

为期望的限速控制断面占总断面的比例，由此避免过多的控制断面被激活，从而限制策略的复杂性，(k+1)T时刻的奖励值R_(k+1)T定义为

相对于

的增量，以引导模型尝试超越上一控制周期的效果。

进一步的，所述步骤4)中，控制-评价模型的训练算法采用深度强化学习PPO算法，并引入演员-评论家(Actor-Critic)框架加速收敛。

进一步的，所述步骤4)中，因为强化学***台上进行。在仿真平台上初始化事故仿真环境，包括路段长度、车道数、限速、流量、事故位置、事故开始时间、事故结束时间，并布设摄像头、可变信号板和RSU，形成探测断面和控制断面。开始事故仿真后基于修正交通状态S_kT，控制-评价模型输出的控制指令A_kT及“价值”V(S_kT)，并观察奖励值R_kT，计算策略梯度与估值误差并更新控制-评价模型。在交通仿真平台重复进行事故仿真，直至误差收敛得到最优控制-评价模型。

进一步的，所述步骤4)中，在得到最优控制-评价模型后，仅需其中的控制模型即可进行实际控制。即每隔一个控制周期基于修正交通状态S_kT输出可变限速控制指令A_kT。既不需要评价模型输出“价值”V(S_kT)，也不需要观测奖励值R_kT。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

1、同时考虑交通安全与运输效率两项指标。动态限速控制技术提出之初即为了解决安全问题，然而其在压缩事故影响的同时也不可避免地形成了新的瓶颈，需要在新的减速瓶颈与原有事故瓶颈之间充分权衡。本研究在动态限速控制策略训练时设置了由路段速度均值与标准差组成的奖励函数，基于深度强化学习算法进行在线优化，尽可能兼顾交通安全与运输效率两项指标。

2、在考虑控制策略效果的同时也对策略复杂度与不合理性进行限制。本研究在设置策略奖励函数时引入针对策略复杂度与不合理性的修正因子，以避免强化学习时控制模型落入某些复杂且不合理的局部最优值。

3、引入车载自组网技术，发布安全信息时断面更连续、效果更稳定、驾驶员获取信息更丰富。上游驾驶员在了解下游事故发展后可提前做出调整，如集中注意、适当减速、换入受事故影响低的车道等等，从而在一定程度上改善交通流状况并有效减小二次事故风险。然而传统上采用可变信号标识发布安全信息，其效果一方面受制于可变信号标识安装断面、也受制于目视采集信息的能力。基于车载自组网的安全信息发布通过无线通信可实现更大的覆盖范围与更丰富稳定的信号传输。

附图说明

图1是本发明的控制***组成与模型训练、决策机制示意图；

图2是本发明的快速道路设备布设与信息发布示意图；

图3是本发明中控制模型的决策与信息发布流程图；

图4是本发明中控制-评价模型的训练流程图；

图5是本发明中控制-评价模型的结构示意图。

具体实施方式

图1为本发明的控制***组成与模型训练、决策机制示意图，包括以下步骤：

步骤一，选择可变信号板与RSU设备作为信息指令发布设备，沿快速道路布设。可变信号板布设于交通龙门架上，悬于道路横断面上方。一台龙门架挂有多片可变信号板，一片可变信号板针对一车道发布可变限速指令。可变限速指令包括“保持默认限速”、“下调限速20km/h”两种。可变限速控制指令不区分车道，同一断面的所有车道具有相同的限速。RSU同样安装于龙门架上，一台龙门架仅需一台RSU设备，通信半径200米，采用DSRC(DedicatedShort Range Communication)通信技术，RSU既可发布与可变信号板相同的限速指令，也可同时发布反映下游事故情况的安全信息。RSU发布控制指令和安全信息的周期为1秒。包含可变信号板与RSU的一台龙门架即为一道控制断面，断面间距设为500米。

步骤一中，安全信息包括更新时间、事故位置、封闭车道情况以及排队长度四类信息。安全信息在事故上游事故断面上游2000米范围内有效，由该范围内的RSU设备发布给安装OBU设备的网联车，并通过车车通信转发给其它网联车。所有网联车仅转发一次安全信息，且不重复接收相同地安全信息。安全信息中的排队长度由沿线摄像头所采集的速度信息推算，包括以下步骤：

步骤二，选择流量监测摄像头作为交通数据采集设备，沿快速道路布设，间隔地布设于交通龙门架与单悬臂杆上，悬于道路横断面上方。一台龙门架或一支悬臂杆即为一道探测断面，挂有多台摄像头，一台摄像头针对一车道，监控上游50米长区间，每隔1秒采集监控区间内的车道占用率(％)、速度(m/s)、排队长度(m)等交通信息(车道占用率反映交通密度，当一车道被机动车完全占满时对应的占用率为100％)。多道探测断面共同采集的交通信息经过预处理后共同组成交通状态。探测断面间距设为250米。当探测断面与控制断面重合时，摄像头与可变信号板共用相同的龙门架；当探测断面位于俩控制断面中间时，摄像头安装于单臂悬臂杆上。

步骤二中，交通状态由摄像头采集，记摄像头每隔1秒采集实时交通状态为矩阵

下标t为相应的时刻，其中t＝1指代事故开始的时刻。矩阵

基础上计算修正交通状态S_t，递推式如下

注意到修正交通状态S_t不仅包括当前的交通状态

也包括此前的所有交通状态

与S_t具有相同的维度。考虑一段三车道宽、包含7道监控断面的单向快速道路路段，则

与S_t的维度为3×3×7，其中第一个3表示3类交通变量，后面的3×7表示分布在3车道7个断面的21台摄像头。

步骤三，构造一神经网络作为控制-评价模型，包含控制模型与评价模型两部分。控制模型与评价模型共用相同的输入层和中间层，仅输出层不同。每隔一个控制周期T，神经网络以交通状态作为输入值，同时输出控制策略与控制策略的“价值”(Value)。其中控制策略为可变限速控制，引导上游来车提前于合理断面处减速；“价值”为一个实数，是对控制策略的长短期综合效益的量化，越大表示相应控制策略在相应交通状态下具有越大的效益，也就是越合适。

步骤三中，神经网络结构见图5，为带残差结构的CNN-GRU神经网络。卷积层(CNN)与GRU层起到提取、整合交通流空间特征的效果。加入残差结构加速收敛。经过全连接层过渡后进入两个输出层，同时输出控制策略与控制策略的“价值”。考虑一段三车道宽、包含7道监控断面、3道控制断面的单向快速道路路段，则控制-评价模型一次输出的控制指令包括3个变量，分别表示于三道控制断面激活可变限速控制的概率。此时图5所示神经网络各层参数如表格1。

表格1控制-评价模型各层参数

步骤三中，控制-评价模型每隔一个控制周期T＝25s，基于该时刻的修正交通状态S_t,t＝kT,

输出一次控制指令A_t,t＝kT,

和对控制指令的期望“价值”V(S_t),t＝kT,

1、步骤三中，为量化控制-评价模型于kT时刻输出的动作A_kT的实际效果，计算该控制周期结束后的(k+1)T时刻的奖励值R_(k+1)T：

定义为修正奖励值，在

的基础上加入针对限速控制的修正因子

以约束限速控制策略的复杂性与不合理性，具体定义如下：

在至少一个断面的限速控制被激活时，修正因子

相对于

的增量，以引导模型尝试超越上一控制周期的效果。

步骤三中，控制-评价模型的训练算法采用深度强化学习PPO算法，并引入演员-评论家(Actor-Critic)框架。深度强化学习是一类基于试错的机器学习算法。模型通过不断地与环境交互，尝试做出整体效益最高的决策，并通过观测每一次交互的实际奖励进行优化改进。演员-评论家框架是深度强化学习算法中的一类，与其它类型算法相比具有更快的收敛速度与更高的学习效果。

步骤三中，因为强化学***台上进行(见图4)。在仿真平台上初始化事故仿真环境，包括路段长度、车道数、限速、流量、事故位置、事故开始时间、事故结束时间，并布设摄像头、可变信号板和RSU，形成探测断面和控制断面。开始事故仿真后基于修正交通状态S_kT，控制-评价模型输出的控制指令A_kT及“价值”V(S_kT)，并观察奖励值R_kT，计算策略梯度与估值误差并更新控制-评价模型。在交通仿真平台重复进行事故仿真，直至误差收敛得到最优控制-评价模型。

步骤三中，在得到最优控制-评价模型后，仅需其中的控制模型即可进行实际控制。如图3所示，每隔一个控制周期基于修正交通状态S_kT输出可变限速控制指令A_kT。既不需要评价模型输出“价值”V(S_kT)，也不需要观测奖励值R_kT。

本方法在快速道路事故发生后基于交通状态发布合理的动态限速控制指令，包括控制断面及限速建议两类信息，引导上游来车提前合理减速，压缩事故影响范围并减小纵向速度差形成的二次事故风险。虽然动态限速控制已得到广泛研究，但本方法所基于的动态限速控制策略不仅兼顾安全与效率两项指标，也保证了策略的简洁性与合理性。同时在事故发生后基于车载自组网技术发布安全信息提醒上游网联车，安全信息包含该信息更新时间、事故位置、封闭车道情况以及排队长度等四类信息。上游驾驶员在了解下游事故发展后可提前做出调整，如集中注意、适当减速、换入受事故影响低的车道等等，从而在一定程度上改善交通流状况并有效减小二次事故风险。综上所述本方法在快速道路事故预警、管理与二次事故预防领域具有实际工程应用价值。

Claims

1.一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，该方法包括以下步骤：

1)构建智能网联混合交通流环境下二次交通事故预防控制***，包括信息指令发布设备、交通数据采集设备、控制模型与评价模型，交通指令发布设备与交通数据采集设备沿快速道路布设，控制模型与评价模型均为神经网络模型，控制模型与评价模型共同组成控制-评价模型；

2)选择可变信号板与RSU设备作为信息指令发布设备，可变信号板布设于交通龙门架上，悬于道路横断面上方，一台龙门架挂有多片可变信号板，一片可变信号板针对一车道发布可变限速指令，可变限速指令包括“保持默认限速”、“下调限速”两种，可变限速控制指令不区分车道，同一断面的所有车道具有相同的限速，RSU设备同样安装于龙门架上，一台龙门架仅需一台RSU设备，通信半径L₁米，采用DSRC通信技术，RSU既可发布与可变信号板相同的限速指令，也可同时发布反映下游事故情况的安全信息，RSU发布控制指令和安全信息的周期为t秒，包含可变信号板与RSU的一台龙门架即为一道控制断面，断面间距设为L₂米；

3)选择流量监测摄像头作为交通数据采集设备，间隔地布设于交通龙门架与单悬臂杆上，悬于道路横断面上方，一台龙门架或一支悬臂杆即为一道探测断面，挂有多台摄像头，一台摄像头针对一车道，监控上游L₃米长区间，每隔t秒采集监控区间内的车道占用率(％)、速度(m/s)、排队长度(m)交通信息，车道占用率反映交通密度，当一车道被机动车完全占满时对应的占用率为100％，多道探测断面共同采集的交通信息经过预处理后共同组成交通状态，探测断面间距设为L₄米，当探测断面与控制断面重合时，摄像头与可变信号板共用相同的龙门架；当探测断面位于俩控制断面中间时，摄像头安装于单臂悬臂杆上；

4)构造一神经网络作为控制-评价模型，包含控制模型与评价模型两部分，控制模型与评价模型共用相同的输入层和中间层，仅输出层不同，每隔一个控制周期T，神经网络以交通状态作为输入值，同时输出控制策略与控制策略的价值，其中控制策略为可变限速控制，引导上游来车提前于合理断面处减速；价值为一个实数，是对控制策略的综合效益的量化。

2.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤2)中，安全信息包括更新时间、事故位置、封闭车道情况以及排队长度四类信息，安全信息在事故上游事故断面上游L₅米范围内有效，由该范围内的RSU设备发布给安装OBU设备的网联车，并通过车车通信转发给其它网联车，所有网联车仅转发一次安全信息，且不重复接收相同的安全信息，安全信息中的排队长度由沿线摄像头所采集的速度信息推算，包括以下步骤：

1)基于样条插值算法对事故断面上游L₅米范围内所采集的速度信息进行补充差值，补充至Num组数据，使得位置估算精度为50米；

2)在采用有序聚类方法对上述Num组速度数据进行聚类，设置聚类组数为2，分别表示排队与未排队，则被归入排队类的路段的长度即为排队长度。

3.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤3)中，交通状态由摄像头采集，记摄像头每隔t秒采集实时交通状态为矩阵

下标t为相应的时刻，其中，t＝1指代事故开始的时刻，矩阵

由各车道各摄像头采集所得占用率(％)、速度(m/s)、排队长度(m)共同组成，前两项交通变量为宏观交通流基本变量，描述宏观交通特征，最后一项变量地刻画事故影响，在

基础上计算修正交通状态S_t，递推式如下：

其中，修正交通状态S_t不仅包括当前的交通状态

也包括此前的所有交通状态

从而反映了t时刻之前的综合交通状态，α表示遗忘因子，以确保在决定S_t的所有交通状态

中近期的交通状态对S_t具有的影响，

与S_t具有相同的维度3×M×N，其中，3表示采集的3类交通变量，M为路段的车道数，N为路段中探测断面的数量。

4.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤4)中，控制-评价模型每隔一个控制周期T，基于该时刻的修正交通状态S_t，t＝kT，

输出一次控制指令A_t，t＝kT，

和对控制指令的期望价值V(S_t)，t＝kT，

A_kT通过可变信号板和RSU共同发布，引导上游来车于适当断面减速，持续整个控制周期；规定网联车不通过车车通信转发控制指令，从而保证网联车所接受的指令仅来源于最近断面的RSU设备，与相应断面的可变信号板指令保持一致，规定无线传输的指令具有更高的优先级，与此同时，每隔一个控制周期更新一次安全信息。

5.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤4)中，量化控制-评价模型于kT时刻输出的动作A_kT的实际效果，计算该控制周期结束后的(k+1)T时刻的奖励值R_(k+1)T：

定义为修正奖励值，在

的基础上加入针对限速控制的修正因子

具体定义如下：

在至少一个断面的限速控制被激活时，修正因子

为期望的限速控制断面占总断面的比例，(k+1)T时刻的奖励值R_(k+1)T定义为

相对于

的增量。

6.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤4)中，控制-评价模型的训练算法采用深度强化学习PPO算法，并引入演员-评论家框架加速收敛。

7.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤4)中，模型训练过程在交通仿真平台上进行，在仿真平台上初始化事故仿真环境，包括路段长度、车道数、限速、流量、事故位置、事故开始时间、事故结束时间，并布设摄像头、可变信号板和RSU，形成探测断面和控制断面，开始事故仿真后基于修正交通状态S_kT，控制-评价模型输出的控制指令A_kT及价值V(S_kT)，并观察奖励值R_kT，计算策略梯度与估值误差并更新控制-评价模型，在交通仿真平台重复进行事故仿真，直至误差收敛得到最优控制-评价模型。

8.根据权利要求1所述的一种智能网联混合交通流环境下二次交通事故预防控制方法，其特征在于，所述步骤4)中，在得到最优控制-评价模型后，仅需其中的控制模型即可进行实际控制，即每隔一个控制周期基于修正交通状态S_kT输出可变限速控制指令A_kT，既不需要评价模型输出价值V(S_kT)，也不需要观测奖励值R_kT。