CN111242015B

CN111242015B - 一种基于运动轮廓语义图预测行车危险场景的方法

Info

Publication number: CN111242015B
Application number: CN202010026768.1A
Authority: CN
Inventors: 高珍; 欧明锋; 余荣杰; 许靖宁; 冯巾松
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2023-05-02
Anticipated expiration: 2040-01-10
Also published as: CN111242015A

Abstract

本发明涉及一种基于运动轮廓语义图预测行车危险场景的方法，包括以下步骤：步骤S1：获取驾驶视频，分割感兴趣区域；步骤S2：将感兴趣区域使用目标检测算法来检测交通对象并生成运动轮廓语义图；步骤S3：统计运动数据，加速度阈值，将运动轮廓语义图划分为高风险事件或正常事件；步骤S4：输入到随机森林分类器，根据特征重要性进行排序获得重要运动学特征；步骤S5：构建多模态深度神经网络模型；步骤S6：获得待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。与现有技术相比，本发明具有提高行车危险场景的预测准确度、减少测量波动等优点。

Description

一种基于运动轮廓语义图预测行车危险场景的方法

技术领域

本发明涉及汽车辅助驾驶领域，尤其是涉及一种基于运动轮廓语义图预测行车危险场景的方法。

背景技术

使用深度学习的数据融合模型是交通安全性预测的新趋势，因为视频数据和运动学数据都有各自的局限性，以合理的方式融合这两类数据从而提高在场景风险预测的精度是当前研究的热点。目前已有一些关于高风险驾驶场景辨识的研究，但仍存在一定问题。有研究采用车辆速度和方向突变并结合视频的帧差异来检测危险情况，其中自动编码器比较视频的帧差异的方式较适用于拐角危险情况，在一般情况准确率仅为71％，不够理想。另外有研究基于运动学数据使用了经典机器学习分类器，包括kNN、随机森林、SVM、决策树、高斯邻域和AdaBoost，但测试结果的精度具有波动性，受预测范围的影响很大。此外，还有研究提出基于驾驶前向视频创建Motion图像，通过轨迹进行TTC计算或者其他信息的捕捉来预测风险，该方法需要采集大量的行车视频，用Motion图像将庞大的视频数据高效压缩，才能有效提取运动特征来判断风险。

发明内容

本发明的目的就是为了克服上述现有技术存在的准确率较低、测量精度波动较大的缺陷而提供一种基于运动轮廓语义图预测行车危险场景的方法。

本发明的目的可以通过以下技术方案来实现：

一种基于运动轮廓语义图预测行车危险场景的方法，包括以下步骤：

步骤S1：获取车辆的驾驶视频，分割所述驾驶视频的感兴趣(ROI)区域；

步骤S2：将所述驾驶视频的感兴趣区域使用目标检测算法来检测交通对象并生成包含语义的运动轮廓语义图；

步骤S3：统计车辆的运动数据，根据统计结果设置加速度阈值将所述运动轮廓语义图划分为高风险事件或正常事件；

步骤S4：将所述高风险事件或正常事件输入到随机森林分类器，根据特征重要性对分类结果进行排序，获得重要运动学特征；

步骤S5：根据所述运动轮廓语义图和重要运动学特征，构建多模态深度神经网络模型；

步骤S6：对待检测驾驶视频执行步骤S1-S4，获得所述待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至所述多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。

步骤S1中分割所述驾驶视频的感兴趣区域具体过程如下：

步骤S101：通过高斯滤波器滤除所述驾驶视频中不相关的图像纹理，然后通过边缘检测算法提取所述驾驶视频中道路的轮廓，具体包括：

步骤S1011：将彩色的驾驶视频的视频帧图转为灰度图，具体如下：

f＝0.299*R+0.587*G+0.114*B

其中，R、G、B分别代表RGB三通道每个通道的矩阵；

步骤S1012：通过高斯滤波器对灰度图进行过滤，具体如下：

其中，f(m，n)代表位置(m，n)处的原始图像灰度值，g(m，n)代表经过高斯滤波后的灰度值；

步骤S1013：通过Sobel算子计算经高斯滤波器过滤后的灰度图中相应像素的梯度强度和梯度方向，具体如下：

其中，G_x(m，n)为横向的梯度强度，G_y(m，n)为纵向的梯度强度，S_x为横向的Sobel算子，S_y为纵向的Sobel算子，G(m，n)为梯度强度，θ(m，n)为梯度方向；

步骤S1014：将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较，如果当前像素的梯度强度与另外两个像素相比最大，则该像素点保留为边缘点，否则该像素点将被抑制，即设置为0；

步骤S1015：设定上阈值和下阈值v_min和v_max，其中大于v_max的像素都被检测为边缘，而低于v_min的都被检测为非边缘。对于中间的像素点，如果与确定为边缘的像素点邻接，则判定为边缘；否则为非边缘，从而获得对应的二值图(边缘点灰度值为1，非边缘点灰度值为0)。

步骤S102：通过霍夫线变换来检测所述道路的轮廓中直线的变换，在霍夫空间中，执行累加器以计算映射到线的点数，如果在霍夫空间中有足够的映射点，则检测到直线；

步骤S103：在霍夫线变换之后，可以在图像中检测到两条以上的线。由于只需要两条线来计算消失点的位置，所以将这些线分为左侧和右侧两组，计算每组的平均参数，从平均参数获得两条交叉线，计算两条交叉线的交叉点坐标为x_d，y_d即消失点；

步骤S104：以消失点的纵坐标作y_d作为ROI区域的上边界y_u，以检测到的两组线的起点中最大的纵坐标作为ROI区域的下边界y_l，ROI区域的宽度即为驾驶视频的宽度。

步骤S2中生成运动轮廓语义图具体过程如下：

步骤S201：对所述驾驶视频的每一帧图像的感兴趣区域进行均值化处理，转化为一行像素，具体过程为：

步骤S2011：获取驾驶视频的每帧画面中纵向[y_l，y_u]、横向[0，w]的矩形范围内的RGB像素值，即(y_u-y_l，w，3)三维整数矩阵，w为视频宽度；

步骤S2012：对矩形范围内RGB中每个通道，取纵向像素的均值作为一个点的像素值，即取(y_u-y_l，w，3)三维整数矩阵的第一维的平均值，排列成1×w的一行像素，即(1，w，3)矩阵；

步骤S202：将每帧获得的一行像素矩阵，按时间顺序进行拼接，形成(fps×(t_b-t_a)，w，3)矩阵，fps为视频每秒帧数，根据像素矩阵生成彩色的运动轮廓图；

步骤S203：通过实时对象检测框架对所述运动轮廓图进行识别，判断识别出的交通环境中的交通对象是否位于感兴趣区域内，若是则按照所述交通对象在驾车视频对于的帧画面中的横向位置，将所述交通对象以有色像素线段的形式标在所述运动轮廓图中相应帧线的位置上，形成运动轮廓语义图，具体过程为：

步骤S2031：对t_f时刻视频帧画面，使用YOLO实时对象检测框架识别出画面中的所有交通对象，并获得其位置、大小、类型、置信度四个信息；

步骤S2032：筛选所有交通对象中置信度大于c_t，且中心坐标位于ROI区域内的交通对象，交通对象包括行人和车辆；

步骤S2033：计算出驾驶视频的视频帧中每个交通对象对应的像素线段位置，具体如下：

其中，[x₁，x₂]为交通对象对应的像素线段位置，x_c，w_o分别为YOLO检测出对象的中心坐标及宽度，w为视频画面宽度；

步骤S2034：在运动轮廓图中的t_f对应的像素行(即第t_f行)，将不同类类型对象的像素线段[x₁，x₂]设定为不同的颜色，若对象为车辆，[x₁，x₂]范围内的像素设定为红色；若该对象为行人，则设定为绿色；

最终形成包含运动对象语义特征的运动轮廓语义图，图中对象的线段随着时间排列形成连续轨迹，轨迹的宽窄程度反映了交通对象距离本车的相对纵向位置。轨迹越宽，代表交通对象越近，对应的危险系数越高。

步骤S3的具体过程如下：

步骤S301：车辆运动学特征变量多数符合正态分布，通过正态分布的3σ原则来检测和过滤车辆运动数据的异常值，即将一条行车记录的每个非空运动学特征变量中进行判断，符合条件的为异常值，具体为：

|x-μ|＞3σ

其中，x为运动学参数，μ为x的平均值，σ为x的标准差；

并通过线性插值法填补缺失值，具体为：

其中，

是缺失值，d^i-1为缺失值的上一个非空最邻近值，dⁱ⁺¹是缺失值的下一个非空最邻近值，n是记录总数，t^i-1，tⁱ，tⁱ⁺¹分别为d^i-1，

dⁱ⁺¹对应的时刻；

步骤S302：提取自然驾驶数据中的车辆加速度数据a，绘制并观察分布曲线，确定明显减速行为的加速度阈值，记为TH_d；

步骤S303：扫描行车时序数据，根据加速度条件a≤TH_d采集紧急刹车时刻t_d，对每一时刻t_d，取前d₁到d₂秒的时间片段，组成潜在高风险事件片段e_c，结合视频校核，排除因数据采集错误带来的误报，将n_{conflict_candidate}个高风险事件片段组成高风险事件预备集合

为了避免事件重叠，确保相邻的紧急刹车时刻满足t_d[i+1]-t_d[i]≥|d₁-d₂|。

步骤S304：从剩下的行车时序数据中以|d₁-d₂|为时间窗口，随机采样出n_{normal_candidate}个正常非冲突事件作为正常事件预备集

步骤S4的具体过程如下：

步骤S401：将一个包含m_l条记录，每条记录有多个运动学特征的事件，提取出n个运动学特征{m₁，…，m_n}作为该样本的重要特征，以事件分类作为该样本的分类标签值，生成样本集合；

步骤S402：通过抽样放回的方法从样本集合中选取n_s个样本作为训练集，重复q次生成q个训练集{S₁，…，S_q}；

步骤S403：以每个训练集作为一棵决策树的输入，构建包含q棵CART决策树的随机森林{T₁，…，T_q}，其中对于T_i上的每一个节点随机不重复的选择m_node个特征，利用这m_node个特征对S_i进行划分，并使用使基尼指数最小化作为标准获得最佳划分，从而训练出q棵CART决策树；

步骤S404：根据特征重要性对分类结果进行排序，获得重要运动学特征，具体为：

步骤S4041：计算出{m₁，…，m_n}中每个运动学特征m_j在所有决策树中节点***不纯度的平均改变量I_j(即重要性)，节点o的不纯度使用基尼指数来衡量，具体如下：

其中，GI_o为节点o的不纯度，k表示类别(高风险、正常)，p_ok表示节点o中类别k所占的比例，p_ok′表示非类别k所占的比例；

步骤S4042：计算m_j在第i棵树的重要性I_ji，公式如下：

其中，O为第i棵树的包含运动学特征m_j的节点集合，GI_jio为第i棵树的节点o的基尼指数，G_jiol，G_jior为节点o分支后的左右两个新节点的基尼指数；

步骤S4043：计算m_j在所有树中的重要性I_j，公式如下：

其中，q为CART决策树的数量；

步骤S4044：获得所有运动学特征的重要性集合{I₁，…，I_X}后，将重要性做归一化处理，具体如下：

将完成归一化处理的特征的重要性集合从大到小排序，获得重要性排名前n_immportant的特征

步骤S405：将正常事件预备集

和高风险事件预备集合

的每个事件使用该事件中的上述n_important个运动学特征来代表，即每个事件的为

其中id为事件编号，label为事件类型，形成正常事件集

和高风险事件集

多模态深度神经网络模型具体包括：

输入层，将运动轮廓语义图转化为矩阵m₁；

Conv1层，设定卷积层参数，包括过滤器个数、大小及步长和激活函数，输入m₁得到矩阵m₂；

Pooll层，设定池化层参数，包括过滤器大小及类型和步长等，输入m₂进行最大池化得到矩阵m₃；

Conv2层，设定卷积层参数，输入m₃经过ReLU激活函数得到矩阵m₄；

Pool2层，设定池化层参数，输入m₄进行最大池化得到矩阵m₅；

Conv3层，设定卷积层参数，输入m₅经过ReLU激活函数得到矩阵m₆；

Conv4层，设定卷积层参数，输入m₆经过ReLU激活函数得到矩阵m₇；

Conv5层，设定卷积层参数，输入m₇经过ReLU激活函数得到矩阵m₈；

Pool5层，设定池化层参数，输入m₈进行最大池化得到矩阵m₉；

FC6平滑层，将输入的矩阵m₉平滑为一维矩阵m₁₀；

Drop6层，输入矩阵m₁₀，以一定比例的Dropout概率丢弃部分神经节点，防止过拟合，并得到矩阵m₁₁；

FC7全连接层，输入矩阵m₁₁，输出r×1的一维矩阵m₁₂；

将m₁₂与f_kinematic合并，即[f_kinematic m₁₂]作为FC8全连接层的输入，输出为2×1的矩阵，该矩阵中的两个值对应着属于有风险类别和属于无风险类别的概率的预测值，接着使用Softmax处理预测值使两类的概率和为1。

步骤S5的具体过程如下：

步骤S501：将步骤S4划分出正常事件集

和高风险事件集

分别以2∶1划分为训练集Θ_train测试集Θ_test；

步骤S502：训练多模态深度神经网络模型，经过n_epoch个epoch，模型的损失值收敛到较小值，停止训练，保存最终的多模态深度神经网络模型M_DCNN；

步骤S503：对测试集合Θ_test(包含e_c个正常事件和e_n个高风险事件)中的每个事件调用训练好的M_DCNN模型，获得其预测的分类值，统计得到模型预测出的正常事件

和冲突事件

根据测试集的预测结果，生成如表1所述的混淆矩阵：

表1混淆矩阵

根据混淆矩阵计算得到模型的灵敏度I_sensitivity，特异度I_specificity，公式如下：

I_sensitivity＝TP/(TP+FN)

I_specificity＝TN/(FP+TN)

并根据I_sensitivity和I_specificity生成ROC曲线，用于评估模型预测效果。

与现有技术相比，本发明具有以下有益效果：

1.本发明融合视频数据与运动学数据进行风险预测，模型准确度达到91.6％，远优于其他单源数据模型。

2.本发明使用实时对象检测框架对驾驶视频的帧画面进行运动物体检测，在视频生成的运动轮廓图中添加交通对象轨迹的语义信息，以有色线段的形式重点突出机动车、非机动车、行人等潜在冲突对象的轨迹，大量减少交通环境中静态要素的轨迹对预测结果的干扰。

3.本发明使用了随机森林来筛选重要的运动学特征变量，提高了多模态深度神经网络模型的精准度。

附图说明

图1为本发明的流程示意图；

图2为本发明由边缘检测提取出的道路轮廓的示意图；

图3为本发明基于前向驾驶视频的感兴趣区域的示意图；

图4为本发明前向驾驶视频的感兴趣区域转换为运动轮廓图的示意图；

图5(a)为本发明基于YOLO目标识别后的正常事件的运动轮廓语义图；

图5(b)为本发明基于YOLO目标识别后且过滤噪声的运动轮廓语义图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，一种基于运动轮廓语义图预测行车危险场景的方法，包括以下步骤：

步骤S1：获取车辆的驾驶视频，分割驾驶视频的感兴趣(ROI)区域；

步骤S2：将驾驶视频的感兴趣区域使用目标检测算法来检测交通对象并生成包含语义的运动轮廓语义图；

步骤S3：统计车辆的运动数据，根据统计结果设置加速度阈值将运动轮廓语义图划分为高风险事件或正常事件；

步骤S4：将高风险事件或正常事件输入到随机森林分类器，根据特征重要性对分类结果进行排序，获得重要运动学特征；

步骤S5：根据运动轮廓语义图和重要运动学特征，构建多模态深度神经网络模型；

步骤S6：对待检测驾驶视频执行步骤S1-S4，获得待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警。

步骤S1中分割驾驶视频的感兴趣区域具体过程如下：

步骤S101：如图2所示，通过高斯滤波器滤除驾驶视频中不相关的图像纹理，然后通过边缘检测算法提取驾驶视频中道路的轮廓，具体包括：

f＝0.299*R+0.587*G+0.114*B

其中，R、G、B分别代表RGB三通道每个通道的矩阵；

步骤S1012：通过高斯滤波器对灰度图进行过滤，具体如下：

步骤S102：通过霍夫线变换来检测道路的轮廓中直线的变换，在霍夫空间中，执行累加器以计算映射到线的点数，如果在霍夫空间中有足够的映射点，则检测到直线；

步骤S2中生成运动轮廓语义图具体过程如下：

步骤S201：对驾驶视频的每一帧图像的感兴趣区域进行均值化处理，转化为一行像素，具体过程为：

步骤S203：，如图3所示，通过实时对象检测框架对运动轮廓图进行识别，判断识别出的交通环境中的交通对象是否位于感兴趣区域内，若是则按照交通对象在驾车视频对于的帧画面中的横向位置，将交通对象以有色像素线段的形式标在运动轮廓图中相应帧线的位置上，形成运动轮廓语义图，具体过程为：

步骤S2032：筛选所有交通对象中置信度大于0.5，且中心坐标位于ROI区域内的交通对象，交通对象包括行人和车辆；

步骤S2034：如图4所示，在运动轮廓图中的t_f对应的像素行(即第t_f行)，将不同类类型对象的像素线段[x₁，x₂]设定为不同的颜色，若对象为车辆，[x₁，x₂]范围内的像素设定为红色；若该对象为行人，则设定为绿色；

如图5(a)和图5(b)所示，最终形成包含运动对象语义特征的运动轮廓语义图，图中对象的线段随着时间排列形成连续轨迹，轨迹的宽窄程度反映了交通对象距离本车的相对纵向位置。轨迹越宽，代表交通对象越近，对应的危险系数越高。

步骤S3的具体过程如下：

|x-μ|＞3σ

其中，x为运动学参数，μ为x的平均值，σ为x的标准差；

并通过线性插值法填补缺失值，具体为：

其中，

dⁱ⁺¹对应的时刻；

步骤S302：提取自然驾驶数据中的车辆加速度数据a，绘制并观察分布曲线，确定明显减速行为的加速度阈值-0.3；

步骤S303：扫描行车时序数据，根据加速度条件a≤-0.3采集紧急刹车时刻t_d，对每一时刻t_d，取前8到1秒的时间片段，组成潜在高风险事件片段e_c，结合视频校核，排除因数据采集错误带来的误报，将179个事件片段组成高风险事件预备集合

为了避免事件重叠，确保相邻的紧急刹车时刻满足条件：t_d[i+1]-t_d[i]≥7。

步骤S304：从剩下的行车时序数据中以7秒为时间窗口，随机采样出1055个正常非冲突事件作为正常事件预备集

步骤S4的具体过程如下：

步骤S401：将一个包含m_l条记录，每条记录有10个运动学特征的事件，提取表2中的26个特征运动学特征作为该样本的重要特征，表2具体如下所示：

表2事件样本字段说明表

以事件分类作为该样本的分类标签值，生成样本集合；

步骤S402：通过抽样放回的方法选取616个样本作为训练集(其中高风险事件的样本89个，正常事件的样本527)，重复1000次生成1000个训练集{S₁，…，S₁₀₀₀}；

步骤S403：以每个训练集作为一棵决策树的输入，构建包含1000棵CART决策树的随机森林{T₁，…，T₁₀₀₀}，其中对于T_i上的每一个节点随机不重复的选择m_node＝2个特征，利用这2个特征对S_i进行划分，并使用使基尼指数最小化作为划分标准获得最佳的划分，从而训练出1000棵CART决策树；

步骤S4041：计算出26个运动学特征中每个运动学特征m_j在所有决策树中节点***不纯度的平均改变量I_j(即重要性)，节点o的不纯度使用基尼指数来衡量，具体如下：

步骤S4042：计算m_j在第i棵树的重要性I_ji，公式如下：

步骤S4043：计算m_j在所有树中的重要性I_j，公式如下：

其中，q为CART决策树的数量；

将完成归一化处理的特征的重要性集合从大到小排序，获得重要性排名前5的特征如表3所示：

表3特征重要性排序表

特征变量名	描述
		ACCEL_MEAN	风险时刻前8秒至前2秒内加速度平均值
ACCEL_MAX	风险时刻前8秒至前2秒内加速度最大值
		ACCEL_MIN	风险时刻前8秒至前2秒内加速度最小值
ACCEL_5S	风险时刻前5秒时刻的加速度
		ACCEL_6S	风险时刻前6秒时刻的加速度

；

步骤S405：将正常事件预备集

和高风险事件预备集合

的每个事件使用该事件中的上述5个特征来代表，即每个事件的为{id，Accel_mean，Accel_max，Accel_min，Accel_5s，Accel_6s，label}其中id为事件的编号，label为事件的类型，形成正常事件集

和高风险事件集

多模态深度神经网络模型具体包括：

输入层，将运动轮廓语义图转化为矩阵m₁；

Pool1层，设定池化层参数，包括过滤器大小及类型和步长等，输入m₂进行最大池化得到矩阵m₃；

FC6平滑层，将输入的矩阵m₉平滑为一维矩阵m₁₀；

FC7全连接层，输入矩阵m₁₁，输出r×1的一维矩阵m₁₂；

将m₁₂与f_kinematic合并，即[f_kinematic m₁₂]作为FC8全连接层的输入，输出为2×1的矩阵，该矩阵中的两个值对应着属于有风险类别和属于无风险类别的概率的预测值，接着使用Softmax处理预测值使两类的概率和为1，多模态深度神经网络模型中的矩阵变换具体如表1所示：

表1多模态网络结构表

层	输入	输出
			Conv1	224×224×3	54×54×96
Pool1	54×54×96	28×28×96
			Conv2	28×28×96	28×28×256
Pool2	28×28×256	13×13×256
			Conv3	13×13×256	13×13×384
Conv4	13×13×384	13×13×384
			Conv5	13×13×384	13×13×256
Pool5	13×13×256	6×6×256
			FC6	6×6×256	4096×1
Drop6	4096×1	2048×1
			FC7	2048×1	5×1
FC8	10×1(5×1+5×1)	2×1

步骤S5的具体过程如下：

步骤S501：将步骤S4划分出正常事件集

和高风险事件集

分别以2∶1划分为训练集Θ_train测试集Θ_test；

和冲突事件

根据测试集的预测结果，生成如表2的混淆矩阵：

表2混淆矩阵

I_sensitivity＝TP/(TP+FN)

I_specificity＝TN/(FP+TN)

并根据I_sensitivity和I_speciicity生成ROC曲线，用于评估模型预测效果。多模态深度神经网络模型对应的ROC曲线的AUC为0.9，决策树模型的AUC为0.56，随机森林模型的AUC为0.75，贝叶斯网络模型的AUC为0.69，逻辑回归模型的AUC为0.69。对比之下，多模态深度神经网络模型在精度和真实性方面均优于其他模型。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，包括以下步骤：

步骤S1：获取车辆的驾驶视频，分割所述驾驶视频的感兴趣区域；

步骤S6：对待检测驾驶视频执行步骤S1-S4，获得所述待检测驾驶视频的运动轮廓语义图和重要运动学特征并输入至所述多模态深度神经网络模型，预测行车是否具有风险，若有风险则向驾驶员报警；

所述步骤S2中生成运动轮廓语义图具体过程如下：

步骤S201：对所述驾驶视频的每一帧图像的感兴趣区域进行均值化处理，转化为一行像素；

步骤S202：将所有的所述一行像素按时间顺序拼接在一起形成运动轮廓图；

步骤S203：通过实时对象检测框架对所述运动轮廓图进行识别，判断识别出的交通环境中的交通对象是否位于感兴趣区域内，若是则按照所述交通对象在驾车视频对于的帧画面中的横向位置，将所述交通对象以有色像素线段的形式标在所述运动轮廓图中相应帧线的位置上，形成运动轮廓语义图；

所述特征重要性通过所述高风险事件或正常事件相应特征的基尼指数决定；

步骤S4的具体过程如下：

步骤S401：将一个包含m_l条记录，每条记录有多个运动学特征的事件，提取出n个运动学特征{m₁,…,m_n}作为该样本的重要特征，以事件分类作为该样本的分类标签值，生成样本集合；

步骤S402：通过抽样放回的方法从样本集合中选取n_s个样本作为训练集，重复q次生成q个训练集{S₁,…,S_q}；

步骤S403：以每个训练集作为一棵决策树的输入，构建包含q棵CART决策树的随机森林{T₁,…,T_q}，其中对于T_i上的每一个节点随机不重复的选择m_node个特征，利用这m_node个特征对S_i进行划分，并使用使基尼指数最小化作为标准获得最佳划分，从而训练出q棵CART决策树；

步骤S4041：计算出{m₁,…,m_n}中每个运动学特征m_j在所有决策树中节点***不纯度的平均改变量I_j，即重要性，节点o的不纯度使用基尼指数来衡量，具体如下：

其中，GI_o为节点o的不纯度，k表示类别：高风险、正常，p_ok表示节点o中类别k所占的比例，p_ok′表示非类别k所占的比例；

步骤S4042：计算m_j在第i棵树的重要性I_ji，公式如下：

I_ji＝∑_o∈OI_jio＝∑_o∈O(GI_jio-G_jiol-G_jior)

其中，O为第i棵树的包含运动学特征m_j的节点集合，GI_jio为第i棵树的节点o的基尼指数，G_jiol,G_jior为节点o分支后的左右两个新节点的基尼指数；

步骤S4043：计算m_j在所有树中的重要性I_j，公式如下：

其中，q为CART决策树的数量；

步骤S4044：获得所有运动学特征的重要性集合{I₁,…,I_X}后，将重要性做归一化处理，具体如下：

将完成归一化处理的特征的重要性集合从大到小排序,获得重要性排名前n_important的特征

步骤S405：将正常事件预备集

和高风险事件预备集合

其中id为事件编号，label为事件类型，形成正常事件集

和高风险事件集

多模态深度神经网络模型具体包括：

输入层，将运动轮廓语义图转化为矩阵m₁；

FC6平滑层，将输入的矩阵m₉平滑为一维矩阵m₁₀；

FC7全连接层，输入矩阵m₁₁，输出r×1的一维矩阵m₁₂；

将m₁₂与f_kinematic合并，即[f_kinematicm₁₂]作为FC8全连接层的输入，输出为2×1的矩阵，该矩阵中的两个值对应着属于有风险类别和属于无风险类别的概率的预测值，接着使用Softmax处理预测值使两类的概率和为1。

2.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述感兴趣区域包括上边界和下边界。

3.根据权利要求2所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述步骤S1中分割所述驾驶视频的感兴趣区域具体过程如下：

步骤S101：通过高斯滤波器滤除所述驾驶视频中不相关的图像纹理，然后通过边缘检测算法提取所述驾驶视频中道路的轮廓；

步骤S102：通过霍夫线变换来检测所述道路的轮廓中直线的变换；

步骤S103：对检测到的多组直线计算交叉线，根据所述交叉线得到交叉点以确定所述感兴趣区域的上边界，根据所述多组直线的起点确定所述感兴趣区域的下边界。

4.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述交通对象包括行人和车辆。

5.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述步骤S3的具体过程如下：

步骤S301：通过正态分布的3σ原则来检测和过滤车辆运动数据的异常值，并通过线性插值法填补缺失值；

步骤S302：根据完成过滤和填补的车辆运动数据，获取相应的加速度分布，判断车辆规避行为，根据判断结果设置危险驾驶事件的加速度阈值；

步骤S303：根据所述加速度阈值提取潜在危险驾驶事件；

步骤S304：结合所述驾驶视频的校核结果，在所述潜在危险驾驶事件上标定出正常事件集和冲突事件集。

6.根据权利要求1所述的一种基于运动轮廓语义图预测行车危险场景的方法，其特征在于，所述多模态深度神经网络模型包括视觉数据处理层、运动学数据处理层、数据融合层和预测层。