CN109582993A

CN109582993A - 城市交通场景图像理解与多视角群智优化方法

Info

Publication number: CN109582993A
Application number: CN201810637452.9A
Authority: CN
Inventors: 刘占文; 赵祥模; 林杉; 高涛; 樊星; 沈超; 董鸣; 徐江; 连心雨; 张凡; 王润民; 杨楠
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2019-04-05
Anticipated expiration: 2038-06-20
Also published as: CN109582993B

Abstract

本发明公开了城市交通场景图像理解与多视角群智优化方法，利用道路布局随机变量的交叉口行车路径先验建模与基于FCN学习网络的路面语义先验建模方法，提高交叉口行车路线与路面的认知精度与整个场景语义理解程度；融合认知驱动的先验模型与数据驱动的二维‑三维空间变换的候选框语义特征，结合深度神经网络，实现复杂交通场景三维目标检测与识别；协同考虑车辆位置姿态与行驶轨迹先验模型，对复杂道路环境如交叉***通场景，对三维场景流进行估计与描述，全面表征场景中交通参与者的姿态与运动趋势；针对城市复杂交叉口路段环境，通过多视角群智优化实现交通场景的全息理解，本发明有效且易实现的交通环境理解，为智能车的自主控制提供决策依据。

Description

城市交通场景图像理解与多视角群智优化方法

技术领域

本发明属于交通控制技术领域，具体涉及城市交通场景图像理解与多视角群智优化方法。

背景技术

随着5G通信、大数据、人工智能等多个领域的技术突破，智能网联汽车将成为我国抢占汽车产业未来战略的制高点，是国家汽车产业转型升级、由大变强的重要突破口，并在塑造产业生态、推动国家创新、提高交通安全、实现节能减排等方面具有重大战略意义。智能网联汽车是无人驾驶技术与网联通信技术的结合体，涉及多个学科交叉融合，其中城市交通场景理解是无人驾驶技术实现的关键组成部分，具有重要的研究意义。目前大多数场景理解与感知方法都采用以价格高昂的激光雷达结合手工标注地图为主进行环境感知，而采用廉价的视觉传感器，结合认知心理学与深度学习网络对环境进行认知与理解是近年来的研究热点。基于视觉传感器的场景理解与认知有物体检测识别、底层特征与高级语义匹配两大关键技术。传统的物体识别方法如基于模板匹配的目标检测与识别算法、基于HOG特征+SVM分类器的目标检测与识别算法等因为仅仅利用图像的底层信息而不能具有良好的扩展性与鲁棒性。随着神经网络的发展以及区域卷积神经网络的出现，基于卷积神经网络的目标检测与识别算法具有更好的鲁棒性、更高的准确率、更快的检测速率，然而，在自主驾驶***的背景下，基于单目视觉的2D图像检测法并不能很好的解决准确地估计从自驾车到潜在障碍物的距离这一问题，针对这些问题，迫切需要开发一种面向智能网联汽车的有效且易实现的交通场景理解方法，为智能车的自主控制提供决策依据。

发明内容

本发明的目的在于提供城市交通场景图像理解与多视角群智优化方法，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

城市交通场景图像理解与多视角群智优化方法，具体包括以下步骤：

步骤1)、基于车辆目标获取车辆三维信息，建立反映三维空间先验的车辆目标二维检测候选框；针对道路交通参与者占用的结构非完整性路面，采用深度学习的方法，对路面进行语义先验建模得到路面语义先验模型；

步骤2)、采用候选框的图像熵排序实现车辆目标的感兴趣区域提取并由回归器进行边界框的精确回归、角度的回归及分数预测，得到车辆目标检测结果；

步骤3)、采用Faster-rcnn的深度架构对路面导向标识和交叉***通信号灯实现检测与识别，为行驶路径模型的建立提供约束条件；

步骤4)、基于单车辆行驶路径路面语义先验模型与路面导向标识识别方法生成车辆行驶路径模型，结合车辆目标检测结果中得到的位置姿态生成单车运动矢量轨迹，将可视范围内的所有单车运动矢量轨迹融合获得场景流估计；

步骤5)、基于场景感知图得到像素分割栅格图，结合场景流估计与车辆目标检测结果构建路权占有概率模型E以得到路权概率栅格图，融合路权概率栅格图确定的可行驶区域与交通信号灯决定的可行驶概率得到单视角下场景理解；

步骤6)、构建融合俯视视角与前视视角的深度集合网络架构，从而通过多视角群智优化实现交通场景的全息理解。

进一步的，步骤1)中，针对车辆目标占用的结构非完整性路面，采用深度学习的方法，首先，采用FCN网络对KITTI数据中的路面信息进行特征提取，得到路面语义标签；其次，进一步采用高斯马尔科夫随机场对语义标签进行优化，得到交通场景下最优路面语义先验模型。

进一步的，通过路面语义先验模型和摄像机与真实世界坐标系的标定，将二维图像通过先验语义分割得到路面信息，向三维图像映射；在仅包含路面信息的三维空间设定目标锚体，依据场景目标分类，每种类别设定4种锚体模板，将三维空间的锚体进行二维图像的投影，得到二维图像上基于三维先验信息的局部检测候选框。

进一步的，步骤2)中，结合图像底层特征与先验信息，利用颜色对比度S_C(I_K)与路面语义先验概率信息W(R)获取场景图像的显著性值，再针对局部检测候选框，采用每一候选框的图像熵排序实现复杂交通场景目标的感兴趣区域提取。

进一步的，首先，根据输入图像的颜色统计特征，获取图像像素的颜色显著性值；其次，根据路面语义先验模型获得场景图像中各像素为路面语义的概率w及非路面语义概率1-w，记为W(R)，因此结合颜色特征与路面语义先验的像素I_K的显著性值定义为S(I_K)＝W(R)*S_C(I_K)，其中W(R)的选择由检测目标决定，若检测目标基于路面取w否则取1-w；最后，针对由认知先验驱动三维与二维变换得到的基于三维先验信息的局部检测候选框，采用每一候选框的图像熵排序实现复杂交通场景目标的感兴趣区域提取，其中S(I_k)为该候选框内像素点I_k的显著性值，N为候选框内像素点总数量。

进一步的，步骤2)中，采用卷积神经网络进行感兴趣区域的识别，基于ImageNet与VOC数据集进行网络的预训练，再采用KITTI数据集进行参数微调；然后将感兴趣候选区送入训练好的网络进行标签预测，待确定为正样本后送入回归器，由回归器进行边界框的精确回归、角度的回归及分数预测。

进一步的，步骤4)中，以测试数据集KITTI为数据平台，基于复杂交通场景的应用，结合既定的拓扑结构，对道路布局设置进行先验建模。对道路布局抽象出拓扑结构模型；设定道路布局随机变量R，变量参数R包括拓扑结构、交叉路口中心、道路宽度、偏航角与街道夹角，对直道，转弯，三交叉和四交叉等交叉路口道路布局进行描述；基于KITTI数据集采用最大似然估计的方法对参数进行训练，得到各参数概率分布并建立道路布局模型；最后，在道路布局模型上采用B样条函数拟合车辆可行驶道路区域以建立车辆行驶路径先验模型。

进一步的，步骤5)中，针对交叉口场景，将车辆目标检测信息映射到场景流估计结果中得到场景感知图，基于场景感知图建立路权概率栅格图以实现单视角场景理解。

进一步的，将车辆目标检测信息映射到场景流估计结果中得到场景感知图并对其进行像素块分割生成栅格图，结合场景流估计与车辆目标检测结果视觉机制信息，构建路权占有概率模型E以得到路权概率栅格图，实现单视角下的场景理解，融合路权概率栅格图确定的可行驶区域与交通信号灯决定的可行驶概率得到运动决策。

进一步的，步骤6)中，把每一辆经过交叉口的车辆作为一个独立智能体，结合全景俯视视角三维交通场景目标校测与识别结果，采用深度集合网络对俯视视角与前视视角进行深度融合，再通过单一智能体发送的车辆外观基本属性与深度融合结果进行搜索匹配，得到单一智能体对交通场景全息理解地图，再通过多个智能体协同实现交通场景的全息理解。

与现有技术相比，本发明具有以下有益的技术效果：

本发明城市交通场景图像理解与多视角群智优化方法，针对复杂交通场景感知与理解具体任务，通过基于道路布局随机变量的交叉口行车路径先验建模与基于FCN学习网络的路面语义先验建模方法，有效提高交叉口行车路线与路面的认知精度与整个场景语义理解程度；融合认知驱动的先验模型与数据驱动的二维-三维空间变换的候选框语义特征，结合深度神经网络，实现复杂交通场景三维目标检测与识别；协同考虑车辆位置姿态与行驶轨迹先验模型，针对复杂道路环境如交叉***通场景，对三维场景流进行估计与描述，全面表征场景中交通参与者的姿态与运动趋势；针对城市复杂交叉口路段环境，从视觉机制出发，实现交通场景感知与理解；构建一种融合俯视视角与前视视角的深度集合网络架构，通过多视角群智优化实现交通场景的全息理解，本发明有效且易实现的交通环境理解，为智能车的自主控制提供决策依据，并为城市复杂交叉口路段智能网联车辆协同通行控制与引导提供理论依据与决策支持。

进一步的，本发明面向智能网联汽车应用，针对城市道路交通环境，更关注目标的空间运动行为机理作用于整个场景理解，试图为智能网联汽车产业在现有交通环境下的尽快落地提供一种有效可行的方案。

附图说明

图1是本发明方法的总体研究方法示意图。

图2是路面语义先验结果图。

图3是锚体设置示意图。

图4是道路拓扑结构示意图。

图5是车辆可行驶路径示意图。

图6是三维场景流估计示意图。

图7是路权概率栅格图示意图。

图8是基于深度集合网络的多视角融合框架示意图。

图9是多视角群智优化交通场景全息理解算法示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

步骤4)、基于单车辆行驶路径先验模型与路面导向标识识别方法生成车辆行驶路径模型，结合车辆目标检测结果中得到的位置姿态生成单车运动矢量轨迹，将可视范围内的所有单车运动矢量轨迹融合获得场景流估计；

具体的，步骤1)中，针对道路交通参与者占用的结构非完整性路面，采用深度学习的方法，对路面进行语义先验建模，能够准确的识别交通场景中的路面，并不受交通参与者占用的干扰：首先，采用FCN网络对KITTI 数据中的路面信息进行特征提取，得到路面语义标签；其次，采用高斯马尔科夫随机场对语义标签进行优化，得到交通场景下最优路面语义先验模型。

采用将网络最后的全连接层变为卷积层的方法，将传统分类网络改造为全卷积网络，使得任意尺寸输入图像都可以达到良好的分割效果；对卷积结果进行上采样，这种方法近似为反卷积操作，用因子f进行上采样本质上是用1＝f的步长进行卷积，卷积运算的参数在训练FCN模型过程中通过BP算法学习得到，上采样可以实现基于像素损失函数的端对端网络学习，从而对分割图进行尺寸放大，得到和原图等大的分割图；通过定义全新的全卷积网络DAG网络对粗尺度高层信息与细尺度低层信息进行融合，基于这种跨层式架构学习网络改善输出语义和空间预测，并对输出的空间精度进行优化；采用高斯马尔科夫随机场对网络生成路面语义图中道路路面部分进行拓展延伸，减少由阴影产生的干扰(路面缺失)，使得最终标定路面部分尽可能接近实际路面幅面宽度，以实现路面语义标签的优化，即可得到路面语义先验模型。

通过路面语义先验模型和摄像机与真实世界坐标系的标定，基于路面的语义特征，因其路面在三维空间呈现类平面特性，将二维图像通过先验语义分割得到路面信息，向三维图像映射，能够降低投影误差与计算复杂度；在仅包含路面信息的三维空间设定目标锚体，锚体的选择借鉴faster-cnn锚点思想，依据场景目标分类(行人、自行车、车辆)，每种类别设定4种锚体模板 (固定长宽高及三种比例变化1:1:2、1:2:1、2:1:1)，4种变化角度(0°,90°， -45°，+45°)，如图3所示。以车辆种类为例，列举1种模板及4种变化角度，将三维空间的锚体进行二维图像的投影，得到二维图像上基于三维先验信息的局部检测候选框。

步骤2)中，结合图像底层特征与先验信息，利用颜色对比度S_C(I_K)与路面语义先验概率信息W(R)获取场景图像的显著性值，再针对局部检测候选框，采用每一候选框的图像熵排序实现复杂交通场景目标的感兴趣区域提取；

具体的，首先，根据输入图像的颜色统计特征，获取图像像素的颜色显著性值，一个像素I_K的颜色显著性用它和图像中其他像素I_i的颜色对比度来定义其次，根据步骤1)中的路面语义先验模型，获得场景图像中各像素为路面语义的概率w及非路面语义概率1-w，记为W(R)，因此结合颜色特征与路面语义先验的像素I_K的显著性值定义为 S(I_K)＝W(R)*S_C(I_K)，其中W(R)的选择由检测目标决定，若检测目标基于路面取w否则取1-w；最后，针对由认知先验驱动三维与二维变换得到的基于三维先验信息的局部检测候选框，采用每一候选框的图像熵排序实现复杂交通场景目标的感兴趣区域提取，其中S(I_k)为该候选框内像素点I_k的显著性值，N为候选框内像素点总数量。

采用卷积神经网络进行感兴趣区域的识别，基于ImageNet与VOC数据集进行网络的预训练，再采用KITTI数据集进行参数微调；然后将感兴趣候选区送入训练好的网络进行标签预测，待确定为正样本后送入回归器，由回归器进行边界框的精确回归、角度的回归及分数预测。

针对交叉***通环境中场景识别与认知的三大要素前方车辆运动轨迹、路面导向标识、交通信号灯，采用深度学习的方法对相关目标进行检测与识别。其中前方车辆目标可获取三维信息，路面导向标识与交通信号灯获取的为二维信息，因此采用不同的检测与识别方法。基于模型最简化的原则，针对路面导向箭头和交通信号灯目标选用相同的深度网络架构模型。采用 Faster-rcnn分别对路面导向箭头和交通信号灯提取特征并进行检测框位置确定与分类识别。训练时，基于ImageNet与VOC数据集进行网络的预训练，再采用KITTI数据集进行参数微调。

步骤4)中，以测试数据集KITTI为数据平台，基于复杂交通场景的应用，结合既定的拓扑结构，对道路布局设置进行先验建模。对道路布局抽象出拓扑结构模型；设定道路布局随机变量R，变量参数R包括拓扑结构、交叉路口中心、道路宽度、偏航角与街道夹角，对直道，转弯，三交叉和四交叉等交叉路口道路布局进行描述；基于KITTI数据集采用最大似然估计的方法对参数进行训练，得到各参数概率分布并建立道路布局模型；最后，在道路布局模型上采用B样条函数拟合车辆可行驶道路区域以建立车辆行驶路径先验模型。

如图4所示；构建道路布局随机变量R，描述道路布局设置，假定车辆遵循交通准则，且当可行驶区域与非行驶区域边界明确的情况下，设定道路布局随机变量R＝{k,c,w,r,α}，其中k∈{1,…7}，表示既定的拓扑结构， c＝(x,z)^T∈R²表示交叉路口中心，w∈R⁺,表示街道的宽度。表示观察者的方向与传入街道的夹角。为交叉角，即通过的街道与进入街道的夹角，为了简单起见，我们假设的交叉路口都是共线的，所有的街道宽度相同；基于随机变量R对道路布局进行建模，将路道布局模型定义为p(R|θ＝p(k|θ)p(c,r,w|k,θ)p(α|k,θ))其中θ为模型中所有参数的设置，拓扑结构k服从分类分布，c,r,w三者联合建模以捕捉变量间的相关性，宽度w服从对数正态分布，α服从带宽为σ_α的高斯核密度估计。基于既得的道路布局模型，选取5个控制点(位于车道中心线)建立B样条插值函数以拟合车辆可行进道路曲线，得到车辆行驶路径先验模型。

基于单车辆行驶路径先验模型与路面导向标识识别方法生成车辆行驶路径模型，结合车辆目标检测中得到的位置姿态生成前方车辆运动轨迹。在三维物体候选区生成过程中，通过锚体设定即得各车辆矢量方向与位置，因此由三维物体检测结果即可得到单车辆的位置及方向矢量表达，同时由车辆行驶路径先验模型得到车辆拟行驶路径，对于k叉路口，共有k(k-1)条车辆行驶路径，现行车道确定的情况下只有(k-1)条行驶路径，如图5所示，根据路面导向标识在这(k-1)条拟行驶路径中确定至多2条车辆行驶路径模型，由3D物体检测结果得到单车辆的位置及方向矢量表达，在车辆位置姿态与行驶路径既定基础上构建单车辆运动轨迹矢量假定每条道路上只有两条行驶方向相反的车道，且所有交通参与者只在车道上行驶；设定单车辆运动轨迹变量为其中p_f为车辆位置，q_f为车辆方向矢量，为车辆行驶轨迹上距车辆位置最近点的切线，p_f与q_f由3D物体检测结果得到，的求解需协同考虑车辆位置与车辆行驶路径；其次，以可视范围内同车道、同运动方向上所有单车运动矢量轨迹离散采样点为插值点，采用三次样条拟合算法实现行驶轨迹运动流拟合以估计特定行驶路线上的运动流；最后，全局考虑各行驶路线运动流，实现交叉口场景流估计，如图6所示。

步骤5)中，针对交叉口场景，将车辆目标检测信息映射到场景流估计结果中得到场景感知图，基于场景感知图建立路权概率栅格图以实现单视角场景理解：具体的，

将车辆目标检测信息映射到场景流估计结果中得到场景感知图并对其进行像素块分割生成栅格图，结合场景流估计与车辆目标检测结果视觉机制信息，构建路权占有概率模型E以得到路权概率栅格图，实现单视角下的场景理解，融合路权概率栅格图确定的可行驶区域与交通信号灯决定的可行驶概率得到运动决策：首先对场景感知图进行像素块分割，每幅场景感知图均匀划分为N个像素块，每个像素块包含n个像素点，像素块用栅格表示；其次，结合场景流估计与车辆目标检测结果等视觉机制信息，构建路权占有概率模型E，设定概率模型公式为

其中，exp(-β||S_I-S||)为权重，反映了不同像素块位置对单智能体路权的影响大小，权重设置为像素块S_I与主车S间距离成反比，表示像素块与运动轨迹间关系对其路权占有概率的影响，其中表示像素块中每个像素点距其最邻近运动轨迹的距离，表示像素块与车辆目标间关系对其路权占有概率的影响，其中M为像素块中目标物体像素总数，P为该像素块中目标物体的检测概率，再对E进行归一化处理，得到最终每个像素块的路权占有概率，所有像素块赋值完成后将相同赋值区域进行合并，得到最终的路权概率栅格图，实现单视角下的场景理解，如图7所示。单智能体运动时，根据路权概率栅格图确定其可行驶区域，通过交通信号灯的检测判断其是否可行驶，融合两者结果得到其运动决策。

如图9所示，步骤6)中，把每一辆经过交叉口的车辆作为一个独立智能体，结合全景俯视视角三维交通场景目标校测与识别结果，采用深度集合网络对俯视视角与前视视角进行深度融合，再通过单一智能体发送的车辆外观基本属性与深度融合结果进行搜索匹配，得到单一智能体对交通场景全息理解地图，再通过多个智能体协同实现交通场景的全息理解。

具体的，把每一辆经过交叉口的车辆作为一个独立智能体，进入全景摄像头感知区域后，发送基于单一智能体视角的场景理解信息至基础设施服务器或云端，结合全景俯视视角三维交通场景目标校测与识别结果，采用深度集合网络对俯视视角与前视视角进行深度融合，如图7所示，再通过单一智能体发送的车辆外观基本属性与深度融合结果进行搜索匹配，得到单一智能体对交通场景全息理解地图，如图8所示。其中，深度集合网络为两个卷积神经网络，通过在网络中间层设计多个相同分支网络以并联方式实现网络集成，网络的训练同样基于ImageNet与VOC数据集进行网络的预训练，再采用KITTI数据集进行参数微调。

针对复杂交通场景感知与理解具体任务，提出一种认知驱动的复杂交通场景先验估计建模，包括基于道路布局随机变量的交叉口行车路径先验建模与基于FCN学习网络的路面语义先验建模方法，有效提高交叉口行车路线与路面的认知精度与整个场景语义理解程度；融合认知驱动的先验模型与数据驱动的二维-三维空间变换的候选框语义特征，结合深度神经网络，实现复杂交通场景三维目标检测与识别；协同考虑车辆位置姿态与行驶轨迹先验模型，提出一种基于三维物体检测结果的三维场景流估计方法，针对复杂道路环境如交叉***通场景，对三维场景流进行估计与描述，全面表征场景中交通参与者的姿态与运动趋势；针对城市复杂交叉口路段环境，从视觉机制出发，提出一种路权概率栅格图与交通信号灯决策的单视角场景理解方法，实现交通场景感知与理解；构建一种融合俯视视角与前视视角的深度集合网络架构，通过多视角群智优化实现交通场景的全息理解。

Claims

1.城市交通场景图像理解与多视角群智优化方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，步骤1)中，针对车辆目标占用的结构非完整性路面，采用深度学习的方法，首先，采用FCN网络对KITTI数据中的路面信息进行特征提取，得到路面语义标签；其次，进一步采用高斯马尔科夫随机场对语义标签进行优化，得到交通场景下最优路面语义先验模型。

3.根据权利要求2所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，通过路面语义先验模型和摄像机与真实世界坐标系的标定，将二维图像通过先验语义分割得到路面信息，向三维图像映射；在仅包含路面信息的三维空间设定目标锚体，依据场景目标分类，每种类别设定4种锚体模板，将三维空间的锚体进行二维图像的投影，得到二维图像上基于三维先验信息的局部检测候选框。

4.根据权利要求1所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，步骤2)中，结合图像底层特征与先验信息，利用颜色对比度S_C(I_K)与路面语义先验概率信息W(R)获取场景图像的显著性值，再针对局部检测候选框，采用每一候选框的图像熵排序实现复杂交通场景目标的感兴趣区域提取。

5.根据权利要求4所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，首先，根据输入图像的颜色统计特征，获取图像像素的颜色显著性值；其次，根据路面语义先验模型获得场景图像中各像素为路面语义的概率w及非路面语义概率1-w，记为W(R)，因此结合颜色特征与路面语义先验的像素I_K的显著性值定义为S(I_K)＝W(R)*S_C(I_K)，其中W(R)的选择由检测目标决定，若检测目标基于路面取w否则取1-w；最后，针对由认知先验驱动三维与二维变换得到的基于三维先验信息的局部检测候选框，采用每一候选框的图像熵排序实现复杂交通场景目标的感兴趣区域提取，其中S(I_k)为该候选框内像素点I_k的显著性值，N为候选框内像素点总数量。

6.根据权利要求1所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，步骤2)中，采用卷积神经网络进行感兴趣区域的识别，基于ImageNet与VOC数据集进行网络的预训练，再采用KITTI数据集进行参数微调；然后将感兴趣候选区送入训练好的网络进行标签预测，待确定为正样本后送入回归器，由回归器进行边界框的精确回归、角度的回归及分数预测。

7.根据权利要求1所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，步骤4)中，以测试数据集KITTI为数据平台，基于复杂交通场景的应用，结合既定的拓扑结构，对道路布局设置进行先验建模；对道路布局抽象出拓扑结构模型；设定道路布局随机变量R，变量参数R包括拓扑结构、交叉路口中心、道路宽度、偏航角与街道夹角，对直道，转弯，三交叉和四交叉等交叉路口道路布局进行描述；基于KITTI数据集采用最大似然估计的方法对参数进行训练，得到各参数概率分布并建立道路布局模型；最后，在道路布局模型上采用B样条函数拟合车辆可行驶道路区域以建立车辆行驶路径先验模型。

8.根据权利要求1所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，步骤5)中，针对交叉口场景，将车辆目标检测信息映射到场景流估计结果中得到场景感知图，基于场景感知图建立路权概率栅格图以实现单视角场景理解。

9.根据权利要求8所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，将车辆目标检测信息映射到场景流估计结果中得到场景感知图并对其进行像素块分割生成栅格图，结合场景流估计与车辆目标检测结果视觉机制信息，构建路权占有概率模型E以得到路权概率栅格图，实现单视角下的场景理解，融合路权概率栅格图确定的可行驶区域与交通信号灯决定的可行驶概率得到运动决策。

10.根据权利要求1所述的城市交通场景图像理解与多视角群智优化方法，其特征在于，步骤6)中，把每一辆经过交叉口的车辆作为一个独立智能体，结合全景俯视视角三维交通场景目标校测与识别结果，采用深度集合网络对俯视视角与前视视角进行深度融合，再通过单一智能体发送的车辆外观基本属性与深度融合结果进行搜索匹配，得到单一智能体对交通场景全息理解地图，再通过多个智能体协同实现交通场景的全息理解。