CN114091598B

CN114091598B - 一种基于语义级信息融合的多车协同环境感知方法

Info

Publication number: CN114091598B
Application number: CN202111353055.7A
Authority: CN
Inventors: 程翔; 李瑜茹; 李思江
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2024-06-21
Anticipated expiration: 2041-11-16
Also published as: CN114091598A

Abstract

本发明公布了一种基于语义级信息融合的多车协同环境感知方法，分别设计车联网中的单车端的数据处理和融合端的数据处理，实现基于语义级信息融合的多车协同环境感知；包括：对多个车辆利用目标检测算法提取出周边环境中的障碍物信息；针对通用目标检测算法，设计环境敏感度的评估方法；基于环境敏感度的评估方法，进一步提出置信度评估方法，作为目标检测算法可靠性的评估；基于置信度，对多个车辆的障碍物提取结果进行融合。本发明方法可靠性高，多车协同环境信息获取的精度高。

Description

一种基于语义级信息融合的多车协同环境感知方法

技术领域

本发明属于车辆协同智能感知技术领域，具体涉及一种基于语义级信息融合的多车协同环境感知方法，通过在语义级别对多车的感知信息融合得到更加可靠和准确的感知结果。

背景技术

近年来，随着人们对驾驶环境的安全性和舒适性的不断追求，自动驾驶成为了未来汽车发展的重要趋势。感知层、决策层、执行层是自动驾驶***的三个核心模块，分别对应于人类的眼睛、大脑和四肢，其中感知层是最基础也是最核心的部分，基于传感器采集的数据，自动驾驶车辆需要对三维世界进行推理，重建场景地图，确定场景中的障碍物的信息，为之后的路径规划等任务提供足够的信息依据。

随着传感器性能的提升和深度学习技术的发展，自动驾驶车辆的感知能力取得了显著性的突破，逐渐接近甚至在一些指标上超过了人类驾驶员，但是仍然不具备完全自主应对突变环境的能力，这主要是由于目前大部分对感知算法的研究都是基于较为理想的场景或者几个固定的数据集，致力于不断刷新算法在公开数据集上的表现，然而实际的驾驶场景远比现有的数据集复杂多变，存在很多的遮挡、盲区，仅仅依靠单车视角的感知数据很难获得全面的感知结果，加之室外场景有很多的不确定因素，常遇到一些恶劣环境或极端天气，影响传感器采集的数据质量，导致感知算法产生一些异常输出。目前发生的很多与自动驾驶***有关的事故都是由于在驾驶时遇到了训练时没有考虑过的意外场景而最终致使意外发生，如特斯拉(Tesla)汽车在佛罗里达州发生的致命车祸，就是由于前方的白色卡车反光，感知***无法在强光下检测出这辆白色卡车，从而发生相撞事故。

为了克服单车感知的局限性，提高车辆应对突变环境的能力，在新一代的无线通信技术发展的驱动下，网联化成为了自动驾驶技术发展的新趋势。网联自动驾驶是在单车智能的基础上，通过车联网将“人-车-路-云”结合起来，实现从单车智能到协同智能的发展。在环境感知环节，网联化使车辆间从相互遮挡的关系转变为共同合作的关系，车辆通过融合多视角的信息，可以实现超视距感知和盲区感知，同时通过综合多源信息，感知结果的准确性也得到进一步的提高，大大降低了突发事件和异常天气对感知过程的影响。

语义级的协同感知技术方案是指单车端通过感知算法从原始传感器中提取具有特定含义的语义信息，如车道线、障碍物、可通行区域等信息，然后对多车感知到的语义信息进行融合。相比于直接融合车辆感知到的原始数据，这种协同方案的数据传输量更小，对通信的要求更低，而且提取语义信息的过程能够滤除一部分原始数据中的无用信息和噪声，为后续的决策模块提供最简洁有效的环境信息。

但是，现有的大部分语义级的协同感知技术方案着重于一些可拼接的语义信息，如车道线，而且很少考虑到感知算法输出结果的不确定性，以及室外场景复杂多变的环境给语义提取过程带来的干扰，造成协同感知获取信息的精度不高，鲁棒性差。

发明内容

为了克服上述现有技术存在的不足，本发明提出了一种基于语义级信息融合的多车协同环境感知方法，是一种语义层面的多车协同感知技术方案，可靠性高，信息获取的精度高。

本发明方法是在车联网场景中的无线通信技术的支撑下，针对障碍物级别的语义信息，对多辆单车端提供的障碍物级别的语义信息进行融合，这种语义信息的数据量较小，而且对感知过程十分关键，我们考虑到了单车端语义信息的不确定性以及环境对感知算法的影响，对基于深度学习技术的感知算法输出结果的置信度进行评估，并且考虑了环境对感知算法性能的影响，提出了一种基于环境敏感度的感知算法可靠性评估方案，实现基于语义级信息融合的多车协同感知信息获取，方法可靠性高，信息获取的精度高。

为达到上述目的，本发明方法分别设计了单车端的数据处理和融合端的数据处理过程，包括：1、多个车辆利用通用的目标检测算法提取出周边环境中的障碍物信息；2、针对通用目标检测算法在可靠性评估方面的不足，提出了环境敏感度的评估方法；3、基于环境敏感度的评估方法，进一步提出置信度评估方法(包含了敏感度)，作为目标检测算法可靠性的评估；4、基于置信度和多个车辆的障碍物提取结果进行融合，由此实现基于语义级信息融合的多车协同环境感知。

本发明的基于语义级信息融合的多车协同环境感知方法包括如下步骤：

1)车联网中的多车辆通过深度相机分别采集RGB-D周边环境图像数据，基于目标检测算法提取包含图像特征信息的特征图，得到周边环境图像数据中的障碍物级别的语义信息，包含障碍物的位置信息和障碍物的类别信息；

现有的基于深度学习的目标检测通用算法中，特征提取是关键的一步，所使用的目标检测网络通常分为骨干网络(Backbone)和检测头(Detection head)两部分，其中骨干网络中包括若干个卷积层，负责从输入的数据中提取特征；对于输入的周边环境的一张图像，每一个卷积层输出一个包含图像特征信息的三维矩阵数据，称为特征图(featuremap)，后续的检测头根据特征图获得目标的位置和类别；目标检测算法用于估计目标的位置和对目标进行分类，得到的检测结果分别得到目标的位置和类别。

2)利用步骤1)中目标检测算法应用的目标检测神经网络中的卷积层提取得到特征图，基于特征图计算得到目标检测网络的环境敏感度；目标检测网络的环境敏感度用于评估目标检测网络对环境变化的感知能力；对车联网中的单车端的目标检测网络进行环境敏感度评估包括如下步骤：

21)将目标检测神经网络的卷积层提取得到的特征图降维至向量，称为特征向量；本发明采用通用的参数化降维方法Parametric t-SNE，在保留高维数据局部特征的同时也能进行外扩展。

22)基于降维后的特征向量，计算各类环境下，特征向量的类内离散度矩阵之和S_intra；

具体实施时，假设输入的图片包括同样场景的N类不同环境，分别是{C₁,C₂,…,C_N}，在一个卷积层降维后的输出中，每类环境所包含的特征向量数目分别是{n₁,n₂,…,n_N}，所有环境的特征矩阵表示为F_n*d，其中d是特征向量维度，n＝n₁+n₂+…+n_K是特征的总数目，f_i表示第i个环境特征向量，维度为d，对应F_n*d中的第i行向量元素。

为了减小异常点对均值计算的影响，我们采用加权平均的方式计算环境特征向量的平均，特征的异常程度越高，权重越低。加权平均的具体方法如下：

一般地，假设待计算均值向量的向量集为X＝{x₁,x₂,...,x_n}，对于向量x_i，x_j＝KNN(x_i)表示它的第k近邻向量，k通常是一个很小的值，我们用x_i的第k近邻距离和x_j的第k近邻距离之比表示向量x_i的异常程度α_i，即离群因子ρ_i是α_i和1之间的最大值，ρ_i＝max(α_i,1)，x_i的权重表示为/>其中λ为大于零的系数，用于控制异常向量的权重，λ越大，权重随离群因子的增长而下降速度越快，综合向量集X中所有向量的对应权重，则这些向量的加权平均向量m可以表示为/>

对于环境C_j，其类内的特征均值向量计算结果为m_j，则C_j的类内离散度矩阵可以表示为其中f_i为属于环境C_j的特征向量，总的类内离散度是各类的类内离散度之和，表示为/>

23)基于降维后的特征向量，计算不同类别环境下，特征向量的类间离散度矩阵S_inter；

对于类间离散度来说，需要衡量各类别之间特征分布的离散程度，m表示所有环境特征向量的均值，则类间离散度可以表示为其中m_j表示环境C_j下特征向量的均值，n_j表示每类环境下特征向量的数量，作为求和权重。

24)基于22)和23)中计算的卷积层提取的N类环境特征向量的类间离散度矩阵和类内离散度矩阵，计算该层特征的环境敏感度可以对所有卷积层分别做同样计算得到每一层的环境敏感度；

环境敏感度表示类间离散度和类内离散度的相对比值，目前离散度均以矩阵的形式给出，为了将矩阵转换为标量，我们取矩阵的迹来代表离散度，这是因为类内离散度矩阵和类间离散度矩阵都是对称矩阵，对称矩阵的迹等于矩阵的特征值之和，而特征值可以表示数据在特征向量投影方向的离散程度，因此对特征值求和可以综合体现数据分布的离散程度。所以环境敏感度es可以表示为其中tr代表求矩阵的迹。

25)计算目标检测网络中用于目标检测过程的m个卷积层的环境敏感度es_i(i＝1,2,...,m)，基于这些卷积层在特征图上产生的先验框数目n_i(i＝1,2,...,m)，将它们的环境敏感度综合起来，目标检测网络整体的环境敏感度可以表示为

假设目标检测网络中共有m个特征图用于检测任务中，这些特征图所设置的先验框数目分别是{n₁,n₂,...,n_m}，环境敏感度分别是{es₁,es₂,...,es_m}，基于各个特征图设置的先验框数目，我们对这些特征图的环境敏感度进行加权平均，将最终结果作为该网络的环境敏感度ES，计算方式为为m个卷积层的环境敏感度以先验框数量为权重的加权平均。

3)基于目标检测网络的环境敏感度，进一步建立网络输出的语义置信度模型，对目标检测网络输出的障碍物级别的语义信息的置信度进行评估；

语义置信度模型考虑了输入的环境图像数据的异常程度、目标检测算法在图像训练集上的性能、目标检测算法当前的检测性能以及步骤2)中计算得到的目标检测网络的环境敏感度；

具体实施时，在对置信度估计之前，需要先将特征图降至二维，由于需要根据训练集的特征分布预测新输入的数据特征的概率密度，本发明在此同样采用参数化降维方法Parametric t-SNE，在保留高维数据局部特征的同时也能进行外扩展。

为了衡量输入数据特征和训练集特征的相似程度，我们对降维后的训练集特征图的概率密度分布进行估计，然后用概率密度衡量输入数据特征被训练集特征的覆盖程度。我们对原始核密度估计算法进行改进，提出了加权核密度估计法，用于概率密度估计过程中。由于降维后的特征是二维的，所以进行二维核密度估计，采用标准正态分布作为内核函数，表达式为假设降维后训练集的特征向量共有M个，分别是{f¹,f²,...,f^M}，其中/>是一个二维向量，输入数据特征表示为f＝[f_x,f_y]，则根据第i个训练集特征fⁱ拟合出的概率密度函数可以表示为/>其中H是缩放因子，也可称为带宽，为2*2的矩阵，控制着二维核函数的平坦程度。

核密度估计算法将所有训练集特征向量拟合出的多个概率密度函数叠加在一起取平均后作为最终的概率密度函数。本发明考虑了网络在训练集数据上的检测性能，根据检测性能对不同特征拟合的概率密度函数进行加权平均。具体是：将网络所检测到的所有正例检测框和对应真实值(Ground Truth)的交并比(Intersection over Union,IOU)之和与图片中所标记的Ground Truth总数之比作为权重，即引入计算出的这一权重，概率密度估计结果可以表示为/>

考虑到召回率对驾驶安全性的影响更大，我们将召回率作为衡量算法在训练集上性能的评价指标，基于训练集特征和召回率的联合分布估计输入数据特征对应的召回率，所采用的估计方法是核回归(Kernel Regression)，通过估计降维后的特征和对应召回率的联合概率密度分布，可以得到输入数据特征在该联合概率密度分布中所对应的召回率的期望值，将其作为召回率的估计结果。

从推导的最终表达式可以看出，召回率的估计需要先得到联合概率密度函数p(rec,f_x,f_y)，然后基于联合概率密度函数对召回率求期望，所采用的概率密度估计方法中，数据维度为三维。

本发明将网络当前的检测性能p_det定义为：

其中N为检测到的障碍物数目，p_i为目标检测算法输出的障碍物分类概率。

由于输入数据的异常程度和网络算法在训练集上的性能都是基于感知网络的一个卷积层提取的特征进行计算的，不能直接作为最终结果，还需要基于卷积层的环境敏感度将不同特征层的结果综合起来，具体来说就是分别对所有用于检测过程的卷积层进行处理，然后根据各层的环境敏感度对基于这些特征层得到的结果进行加权求和，作为最终结果。假设检测网络中用于检测过程的卷积层数目是K，第i个卷积层的环境敏感度是es_i，和/>分别是基于第i个特征层得到的概率密度和召回率估计结果，概率密度估计p_kde和召回率估计p_rec的计算过程表示为：

得到p_kde,p_rec,p_det后，将置信度p_conf的对数log(p_conf)表示为：

其中ES_net是网络整体的环境敏感度，τ是一个极小值，防止网络没有检测到障碍物时p_det＝0无法进行对数运算，log(sigmoid(ES_net*p_kde*p_rec))综合了网络的环境敏感度、基于特征得到的概率密度和基于特征得到的召回率，衡量的是特征分布对置信度的影响，log(p_det+τ)衡量的是当前检测性能对置信度的影响。将这两部分的平均值作为对数置信度，再进一步转换为语义信息置信度。

4)基于各单车端的语义信息、步骤3)中评估的语义信息置信度和各单车端自身的位置信息，对障碍物级别的语义信息进行融合，包含坐标转换、数据关联和数据融合过程；

其中，分别针对作为目标检测网络最终输出的语义信息中的障碍物位置信息和障碍物类别的分类概率信息设计了融合算法，得到最终的数据融合结果。

具体实施时，多车端的语义融合的输入是各车提供的障碍物级别的语义信息以及通过置信度评估算法得到的语义信息置信度。其中语义信息是基于目标检测网络从原始图像数据中提取的，包含障碍物的位置信息和类别信息。位置信息在图像中通过一个矩形边界框(Bounding Box,bbox)来体现，由矩形框左上角和右下角的两个坐标值决定，表示为[x_min,y_min,x_max,y_max]；类别信息主要包含检测网络输出的分类概率，表示该障碍物属于这一类别的概率。

首先需要将多视角检测到的检测框位置信息映射到主车的像素坐标系下，然后在主车坐标系下对各车的语义信息进行匹配和融合。我们所采用的图像是RGB-D图像，包含深度信息。假设在车1像素坐标系下，一个待映射的坐标为[u¹,v¹]，映射到车2像素坐标系下后，坐标变换为[u²,v²]。

多车的检测框映射到主车坐标系下之后，需要将属于同一障碍物的检测框关联起来，以便为后续的融合过程做准备。具体是基于检测框之间的交并比(IOU)对检测框进行匹配，将交并比(IOU)大于阈值的检测框相互关联起来。数据关联之后，车1中的一部分检测框未匹配成功，将直接展示其语义信息，用于扩展主车视野，不进行其它处理；另一部分检测框和车2的检测框匹配到相同的障碍物，对于这些相互关联的检测框，将基于两车所提供的语义信息置信度进行融合。

语义信息融合包含检测框的位置融合和分类概率融合。假设两车的语义信息置信度分别为P(V₁),P(V₂)，置信度的含义是该车提供的语义信息可靠的概率。基于两车的置信度，对检测框的位置信息进行加权平均，两车的权重分别为融合后的检测框位置信息表示为bbox_fusion＝w₁*bbox₁+w₂*bbox₂。

目标检测网络输出的分类概率，车辆类别所对应的分类概率可以表示为P(car|V_i)，其中V_i表示来自车辆i的语义类别信息，该类别信息由车辆i的感知算法提供。

基于对数似然比对两车的分类概率进行融合，车辆的分类概率对应的对数似然比可以表示为

以两车融合为例，基于两车的置信度P(V₁),P(V₂)，将融合前后的对数似然比的关系表示为其中，/>表示融合后的分类概率对应的对数似然比，P(V1+V2)表示两车融合后的置信度。该式的含义是是两个分类概率对数似然比分别乘以两车各自的置信度之和等于融合后的对数似然比乘以融合后结果的置信度。

假设来自V₁和V₂的语义信息相互独立，所以P(V1+V2)＝P(V₁)*P(V₂)。所以融合后的对数似然比可以表示为：

最后，将对视似然比转换为概率，作为融合后的分类概率P(car|V₁+V₂)，表示为：

当参与融合的车辆数目为M时，可对两车融合的对数似然比和分类概率进行形式上的扩展。具体表达式为：

通过上述步骤，实现车联网中基于语义级信息融合的多车协同环境感知。进一步地，可将最终融合结果呈现在车联网的单车端采集的周边环境图像数据中。

与现有技术相比，本发明的有益效果：

本发明提供的基于语义级信息融合的多车协同环境感知方法，针对障碍物级别的语义信息，对多辆车提供的障碍物级别的语义信息进行融合。本发明方法考虑到了单车端语义信息的不确定性以及环境对感知算法的影响，对基于深度学习技术的感知算法输出结果的置信度进行评估，并且考虑了环境对感知算法性能的影响，可靠性高，能够实现语义层面的多车协同感知。

本发明提供的基于语义融合的多车协同环境感知方法具有以下技术优势：

(一)考虑了障碍物级别的语义信息，这种语义信息数据量较小，对通信带宽的要求较低，而且对感知过程十分关键；

(二)提出了一种基于置信度的语义融合算法，考虑了单车端感知算法的不确定性；

(三)对单车端提供的语义信息置信度进行评估，是基于特征分布计算的，具有更好的可解释性，并且在评估过程中考虑了环境因素对置信度的影响，更适用于自动驾驶场景中的感知算法；

(四)针对自动驾驶场景下的感知算法，提出了一种基于环境敏感度的感知算法可靠性评估方案，用于衡量算法应对环境变化的感知能力，能够体现出感知算法对室外场景中复杂多变的环境的处理能力。

附图说明

图1是本发明实施例中的单车端的数据处理流程框图。

图2是本发明实施例中的目标检测网络环境敏感度评估方法的流程框图；

其中，特征图和先验框为目标检测网络中卷积层的输出结果，es代表评估得到的某个特征图的环境敏感度，根据不同特征图先验框的数量作为权重，对不同的特征图的es进行加权求和，得到目标检测网络的环境敏感度ES。

图3是本发明实施例中的多车协同感知的数据处理流程框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施例，对本发明作进一步详细的说明。

本发明提供一种基于语义级信息融合的多车协同环境感知方法，针对障碍物级别的语义信息，对多辆车提供的障碍物级别的语义信息进行融合。本发明方法考虑到单车端语义信息的不确定性以及环境对感知算法的影响，对基于深度学习技术的感知算法输出结果的置信度进行评估。

本发明提供的基于语义级信息融合的多车协同感知信息获取方法包含以下步骤：

1)在车联网中的单车端，采用基于深度学习技术的目标检测网络从车辆周边环境图像数据中提取得到障碍物级别的语义信息；

2)对车联网中的单车端的目标检测网络的环境敏感度进行评估，衡量算法对环境变化的感知能力；

3)对车联网中的单车端的障碍物语义信息进行置信度评估；

4)根据各车提供的语义信息、置信度和位置信息，对多车的语义信息进行融合，获取融合后的多车协同感知信息。

图1所示是实施例中的采用的单车端的数据处理流程，本发明采用目标检测算法从图像数据中提取障碍物级别的语义信息，首先对目标检测算法的可靠性进行评估，如果算法整体的可靠性低，那么其输出结果的置信度也相对较低，为了衡量检测算法在车辆驾驶场景下对不同环境特征的分辨能力，本发明提出了环境敏感度的概念，用于衡量目标检测网络应对环境变化的感知能力，并设计了相应的评估算法；然后基于算法整体的环境敏感度、中间层特征以及当前输出，通过衡量当前环境和训练数据集中环境特征的差异程度，设计了置信度评估算法，对单车提供的语义信息的置信度进行评估。

图2是实施例中对本发明方法的环境敏感度的评估流程图，我们考虑了目标检测网络中用于检测过程的所有特征图，由于在高维空间对特征分布进行研究是很困难的，所以首先需要对这些特征图提取的高维特征进行降维，降维主要分为两步：

1)全局平均池化，将特征图中每一层的数据平均化为一个值，仅保留深度方向的信息；

2)采用t-SNE算法将特征进一步降至二维。

接下来，基于降维后的低维特征分布，计算这些特征层的环境敏感度。环境敏感度的评估对象是感知算法中所使用的神经网络，如SSD目标检测网络，它衡量的是神经网络对环境变化的分辨能力。主要包含两个指标，一个是类间离散度，指不同环境特征分布的离散程度，另一个是类内离散度，指同一环境下特征分布的离散程度。不同环境的特征离散度越高，说明算法对不同环境的分辨能力越高，而同一环境的特征离散度越小，说明算法提取的环境特征越有效，因此类间离散度越高，类内离散度越小，神经网络的环境敏感度就越高。

假设共有K类环境，分别是{C₁,C₂,...,C_K}，每类环境所包含的特征数目分别是{n₁,n₂,...,n_K}，所有环境的特征矩阵可以表示为F_n*d，其中d是特征维度，n＝n₁+n₂+...+n_K是特征的总数目，f_i表示第i个环境特征向量，维度为d，对应F_n*d中的第i行向量元素。

为了减小异常点对均值计算的影响，我们采用加权平均的方式计算环境特征的平均向量，特征的异常程度越高，权重越低。假设待计算均值向量的向量集为X＝{x₁,x₂,...,x_n}，对于向量x_i，x_j＝KNN(x_i)表示它的第k近邻向量，k通常是一个很小的值，我们用x_i的第k近邻距离和x_j的第k近邻距离之比表示向量x_i的异常程度，即离群因子ρ_i是α_i和1之间的最大值，ρ_i＝max(α_i,1)，x_i的权重表示为/>其中λ为大于零的系数，用于控制异常向量的权重，λ越大，权重随离群因子的增长而下降速度越快，综合向量集X中所有向量的对应权重，则这些向量的加权平均向量m可以表示为

对于类间离散度来说，需要衡量各类别之间特征分布的离散程度，m表示所有环境特征向量的均值，则类间离散度可以表示为

环境敏感度表示类间离散度和类内离散度的相对比值，目前离散度均以矩阵的形式给出，为了将矩阵转换为标量，我们取矩阵的迹来代表离散度，这是因为类内离散度矩阵和类间离散度矩阵都是对称矩阵，对称矩阵的迹等于矩阵的特征值之和，而特征值可以表示数据在特征向量投影方向的离散程度，因此对特征值求和可以综合体现数据分布的离散程度。所以环境敏感度es可以表示为

假设目标检测网络中共有m个特征图用于检测任务中，这些特征图所设置的先验框数目分别是{n₁,n₂,...,n_m}，环境敏感度分别是{es₁,es₂,...,es_m}，基于各个特征图设置的先验框数目，我们对这些特征图的环境敏感度进行加权平均，将最终结果作为该网络的环境敏感度ES，计算方式为

基于环境敏感度，我们继续对感知算法输出的语义信息置信度进行评估，我们考虑了输入数据的异常程度、算法在训练集上的性能以及算法当前的检测性能，并结合了环境敏感度对置信度进行评估。

在对置信度估计之前，需要先将特征降至二维，由于需要根据训练集的特征分布预测新输入的数据特征的概率密度，这里采用参数化降维方法Parametric t-SNE，在保留高维数据局部特征的同时也能进行外扩展。

为了衡量输入数据特征和训练集特征的相似程度，我们对降维后的训练集特征的概率密度分布进行估计，然后用概率密度衡量输入数据特征被训练集特征的覆盖程度。我们对原始核密度估计算法进行改进，基于检测网络在训练数据集上的表现提出了加权核密度估计，用于概率密度估计过程中。由于降维后的特征是二维的，所以这里我们进行二维核密度估计，采用标准正态分布作为内核函数，表达式为假设训练集的特征共有M个，分别是{f¹,f²,...,f^M}，其中/>是一个二维向量，输入数据特征表示为f＝[f_x,f_y]，则根据第i个训练集特征fⁱ拟合出的概率密度函数可以表示为

核密度估计算法将所有训练集特征拟合出的多个概率密度函数叠加在一起取平均后作为最终的概率密度函数。这里，我们没有直接取平均，而是考虑了网络在训练集数据上的检测性能，根据检测性能对不同特征拟合的概率密度函数进行加权平均。我们将网络所检测到的所有正例检测框和对应Ground Truth的交并比(Intersection over Union,IOU)之和与图片中所标记的Ground Truth总数之比作为权重，即概率密度估计结果可以表示为/>

考虑到召回率对驾驶安全性的影响更大，我们将召回率作为衡量算法在训练集上性能的评价指标，基于训练集特征和召回率的联合分布估计输入数据特征对应的召回率，所采用的估计方法是核回归(Kernel Regression)，通过估计降维后的特征和对应召回率的联合概率密度分布，可以得到输入数据特征在该联合概率密度分布中所对应的召回率的期望值，我们将其作为召回率的估计结果，具体推导过程如下：

从推导的最终表达式可以看出，召回率的估计需要先得到联合概率密度函数p(rec,f_x,f_y)，然后基于这一概率密度函数对召回率求期望，这里所采用的概率密度估计方法前面一样，只是数据维度从二维变成了三维。

我们基于感知网络输出的语义信息对当前的检测性能进行评估，主要有两个影响因素，一个是检测到障碍物的数目N，一个是所有检测到的障碍物的分类概率p_i(i＝1,...,N)的均值，检测到的障碍物数目越多，平均分类概率越大，说明网络当前的检测性能越好。基于这一性质，我们将网络当前的检测性能p_det定义为：

由于输入数据的异常程度和网络算法在训练集上的性能都是基于感知网络的一个特征层提取的特征进行计算的，不能直接作为最终结果，还需要基于特征层的环境敏感度将不同特征层的结果综合起来，具体来说就是分别对所有用于检测过程的特征层进行处理，然后根据各层的环境敏感度对基于这些特征层得到的结果进行加权求和，作为最终结果。假设检测网络中用于检测过程的特征层数目是K，第i个特征层的环境敏感度是es_i，和/>分别是基于第i个特征层得到的概率密度和召回率估计结果，p_kde和p_rec的计算过程如下所示

得到p_kde,p_rec,p_det后，我们将置信度p_conf的对数log(p_conf)表示为：

其中ES_net是网络整体的环境敏感度，τ是一个极小值，防止网络没有检测到障碍物时p_det＝0无法进行对数运算，该式的前半部分log(sigmoid(ES_net*p_kde*p_rec))综合了网络特征的环境敏感度、基于特征得到的概率密度和基于特征得到的召回率，衡量的是特征分布对置信度的影响，后半部分log(p_det+τ)衡量的是当前检测性能对置信度的影响，我们将这两部分的平均值作为对数置信度，再进一步转换为置信度。

图3所示是多车端的语义融合流程，其输入是各车提供的障碍物级别的语义信息以及通过置信度评估算法得到的语义信息置信度。其中语义信息是基于目标检测网络从原始图像数据中提取的，包含障碍物的位置信息和类别信息。位置信息在图像中通过一个矩形边界框(Bounding Box,bbox)来体现，由矩形框左上角和右下角的两个坐标值决定，表示为[x_min,y_min,x_max,y_max]；类别信息主要包含检测网络输出的分类概率，表示该障碍物属于这一类别的概率。

我们首先需要将多视角检测到的检测框位置信息映射到主车的像素坐标系下，然后在主车坐标系下对各车的语义信息进行匹配和融合，下面将以两车为例详细介绍融合过程中的几个主要步骤，参与融合的两辆车分别是车1、车2，两辆车均可融合对方提取得到的语义信息优化自身的语义信息，示例中为避免重复分析，将车2视为主车，车1的数据被发送到主车进行融合。

由于车辆之间的坐标变换是三维变换，除了需要图像中的二维位置信息，还需要知道对应的深度信息，所以这里我们所采用的图像是RGB-D图像，包含深度信息。假设在车1像素坐标系下，一个待映射的坐标为[u¹,v¹]，映射到车2像素坐标系下后，坐标变换为[u²,v²]。

首先，需要基于[u¹,v¹]对应的深度信息d¹将其从二维像素坐标系下转换到三维相机坐标系下，对应坐标变为s是图像对应的深度图的缩放因子，/>是车1相机在x,y轴上的焦距，/>是车1相机的光圈中心，它们都属于车1相机的内参。转换过程为：

接下来，需要先将从相机坐标系下转换到车1的IMU坐标系下，再基于IMU提供的位置信息将其转换到世界坐标系下，[x_w,y_w,z_w]是该坐标转换到世界坐标系下后对应的三维坐标，/>代表车1的相机坐标系到IMU坐标系的坐标变换矩阵，/>代表车1的IMU坐标系到世界坐标系的变换矩阵。关系式为

变换到世界坐标系下后，我们基于车2的参数继续了上述过程的逆变换，将[x_w,y_w,z_w]转换到车2的像素坐标系下，得到[u²,v²]，是车2相应的坐标转换矩阵，是车2相机的内部参数。变换过程为：

多车的检测框映射到主车坐标系下之后，需要将属于同一障碍物的检测框关联起来，以便为后续的融合过程做准备。这里我们基于检测框之间的交并比(IOU)对检测框进行匹配，将交并比(IOU)大于阈值的检测框相互关联起来，车1、车2的检测框匹配过程如下：

1)两车对应的检测框矩阵分别为和匹配成功的检测框将成对放入/>初始化为空；

2)计算和/>中两两元素之间的IOU，得到IOU矩阵IOU_m*n；/>

3)选择IOU_m*n中最大值iou_max＝IOU[i][j]下标所对应两个检测框进行匹配：

a)如果iou_max≥threshold，则匹配成功，将加入/>中，然后将/>分别从/>中剔除；

b)如果iou_max＜threshold，说明和/>中已无匹配对，跳转到步骤5；

4)判断是否为空：

a)如果都不为空，重复步骤2；

b)否则，跳转到步骤5；

5)返回

数据关联之后，车1中的一部分检测框未匹配成功，我们将直接展示其语义信息，用于扩展主车视野，不进行其它处理；另一部分检测框和车2的检测框匹配到相同的障碍物，对于这些相互关联的检测框，我们将基于两车所提供的语义信息置信度进行融合。语义信息融合包含检测框的位置融合和分类概率融合，接下来将分别介绍这两部分的融合算法。

假设待融合的来自两辆车的检测框位置信息分别表示为：bbox₁,bbox₂，均是四元向量，两车的语义信息置信度分别为P(V₁),P(V₂)，置信度的含义是该车提供的语义信息可靠的概率。基于两车的置信度，我们对检测框的位置信息进行加权平均，对置信度高的位置信息给予更多的权重，对于置信度低的位置信息给予更小的权重，两车的权重分别为融合后的检测框位置信息表示为bbox_fusion＝w₁*bbox₁+w₂*bbox₂。

目标检测网络输出的分类概率可以解释为当前检测框中的障碍物属于某一类别的概率。以车辆类别为例，所对应的分类概率可以表示为P(car|V_i)，其中V_i表示该类别信息由车辆i的感知算法所提供。这里采用条件概率是因为该分类概率是基于车辆i提供的信息可信的假设下得到的，即如果车辆i的感知信息正确，那么该目标属于车辆类别的概率是P(car|V_i)。

我们基于对数似然比对两车的分类概率进行融合，因为对数似然比相比于概率有更广泛的取值范围，可以避免不必要的截断误差，车辆的分类概率对应的对数似然比可以表示为

基于两车的置信度P(V₁),P(V₂)，我们将融合前后的对数似然比的关系表示为其中，/>表示融合后的分类概率对应的对数似然比，P(V1+V2)表示两车融合后的置信度。该式的含义是是两个分类概率对数似然比分别乘以两车各自的置信度之和等于融合后的对数似然比乘以融合后结果的置信度。

由于两车提供的语义信息均是基于各自的传感器数据和感知算法得到的，没有相互关联，所以我们可以假设来自V₁和V₂的语义信息相互独立，所以P(V1+V2)＝P(V₁)*P(V₂)。所以融合后的对数似然比可以表示为：

综上所述，本发明基于语义融合的多车协同环境感知方法包括：在单车端，采用基于深度学习技术的目标检测网络从图像数据中提取障碍物级别的语义信息；对单车端的目标检测网络进行环境敏感度评估，衡量算法对环境变化的感知能力；对单车端所提供的障碍物语义信息进行置信度评估；根据各车提供的语义信息、置信度和位置信息，对多车的语义信息进行融合。本发明方法考虑了障碍物级别的语义信息，这种语义信息数据量较小，对通信带宽的要求较低，而且对感知过程十分关键；提出了一种基于置信度的语义融合算法，考虑了单车端感知算法的不确定性；对单车端提供的语义信息置信度进行评估，是基于特征分布计算的，具有更好的可解释性，并且在评估过程中考虑了环境因素对置信度的影响，更适用于自动驾驶场景中的感知算法；针对自动驾驶场景下的感知算法，提出了一种基于环境敏感度的感知算法可靠性评估方案，用于衡量算法应对环境变化的感知能力，能够体现出感知算法对室外场景中复杂多变的环境的处理能力。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于语义级信息融合的多车协同环境感知方法，分别设计车联网中的单车端的数据处理和融合端的数据处理，实现基于语义级信息融合的多车协同环境感知；包括：对多个车辆利用目标检测算法提取出周边环境中的障碍物信息；针对通用目标检测算法，设计环境敏感度的评估方法；基于环境敏感度的评估方法，进一步提出置信度评估方法，作为目标检测算法可靠性的评估；基于置信度，对多个车辆的障碍物提取结果进行融合；

包括如下具体步骤：

1)对车联网中的多车辆，分别采集RGB-D周边环境图像数据；再基于目标检测算法，利用目标检测算法中采用的目标检测神经网络提取得到包含图像特征信息的特征图，进一步得到周边环境图像数据中的障碍物级别的语义信息；障碍物级别的语义信息包含障碍物的位置信息和障碍物的类别信息；

2)基于特征图计算得到目标检测神经网络的环境敏感度，用于评估目标检测神经网络对环境变化的感知能力；

对车联网中的单车端的目标检测网络进行环境敏感度评估包括如下步骤：

21)将目标检测神经网络提取得到的特征图进行降维，得到特征向量；

22)计算得到各类环境下的特征向量的类内离散度矩阵之和，记为总的类内离散度S_intra；

具体地，设输入的图片包括同样场景的N类不同环境，记作{C₁,C₂,…,C_N}；每类环境所包含的特征向量数目分别是{n₁,n₂,…,n_N}；所有环境的特征矩阵表示为F_n*d，其中d是特征向量维度，n＝n₁+n₂+…+n_K是特征的总数目；f_i表示第i个环境特征向量，维度为d，对应F_n*d中的第i行向量元素；

计算环境特征向量的加权平均，以减小异常点对均值的影响，得到加权平均向量m；

设待计算均值向量的向量集为X＝{x₁,x₂,...,x_n}，对于向量x_i，x_j＝KNN(x_i)表示它的第k近邻向量，k通常是一个很小的值；将向量的加权平均向量m表示为：

其中，表示x_i的权重；λ为大于零的系数；α_i为x_i的第k近邻距离和x_j的第k近邻距离之比表示向量x_i的异常程度；/>离群因子ρ_i是α_i和1之间的最大值，ρ_i＝max(α_i,1)；

对于环境C_j，其类内的特征均值向量计算结果为m_j，则C_j的类内离散度矩阵可以表示为其中f_i为属于环境C_j的特征向量；总的类内离散度是各类的类内离散度之和，表示为/>

23)基于降维后的特征向量，计算不同类别环境下特征向量的类间离散度矩阵S_inter；

类间离散度表示为其中m_j表示环境C_j下特征向量的均值，n_j表示每类环境下特征向量的数量，作为求和权重；

24)基于步骤22)和23)得到的N类环境特征向量的类间离散度矩阵和类内离散度矩阵，通过下式计算得到每层卷积层特征的环境敏感度：

其中，tr表示求矩阵的迹；

25)计算目标检测网络中用于目标检测过程的m个卷积层的环境敏感度es_i，基于这些卷积层在特征图上产生的先验框数目n_i，i＝1，2，...，m；目标检测网络的环境敏感度ES表示为下式：

3)基于目标检测网络的环境敏感度，进一步建立网络输出的语义置信度模型，对目标检测网络输出的障碍物级别的语义信息的置信度进行评估；包括：

先将训练集特征图降至二维；

设计加权核密度估计法，对降维后的训练集特征图的概率密度分布进行估计预测；概率密度用于衡量输入数据特征被训练集特征的覆盖程度；

在概率密度估计过程中采用加权核密度估计法，包括：

基于降维后的二维特征进行二维核密度估计，采用标准正态分布作为内核函数，表示为

设降维后训练集的特征向量共有M个，分别是{f¹,f²,...,f^M}，其中是二维向量；输入数据特征表示为f＝[f_x,f_y]；

根据第i个训练集特征fⁱ拟合出的概率密度函数表示为：

其中，H是缩放因子，或称为带宽，为2*2的矩阵，用于控制二维核函数的平坦程度；

将所有训练集特征向量拟合出的多个概率密度函数取平均，得到最终的概率密度函数；

根据检测性能对不同特征拟合的概率密度函数进行加权平均；概率密度估计结果表示为:

其中，权重表示网络所检测到的所有正例检测框和对应真实值的交并比IOU之和与图片中所标记的真实值总数之比；

将召回率作为衡量算法在训练集上性能的评价指标，基于训练集特征和召回率的联合分布估计输入数据特征对应的召回率，采用的估计方法是核回归，通过估计降维后的特征和对应召回率的联合概率密度分布，得到输入数据特征在该联合概率密度分布中所对应的召回率期望值，作为召回率的估计结果；

将网络当前的检测性能p_det定义为：

其中N为检测到的障碍物数目，p_i为目标检测算法输出的障碍物分类概率；

概率密度估计p_kde和召回率估计p_rec的计算过程分别表示为：

其中，K为检测网络中用于检测过程的卷积层数目；和/>分别是基于第i个特征层得到的概率密度和召回率估计结果；

得到p_kde,p_rec,p_det后，将置信度p_conf的对数log(p_conf)表示为：

其中，ES_net是网络整体的环境敏感度，τ是一个极小的固定值；log(sigmoid(ES_net*p_kde*p_rec))表示网络的环境敏感度、基于特征得到的概率密度和基于特征得到的召回率对置信度的影响；log(p_det+τ)用于衡量当前检测性能对置信度的影响；将两部分的平均值作为对数置信度，再进一步转换为语义信息置信度；

4)基于各单车端的语义信息、步骤3)中评估得到的语义信息置信度和各单车端自身的位置信息，对障碍物级别的语义信息进行融合，包含坐标转换、数据关联和数据融合过程；

其中，语义信息是基于目标检测网络从原始图像数据中提取的，包含障碍物的位置信息和类别信息；位置信息在图像中由矩形边界框左上角和右下角的两个坐标值决定，表示为[x_min,y_min,x_max,y_max]；类别信息主要包含检测网络输出的分类概率，表示该障碍物属于这一类别的概率；

首先将多视角检测到的检测框位置信息映射到主车的像素坐标系下；然后在主车坐标系下对各车的语义信息进行匹配和融合；包括：

将属于同一障碍物的检测框关联起来：具体是基于检测框之间的交并比IOU对检测框进行匹配，将交并比IOU大于阈值的检测框相互关联起来；

语义信息融合包含检测框的位置融合和分类概率融合；将车辆类别所对应的分类概率表示为P(car|V_i)，其中V_i表示车辆i的语义信息；

基于对数似然比对两车的分类概率进行融合，将车辆的分类概率对应的对数似然比表示为

当参与融合的车辆数目为M时，融合后的对数似然比和分类概率分别表示为：

其中，表示融合后的分类概率对应的对数似然比；P(car|V₁+…+V_M)为融合后的分类概率；

通过上述步骤得到融合结果，实现车联网中基于语义级信息融合的多车协同环境感知。

2.如权利要求1所述基于语义级信息融合的多车协同环境感知方法，其特征是，融合结果呈现于车联网的单车端采集的周边环境图像数据中。

3.如权利要求1所述基于语义级信息融合的多车协同环境感知方法，其特征是，步骤1)中，通过深度相机分别采集RGB-D周边环境图像数据；所述目标检测算法采用的目标检测网络保留骨干网络和检测头；其中骨干网络中包括多个卷积层，用于从输入的数据中提取特征；每个卷积层输出一个包含图像特征信息的三维矩阵数据，即特征图；检测头用于根据特征图获得目标的位置和类别。

4.如权利要求1所述基于语义级信息融合的多车协同环境感知方法，其特征是，步骤21)中，采用参数化降维方法Parametric t-SNE，将目标检测神经网络提取得到的特征图降维，得到特征向量。

5.如权利要求1所述基于语义级信息融合的多车协同环境感知方法，其特征是，步骤4)中，采用包含深度信息的RGB-D图像；将多视角检测到的各车的检测框位置信息映射到主车的像素坐标系下，再在主车坐标系下对各车的语义信息进行匹配和融合。

6.如权利要求1所述基于语义级信息融合的多车协同环境感知方法，其特征是，步骤4)中，将语义信息置信度进行融合，设两车的语义信息置信度分别为P(V₁),P(V₂)，表示车辆提供的语义信息可靠的概率；基于两车的置信度，对检测框的位置信息进行加权平均，两车的权重分别为融合后的检测框位置信息表示为bbox_fusion＝w₁*bbox₁+w₂*bbox₂。

7.如权利要求6所述基于语义级信息融合的多车协同环境感知方法，其特征是，基于两车的置信度P(V₁),P(V₂)，将融合前后的对数似然比的关系表示为：

其中，表示融合后的分类概率对应的对数似然比，P(V1+V2)表示两车融合后的置信度；

设语义信息V₁和V₂相互独立，P(V1+V2)＝P(V₁)*P(V₂)；将融合后的对数似然比表示为：

再将对视似然比转换为概率，作为融合后的分类概率，表示为：

其中P(car|V₁+V₂)为融合后的分类概率。