CN115410167A

CN115410167A - 目标检测与语义分割方法、装置、设备及存储介质

Info

Publication number: CN115410167A
Application number: CN202210964057.8A
Authority: CN
Inventors: 韩文韬; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-29

Abstract

本发明涉及图像处理领域，公开了一种目标检测与语义分割方法、装置、设备及存储介质，该方法包括：获取多个相机拍摄的同一帧单目图像，并进行深度标注，得到单目图像对应的深度图；根据相机内参，将深度图中的各像素的图像坐标转换至相机坐标系，得到深度图中各像素在相机指标系下的伪点云；对伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；基于鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。本方法在保证安全性的前提下摆脱对于测距传感器的强依赖，降低了硬件成本，在3D感知任务中有效地利用2D图像感知任务的结果，提取图像信息并变换至3D空间，提高感知算法的性能。

Description

目标检测与语义分割方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种目标检测与语义分割方法、装置、设备及存储介质。

背景技术

由于相机的成本低廉且技术成熟，在L2/L3级别的辅助驾驶***中，为降低传感器，尤其是配备激光雷达带来的硬件成本，往往采用多个相机组成的纯视觉***为感知算法提供输入。而在L4级别的自动驾驶***中，为了规避单一传感器在失效情况下导致的单点故障，除基于激光雷达等具备测距能力的传感器的感知方案外，也需要基于纯视觉的方案作为冗余，在激光雷达等传感器失效时保障感知模块正常工作，确保自动驾驶***的安全性。

而在辅助驾驶与自动驾驶***中，规划与控制模块需要依赖感知模块提供3D空间的检测结果。为达到稳定输出、克服单一相机盲区等目的，在纯视觉的感知方案中，需要将多个相机组成的环视图像信息变换至鸟瞰图坐标系进行处理，因此在辅助驾驶与自动驾驶***中也需要避免鸟瞰图对测距传感器的强依赖。

发明内容

本发明的主要目的在于解决现有的在鸟瞰图的各类任务中对激光雷达等测距传感器的强依赖的技术问题。

本发明第一方面提供了一种目标检测与语义分割方法，包括：获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云；将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

可选的，在本发明第一方面的第一种实现方式中，所述相机内参包括焦距和图像中心点的坐标，所述焦距包括水平焦距和垂直焦距，所述图像坐标包括水平图像坐标、垂直图像坐标和深度图像坐标；所述根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云包括：根据所述水平图像坐标、所述水平焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的水平相机坐标；根据所述垂直图像坐标、所述垂直焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的垂直相机坐标；将所述深度图像坐标作为所述伪点云在相应的相机坐标系下的深度相机坐标，并基于所述水平相机坐标、所述垂直相机坐标和所述深度图像坐标生成各像素对应的伪点云。

可选的，在本发明第一方面的第二种实现方式中，所述深度图还携带有每个像素的置信度，在所述基于所述水平相机坐标、所述垂直相机坐标和所述深度图像坐标生成各像素对应的伪点云之后，还包括：判断所述深度图中是否存在置信度小于预设置信度阈值的像素；若存在，则将置信度小于预设置信度阈值的像素对应的伪点云删除。

可选的，在本发明第一方面的第三种实现方式中，所述将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征包括：获取多个所述相机的相机外参；基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云；根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征。

可选的，在本发明第一方面的第四种实现方式中，所述基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云包括：根据所述相机外参构建所述相机坐标系至所述鸟瞰图坐标系的转换矩阵；根据各相机的转换矩阵将所有伪点云从对应的相机坐标系转换至所述鸟瞰图坐标系中，得到稠密的鸟瞰图点云。

可选的，在本发明第一方面的第五种实现方式中，所述根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征包括：根据所述转换矩阵，确定所述伪点云与所述鸟瞰图坐标系上的鸟瞰图格点的第二对应关系；根据所述第一对应关系和所述第二对应关系，将所述深度图中各像素对应的图像特征转换至所述鸟瞰图坐标系的鸟瞰图格点中；对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征。

可选的，在本发明第一方面的第六种实现方式中，所述对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征包括：根据所述第一对应关系和所述第二对应关系，判断所述鸟瞰图格点是否对应有多个像素；若存在，则计算相同鸟瞰图格点中的图像特征的平均值或确定相同鸟瞰图格点中的图像特征中的最大值，并将所述平均值或所述最大值作为所述鸟瞰图格点的鸟瞰图特征。

本发明第二方面提供了一种目标检测与语义分割装置，包括：深度标注模块，用于获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；伪点云生成模块，用于根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云；转换模块，用于将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；感知任务执行模块，用于基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

可选的，在本发明第二方面的第一种实现方式中，所述相机内参包括焦距和图像中心点的坐标，所述焦距包括水平焦距和垂直焦距，所述图像坐标包括水平图像坐标、垂直图像坐标和深度图像坐标；所述伪点云生成模块具体用于：根据所述水平图像坐标、所述水平焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的水平相机坐标；根据所述垂直图像坐标、所述垂直焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的垂直相机坐标；将所述深度图像坐标作为所述伪点云在相应的相机坐标系下的深度相机坐标，并基于所述水平相机坐标、所述垂直相机坐标和所述深度图像坐标生成各像素对应的伪点云。

可选的，在本发明第二方面的第二种实现方式中，所述目标检测与语义分割装置还包括点云删除模块，所述点云删除模块具体用于：判断所述深度图中是否存在置信度小于预设置信度阈值的像素；若存在，则将置信度小于预设置信度阈值的像素对应的伪点云删除。

可选的，在本发明第二方面的第三种实现方式中，所述转换模块具体包括：获取单元，用于获取多个所述相机的相机外参；点云转换单元，用于基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云；特征转换单元，用于根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征。

可选的，在本发明第二方面的第四种实现方式中，所述点云转换单元具体用于：根据所述相机外参构建所述相机坐标系至所述鸟瞰图坐标系的转换矩阵；根据各相机的转换矩阵将所有伪点云从对应的相机坐标系转换至所述鸟瞰图坐标系中，得到稠密的鸟瞰图点云。

可选的，在本发明第二方面的第五种实现方式中，所述特征转换单元具体包括：关系确定子单元，用于根据所述转换矩阵，确定所述伪点云与所述鸟瞰图坐标系上的鸟瞰图格点的第二对应关系；关系转换子单元，用于根据所述第一对应关系和所述第二对应关系，将所述深度图中各像素对应的图像特征转换至所述鸟瞰图坐标系的鸟瞰图格点中；栅格化子单元，用于对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征。

可选的，在本发明第二方面的第六种实现方式中，所述栅格化子单元具体还用于：根据所述第一对应关系和所述第二对应关系，判断所述鸟瞰图格点是否对应有多个像素；若存在，则计算相同鸟瞰图格点中的图像特征的平均值或确定相同鸟瞰图格点中的图像特征中的最大值，并将所述平均值或所述最大值作为所述鸟瞰图格点的鸟瞰图特征。

本发明第三方面提供了一种目标检测与语义分割设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述目标检测与语义分割设备执行上述的目标检测与语义分割方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的目标检测与语义分割方法的步骤。

本发明的技术方案中，通过获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相机坐标系，得到所述深度图中各像素在所述相机指标系下的伪点云；对所述伪点云以及对应的图像特征进行至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。本申请的技术方案中，能够在保证安全性的前提下摆脱感知算法对于测距传感器的强依赖，极大地降低了硬件套件的成本，在3D感知任务中直接而有效地利用2D图像感知任务的结果，提取丰富的图像信息并变换至3D空间，以提高感知算法的性能，尤其是处理长尾场景的能力。

附图说明

图1为本发明实施例中目标检测与语义分割方法的第一个实施例示意图；

图2为本发明实施例中目标检测与语义分割方法的第二个实施例示意图；

图3为本发明实施例中目标检测与语义分割装置的一个实施例示意图；

图4为本发明实施例中目标检测与语义分割装置的另一个实施例示意图；

图5为本发明实施例中目标检测与语义分割设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中目标检测与语义分割方法的第一个实施例包括：

101、获取多个相机拍摄的同一帧单目图像，并对单目图像进行深度标注，得到单目图像对应的深度图；

可以理解的是，本发明的执行主体可以为目标检测与语义分割装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

在实际应用中，相机工艺成熟，稳定，造价低廉，信息丰富，使得相机成为无人驾驶感知的重要传感元件，和激光点云相比，相机图像能够提供更为丰富的细节、纹理信息，相机拍摄的对象主要为需要使用点云进行表示的区域，例如可以是城市道路环境中包含车辆、行人、交通指示标识或广告牌的任意区域等，在自动驾驶过程中，相机拍摄的区域，为车辆前方的视野区域，在本实施例中，相机拍摄的结果为单目图像。

在实际应用中，在L2/L3级别的辅助驾驶***中，为降低传感器，尤其是配备激光雷达带来的硬件成本，往往采用多个相机组成的纯视觉***为感知算法提供输入。而在L4级别的自动驾驶***中，为了规避单一传感器在失效情况下导致的单点故障，除基于激光雷达等具备测距能力的传感器的感知方案外，也需要基于纯视觉的方案作为冗余，在激光雷达等传感器失效时保障感知模块正常工作，确保自动驾驶***的安全性，本方法即是在L2/L3中装配多个相机进行感知算法或者在L4级别的自动驾驶***作为激光雷达等具备测距能力的传感器的感知方案外的融云的场景在进行的，所以需要多个相机进行同一帧单目图像的拍摄。

在本实施例中，预先训练得到单目深度估计模型对单目图像进行深度估计，得到单目图像中每个像素的深度值和置信度值，并根据每个像素的深度值得到对应的深度图，在实际应用中，单目深度估计模型可以通过监督算法和无监督算法训练得到，其中监督算法是直接以2维图像作为输入，以深度图为输出进行训练，无监督算法是使用两个摄像机采集的双目图像数据进行联合训练。其中双目数据可彼此预测对方，从而获得相应的视差数据，再根据视差与深度的关系进行演化。或是将双目图像中各个像素点的对应问题看作是立体匹配问题进行训练，在本实施例中，单目深度估计模型采用的是基于半自动标注的稠密图像深度估计，能够很好地解决工业界中深度标注质量不佳的问题，基于VIP-Deeplab的模型设计，训练得到的单目深度估计模型可实现对于障碍物与地面像素的较为准确的深度估计。其中，深度值定义为图像中每个像素所对应的3D点在相机坐标系下的z轴的数值。

102、根据多个相机的相机内参，将深度图中的各像素的图像坐标转换至相应的相机坐标系，得到深度图中各像素在相机指标系下的多个伪点云；

在本实施例中，存在多个坐标系，包括相机坐标系，像素坐标系，鸟瞰图坐标系，其中，相机坐标系以光心为相机坐标系的原点，以平行于图像的x和y方向为Xc轴和Yc轴，Zc轴和光轴平行，Xc，Yc，Zc互相垂直，单位是长度单位，像素坐标系是以成像平面左上顶点为坐标原点，为了描述像素点(pixel)在数字图像中的坐标位置而引入。

在本实施例中，对于一张图像内的任一像素点pi(u，v)，深度估计模型将预测得到其深度d与置信度c，其中d∈[0，dmax]，c∈(0，1)，dmax为预先定义的模型预测的最大深度。根据标定得到的相机内参，包括两个方向的焦距，包括水平焦距fx和垂直焦距fy以及图像中心cx，cy，先计算得到像素点pi(u，v)的归一化坐标pi(u’，v’)，其中u’＝(u-cx)/fx，v’＝(v-cy)/fy，而后根据深度得到该像素对应的3D点在相机坐标系下的坐标Pi(u’d，v’d，d)。需要说明的是，对于置信度低的像素点，尤其是深度变化较大的背景像素点，当置信度c<0.5时，将不采信模型在该像素预测的深度，即忽略其对应的3D点，通过上述方法处理图像上的每个像素点，将得到该相机坐标系下的伪点云

103、将多个伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；

在本实施例中，根据各个相机的外参将各自相机坐标系下的伪点云变换至统一的鸟瞰图坐标系，至此可得到由多个相机生成的、稠密的鸟瞰图点云，其位置精度虽劣于测距传感器得到的点云，但根据图像的分辨率与图像深度标注的质量，可达到数倍于测距传感器的点云密度与分辨率。

在本实施例中，在生成伪点云的过程中，可以同时得到每个相机图像中每个像素与所得伪点云中的每个3D点的一一对应关系。根据该对应关系，可将多种像素粒度的图像信息，包括像素的RGB值、图像语义与实例分割结果、基于线段或矩形框的参数化图像检测结果等变换值鸟瞰图坐标系下。

在本实施例中，考虑到鸟瞰图特征通常需要做栅格化处理以适应卷积神经网络的结构以及减少计算量，在变换过程中可能会出现一个鸟瞰图格点同时对应多个不同像素的情况，需要采用不依赖顺序的聚集(aggregation)方法，如取平均值、最大值等，在特征维度处理不同像素点所对应的图像特征，最后，融合得到的栅格化特征图。

104、基于鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

在本实施例中，获得的鸟瞰图特征，可以设计鸟瞰图下的多任务模型。本方案采用了基于U-Net的网络结构设计，在提取高维度的多尺度特征后进一步完成基于矩形框的障碍物检测、基于鸟瞰图网格的可行驶区域分割、语义地图元素分割等任务。上述多任务可使用同样的主干网络，即U-Net网络，以共享计算，其中检测任务基于依赖区域提议(regionproposal)的二阶段网络，可行驶区域及语义地图元素分割则基于简单的像素分割网络。

请参阅图2，本发明实施例中目标检测与语义分割方法的第二个实施例包括：

201、获取多个相机拍摄的同一帧单目图像，并对单目图像进行深度标注，得到单目图像对应的深度图；

202、根据水平图像坐标、水平焦距和图像中心点的坐标计算伪点云在相应的相机坐标系下的水平相机坐标；

203、根据垂直图像坐标、垂直焦距和图像中心点的坐标计算伪点云在相应的相机坐标系下的垂直相机坐标；

204、将深度图像坐标作为伪点云在相应的相机坐标系下的深度相机坐标，并基于水平相机坐标、垂直相机坐标和深度图像坐标生成各像素对应的伪点云；

在本实施例中，存在多个坐标系，包括相机坐标系，像素坐标系，鸟瞰图坐标系，其中，在相机坐标系和像素坐标系之前还存在图像坐标系，图像坐标系以相机光轴与成像平面的交点(principal point)为坐标原点，描述物体通过投影投射在成像平面中的位置，单位一般为mm。在本实施例中，先将深度图像从像素坐标系转换至相机坐标系，再从相机坐标系转换至鸟瞰图坐标系，其中，在像素坐标系和相机坐标系之间还存在图像坐标系，其中图像坐标系和像素坐标系之间的转换关系为：

转换成矩阵形式为：

其中，(u，v)表示像素的行数和列数，(u₀，v₀)表示图像坐标系原点在像素坐标系中的坐标，dx和dy表示单个像素分别在x轴和y轴上的物理尺寸，图像坐标系与相机坐标系之间的转换关系由三角形相似原理可以得到：

转换成矩阵形式为：

将像素坐标系与图像坐标系的转换公式带入并整理，可得

其中，f_x＝f/dx，f_y＝f/dy分别表示相机在x轴和y轴方向上的焦距，也就是水平焦距和垂直焦距，只需要知道相机在x轴和y轴方向上的焦距以及图像坐标系原点在像素坐标系中的坐标即可将在相机坐标系和像素坐标系之间进行转换，通过标定即可得到上述的(u₀，v₀)、f_x和f_y。

在本实施例中根据上述的转换矩阵，可以得到x_c＝(u-u₀)/f_x，y_c＝(v-v₀)/f_y，根据每个像素在像素坐标系的坐标，即可计算得到每个像素对应在相机坐标系上x轴和y轴的坐标，并将深度值d作为相机坐标系上的z轴坐标，即可完成将深度值上的像素转换至相机坐标系上，并将每个坐标的3d点作为一个伪点云，即可得到每个像素在相机坐标系上的伪点云。

在本实施例中，在之后，还包括：判断深度图中是否存在置信度小于预设置信度阈值的像素；若存在，则将置信度小于预设置信度阈值的像素对应的伪点云删除。

具体的，深度估计模型将预测得到每个像素的深度值d与置信度值c，其中d∈[0,dmax]，c∈(0,1)，dmax为预先定义的模型预测的最大深度，置信度指的是深度估计的精度和可靠程度，即点云的质量，对于置信度低的像素点，尤其是深度变化较大的背景像素点，当置信度c<0.5时，将不采信模型在该像素预测的深度，即忽略其对应的伪点云。

205、获取多个相机的相机外参；

在实际应用中，为了将多个相机对应的伪点云转换至统一的鸟瞰图坐标系，需要获取不同相机对应的相机外参，相机外参包括各相机对应的相机坐标系相对于鸟瞰图坐标系的偏转角和平移量，分别记为R和T。

206、基于相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云；

在本实施例中，所述基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云包括：根据所述相机外参构建所述相机坐标系至所述鸟瞰图坐标系的转换矩阵；根据各相机的转换矩阵将所有伪点云从对应的相机坐标系转换至所述鸟瞰图坐标系中，得到稠密的鸟瞰图点云。

具体的，相机坐标系到鸟瞰图坐标系的转换关系如下：

其中，

为转换矩阵，x_w、y_w、z_w分别是伪点云转换至鸟瞰图坐标系下的坐标。

207、根据各单目图像中各像素与伪点云的第一对应关系，将像素对应的图像特征转换至鸟瞰图坐标系，得到鸟瞰图点云的鸟瞰图特征；

在本实施例中，所述根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征包括：根据所述转换矩阵，确定所述伪点云与所述鸟瞰图坐标系上的鸟瞰图格点的第二对应关系；根据所述第一对应关系和所述第二对应关系，将所述深度图中各像素对应的图像特征转换至所述鸟瞰图坐标系的鸟瞰图格点中；对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征。

具体的，根据像素和伪点云之间的对应关系以及伪点云和鸟瞰图格点的对应关系，可以得到像素和鸟瞰图格点的对应关系，由于鸟瞰图格点为统一的坐标系，且存在多个相机拍摄的同一帧单目图像，所以鸟瞰图格点对应存在多个像素以及伪点云，根据该对应关系，可将多种像素粒度的图像信息，包括像素的RGB值、图像语义与实例分割结果、基于线段或矩形框的参数化图像检测结果等变换值鸟瞰图坐标系下。

在本实施例中，所述对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征包括：根据所述第一对应关系和所述第二对应关系，判断所述鸟瞰图格点是否对应有多个像素；若存在，则计算相同鸟瞰图格点中的图像特征的平均值或确定相同鸟瞰图格点中的图像特征中的最大值，并将所述平均值或所述最大值作为所述鸟瞰图格点的鸟瞰图特征。

具体的，考虑到鸟瞰图特征通常需要做栅格化处理以适应卷积神经网络的结构以及减少计算量，在变换过程中可能会出现一个鸟瞰图格点同时对应多个不同像素的情况，需要采用不依赖顺序的聚集(aggregation)方法，如取平均值、最大值等，在特征维度处理不同像素点所对应的图像特征。最后，融合得到的栅格化特征图可作为鸟瞰图模型的输入，完成各种感知任务。

208、基于鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

本实施例在上一实施例的基础上，详细描述了伪点云的生成过程，以及将伪点云和对应的图像特征转换至鸟瞰图坐标系的过程，其中，通过获取多个所述相机的相机外参；基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云；根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征。本方法能够在保证安全性的前提下摆脱感知算法对于测距传感器的强依赖，极大地降低了硬件套件的成本，在3D感知任务中直接而有效地利用2D图像感知任务的结果，提取丰富的图像信息并变换至3D空间，以提高感知算法的性能，尤其是处理长尾场景的能力。

上面对本发明实施例中目标检测与语义分割方法进行了描述，下面对本发明实施例中目标检测与语义分割装置进行描述，请参阅图3，本发明实施例中目标检测与语义分割装置一个实施例包括：

深度标注模块301，用于获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；

伪点云生成模块302，用于根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云；

转换模块303，用于将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；

感知任务执行模块304，用于基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

本发明实施例中，所述目标检测与语义分割装置运行上述目标检测与语义分割方法，所述目标检测与语义分割装置通过获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相机坐标系，得到所述深度图中各像素在所述相机指标系下的伪点云；对所述伪点云以及对应的图像特征进行至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。本申请的技术方案中，能够在保证安全性的前提下摆脱感知算法对于测距传感器的强依赖，极大地降低了硬件套件的成本，在3D感知任务中直接而有效地利用2D图像感知任务的结果，提取丰富的图像信息并变换至3D空间，以提高感知算法的性能，尤其是处理长尾场景的能力。

请参阅图4，本发明实施例中目标检测与语义分割装置的第二个实施例包括：

在本实施例中，所述相机内参包括焦距和图像中心点的坐标，所述焦距包括水平焦距和垂直焦距，所述图像坐标包括水平图像坐标、垂直图像坐标和深度图像坐标；所述伪点云生成模块302具体用于：根据所述水平图像坐标、所述水平焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的水平相机坐标；根据所述垂直图像坐标、所述垂直焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的垂直相机坐标；将所述深度图像坐标作为所述伪点云在相应的相机坐标系下的深度相机坐标，并基于所述水平相机坐标、所述垂直相机坐标和所述深度图像坐标生成各像素对应的伪点云。

在本实施例中，所述目标检测与语义分割装置还包括点云删除模块305，所述点云删除模块305具体用于：判断所述深度图中是否存在置信度小于预设置信度阈值的像素；若存在，则将置信度小于预设置信度阈值的像素对应的伪点云删除。

在本实施例中，所述转换模块303具体包括：获取单元3031，用于获取多个所述相机的相机外参；点云转换单元3032，用于基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云；特征转换单元3033，用于根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征。

在本实施例中，所述点云转换单元3032具体用于：根据所述相机外参构建所述相机坐标系至所述鸟瞰图坐标系的转换矩阵；根据各相机的转换矩阵将所有伪点云从对应的相机坐标系转换至所述鸟瞰图坐标系中，得到稠密的鸟瞰图点云。

在本实施例中，所述特征转换单元具体包括：关系确定子单元30331，用于根据所述转换矩阵，确定所述伪点云与所述鸟瞰图坐标系上的鸟瞰图格点的第二对应关系；关系转换子单元30332，用于根据所述第一对应关系和所述第二对应关系，将所述深度图中各像素对应的图像特征转换至所述鸟瞰图坐标系的鸟瞰图格点中；栅格化子单元30333，用于对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征。

在本实施例中，所述栅格化子单元30333具体还用于：根据所述第一对应关系和所述第二对应关系，判断所述鸟瞰图格点是否对应有多个像素；若存在，则计算相同鸟瞰图格点中的图像特征的平均值或确定相同鸟瞰图格点中的图像特征中的最大值，并将所述平均值或所述最大值作为所述鸟瞰图格点的鸟瞰图特征。

在本实施中，详细说明了目标检测与语义分割装置的各模块的具体功能和部分模块的单元构成，通过本装置的各模块和各单元，能够在保证安全性的前提下摆脱感知算法对于测距传感器的强依赖，极大地降低了硬件套件的成本，在3D感知任务中直接而有效地利用2D图像感知任务的结果，提取丰富的图像信息并变换至3D空间，以提高感知算法的性能，尤其是处理长尾场景的能力。

上面图3和图4从模块化功能实体的角度对本发明实施例中的中目标检测与语义分割装置进行详细描述，下面从硬件处理的角度对本发明实施例中目标检测与语义分割设备进行详细描述。

图5是本发明实施例提供的一种目标检测与语义分割设备的结构示意图，该目标检测与语义分割设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对目标检测与语义分割设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在目标检测与语义分割设备500上执行存储介质530中的一系列指令操作，以实现上述目标检测与语义分割方法的步骤。

目标检测与语义分割设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的目标检测与语义分割设备结构并不构成对本申请提供的目标检测与语义分割设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述目标检测与语义分割方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标检测与语义分割方法，其特征在于，所述目标检测与语义分割方法包括：

获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；

根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云；

将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；

基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

2.根据权利要求1所述的目标检测与语义分割方法，其特征在于，所述相机内参包括焦距和图像中心点的坐标，所述焦距包括水平焦距和垂直焦距，所述图像坐标包括水平图像坐标、垂直图像坐标和深度图像坐标；

所述根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云包括：

根据所述水平图像坐标、所述水平焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的水平相机坐标；

根据所述垂直图像坐标、所述垂直焦距和所述图像中心点的坐标计算伪点云在相应的相机坐标系下的垂直相机坐标；

将所述深度图像坐标作为所述伪点云在相应的相机坐标系下的深度相机坐标，并基于所述水平相机坐标、所述垂直相机坐标和所述深度图像坐标生成各像素对应的伪点云。

3.根据权利要求2所述的目标检测与语义分割方法，其特征在于，所述深度图还携带有每个像素的置信度，在所述基于所述水平相机坐标、所述垂直相机坐标和所述深度图像坐标生成各像素对应的伪点云之后，还包括：

判断所述深度图中是否存在置信度小于预设置信度阈值的像素；

若存在，则将置信度小于预设置信度阈值的像素对应的伪点云删除。

4.根据权利要求1-3中任一项所述的目标检测与语义分割方法，其特征在于，所述将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征包括：

获取多个所述相机的相机外参；

基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云；

根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征。

5.根据权利要求4所述的目标检测与语义分割方法，其特征在于，所述基于所述相机外参将各单目图像对应的伪点云转换至统一的鸟瞰图坐标系上，得到稠密的鸟瞰图点云包括：

根据所述相机外参构建所述相机坐标系至所述鸟瞰图坐标系的转换矩阵；

根据各相机的转换矩阵将所有伪点云从对应的相机坐标系转换至所述鸟瞰图坐标系中，得到稠密的鸟瞰图点云。

6.根据权利要求5所述的目标检测与语义分割方法，其特征在于，所述根据各单目图像中各像素与所述伪点云的第一对应关系，将所述像素对应的图像特征转换至所述鸟瞰图坐标系，得到所述鸟瞰图点云的鸟瞰图特征包括：

根据所述转换矩阵，确定所述伪点云与所述鸟瞰图坐标系上的鸟瞰图格点的第二对应关系；

根据所述第一对应关系和所述第二对应关系，将所述深度图中各像素对应的图像特征转换至所述鸟瞰图坐标系的鸟瞰图格点中；

对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征。

7.根据权利要求6所述的目标检测与语义分割方法，其特征在于，所述对转换至所述鸟瞰图格点中的图像特征进行栅格化处理，得到鸟瞰图特征包括：

根据所述第一对应关系和所述第二对应关系，判断所述鸟瞰图格点是否对应有多个像素；

若存在，则计算相同鸟瞰图格点中的图像特征的平均值或确定相同鸟瞰图格点中的图像特征中的最大值，并将所述平均值或所述最大值作为所述鸟瞰图格点的鸟瞰图特征。

8.一种目标检测与语义分割装置，其特征在于，所述目标检测与语义分割装置包括：

深度标注模块，用于获取多个相机拍摄的同一帧单目图像，并对所述单目图像进行深度标注，得到所述单目图像对应的深度图；

伪点云生成模块，用于根据多个所述相机的相机内参，将所述深度图中的各像素的图像坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机指标系下的多个伪点云；

转换模块，用于将多个所述伪点云以及对应的图像特征转换至预设的鸟瞰图坐标系中，得到对应的鸟瞰图点云和鸟瞰图特征；

感知任务执行模块，用于基于所述鸟瞰图点云和对应的鸟瞰图特征执行鸟瞰图视角下的目标检测和语义分割。

9.一种目标检测与语义分割设备，其特征在于，所述目标检测与语义分割设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述目标检测与语义分割设备执行如权利要求1-7中任一项所述的目标检测与语义分割方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的目标检测与语义分割方法的步骤。