CN114677658A

CN114677658A - 十亿像素动态大场景图像采集和多目标检测方法及装置

Info

Publication number: CN114677658A
Application number: CN202210234371.0A
Authority: CN
Inventors: 方璐; 李晓飞; 戴琼海; 董众
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-28

Abstract

本发明提出一种基于十亿像素动态大场景图像采集和多目标检测方法及装置，其中方法包括，获取待检测道路中设定的多个路段的图像，以及多个路段的深度信息；根据多个路段的图像和多个路段的深度信息生成整个路段的大场景深度图像；采用分割算法将大场景深度图像进行分割以提取至少一个候选框，并将至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；将各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；根据目标最终分类结果和道路上下道地图信息生成目标检测结果。

Description

十亿像素动态大场景图像采集和多目标检测方法及装置

技术领域

本发明属于路侧感知及车路交互的车路协同领域，以及十亿像素动态大场景图像采集与检测领域。

背景技术

自动驾驶是未来汽车行业发展趋势之一，自动驾驶的安全性关系到车主的生命和财产安全。自动驾驶车辆由于车载端视线范围受限，面临感知受到遮挡失效且难以快速精确感知道路信息的安全问题。路侧感知技术为有限的车载端视线范围提供一种提前感知前方路况的能力。路侧感知主要借助摄像头、激光雷达等多种传感器，运用计算机视觉目标检测、跟踪等模型，以及多传感器融合理论等实现对道路目标的检测、跟踪、定位等。

相比于车载感知，路侧感知具有以下优势：(1)在感知范围和目标跟踪方面，路侧传感器安装在道路杆件上，这种鸟瞰式视角感知的场景范围更大，可以检测和长时间跟踪的目标种类和数量更多，因此，路侧感知提供的道路环境信息远多于和丰富于车载感知。(2)在训练数据样本方面，路侧感知相对车载感知可以提供更高的算力，可以选择的网络模型更多，例如更复杂的网络模型。(3)在感知算法方面，路侧感知与车载感知的感知区域背景不同，车载传感器的感知区域背景是动态的，而路侧传感器感知区域是固定的，因此路侧感知可以加入一些静态背景算法(如背景建模、区域分割等)和建立更加准确的滤地模型来提高感知精度。

路侧感知目前亟待解决的问题如下：(1)虽然路侧传感器相比于车载传感器的安装高度更高，但是目前的路侧传感器感知方向主要还是和车载传感器一样是同向的，因此仍然存在较多的目标间遮挡。(2)路侧传感器捕捉的目标具有更丰富的外观、尺度变化等特征，而车载感知的样本数据不能满足路侧感知所需要数据的多样化需求，因此路侧数据需重新采集和标注。(3)路侧传感器部署点位不同，因此会有不同方向上的多传感器数据融合，待融合的数据复杂度更高，算法要求也更高。(4)路侧感知的场景大，目标数量和种类也比较多，目标外观和尺度变化更丰富，因此对目标检测神经网络的设计与训练带来了更大的挑战。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种十亿像素动态大场景图像采集和多目标检测方法，用于实时、快速地获取更加丰富的道路信息。

本发明的第二个目的在于提出一种十亿像素动态大场景图像采集和多目标检测装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种十亿像素动态大场景图像采集和多目标检测方法，包括：获取待检测道路中设定的多个路段的图像，以及多个路段的深度信息；根据多个路段的图像和多个路段的深度信息生成整个路段的大场景深度图像；采用分割算法将大场景深度图像进行分割以提取至少一个候选框，并将至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；将各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；根据目标最终分类结果和道路上下道地图信息生成目标检测结果。

本发明实施例提出的十亿像素动态大场景图像采集和多目标检测方法，其中路侧十亿像素动态大场景感知传感器的架设方案和多路段道路信息获取与拼接方法非常好的解决了道路上目标间的遮挡问题，扩大了路侧感知的范围；提出的基于离线道路地图信息和大场景深度图的滤地算法，提高了目标检测候选框分割的精度和速度；提出的针对路侧感知的十亿像素动态大场景多目标检测方法实现了路侧感知大场景多目标的快速准确检测；本发明可为无人驾驶车辆提供超出视线范围的丰富的道路信息。

另外，根据本发明上述实施例的十亿像素动态大场景图像采集和多目标检测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，根据多个路段的图像和所述多个路段的深度信息生成整个路段的大场景深度图像，包括：

将同一路段获取的图像和深度信息进行像素级配准；

将各个路段获取的图像按照预设拼接规则进行像素级拼接，生成道路的大场景图像；

将各个路段获取的深度信息按照所述大场景图像的预设拼接规则进行像素级拼接，生成道路的大场景深度图；

根据大场景图像和大场景深度图生成道路的大场景深度图像。

进一步地，在本发明的一个实施例中，在采用分割算法将所述大场景深度图像进行分割以提取至少一个候选框之前，还包括：

将大场景深度图像中的大场景图像根据基于离线道路地图信息和大场景深度图的滤地算法去除大场景图像中的地面，得到待分割大场景图像。

进一步地，在本发明的一个实施例中，采用分割算法将大场景深度图像进行分割以提取至少一个候选框，包括：

采用分割算法将待分割大场景图像进行分割，提取候选框。

进一步地，在本发明的一个实施例中，采用分割算法待分割大场景图像进行分割，提取候选框，包括：

在与道路平行的方向上，对待分割大场景图像中两个边界均为去除地面的边界的区域，若区域的长度小于或者等于汽车的长度，则直接将区域作为一个候选框；若区域的长度大于汽车的长度，那么按照汽车长度进行候选框的划分；

在与道路垂直的方向上，对待分割大场景图像中两个边界均为去除地面的边界的区域，若区域的高度小于或者等于汽车的高度，则直接将区域作为一个候选框；若区域的高度大于汽车的高度，那么按照汽车高度进行候选框的划分。

进一步地，在本发明的一个实施例中，在根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果之前，还包括：

根据大场景深度图得到各个候选框的中心位置的平均深度值，结合各个候选框在像素坐标系下的面积大小得到候选框内目标的物理大小。

进一步地，在本发明的一个实施例中，根据所述目标最终分类结果和道路上下道地图信息生成目标检测结果，包括：

根据候选框在大场景图像中的坐标和离线道路上下道地图信息，得到目标在道路上的位置和上下行道检测结果；

将检测到的目标所属类别、位置和上下行道结果输出。

为达上述目的，本发明第二方面实施例提出了一种十亿像素动态大场景图像采集和多目标检测装置，包括：获取模块，用于获取待检测道路中设定的多个路段的图像，以及多个路段的深度信息；生成模块，用于根据多个路段的图像和多个路段的深度信息生成整个路段的大场景深度图像；分割模块，用于采用分割算法将大场景深度图像进行分割以提取至少一个候选框，并将所述至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；分类模块，用于将各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；输出模块，用于根据目标最终分类结果和道路上下道地图信息生成目标检测结果。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的十亿像素动态大场景图像采集和多目标检测方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的十亿像素动态大场景图像采集和多目标检测方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种十亿像素动态大场景图像采集和多目标检测方法的流程示意图。

图2为本发明实施例所提供的一种十亿像素动态大场景图像采集和多目标检测装置的流程示意图。

图3为本发明实施例所提供的路侧十亿像素动态大场景图像采集和多目标检测***示意图。

图4为本发明实施例所提供的总控中心反馈给各无人车的道路检测结果示意图。

图5为本发明实施例所提供的路侧十亿像素动态大场景多目标检测方法原理示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的十亿像素动态大场景图像采集和多目标检测方法和装置。

图1为本发明实施例所提供的一种基于十亿像素动态大场景图像采集和多目标检测方法的流程示意图。

如图1所示，该十亿像素动态大场景图像采集和多目标检测方法包括以下步骤：

S1：获取待检测道路中设定的多个路段的图像，以及多个路段的深度信息；

S2：根据多个路段的图像和多个路段的深度信息生成整个路段的大场景深度图像；

S3：采用分割算法将大场景深度图像进行分割以提取至少一个候选框，并将至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；

S4：将各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；

S5：根据目标最终分类结果和道路上下道地图信息生成目标检测结果。

如图3所示，为了解决道路车辆和行人等目标间遮挡问题，也为了更加实时、快速地获取更加丰富的道路信息，本发明提出在每条整路一侧分多段以一定的高度(即鸟瞰式)架设摄像头和激光雷达等传感器进行道路图像拍摄和激光测距，且摄像头和激光雷达的拍摄和测距方向均垂直于道路方向；然后将各个路段拍摄的图像和测得的距离发送到总控中心(橙色线所示)；然后总控中心将单个路段拍摄的RGB图像和测得的深度图(深度图由激光雷达测得的距离生成，类似于灰度图像，每个像素值是激光雷达测出距离目标的实际距离)进行像素级配准，之后将各个路段的图像和深度图按照相同规则分别进行拼接，并生成深度图像(深度图像由普通RGB三通道彩色图像与深度图生成，且RGB图和深度图是配准的，像素之间一一对应)；然后将深度图像输入到十亿像素动态大场景多目标检测算法进行目标检测，基于深度图像的目标检测可以规避纯计算机视觉目标检测的弱点，如缺乏纹理、光照不足、过度曝光、软件计算复杂度高、快速运动等；最后将检测到的道路信息(包括道路目标所属类别、位置和上下行道信息，交通灯状态和交通标志等)反馈给无人驾驶车辆(即图中的无人车)。

将同一路段获取的图像和深度信息进行像素级配准；

采用分割算法将待分割大场景图像进行分割，提取候选框。

将检测到的目标所属类别、位置和上下行道结果输出。

图4为总控中心反馈给各无人车的道路检测结果示意图。如图所示，不同种类的目标由不同颜色的圆点表示，圆点的位置为各目标所在道路位置的中心。对于机动车辆，加号“+”和减号“-”表示目标所处位置属于上行道还是下行道，其中驶向目标十字路口用加号“+”表示，处于上行道；驶离目标十字路口用减号“-”表示，处于下行道。对于行人和自行车，加号“+”和减号“-”分别表示目标是在马路上正在过马路还是在马路外。固定不动的目标，例如大树则不标注。

图5为本发明提出的路侧十亿像素动态大场景多目标检测方法原理图。如图所示，路侧十亿像素动态大场景多目标检测主要分为两个阶段，第一个阶段路侧大场景深度图像生成阶段：首先，将同一时间同一路段拍摄的图像和测得的距离进行像素级配准(即像素之间一一对应)；然后将同一时间各个路段拍摄的图像进行像素级拼接，生成整路段的大场景图像；然后将同一时间各个路段测得的距离根据大场景图像的拼接规则进行像素级拼接，生成整路段的大场景深度图；然后将整路段的大场景图像和大场景深度图生成大场景深度图像。第二个阶段是大场景深度图像目标检测阶段：首先将生成的大场景深度图像中的大场景图像根据基于离线道路地图信息和大场景深度图的滤地算法去除大场景图像中的地面；然后采用分割算法将去除地面的大场景图像进行分割，提取候选框，候选框的生成方法如下：在候选框长度方向上(即与道路同向的方向)，首先分割出去除地面的大场景图像中两个边界均为去除地面的边界的区域，这些区域中若某些区域的长度小于或者等于汽车的长度，则直接将此区域作为一个候选框，若某些区域的长度大于汽车的长度，那么按照汽车长度(十字路口要多加一个行人宽度的划分标准)进行候选框的划分；在候选框高度方向上(即与道路垂直的方向)，首先分割出去除地面的大场景图像中两个边界均为去除地面的边界的区域，这些区域中若某些区域的高度小于或者等于汽车的高度(这里的汽车高度指的是本发明提出的路侧传感器架设方案下拍摄的汽车的高度，而非汽车在汽车侧面视角下的高度)，则直接将此区域作为一个候选框，若某些区域的高度大于汽车的高度，那么按照汽车高度(十字路口要多加一个行人高度的划分标准)进行候选框的划分。然后将生成的各候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像的特征图；然后将各候选框内的图像的特征图输入到全连接神经网络进行目标初步分类；然后根据大场景深度图得到各个候选框的中心位置的平均深度值，结合各个候选框在像素坐标系下的面积大小得到候选框内目标的物理大小；然后根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到最终的目标分类结果并进行框回归；然后根据候选框在大场景图像中的坐标和离线道路上下道地图信息，得到目标在道路上的位置和上下行道检测结果；最后将检测到的目标所属类别、位置和上下行道结果输出。

为了实现上述实施例，本发明还提出一种十亿像素动态大场景图像采集和多目标检测装置。

图2为本发明实施例提供的一种十亿像素动态大场景图像采集和多目标检测装置的结构示意图。

如图2所示，该十亿像素动态大场景图像采集和多目标检测装置包括：获取模块10，生成模块20，分割模块30，分类模块40，输出模块50，其中，获取模块，用于获取待检测道路中设定的多个路段的图像，以及多个路段的深度信息；生成模块，用于根据多个路段的图像和多个路段的深度信息生成整个路段的大场景深度图像；分割模块，用于采用分割算法将大场景深度图像进行分割以提取至少一个候选框，并将所述至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；分类模块，用于将各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；输出模块，用于根据目标最终分类结果和道路上下道地图信息生成目标检测结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种十亿像素动态大场景图像采集和多目标检测方法，其特征在于，所述方法包括以下步骤：

获取待检测道路中设定的多个路段的图像，以及所述多个路段的深度信息；

根据所述多个路段的图像和所述多个路段的深度信息生成整个路段的大场景深度图像；

采用分割算法将所述大场景深度图像进行分割以提取至少一个候选框，并将所述至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；

将所述各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；

根据所述目标最终分类结果和道路上下道地图信息生成目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个路段的图像和所述多个路段的深度信息生成整个路段的大场景深度图像，包括：

将同一路段获取的图像和深度信息进行像素级配准；

将各个路段获取的图像按照预设拼接规则进行像素级拼接，生成所述道路的大场景图像；

将各个路段获取的深度信息按照所述大场景图像的所述预设拼接规则进行像素级拼接，生成所述道路的大场景深度图；

根据所述大场景图像和大场景深度图生成所述道路的大场景深度图像。

3.根据权利要求1所述的方法，其特征在于，在所述采用分割算法将所述大场景深度图像进行分割以提取至少一个候选框之前，还包括：

将所述大场景深度图像中的大场景图像根据基于离线道路地图信息和大场景深度图的滤地算法去除大场景图像中的地面图像，得到待分割大场景图像。

4.根据权利要求3所述的方法，其特征在于，所述采用分割算法将所述大场景深度图像进行分割以提取至少一个候选框，包括：

采用分割算法将所述待分割大场景图像进行分割，提取候选框。

5.根据权利要求4所述的方法，其特征在于，所述采用分割算法所述待分割大场景图像进行分割，提取候选框，包括：

在与所述道路平行的方向上，对所述待分割大场景图像中两个边界均为去除地面的边界的区域，若所述区域的长度小于或者等于汽车的长度，则直接将所述区域作为一个候选框；若所述区域的长度大于汽车的长度，那么按照汽车长度进行候选框的划分；

在与所述道路垂直的方向上，对所述待分割大场景图像中两个边界均为去除地面的边界的区域，若所述区域的高度小于或者等于汽车的高度，则直接将所述区域作为一个候选框；若所述区域的高度大于汽车的高度，那么按照汽车高度进行候选框的划分。

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果之前，还包括：

根据所述大场景深度图得到各个候选框的中心位置的平均深度值，以及各个候选框在像素坐标系下的面积得到候选框内目标的物理大小。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标最终分类结果和道路上下道地图信息生成目标检测结果，包括：

根据候选框在所述大场景图像中的坐标和离线道路上下道地图信息，得到目标在道路上的位置和上下行道检测结果；

将检测到的目标所属类别、位置和上下行道结果输出。

8.一种十亿像素动态大场景图像采集和多目标检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测道路中设定的多个路段的图像，以及所述多个路段的深度信息；

生成模块，用于根据所述多个路段的图像和所述多个路段的深度信息生成整个路段的大场景深度图像；

分割模块，用于采用分割算法将所述大场景深度图像进行分割以提取至少一个候选框，并将所述至少一个候选框内的图像输入到卷积神经网络进行特征提取，得到各候选框内的图像特征图；

分类模块，用于将所述各候选框内的图像特征图输入到全连接神经网络进行目标初步分类，根据目标初步分类结果、候选框内目标的物理大小和标注各目标物理大小范围的类别标签集得到目标最终分类结果；

输出模块，用于根据所述目标最终分类结果和道路上下道地图信息生成目标检测结果。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的方法。