CN108388834B

CN108388834B - 利用循环神经网络和级联特征映射的对象检测

Info

Publication number: CN108388834B
Application number: CN201810052196.7A
Authority: CN
Inventors: 盖伊·霍特森; 帕尔萨·马哈茂迪尔; 维迪亚·那利亚姆布特·穆拉里
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2017-01-24
Filing date: 2018-01-19
Publication date: 2023-08-22
Anticipated expiration: 2038-01-19
Also published as: US20190122067A1; US20180211128A1; GB201801009D0; RU2701051C2; RU2018101866A; US11062167B2; DE102018101318A1; CN108388834A; US20210103755A1; US10452946B2; GB2561051A; MX2018000851A; US10198655B2; RU2018101866A3

Abstract

根据一个实施例，一种***包括传感器部件和检测部件。传感器部件配置成获取第一传感器数据流和第二传感器数据流，其中第一传感器数据流和第二传感器数据流中的每一者均包括多个传感器帧。检测部件配置成基于第一类型的传感器帧和第二类型的传感器帧来生成级联特征映射。检测部件配置成基于级联特征映射来检测一个或多个对象。生成和检测的其中一个或多个操作包括利用具有环式联系的神经网络来生成或检测，该环式联系馈送来自先前的帧的关于特征或对象的信息。

Description

利用循环神经网络和级联特征映射的对象检测

技术领域

本公开大体上涉及用于检测对象或视觉特征的方法、***以及设备，并且尤其是涉及利用循环神经网络和级联特征映射(concatenated feature map)进行对象检测的方法、***以及设备。

背景技术

机动车为商业、政府以及私人实体提供了很重要一部分运输。目前正在将自主车辆和驾驶辅助***开发和部署成提供安全性，减少所需的用户输入量，或甚至完全消除用户参与。例如，一些驾驶辅助***(例如防撞***)可在人类驾驶时监测车辆和其他对象的驾驶、位置以及速度。当***检测到即将发生碰撞或撞击时，防撞***会介入并且施加制动、使车辆转向或者执行其他回避或安全操作。作为另一个示例，自主车辆可在很少或没有用户输入的情况下驾驶和导航车辆。基于传感器数据的对象检测通常是使自动化驾驶***或驾驶辅助***能够安全地识别和避开障碍或者安全驾驶所必需的。

发明内容

根据本发明，提供一种方法，该方法包括：

基于第一类型的传感器帧和第二类型的传感器帧来生成级联特征映射；以及

基于级联特征映射来检测一个或多个对象；

其中生成和检测的其中一个或多个操作包括利用具有环式联系的神经网络来生成或检测，环式联系馈送来自先前的帧的关于特征或对象的信息。

根据本发明的一个实施例，方法进一步包括基于第一类型的传感器帧来生成第一特征映射，并且基于第二类型的传感器帧来生成第二特征映射，其中生成级联特征映射包括：基于第一特征映射或第二特征映射中的高层特征来生成。

根据本发明的一个实施例，生成级联特征映射包括：生成包含来自第一特征映射和第二特征映射两者的特征的融合特征映射。

根据本发明的一个实施例，第一类型的传感器帧包括图像，并且第二类型的传感器帧包括深度图。

根据本发明的一个实施例，神经网络前馈以下所列的一项或多项：

前一级联特征映射中的特征；

在前一帧或时间段中检测到的对象；以及

前一传感器帧中的特征。

根据本发明的一个实施例，第一类型的传感器帧包括第一类型的第一传感器帧，第二类型的传感器帧包括第二类型的第一传感器帧，级联特征映射包括第一级联特征映射，以及一个或多个对象包括一个或多个第一对象，其中方法进一步包括：

基于第一类型的第二传感器帧和第二类型的第二传感器帧来生成第二级联特征映射；

基于第二级联特征映射来检测一个或多个第二对象；以及

利用神经网络的环式联系来前馈第二级联特征映射的特征或者一个或多个第二对象中的一项或多项以便生成第一级联特征映射或者检测一个或多个第一对象。

根据本发明的一个实施例，神经网络包括输入层、一个或多个隐藏层以及分类层，其中在生成级联特征映射或者检测一个或多个对象期间，环式联系将来自先前的帧的分类层的输出馈送到下列中的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层。

根据本发明的一方面，提供一种***，包括：

一个或多个传感器部件，该一个或多个传感器部件配置成获取第一传感器数据流和第二传感器数据流，其中第一传感器数据流和第二传感器数据流中的每一者均包括多个传感器帧；

检测部件，该检测部件配置成：

基于级联特征映射来检测一个或多个对象；

根据本发明的一个实施例，检测部件进一步配置成基于第一类型的传感器帧来生成第一特征映射，并且基于第二类型的传感器帧来生成第二特征映射，其中检测部件通过基于第一特征映射或第二特征映射中的高层特征生成来生成级联特征映射。

根据本发明的一个实施例，检测部件配置成通过生成包含来自第一特征映射和第二特征映射两者的特征的融合特征映射来生成级联特征映射。

根据本发明的一个实施例，神经网络的环式联系前馈以下所列的一项或多项：

前一级联特征映射中的特征；

基于先前的帧或前一时间段检测到的对象；以及

前一传感器帧中的特征。

根据本发明的一个实施例，第一类型的传感器帧包括第一类型的第一传感器帧，第二类型的传感器帧包括第二类型的第一传感器帧，级联特征映射包括第一级联特征映射，以及一个或多个对象包括一个或多个第一对象，其中检测部件进一步配置成：

基于第二级联特征映射来检测一个或多个第二对象；以及

根据本发明的一个实施例，神经网络包括输入层、一个或多个隐藏层以及分类层，其中在生成级联特征映射或者检测一个或多个对象期间，环式联系将来自先前的帧的分类层输出馈送到输入层或者一个或多个隐藏层中的一个隐藏层的一个或多个中。

根据本发明，提供一种计算机可读存储介质，该计算机可读存储介质存储指令，该指令在由一个或多个处理器执行时使一个或多个处理器执行以下所列的操作：

获取第一传感器数据流和第二传感器数据流，其中第一传感器数据流和第二传感器数据流中的每一者均包括多个传感器帧；

基于级联特征映射来检测一个或多个对象；

根据本发明的一个实施例，指令进一步使一个或多个处理器基于第一类型的传感器帧来生成第一特征映射，并且基于第二类型的传感器帧来生成第二特征映射，其中指令使一个或多个处理器通过基于第一特征映射或第二特征映射中的高层特征生成来生成级联特征映射。

根据本发明的一个实施例，指令使一个或多个处理器通过生成包含来自第一特征映射和第二特征映射两者的特征的融合特征映射来生成级联特征映射。

根据本发明的一个实施例，指令进一步使一个或多个处理器利用神经网络的环式联系前馈以下所列的一项或多项：

前一级联特征映射中的特征；

基于先前的帧或前一时间段检测到的对象；以及

前一传感器帧中的特征。

根据本发明的一个实施例，第一类型的传感器帧包括第一类型的第一传感器帧，第二类型的传感器帧包括第二类型的第一传感器帧，级联特征映射包括第一级联特征映射，以及一个或多个对象包括一个或多个第一对象，其中指令进一步使一个或多个处理器执行以下所列的操作：

基于第二级联特征映射来检测一个或多个第二对象；以及

附图说明

参考如下附图来描述本公开的非限制性和非穷举的实施方式，其中，除非另有详细说明，否则相似的附图标记在各视图中始终指的是相似的部件。参照以下描述和附图，本公开的优点将变得更好理解，在附图中：

图1为示出了包括自动化驾驶/辅助***的车辆控制***的实施方式的示意性框图；

图2为示出了根据一种实施方式的具有环式联系(recurrent connection)的神经网络的示意性框图；

图3示出了根据一种实施方式的由车辆摄像机捕捉到的道路立体图；

图4为示出了根据一种实施方式在对象检测期间传感器数据帧之间的时态信息的合并的示意性框图；

图5为示出了根据一种实施方式的对象检测方法的示意性流程图；

图6为示出了根据一种实施方式与在对象检测期间传感器数据帧之间的时态信息的合并相结合地创建和使用级联特征映射的示意性框图；

图7为示出了根据一种实施方式的另一种对象检测方法的示意性流程图；以及

图8为示出了根据一种实施方式的计算***的示意性框图。

具体实施方式

出于安全性原因，智能或自主车辆可能需要能够对动态环境中的对象进行分类。深度卷积神经网络在对象识别领域中已取得了巨大的成功，在某些情况下甚至超过了人类的表现。深度卷积神经网络可非常精于提取在图像内高层特征所在的区域的映射。这些特征映射可以从静态图像的卷积中提取，然后用于图像或对象识别。

在图像/视频内的对象检测的当前发展状况已集中在从静态图像中提取特征映射，然后将该特征映射分别馈送到用于对象检测/分类和定位的分类和回归模型中。因此，虽然深度卷积神经网络在对象识别领域中已取得了巨大的成功，但是对场景内的未知数量的对象的检测产生了更大的挑战。虽然最近的创新已在检测静态图像内的对象方面取得了令人印象深刻的结果，但是申请人已经意识到，现有的模型缺乏利用时态信息来在视频或者其他传感器数据串或数据流内进行对象检测的能力。这可能导致不稳定的对象定位，特别是当对象暂时被遮挡时。

此外，检测不期望的照明条件下的视频中的对象仍然是非常具有挑战性的。例如，来自太阳的眩光或黑暗的夜间条件会使基于视觉的算法几乎无用。申请人已经意识到，可用的模型缺乏利用与来自供选择的传感器的信息在特征级相结合的时间动态来进行对象检测的能力。这可能导致在照明条件不佳的情况下失败的不稳定的对象定位。

在本公开中，申请人公开了在从视频序列中提取特征映射或检测视频序列中的对象时利用分类和回归模型(例如神经网络)内的级联特征映射和环式联系。根据一个实施例，一种***包括传感器部件和检测部件。传感器部件配置成获取第一传感器数据流和第二传感器数据流，其中第一传感器数据流和第二传感器数据流中的每一者均包含多个传感器帧。检测部件配置成基于第一类型的传感器帧和第二类型的传感器帧来生成级联特征映射。检测部件配置成基于级联特征映射来检测一个或多个对象。生成和检测的其中一个或多个操作包括利用具有环式联系的神经网络来生成或检测，该环式联系馈送来自先前的帧的关于特征或对象的信息(例如，来自先前的一个帧或多个帧的特征映射或对象预测)。

根据另一个示例实施例，视频(或其他传感器帧串)中的对象检测的方法包括利用一个或多个神经网络来确定指示对象或特征的存在的第一传感器帧的输出。该方法包括前馈第一传感器帧的输出作为用于处理第二传感器帧的输入。该方法还包括基于第一传感器帧的输出来确定指示对象或特征的存在的第二传感器帧的输出。

在一个实施例中，环式联系为使神经网络能够利用来自前一图像帧的输出作为到当前图像帧的输入的联系。本文中公开的环式联系可有效地允许神经网络维持状态信息。例如，如果神经网络在当前图像帧内检测到汽车，则这可能影响该网络的当前状态并且使得在下一帧中更有可能在该位置或附近位置处检测到汽车。在最终的对象分类和定位层之前，可利用循环层来留意动态对象位置。还可以在最终的对象分类阶段期间使用该循环层。这些循环层可接收来自从卷积网络的一个或多个层提取出的特征映射的输入。

虽然特征提取技术可能已包括不同程度的时态信息，但是用于留意和/或分类对象的回归和分类模型已集中于静态图像，而忽略了有价值的时态信息。申请人提出了一种利用回归和分类模型内部的环式联系的解决方案，这种解决方案将使对象检测器能够结合由前一时间帧对对象位置/类型的估计，从而改善预测。环式联系能够提供在较低层面并且利用神经模型隐含地学习到的置信度度量进行对象跟踪的益处。在一个实施例中，本文中公开的技术可用于端对端对象检测算法，该端对端对象检测算法将应用于像汽车、自行车以及行人检测这样的任务。此外，利用这些改善特征检测的方法能够检测特定的图像或传感器数据特征。特征可包括数据(例如图像数据、深度图数据、点云数据或其他数据)中的图案。例如，图像数据中的特征可包括具有在进行对象检测时可能受到关注的特定曲率、图案或形状的边缘(高对比度的位置)或者线条。

本公开还提出了使用从多个传感器类型获取的信息的多个特征映射提取流(例如RGB(Red Green Blue，红绿蓝)图(图像)和深度图)。在特征映射的融合期间或在对象检测期间可利用环式联系。可从传感器(例如LIDAR(激光雷达)、雷达或摄像机(例如红外深度摄像机))中提取深度图。在返回点云的传感器(例如，像雷达或LIDAR这样的飞行时间传感器)的情况下，可执行额外的处理以将点云转换成深度图。例如，可利用改良的双边滤波器使点云平整成深度图，同时保留边缘。在用RGB摄像机帧记录深度图之后，然后可将深度图额外分解成特征(例如水平视差、地上高度以及像素的局部表面法线的角度)。

深度图可馈送到深度全卷积网络中以提取特征映射。这可与相应的RGB图像帧并行执行。特征映射可包括哪些特征在图像或其他传感器帧上的哪些位置中被发现的映射。例如，特征映射可指示可能对应于行人的特征所在的区域。来自深度和RGB特征映射的特征映射然后被级联并且进一步通过该网络中进一步的卷积层发送。级联特征映射可包括从图像(例如，RGB图像)和深度图两者中导出的特征。例如，特征映射可包括基于对同一时间段内的任何可用传感器帧的分析所检测到的所有行人或其他特征。例如，可在同一时间段内捕捉到LIDAR点云和图像帧，并且检测到的特征可组合成单个特征映射。

在最终的对象分类和定位层之前，可利用循环层来留意动态对象位置。还可以在最终的对象分类阶段期间使用该循环层。这些循环层将接收来自特征映射的输入，该特征映射是从来自卷积网络的一个或多个层的组合的深度和RGB特征映射提取出的。这将能够从颜色和深度流的融合中提取出时空关系。

虽然特征提取技术已包括不同程度的时态信息，但是用于留意和/或分类对象的回归和分类模型已集中于静态图像，而忽略了有价值的时态信息。申请人提出了一种利用回归和分类模型内部的环式联系的解决方案，这种解决方案将使对象检测器能够结合由前一时间帧对对象位置/类型的估计，从而改善预测。与对象跟踪相比，这可产生类似或改善的益处，但是是在较低的层面并且利用神经模型隐含地学习到的置信度度量。此外，在一种类型的传感器数据质量很差的情况下，级联特征映射的使用可显著改善对象检测。

下面将结合附图来讨论另外的实施例和示例。

现在参考附图，图1示出了可用来自动检测、分类和/或定位对象的示例车辆控制***100。自动化驾驶/辅助***102可用来使车辆的操作自动化或得到控制或者向人类驾驶员提供帮助。例如，自动化驾驶/辅助***102可控制车辆的制动、转向、加速、车灯、警报、驾驶员通知、收音机或任何其他辅助***中的一个或多个。在另一个示例中，自动化驾驶/辅助***102可能无法提供对驾驶(例如，转向、加速或制动)的任何控制，但是可以提供通知和警报来帮助人类驾驶员安全地驾驶。自动化驾驶/辅助***102可利用神经网络或其他模型或算法来基于一个或多个传感器收集到的感知数据检测或定位对象。

车辆控制***100还包括用于检测母车辆(例如，包括车辆控制***100的车辆)的传感器范围附近或之内的对象的存在的一个或多个传感器***/装置。例如，车辆控制***100可包括一个或多个雷达***106、一个或多个LIDAR(激光雷达)***108、一个或多个摄像机***110、全球定位***(global positioning system，GPS)112和/或一个或多个超声***114。车辆控制***100可包括用于存储相关或有用的导航和安全性数据(例如地图数据、驾驶历史或其他数据)的数据存储器116。车辆控制***100还可包括用于与移动或无线网络、其他车辆、基础设施或任何其他通信***进行无线通信的收发器118。

车辆控制***100可包括用来控制车辆驾驶的各个方面的车辆控制致动器120(例如电动马达、开关或其他致动器)，以便控制制动、加速、转向等。车辆控制***100还可包括一个或多个显示器122、扬声器124或其他装置，以便可向人类驾驶员或乘客提供通知。显示器122可包括抬头显示器、仪表板显示器或指示器、显示屏或者车辆的驾驶员或乘客可看到的任何其他视觉指示器。扬声器124可包括车辆的音响***的一个或多个扬声器或者可包括专用于驾驶员通知的扬声器。

应该领会的是，图1的实施例仅通过示例的方式给出。在不脱离本公开的范围的情况下，其他实施例可包括更少或额外的部件。此外，所示部件可进行组合或包含在其他部件内，而不受限制。

在一个实施例中，自动化驾驶/辅助***102配置成控制母车辆的驾驶或导航。例如，自动化驾驶/辅助***102可控制车辆控制致动器120以行驶在道路、停车场、行车道或其他位置上的路径。例如，自动化驾驶/辅助***102可基于部件106至118中的任何部件所提供的信息或感知数据来确定路径。传感器***/装置106至110以及114可用来获取实时传感器数据，以便自动化驾驶/辅助***102可实时地帮助驾驶员或驾驶车辆。自动化驾驶/辅助***102可实现算法或利用模型(例如深度神经网络)来处理传感器数据以检测、识别和/或定位一个或多个对象。可能需要大量的传感器数据和传感器数据的标注，以便训练或测试模型或算法。

自动化驾驶/辅助***102可包括用于检测传感器数据内的对象、图像特征或对象的其他特征的检测部件104。在一个实施例中，检测部件104生成基于多种流式传感器数据的级联特征映射。例如，检测部件104可生成基于图像的特征映射和基于从雷达、LIDAR、红外摄像机或其他传感器数据导出的深度图的特征映射。可生成包括来自不同传感器图的所有特征的级联特征映射。因此，如果一个传感器没有提供良好的数据，则级联特征映射仍然可具有利用来自不同传感器的数据检测到的所有特征或对象。

在一个实施例中，检测部件104可利用在分类或回归模型中的环式联系来检测对象特征或对象。例如，检测部件104可包括或利用经由分类层输出是否存在对象或特征的指示的深度卷积神经网络。该输出然后可前馈到后续的图像或传感器帧。将一个传感器帧的输出馈送到下一个传感器帧可带来类似于对象跟踪的益处，但是是在允许***从神经网络的能力(例如训练和机器学习)中受益的更低层面。

图2为示出了具有环式联系的深度神经网络200的示意图。深度神经网络为具有输入节点(例如输入节点202)、一个或多个隐藏层(例如隐藏层204、206以及208)以及输出节点(例如输出节点210)的前馈计算图。为了关于图像的内容或信息的分类，将输入图像的像素值分配到输入节点，然后通过若干非线性变换经网络的隐藏层204、206、208馈送。在计算结束时，输出节点210产生对应于神经网络推断出的类别的值。类似的操作可用于像素云数据或深度图(例如从像LIDAR、雷达、超声波或其他传感器这样的距离传感器接收到的数据)的分类或特征检测。输入节点202、隐藏层204至208以及输出节点210的数量仅为说明性的。例如，较大的网络可包括用于图像的每个像素的输入节点202，因而可能具有数百、数千或其他数量的输入节点。

根据一个实施例，图2的深度神经网络200可用来将图像的内容分类成四个不同的类别：第一类别、第二类别、第三类别以及第四类别。根据本公开，类似或不同大小的神经网络可输出指示在图像(或馈送到网络200中的图像的子区域)内是否存在特定类型的对象的值。例如，第一类别可对应于是否存在车辆，第二类别可对应于是否存在自行车，第三类别可对应于是否存在行人，并且第四类别可对应于是否存在路沿或障碍。对应于类别的输出可在检测到对应类别中的对象时为高(例如，5或更大)，并且在没有检测到该类别的对象时为低(例如，小于5)。这仅仅是说明性的，这是因为用来对图像中的对象进行分类的神经网络可能包括用来适应数百或数千个像素的输入并且可能需要检测更大量的不同类型的对象。因此，用来对摄像机图像或其他传感器帧中的对象进行检测或分类的神经网络可能需要在输入层的数百或数千个节点和/或多于(或少于)四个的输出节点。

例如，将一部分原始传感器帧(例如，车辆控制***100的传感器捕捉到的图像、LIDAR帧、雷达帧等)馈送到网络200中可指示在该部分中存在行人。因此，神经网络100可使计算***能够自动推断出在图像或传感器帧内并且相对于车辆的特定位置处存在行人。可利用类似的技术或原理来推断关于或检测车辆、交通标志、自行车、障碍等的信息。

神经网络(具有或不具有环式联系)还可用来识别或检测传感器帧内或传感器帧的子区域内的特征。

神经网络200还包括输出节点210与输入节点202之间的多个环式联系。输出节点210处的值可通过延迟器212反馈到一个或多个输入节点。延迟器212可延迟/保存输出值以供在随后的传感器帧期间进行输入。例如，输入节点202的一个子集可接收来自前一传感器帧(例如图像帧)的输出，而其余输入节点202可接收当前传感器帧的像素或点值。因此，前一帧的输出可对是否再次检测到特定对象或特征产生影响。例如，如果在图像中检测到行人，则可将指示存在行人的输出馈送到输入节点202中，以便网络更有可能在随后的帧中检测到行人。这在捕捉到一系列图像并且车辆需要检测和避开障碍的视频中是有用的。此外，提供一系列传感器帧的任何传感器(举例来说，例如激光雷达(LIDAR)或雷达(RADAR))也可受益于环式联系。

虽然显示出神经网络200具有输出节点210与输入节点202之间的环式联系，但是在不同实施例中环式联系可出现在任何节点或层之间。例如，环式联系可将输出节点210的值馈送到隐藏层(例如，204、206以及208)中的节点中或者作为输入馈送到输出节点210中。环式联系可允许对来自前一传感器帧的对象或特征的检测影响对随后的传感器帧的对象或特征的检测。

需要基于示例来训练神经网络，以便使深度神经网络能够区分任何期望的类别。一旦获得带有标签(训练数据)的图像，便可以训练网络。用于训练的一个示例算法包括可利用标记的传感器帧来训练神经网络的反向传播算法。训练不仅可基于传感器数据而且可基于从前一组像素/帧数据确定的输出或信息来针对如何检测对象或特征训练神经网络200。一旦经过训练，神经网络200便可准备好在操作环境中使用。

图3示出了可由驾驶环境中的车辆的摄像机捕捉到的立体图的图像300。例如，图像300示出了车辆正在沿着道路行驶时可捕捉到的车辆前方的道路场景。图像300包括道路上或道路附近的多个关注对象。在一个实施例中，图像300太大以致于不能通过可用的神经网络以全分辨率进行处理。因此，可以一次一个子区域地处理图像。例如，窗口302表示可馈送到神经网络以进行对象或特征检测的一部分图像302。窗口302可滑动到不同位置以有效地处理整个图像302。例如，窗口302可开始于角落，然后从一点连续移动到另一点以检测特征。

在一个实施例中，可利用不同尺寸的滑动窗口来捕捉在不同分辨率下的特征或对象。例如，利用较大的窗口可更准确地检测更靠近摄像机的特征或对象，而利用较小的窗口可更准确地检测离摄像机更远的特征或对象。较大的窗口可降低分辨率以匹配神经网络的输入节点的数量。例如，可对图像300进行下采样以处理完整的图像300或者图像300的较大部分或不同尺寸窗口302。

在一个实施例中，对于后续图像上的窗口302的相同或附近位置，可前馈窗口302的每个位置的神经网络输出。例如，如果神经网络在第一图像中的一个位置处检测到行人，则在利用神经网络在随后的第二图像的该位置处进行行人检测期间可前馈在该位置处检测到行人的指示。类似地，可前馈在图像或其他传感器帧中的特定位置处检测到的特征。因此，可在神经网络或模型层一致地检测和/或跟踪一系列图像中的对象或特征。

在一个实施例中，在利用滑动窗口进行处理之后或者作为利用滑动窗口进行处理的结果，可生成指示什么样的特征或对象位于哪些位置的特征映射。特征映射可包括在检测对象或分类对象时可能关注的低层面图像(或其他传感器帧)特征的指示。例如，特征可包括边界、曲线、拐角或者可指示一个位置处的对象类型(例如车辆、行人的脸部等)的其他特征。特征映射然后可用于对象检测或分类。例如，可生成特征映射，然后可处理图像的特征映射和/或区域以识别对象的类型和/或跟踪传感器数据的帧之间的对象的位置。特征映射可指示检测到某些类型的特征在图像300中的何处。在一个实施例中，可利用多个不同的循环神经网络来生成每个特征映射。例如，可利用训练用于行人检测的神经网络来生成用于行人检测的特征映射，而可利用训练用于车辆检测的神经网络来生成用于车辆检测的特征映射。因此，可为图3中所示的单幅图像300生成多个不同的特征映射。如前面所讨论的，可在帧之间前馈相同子区域的检测到的特征以改善特征跟踪和/或对象检测。

虽然图3示出了图像，但是可对任何类型的传感器数据或数据帧执行类似的处理。例如，可利用窗口、神经网络等来类似地处理深度图以检测特征或对象。在一个实施例中，可各自处理不同类型的传感器数据的帧以生成一个或多个特征映射，该一个或多个特征映射然后可组合成级联特征映射。利用级联特征映射，特征可包括由任何可用的传感器或数据源检测到的所有特征。因此，即使基于来自其中一个传感器的数据没有检测到特征，基于来自其余传感器的数据检测到的特征仍然可以提供足够的信息来进行精确和可靠的特征或对象检测。例如，基于来自LIDAR、雷达或其他传感器源的特征，在黑暗中或在阳光刺眼的情况下仍然可以检测到车辆或对象。此外，如果前一帧发现了对象或特征，则帧之间的环式联系可允许在甚至非常差的条件下进行对象或特征的检测。

图4为示出了在对象检测期间传感器数据的帧之间的时态信息的合并的示意性框图。显示出包括处理不同图像(包括图像0、图像1以及图像2)的第一阶段402、第二阶段404以及第三阶段406的多个处理阶段。每个阶段402、404、406可以对应于处理不同组传感器数据的不同时间段。例如，这些阶段可以对应于获取传感器数据期间的实时处理。第一阶段402显示了用于生成一个或多个特征映射408的图像0的输入。可利用一个或多个神经网络来生成特征映射408。对于每个子区域410(例如图3的窗口302的位置)，生成对象预测。特征映射生成和对象预测均可利用一个或多个神经网络来执行。

对象预测可指示对象类型和/或对象位置。例如，对象预测的“0”值可指示不存在对象，“1”可指示对象为汽车，“2”可指示对象为行人，依次类推。还可提供指示对象位于子区域410中的何处的位置值。例如，第二数字可包含在指示子区域410的中心、右边、顶部或底部中的位置的状态中。循环神经网络(Recurrent neural network，RNN)状态0-0是针对在子区域410的对象0产生的预测，RNN状态0-1是针对在子区域410的对象1产生的预测，并且RNN状态0-2是针对在子区域410的对象2产生的预测。因此，对于每个子区域410，可检测或生成多个对象和/或对象预测。

利用环式联系420前馈包括来自阶段402的RNN状态0-0、RNN状态0-1以及RNN状态0-2的状态信息，以供在阶段404时处理下一幅图像——图像1期间使用。例如，在对图像1和/或其特征映射412进行处理期间，可将对象预测和关联值依照环式联系420馈送到神经网络中作为到相同的一个或多个神经网络的一个或多个节点的输入。在阶段404期间，不仅基于图像1和特征映射412而且还基于RNN状态0-0、RNN状态0-1以及RNN状态0-2来生成对象预测。预测的结果产生子区域414的RNN状态1-0、RNN状态1-1以及RNN状态1-2。环式联系420可前馈相同子区域410的状态信息。因此，可仅利用来自前一图像的相同子区域的状态信息来确定对当前图像的对象预测或特征检测。在一个实施例中，还依照环式联系420前馈特征映射408中的检测到的特征。因此，可利用循环神经网络来生成特征映射以及对象预测。

在阶段406期间，不仅基于图像2和特征映射416而且还基于包括RNN状态1-0、RNN状态1-1以及RNN状态1-2的状态信息来生成对象预测，利用环式联系422前馈该状态信息以供在对图像2的子区域418进行处理期间使用。基于图像2以及来自图像1的包括RNN状态1-0、RNN状态1-1以及RNN状态1-2的状态信息来确定对于RNN状态2-0、RNN状态2-1以及RNN状态2-2的对象预测。此外，可基于之前的第二阶段404的特征映射(或检测到的特征的位置)来生成特征映射416。

在一个实施例中，在每个阶段402、404、406中发生的处理实时地在进入的传感器数据流上发生。例如，当处理视频时，可处理视频的每一帧，并且当接收到视频的下一帧时，可将相应的对象预测、特征检测和/或特征映射保存/输入到模型或神经网络中。因此，环式联系420、422允许从早先的帧延续到随后的帧的对象预测。因此，可在模型或神经网络层面合并时态信息，这允许神经网络被训练成不仅处理当前传感器帧的信息而且还处理先前传感器帧的信息。这与对每个帧重新提取特征然后丢弃该特征的实施例不同。在一个实施例中，在每个阶段期间利用单个神经网络或一组神经网络，使得环式联系420、422仅将来自前一帧的输出作为输入反馈到当前帧中。

图5为示出了对象检测方法500的示意性流程图。方法500可由检测部件或车辆控制***(例如图1的检测部件104或车辆控制***100)来执行。

方法500开始，并且在502检测部件104利用一个或多个神经网络来确定指示对象或特征的存在的第一传感器帧的输出。例如，在502检测部件104可确定图4的对象预测或状态(例如RNN状态0-0、RNN状态0-1、RNN状态0-2、RNN状态1-0、RNN状态1-1或者RNN状态1-2)的任一者。在502检测部件104可基于一系列传感器帧中的一个传感器帧中的数据来确定该状态。传感器部件(其可包括雷达***106、LIDAR***108、摄像机***110或其他传感器)可捕捉或获取包括图像数据、LIDAR数据、雷达数据或红外图像数据的传感器帧。在504检测部件104前馈第一传感器帧的输出(其可包括检测到的特征或对象的指示)作为用于处理第二传感器帧的输入。例如，检测部件104可包括或利用神经网络中的环式联系。在506检测部件104基于第一传感器帧的输出来确定指示对象或特征的存在的第二传感器帧的输出。例如，检测部件104可基于该状态或前一阶段来确定图4的对象预测或状态(例如RNN状态1-0、RNN状态1-1、RNN状态1-2、RNN状态2-0、RNN状态2-1或者RNN状态2-2)的任一者。

方法500可包括将输出或预测提供到用于做出决定的另一个***。例如，图1的自动化驾驶/辅助***102可基于检测到的对象或特征来确定驾驶操作。示例操作包括用来安全驾驶车辆的防撞操作或其他驾驶操作。方法500还可包括训练一个或多个神经网络以利用来自早先的帧的输出来生成基于随后的图像帧的数据的输出。方法500可允许在一系列传感器帧中(例如视频内)更高效和准确地进行对象检测和跟踪。改进的对象检测和跟踪可提高驾驶和乘客的安全性和准确性。

图6为示出了在对象检测期间来自多种类型的传感器数据以及在传感器数据的帧组之间的时态信息的合并的示意性框图(其中LSTM(long-short term memory)是指长短期记忆)。显示出包括处理不同组传感器帧的第一阶段602、第二阶段604以及第三阶段606的多个处理阶段。虽然可利用其他类型的传感器数据或帧，但是传感器帧不但包括在其各阶段期间处理的深度图(深度0、深度1以及深度2)而且包括图像(图像0、图像1以及图像2)。每个阶段602、604、606可对应于处理不同组传感器数据的不同时间段。例如，这些阶段可对应于在获取最近捕捉到的传感器数据中的传感器数据期间的实时处理。

第一阶段602显示出各自经过处理以生成一个或多个特征映射的图像0和深度0的输入。例如，可利用一个或多个神经网络来处理图像0以生成反映出检测到某些类型的特征在何处的一个或多个不同的特征映射。类似地，可基于深度0来生成多于一个的特征映射。该特征映射输入到卷积循环神经网络或利用多尺度卷积来生成级联特征映射608的其他模型中。级联特征映射608可包括各传感器特征映射的所有特征。例如，级联特征映射可包括通过图像特征映射和深度特征映射两者检测到的特征的指示。

可处理级联特征映射以便进行对象检测。对于每个子区域614(例如图3的窗口302的位置)，生成对象预测。可利用一个或多个神经网络来执行传感器特征映射生成、级联特征映射生成以及对象预测。对象预测可包括基于级联特征映射608的子区域614生成的对象0预测和对象1预测。对象预测可包括对象类型或分类以及位置。

类似于图4的实施例，环式联系620、622在处理阶段之间前馈信息。例如，特征映射、检测到的特征、对象预测等可前馈到循环卷积神经网络以供在处理随后一组图像期间使用。因此，在对象或特征检测期间可考虑时态信息。在前一时间段(例如，对应于前一组传感器帧的时间段)中检测到的特征或对象可以被前馈并且影响在随后一组传感器帧中是否检测到那些相同的对象或特征。在阶段604和阶段606期间，可利用环式联系622和624来执行并且前馈级联特征映射610和612的类似生成以及对子区域616和618的对象预测。

图7为示出了对象检测方法700的示意性流程图。方法700可由检测部件或车辆控制***(例如图1的检测部件104或车辆控制***100)来执行。

方法700开始，并且在702一个或多个传感器部件获取第一传感器数据流和第二传感器数据流。第一传感器数据流和第二传感器数据流中的每一者均包含多个传感器帧。例如，传感器部件可包括传感器106、108、110、114或其他传感器中的一种或多种。在704检测部件104基于第一类型的传感器帧和第二类型的传感器帧来生成级联特征映射。第一类型的传感器帧可来自或基于第一传感器数据流，并且第二类型的传感器帧可来自或基于第二传感器数据流。在706检测部件104基于级联特征映射来检测一个或多个对象。在一个实施例中，在704处的生成和在706处的检测的其中一个或多个操作包括利用具有环式联系的神经网络来生成或检测，该环式联系馈送来自先前的帧的关于特征或对象的信息。

现在参考图8，示出了示例计算装置800的框图。计算装置800可用来执行各种程序(例如本文中所讨论的那些程序)。在一个实施例中，计算装置800可起到检测部件104、自动化驾驶/辅助***102、车辆控制***100等的作用。计算装置800可执行如本文中所讨论的各种监测功能，并且可执行一个或多个应用程序(例如本文中所述的应用程序或功能)。计算装置800可为多种计算装置中的任何计算装置(例如台式计算机、内置式计算机、车辆控制***、笔记本电脑、服务器计算机、手持式计算机、平板电脑等)。

计算装置800包括全部连接到总线812的一个或多个处理器802、一个或多个存储器804、一个或多个接口806、一个或多个大容量存储装置808、一个或多个输入/输出(Input/Output，I/O)装置810以及显示装置830。处理器802包括执行存储在存储器804和/或大容量存储装置808中的指令的一个或多个处理器或控制器。处理器802还可包括各种类型的计算机可读介质(例如高速缓冲存储器)。

存储器804包括各种计算机可读介质，该计算机可读介质例如为易失性存储器(例如，随机存取存储器(random access memory，RAM)814)和/或非易失性存储器(例如，只读存储器(read-only memory，ROM)816)。存储器804还可包括可重写ROM(例如闪速存储器)。

大容量存储装置808包括各种计算机可读介质(例如磁带、磁盘、光盘、固态存储器(例如，闪速存储器)等)。如图8中所示，特定的大容量存储装置为硬盘驱动器824。各种驱动器也可包含在大容量存储装置808中以能够实现从各种计算机可读介质读取和/或写入到各种计算机可读介质。大容量存储装置808包括可移除介质826和/或不可移除介质。

I/O装置810包括允许数据和/或其他信息被输入到计算装置800或者从计算装置800调取数据和/或其他信息的各种装置。示例的I/O装置810包括光标控制装置、键盘、小键盘、麦克风、监视器或者其他显示装置、扬声器、打印机、网络接口卡、调制解调器等。

显示装置830包括可将信息显示给计算装置800的一位或多位用户的任何类型的装置。显示装置830的示例包括监视器、显示终端、视频投影装置等。

接口806包括允许计算装置800与其他***、装置或者计算环境进行交互的各种接口。示例的接口806可包括任意数量的不同网络接口820，该网络接口820例如为到局域网(Local Area Network，LAN)、广域网(WideArea Network，WAN)、无线网络以及互联网的接口。其他接口包括用户界面818和***设备接口822。接口806还可包括一个或多个用户界面元件818。接口806还可包括一个或多个***接口(例如用于打印机、定位装置(鼠标、触控板或者本领域普通技术人员现在已知的或以后发现的任何适合的用户界面)、键盘等的接口)。

总线812允许处理器802、存储器804、接口806、大容量存储装置808以及I/O装置810互相通信，也允许其与连接到总线812的其他装置或者部件进行通信。总线812表示几种类型的总线结构的一种或多种(例如，***总线、外设部件互连(Peripheral ComponentInterconnect，PCI)总线、IEEE(Institute of Electrical and Electronic Engineers，电气与电子工程师协会)总线、USB(Universal Serial Bus，通用串行总线)总线等)。

为了举例说明的目的，程序和其他可执行程序部件在本文中显示为独立的框，尽管应当理解的是这样的程序和部件可能在不同时间驻留在计算装置800的不同存储部件中并且由处理器802来执行。可供选择地，本文中所述的***和程序可在硬件或者硬件、软件和/或固件的组合中实现。例如，一个或多个专用集成电路(application specificintegrated circuit，ASIC)可编程为执行本文中所述的一个或多个***和程序。

示例

以下示例涉及进一步的实施例。

示例1为检测传感器数据中的对象或特征的方法。该方法包括基于第一类型的传感器帧和第二类型的传感器帧来生成级联特征映射。该方法包括基于级联特征映射来检测一个或多个对象。在该方法中，生成和检测的其中一个或多个操作包括利用具有环式联系的神经网络来生成或检测，该环式联系馈送来自先前的帧的关于特征或对象的信息。

在示例2中，示例1的方法进一步包括基于第一类型的传感器帧来生成第一特征映射，并且基于第二类型的传感器帧来生成第二特征映射。生成级联特征映射包括基于第一特征映射或第二特征映射中的高层特征来生成。

在示例3中，如示例2中的生成级联特征映射包括：生成包含来自第一特征映射和第二特征映射两者的特征的融合特征映射。

在示例4中，如示例1至3的任一示例中的第一类型的传感器帧包括图像，并且第二类型的传感器帧包括深度图。

在示例5中，如示例1至4的任一示例中的神经网络的环式联系前馈下列中的一项或多项：前一级联特征映射中的特征、在前一帧或时间段中检测到的对象以及前一传感器帧中的特征。

在示例6中，如示例1至5的任一示例中的第一类型的传感器帧包括第一类型的第一传感器帧，第二类型的传感器帧包括第二类型的第一传感器帧，级联特征映射包括第一级联特征映射，以及一个或多个对象包括一个或多个第一对象。该方法进一步包括基于第一类型的第二传感器帧和第二类型的第二传感器帧来生成第二级联特征映射。该方法进一步包括基于第二级联特征映射来检测一个或多个第二对象。该方法进一步包括利用神经网络的环式联系来前馈第二级联特征映射的特征或者一个或多个第二对象中的一项或多项以便生成第一级联特征映射或者检测一个或多个第一对象。

在示例7中，如示例1至6的任一示例中的神经网络包括输入层、一个或多个隐藏层以及分类层。在生成级联特征映射或者检测一个或多个对象期间，环式联系将来自先前的帧的分类层的输出馈送到下列中的一个或多个：输入层或者一个或多个隐藏层中的一个隐藏层。

在示例8中，如示例1至7的任一示例中的方法包括针对多个子区域确定特征或者检测对象，其中前馈多个子区域的特征或对象以在随后的时间段内作为相应子区域的输入。

在示例9中，如示例8中的针对多个子区域确定特征或者检测对象包括：针对不同大小的子区域确定特征或者检测对象以检测不同大小的特征或对象。

在示例10中，如示例1至9的任一示例中的环式联系前馈包括检测到的对象或特征的类型的指示或者该对象或特征的位置的指示中的一项或多项的信息。

在示例11中，如示例1至10的任一示例中的方法进一步包括基于级联特征映射的检测到的一个或多个对象或特征来确定驾驶操作。

在示例12中，如示例1至11的任一示例中的方法进一步包括训练神经网络以利用环式联系来检测对象或特征。

示例13为计算机可读存储介质，该计算机可读存储介质存储指令，该指令在由一个或多个处理器执行时使该一个或多个处理器实施如示例1至12的任一示例中的方法。

示例14为***或装置，包括用于实施或实现示例1至13的任一示例中的方法、***或设备的装置。

在以上公开中，已参考构成本发明一部分的附图，并且在附图中通过举例说明的方式示出了可实践本发明的具体实施方式。应该理解的是，可利用其他实施方式，并且在不脱离本发明的范围的情况下可做出结构变化。说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表明所述的实施例可包括特定特征、结构或者特点，但是每个实施例可不必包括该特定特征、结构或者特点。而且，这种措词未必指的是相同的实施例。进一步地，当与实施例有关地描述特定特征、结构或者特点时，主张的是，不论是否做出明确的描述，影响与其他实施例有关的该特征、结构或者特点是在本领域技术人员的认知内。

本文中所公开的***、装置以及方法的实施方式可包括或者利用包括计算机硬件的专用或者通用计算机，比如，像本文中所讨论的，该计算机硬件为例如一个或多个处理器和***存储器。本发明范围内的实施方式还可包括用于携带或者存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。该计算机可读介质可为能够由通用或者专用计算机***来存取的任何可用的介质。存储计算机可执行指令的计算机可读介质为计算机存储介质(装置)。携带计算机可执行指令的计算机可读介质为传输介质。因此，通过举例并且不受限制的方式，本发明的实施方式可包括至少两种明显不同类型的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)、光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、固态驱动器(Solid State Drive，“SSD”)(例如，基于随机存取存储器)、闪速存储器、相变存储器(Phase-Change Memory，“PCM”)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或者其他磁性存储装置，或者能够用来存储计算机可执行指令或者数据结构形式的期望程序代码手段并且能够由通用或者专用计算机来存取的任何其他介质。

本文中所公开的装置、***以及方法的实施方式可通过计算机网络进行通信。“网络”定义为能够实现电子数据在计算机***和/或模块和/或其他电子装置之间进行传输的一条或多条数据链路。当通过网络或者另外的通信连接(硬连线、无线或者硬连线或无线的结合)向计算机传递或者提供信息时，该计算机将该连接适当地视为传输介质。传输介质可包括网络和/或数据链路，其能够用来携带计算机可执行指令或者数据结构形式的期望程序代码手段并且能够由通用或者专用计算机来存取。以上所述的组合也应该包含在计算机可读介质的范围内。

计算机可执行指令包括例如当在处理器执行时使通用计算机、专用计算机或者专用处理装置执行某个功能或者功能组的指令和数据。计算机可执行指令可为例如二进制数、中间格式指令(例如汇编语言)乃至源代码。尽管以特定于结构特征和/或方法动作的语言描述了本发明的主题，但是应该理解的是，所附权利要求中限定的主题未必受限于上文描述的所述特征或者动作。相反，所述特征和动作被公开为实施权利要求的示例形式。

本领域的技术人员将领会的是，可在具有多种计算机***配置的网络计算环境中实践本发明，该计算机***配置包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持式装置、多处理器***、基于微处理器的或者可编程的消费电子产品、网络个人计算机(Personal Computer，PC)、小型计算机、大型计算机、移动电话、个人数字助理(Personal Digital Assistant，PDA)、平板电脑、寻呼机、路由器、交换机、各种存储装置等。还可在分布式***环境中实践本发明，在该分布式***环境中，经由网络(通过硬连线数据链路、无线数据链路或者通过硬连线数据链路和无线数据链路的结合)连接起来的本地和远程计算机***都执行任务。在分布式***环境中，程序模块可位于本地和远程存储装置中。

进一步地，在适当的情况下，本文中所述的功能可在硬件、软件、固件、数字部件或者模拟部件的一个或多个中执行。例如，一个或多个专用集成电路(application specificintegrated circuit，ASIC)可编程为实现本文中所述的一个或多个***和程序。某些术语在说明书和权利要求书中始终用来指特定的***部件。术语“模块”和“部件”以某些部件的名义用来反映它们在软件、硬件、电路、传感器等中的实施独立性。如本领域的技术人员将领会的，可用不同的名称指称部件。本文并非意在区分名称不同而不是功能不同的部件。

应该注意的是，上文所讨论的传感器实施例可包括用来执行其至少一部分功能的计算机硬件、软件、固件或其任意组合。例如，传感器可包括配置成在一个或多个处理器中执行的计算机代码，并且可包括由该计算机代码控制的硬件逻辑/电气电路。本文中提供这些示例装置的目的是为了举例说明，而非意在做出限制。如相关技术领域的技术人员将已知的，本发明的实施例可在更多类型的装置中实现。

本发明的至少一些实施例是针对包括存储在任何计算机可用介质上的这种逻辑(例如，以软件的形式)的计算机程序产品。当在一个或多个数据处理装置中执行时，这种软件使装置像本文中描述的那样运行。

虽然上文已描述了本发明的各种实施例，但是应该理解的是，这些实施例只是通过示例的方式来呈现，而并非是限制性的。对相关技术领域的技术人员而言，将显而易见的是，在不脱离本发明的精神和范围的情况下，能够对本发明做出各种形式和细节上的改变。因此，本发明的广度和范围不应该受到上述任何示范性实施例的限制，而是应该只根据如下权利要求及其等同范围来限定。呈现前文的描述是为了阐述和说明。其并非意在穷举或者将本发明限制成所公开的确切形式。根据上文的教导可做出很多修改和变化。进一步地，应该注意的是，可通过期望用来形成本发明额外的混合实施方式的任何组合来使用任何或者所有前述替代实施方式。

进一步地，尽管已描述和举例说明了本公开的具体实施方式，但是本公开将不限于如此描述和举例说明的部件的具体形式或设置。本公开的范围将由本文所附的权利要求、本文和不同申请中提交的任何将来的权利要求及其等同范围来限定。

Claims

1. 一种基于传感器数据进行对象检测的方法，包括：

基于所述级联特征映射来检测一个或多个对象；

其中生成和检测的其中一个或多个操作包括利用具有环式联系的神经网络来生成或检测，所述环式联系馈送来自先前的帧的关于特征或对象的信息；

其中所述第一类型的所述传感器帧包括图像，并且其中所述第二类型的所述传感器帧包括深度图。

2. 根据权利要求1所述的方法，其中所述方法包括下列一个或多个步骤：

基于所述第一类型的所述传感器帧来生成第一特征映射，并且基于所述第二类型的所述传感器帧来生成第二特征映射，其中生成所述级联特征映射包括：基于所述第一特征映射或所述第二特征映射中的高层特征来生成；以及

其中生成所述级联特征映射包括：生成包含来自所述第一特征映射和所述第二特征映射两者的所述特征的融合特征映射。

3.根据权利要求1所述的方法，其中所述神经网络前馈以下所列的一项或多项：

前一级联特征映射中的特征；

在前一帧或时间段中检测到的对象；以及

前一传感器帧中的特征。

4.根据权利要求1所述的方法，其中所述神经网络包括输入层、一个或多个隐藏层以及分类层，其中在生成所述级联特征映射或者检测所述一个或多个对象期间，所述环式联系将来自所述先前的帧的所述分类层的输出馈送到以下所列的一个或多个中：所述输入层或者所述一个或多个隐藏层中的一个隐藏层。

5.根据权利要求1所述的方法，其中所述方法包括以下所列的一项或多项：

其中所述第一类型的所述传感器帧包括所述第一类型的第一传感器帧，所述第二类型的所述传感器帧包括所述第二类型的第一传感器帧，所述级联特征映射包括第一级联特征映射，以及所述一个或多个对象包括一个或多个第一对象，其中所述方法进一步包括：

基于所述第一类型的第二传感器帧和所述第二类型的第二传感器帧来生成第二级联特征映射；

基于所述第二级联特征映射来检测一个或多个第二对象；以及

利用所述神经网络的所述环式联系来前馈所述第二级联特征映射的特征或者所述一个或多个第二对象中的一项或多项以便生成所述第一级联特征映射或者检测所述一个或多个第一对象。

6.一种基于传感器数据进行对象检测的***，包括：

一个或多个传感器部件，所述一个或多个传感器部件配置成获取第一传感器数据流和第二传感器数据流，其中所述第一传感器数据流和所述第二传感器数据流中的每一者均包括多个传感器帧；

检测部件，所述检测部件配置成：

基于所述级联特征映射来检测一个或多个对象；

7. 根据权利要求6所述的***，其中所述检测部件进一步配置成执行以下所列的一项或多项操作：

基于所述第一类型的所述传感器帧来生成第一特征映射，并且基于所述第二类型的所述传感器帧来生成第二特征映射，其中所述检测部件通过基于所述第一特征映射或所述第二特征映射中的高层特征生成来生成所述级联特征映射；以及

通过生成包含来自所述第一特征映射和所述第二特征映射两者的所述特征的融合特征映射来生成所述级联特征映射。

8.根据权利要求6所述的***，其中所述传感器帧包括以下所列的一项或多项：

其中所述第一类型的所述传感器帧包括所述第一类型的第一传感器帧，所述第二类型的所述传感器帧包括所述第二类型的第一传感器帧，所述级联特征映射包括第一级联特征映射，以及所述一个或多个对象包括一个或多个第一对象，其中所述检测部件进一步配置成：

9.根据权利要求6所述的***，其中所述神经网络的所述环式联系前馈以下所列的一项或多项：

前一级联特征映射中的特征；

基于先前的帧或前一时间段检测到的对象；以及

前一传感器帧中的特征。

10.根据权利要求6所述的***，其中所述神经网络包括输入层、一个或多个隐藏层以及分类层，其中在生成所述级联特征映射或者检测所述一个或多个对象期间，所述环式联系将来自所述先前的帧的所述分类层的输出馈送到以下所列的一个或多个中：所述输入层或者所述一个或多个隐藏层中的一个隐藏层。

11.一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下所列的基于传感器数据进行对象检测的操作：

获取第一传感器数据流和第二传感器数据流，其中所述第一传感器数据流和所述第二传感器数据流中的每一者均包括多个传感器帧；

基于所述级联特征映射来检测一个或多个对象；

12.根据权利要求11所述的计算机可读存储介质，其中所述指令进一步使所述一个或多个处理器执行以下所列的一项或多项操作：

基于所述第一类型的所述传感器帧来生成第一特征映射，并且基于所述第二类型的所述传感器帧来生成第二特征映射，其中所述指令使所述一个或多个处理器通过基于所述第一特征映射或所述第二特征映射中的高层特征生成来生成所述级联特征映射，

13.根据权利要求11所述的计算机可读存储介质，其中所述指令进一步使所述一个或多个处理器利用所述神经网络的所述环式联系前馈以下所列的一项或多项：

前一级联特征映射中的特征；

基于先前的帧或前一时间段检测到的对象；以及

前一传感器帧中的特征。

14.根据权利要求11所述的计算机可读存储介质，其中所述第一类型的所述传感器帧包括所述第一类型的第一传感器帧，所述第二类型的所述传感器帧包括所述第二类型的第一传感器帧，所述级联特征映射包括第一级联特征映射，以及所述一个或多个对象包括一个或多个第一对象，其中所述指令进一步使所述一个或多个处理器执行以下所列的操作：