CN107038723A

CN107038723A - 棒状像素估计方法和***

Info

Publication number: CN107038723A
Application number: CN201611022017.2A
Authority: CN
Inventors: S.曾
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2015-11-20
Filing date: 2016-11-21
Publication date: 2017-08-11
Anticipated expiration: 2036-11-21
Also published as: CN107038723B; US20170147888A1; DE102016122190A1; US10482331B2

Abstract

本发明涉及棒状像素估计方法和***。提供用于检测物体的方法和***。在一个实施例中，一种方法包括：由处理器接收来自图像传感器的图像数据；由处理器接收来自雷达***的雷达数据；由所述处理器使用深度学习方法处理来自所述图像传感器的图像数据和来自所述雷达***的雷达数据；以及由所述处理器基于所述处理检测物体。

Description

棒状像素估计方法和***

相关申请的交叉引用

本发明要求提交于2015年11月20日的美国临时申请第62/258,303号的权益。

技术领域

技术领域总体上涉及物体检测***和方法，并且更具体地涉及在场景中估计一个或多个棒状像素并且基于所估计的棒状像素来检测物体的物体检测***和方法。

背景技术

各种***处理数据以检测靠近***的物体。例如，一些车辆***检测靠近车辆的物体并且使用关于物体的信息来向驾驶员警告关于物体的情况和/或控制车辆。车辆***基于放置在车辆周围的传感器来检测物体。例如，多个相机被放置在车辆的后方、侧方和/或前方，以便检测物体。来自多个相机的图像被用于基于立体视觉检测物体。在车辆或任何***中实现多个相机增加了总成本。

因此，期望提供基于单个相机检测图像中的物体的方法和***。此外，结合附图和前述技术领域和背景技术，从随后的详细描述和所附权利要求，本发明的其它期望特征和特性将变得明显。

另外，本公开包括以下技术方案：

技术方案1：一种用于检测物体的方法，包括：

由处理器接收来自图像传感器的图像数据；

由处理器接收来自雷达***的雷达数据；

由所述处理器使用深度学习方法处理来自所述图像传感器的所述图像数据和来自所述雷达***的所述雷达数据；和

由所述处理器基于所述处理来检测物体。

技术方案2：根据技术方案1所述的方法，其中，所述处理包括处理所述图像数据以确定一个或多个棒状像素，并且其中所述深度学习方法使用所述一个或多个棒状像素。

技术方案3：根据技术方案2所述的方法，其中，所述处理包括：

基于所述图像数据形成图像的感兴趣区域（ROI）窗口；和

使所述ROI窗口从图像位置的左侧到所述图像的右侧运动到多个位置，以顺序地确定在每个位置处棒状像素的存在。

技术方案4：根据技术方案2所述的方法，其中，所述处理包括：

基于所述图像数据形成感兴趣区域（ROI）窗口；

使用卷积神经网络确定所述ROI窗口的中心线是否包括棒状像素；和

当确定棒状像素时报告可能性、位置、高度和类别标签。

技术方案5：根据技术方案1所述的方法，其中，所述处理包括：

处理来自所述雷达***的所述雷达数据以确定一个或多个存在向量，并且其中所述深度学习方法使用所述一个或多个存在向量。

技术方案6：根据技术方案1所述的方法，其中，所述处理包括使用所述深度学习方法融合所述图像数据的棒状像素和所述雷达数据的存在向量。

技术方案7：根据技术方案6所述的方法，还包括确定所述融合的棒状像素和存在向量的每个的速度，并且其中，基于所述融合的棒状像素和存在向量的每个的所述速度来进行所述物体的检测。

技术方案8：根据技术方案7所述的方法，还包括确定所述融合的棒状像素和存在向量的每个的位移，并且其中，基于所述融合的棒状像素和存在向量的每个的所述位移来进行所述物体的检测。

技术方案9：一种用于检测物体的***，包括：

图像传感器，其生成图像数据；

雷达***，其生成雷达数据；和

计算机模块，其由处理器使用深度学习方法处理所述图像数据和所述雷达数据，并且基于所述处理检测物体。

技术方案10：根据技术方案9所述的***，其中，所述计算机模块处理所述图像数据以确定一个或多个棒状像素，并且其中，所述深度学习方法使用所述一个或多个棒状像素。

技术方案11：根据技术方案10所述的***，其中，所述计算机模块基于所述图像数据形成图像的感兴趣区域（ROI）窗口；并且使所述ROI窗口从图像位置的左侧到所述图像的右侧运动到多个位置，以顺序地确定在每个位置处棒状像素的存在。

技术方案12：根据技术方案10所述的***，其中，所述计算机模块基于所述图像数据形成感兴趣区域（ROI）窗口，使用卷积神经网络确定所述ROI窗口的中心线是否包括棒状像素，并且当确定棒状像素时报告可能性、位置、高度和类别标签。

技术方案13：根据技术方案9所述的***，其中，所述计算机模块处理来自所述雷达***的所述雷达数据以确定一个或多个存在向量，并且所述深度学习方法使用所述一个或多个存在向量。

技术方案14：根据技术方案9所述的***，其中，所述计算机模块使用所述深度学习方法融合所述图像数据的棒状像素和所述雷达数据的存在向量。

技术方案15：根据技术方案14所述的***，其中，所述计算机模块确定所述融合的棒状像素和存在向量的每个的速度，并且基于所述融合的棒状像素和存在向量的每个的所述速度来检测所述物体。

技术方案16：根据技术方案15所述的***，其中，所述计算机模块确定所述融合的棒状像素和存在向量的每个的位移，并且基于所述融合的棒状像素和存在向量的每个的所述位移来检测所述物体。

技术方案17：根据技术方案9所述的***，其中，所述图像传感器和所述雷达***与车辆相关联，并且其中，所述控制模块检测在所述车辆附近的物体。

发明内容

提供用于检测物体的方法和***。在一个实施例中，一种方法包括：由处理器接收来自图像传感器的图像数据；由处理器接收来自雷达***的雷达数据；由处理器利用深度学习方法处理来自图像传感器的图像数据和来自雷达***的雷达数据；由处理器基于处理检测物体。

附图说明

下文将结合以下附图描述示例性实施例，其中同样数字指代同的元件，并且附图中：

图1是包括根据各种实施例的物体检测***的车辆的图示；

图2是图示可以由根据各种实施例的物体检测***执行的物体检测方法的流程图；以及

图3-6是根据各种实施例的图像场景和处理方法的图示。

具体实施方式

以下详细说明本质上仅为示例性的且不旨在限制应用及用途。此外，并不旨在受到呈现在前述技术领域、背景技术、发明内容或以下详细描述中的任何明确或隐含的理论限制。应当理解，贯穿附图，相应的附图标记表示同样或相应的零件和特征。如本文中所使用的，术语模块指代专用集成电路（ASIC）、电子电路、执行一个或多个软件或固件程序的处理器（共享的、专用的，或成组的）和存储器、组合逻辑电路，和/或提供上述功能的其它合适的部件。

现在参考图1，车辆10被示出为包括根据各种实施例的物体检测***12。物体检测***12利用来自两个或更多个不同传感器（诸如，但不限于来自一个单目相机和一个雷达***）的输入来估计外部环境的棒状像素（stixel）和自由空间表达。如可理解的，所示出和描述的物体检测***12可实施在各种***中，包括非移动平台或移动平台，诸如但不限于汽车、卡车、公共汽车、摩托车、火车、海洋船只、航空器、旋翼飞行器、机器人、机器人平台等。出于示例性目的，将在车辆10中实施物体检测***12的背景中讨论本公开。尽管本文所示的附图描绘在元件的某些布置的情况下的示例，但是额外的介入元件、装置、特征或部件可以出现在实际实施例中。还应当理解，图1仅仅是说明性的且可以不按比例绘制。

在各种实施例中，物体检测***12包括与物体检测模块16相关联的图像传感器14（例如，相机或其它图像感测装置）以及雷达***15。图像传感器14可位于车辆10的内侧或外侧的任何地方，包括但不限于，车辆10的前侧、车辆10的左侧、车辆10的右侧，和车辆10的后侧。如可理解的，多个图像传感器14可以实施在车辆10上，在车辆10的前侧、车辆10的左侧、车辆10的右侧和车辆10的后侧中的每一者或其组合上有一个。出于示例性目的，将在车辆10仅具有位于车辆10的前侧的一个图像传感器14的背景中讨论本公开。

图像传感器14感测与车辆10相关联的区域，并基于此生成传感器信号。在各种实施例中，传感器信号包括图像数据。当被设置时，图像数据例如图示车辆10的外侧的场景。雷达***15可位于车辆10的内侧或外侧的任何位置，包括但不限于车辆10的前侧、车辆10的左侧、车辆10的右侧以及车辆10的后侧。如可理解的，多个雷达传感器15可实施在车辆10上，在车辆10的前侧、车辆10的左侧、车辆10的右侧和车辆10的后侧中的每一者或其组合上有一个。出于示例性目的，将在车辆10仅具有位于车辆10的前侧的一个雷达***15的背景中讨论本公开。

雷达***15生成沿着一条或多条路径的波信号，并接收从（多条）路径反射的任何波信号。物体检测模块16接收来自图像传感器14和雷达***15的信号，并处理该信号以检测物体。物体检测模块16基于本公开的图像处理方法和***检测物体。通常，物体检测模块16使用深度学习模型处理图像数据以确定场景中的棒状像素。该深度学习模型可包括，但不限于，神经网络（诸如卷积网络）或其它深度学习模型（诸如深度信念网络）。基于大量样本图像数据预训练该深度学习模型。

在各种实施例中，物体检测模块16基于物体的检测选择性地生成信号。该信号由控制模块18和/或警报模块20接收，以选择性地控制车辆10和/或警告驾驶员关于物体的情况和/或控制车辆10。

现在参考图2，并继续参考图1，流程图图示物体检测方法100，其可由根据各种实施例的图1的物体检测***12执行。如可理解的，根据本公开，方法100内的操作顺序不限于如图2中图示的顺序执行，而且可按照可适用并且根据本公开的一个或多个变化顺序执行。

如可进一步理解的，图2的方法可被计划成以预定的时间间隔在车辆10的操作期间运行，和/或可被计划成基于预定事件运行。

在一个示例中，该方法可开始于105。在110处接收来自图像传感器14的图像数据和来自雷达***15的雷达数据。在120处处理图像数据以确定棒状像素数据。例如，如图3和图4所示，接收图像数据，并且由其形成场景。形成感兴趣区域（ROI）窗口（即，从顶行到最下行未被车身遮挡的带阴影的矩形（如图3所示）），作为对卷积神经网络（CNN）的输入层。CNN确定ROI的中心线是否包含棒状像素，并且报告可能性、位置（rV，rV）、高度h和棒状像素所属的种类标签l。使ROI窗口从图像的左侧移动到右侧，以顺序地针对每个ROI窗口位置确定棒状像素的存在。

标记的数据用于使用CNN训练棒状像素检测器，其将自动形成视觉特征映射。

返回参考图2，在130处，物体检测模块16处理雷达数据以确定雷达存在向量。例如，如图3和4中所示，所有的雷达点均投影于图像平面上。该图像平面被划分成ROI且ROI被划分成竖直片，其中每个竖直片均是棒状像素候选。在片中确定雷达点的存在并且行索引被分配于存在向量中的对应元素。（注意，对于不存在元素的默认值为零）。

返回参考图2，在140处，所述物体检测模块16然后将雷达点与场景中的识别出的棒状像素融合。例如，如图3和4中所示，向传统全连接层提供雷达存在向量和视觉特征映射，该全连接层最终输出棒状像素的存在可能性以及棒状像素的位置（r _V），高度（h），以及匹配的雷达点（d）。如图5所示，棒状像素被存储在由列c表示的一维阵列中。假设相机是经校准的，则xy-平面中的点p = (x, y)可以以图像像素为单位被映射到图象平面中的点q = (r, c)：q = H(p)，并且反之亦然p = H ^-1 (q)。每个棒状像素具有以下属性：

列（图像）：c

行（图像）：r

高度（图像）：h

可从q = (r, c) 和雷达二维位置p_R推导出xy-平面中的二维位置p：

其中，是利用来自棒状像素位置的信号的位置测量准确度，是利用来自雷达的信号的位置测量准确度；

雷达多普勒测量：d。

下标0和1指示在时间t₀和t₁下估计的来自相同的棒状像素的属性。时间间隔Δt=t₀-t₁。

返回参考图2，在150处，物体检测模块随后针对每个像素确定xy-平面中的2d速度：。例如，如图5和图6中图示的，在不丧失一般性的情况下，c₁、c₀分别表示在时间 t₁和t₀处来自物体的相同棒状像素。棒状像素运动估计被公式化为运动m（在图像列中）到棒状像素c ₁的分配，使得c ₁ = c ₀ + m。给定相对于先前时间帧的棒状像素c ₀的棒状像素c ₁和运动分配m，棒状像素c ₁的二维速度(v ₁ (c ₁ ))是以下二次表达式的最小值：

和

其中函数H(v ₁ , p ₁ (c ₁ )) 将xy-平面中的位置p₁(c₁)处的二维速度映射到图像平面，并且光流矢量：

其中是雷达多普勒准确度，并且是针对以像素为单位的棒状像素的光流准确度。因此，所估计的二维速度是运动分配m的函数，被写作v ₁ (c ₁ , m)。

返回参考图2，在160和170处，物体检测模块16然后经由标准动态规划最小化估计像素m*(c ₁ ) 中的最佳列位移，并且基于所估计的位移来确定物体。例如，让C ₁成为在输入帧上包含有效棒状像素的所有列的集合。最小化问题将解决：

动态规划以两个阶段执行。形成动态规划矩阵D，且列是棒状像素的所有符合条件位置（即，C ₁）并且行是所有符合条件运动（即，对于 c ₁ C _1， M(c ₁ )）。

为了简化符号，对于以下动态编程矩阵D计算，忽略当前棒状像素c ₁中的下标。

在第一次通过中，如以下给出的那样递归地（从右至左）计算D(c, m) ：

其中c _max是C ₁中最右侧的棒状像素。

否则用于所有m M(c)和c C ₁。为了简化，注意到c标记在时间帧t1中列c处的棒状像素。可用在第二阶段中回溯（从左至右）推出棒状像素运动估计m(c)：

在各种实施例中，棒状像素c ₁和棒状像素c ₁的匹配成本可是：

其中h _i (c)是帧t _i上的列c处的棒状像素的高度，以米为单位；a、b和γ是缩放参数；d _i (c)是在帧t _i上的列c处的棒状像素在xy-平面中的多普勒测量。集合M(c ₁ )包括相对于先前时间帧的棒状像素c ₁的所有符合条件列位移。其取决于棒状像素的位置和捕获图像的帧速率。例如，对于附近的棒状像素，其对应的|M(c ₁ )|趋于更大，并且随着其运动远离图像传感器14而减小。成本 c_null是针对无效运动的默认成本值，其被设定为上述等式中的最大可能成本值。SAD（c1，m）是在 t ₁处棒状像素c ₁和t ₀处的棒状像素c ₀ = c ₁ − m之间的RGB颜色通道上的绝对差异的像素的求和。

在各种实施例中，相邻棒状像素可或者对应于相同的物体，或者对应于单独的物体。如果棒状像素对应于相同的物体，则它们应当具有相同的运动：

Reg(m(c1), m(c1 + 1)) = ks|m(c1) − m(c1 + 1)|。

缩放因子ks取决于相邻棒状像素（即，c ₁和c ₁ + 1）属于同一物体的可能性。如果棒状像素c ₁和c ₁ + 1属于相同物体，则ks应当是大的，同时，如果它们属于不同的物体，则ks将是小的。

在各种实施例中，场景中的物体可相对于相机具有不同取向。取决于物体取向，相同物体的不同部分可能具有不同的深度值。但是，在物体的小邻域中存在深度的空间连续性。因此，可假设小邻域内的相邻棒状像素具有相似的深度值。

具有类似深度值的小邻域中的棒状像素可仍然属于不同的物体（例如，在行人紧邻停放的车辆站立的场景中的行人对车辆）。对于这种情况，语义标签（例如，行人、车辆等）是用于相对于不同物体的单独棒状像素的信息暗示。

对于汽车应用场景，雷达多普勒测量是将棒状像素分割成物体的另一弱暗示。

因此，缩放因子的设计可是

其中

并且 x ₁ (c ₁ )表示棒状像素c ₁在xy-平面中的x坐标，函数

∆x和∆d 是针对对应于相同物体的相邻棒状像素的深度和多普勒的最大可能差异。

在一个实施例中，提供αx = 0.1、α _l= 0.5、α _d = 0.2、∆x = 3、∆d = 2，并且与在匹配成本函数中的缩放参数a、b和γ那样相似地将k _x, k _l, and k _d归一化。

在各种实施例中，对于汽车场景，棒状像素的运动是平滑的。因此，除了空间约束之外，可针对棒状像素c ₁添加以下时间约束以确保运动的平滑性：

其中v ₁ (c ₁ , m)是对棒状像素的运动分配m的给定假设的二维速度估计，并且kt是重量缩放因子。

虽然在前述详细描述中已经呈现了至少一个示例性实施例，但是应当理解，存在大量的变型。还应当理解的是，一个或多个示例性实施例仅仅是示例，并且不旨在以任何方式限制本公开的范围，适用性或构造。相反，前述详细描述将为本领域技术人员提供用于实施一个或多个示例性实施例的方便的路线图。应当理解，在不偏离如所附权利要求及其法律等同物所阐述的本公开的范围的情况下，可以对元件的功能和布置做出各种改变。

Claims

1.一种用于检测物体的方法，包括：

由处理器接收来自图像传感器的图像数据；

由处理器接收来自雷达***的雷达数据；

由所述处理器基于所述处理来检测物体。

2.根据权利要求1所述的方法，其中，所述处理包括处理所述图像数据以确定一个或多个棒状像素，并且其中所述深度学习方法使用所述一个或多个棒状像素。

3. 根据权利要求2所述的方法，其中，所述处理包括：

基于所述图像数据形成图像的感兴趣区域（ROI）窗口；和

4.根据权利要求2所述的方法，其中，所述处理包括：

基于所述图像数据形成感兴趣区域（ROI）窗口；

当确定棒状像素时报告可能性、位置、高度和类别标签。

5.根据权利要求1所述的方法，其中，所述处理包括：

6.根据权利要求1所述的方法，其中，所述处理包括使用所述深度学习方法融合所述图像数据的棒状像素和所述雷达数据的存在向量。

7.根据权利要求6所述的方法，还包括确定所述融合的棒状像素和存在向量的每个的速度，并且其中，基于所述融合的棒状像素和存在向量的每个的所述速度来进行所述物体的检测。

8.根据权利要求7所述的方法，还包括确定所述融合的棒状像素和存在向量的每个的位移，并且其中，基于所述融合的棒状像素和存在向量的每个的所述位移来进行所述物体的检测。

9.一种用于检测物体的***，包括：

图像传感器，其生成图像数据；

雷达***，其生成雷达数据；和

10.根据权利要求9所述的***，其中，所述计算机模块处理所述图像数据以确定一个或多个棒状像素，并且其中，所述深度学习方法使用所述一个或多个棒状像素。