CN107527007B

CN107527007B - 在车辆图像处理***中检测关注对象的方法

Info

Publication number: CN107527007B
Application number: CN201710462755.7A
Authority: CN
Inventors: F·G·拉加比扎德; 苏煜; J·马琳·图尔; A·科伦坡
Original assignee: Delphi Technologies Inc
Current assignee: Delphi Technologies Inc
Priority date: 2016-06-20
Filing date: 2017-06-19
Publication date: 2021-11-02
Anticipated expiration: 2037-06-19
Also published as: EP3261017A1; US20170364757A1; CN107527007A

Abstract

本申请涉及在车辆图像处理***中检测关注对象的方法，该方法包括以下步骤：a)在照相机上拍摄图像；b)通过沿着所述图像在空间上不同的位置处运行检测窗口来提供多个潜在候选窗口，并且以相对于检测窗口的尺寸的不同图像缩放重复这一操作；c)对于各潜在候选窗口，应用候选选择处理，该候选选择处理适于从所述潜在候选窗口选择一个或更多个候选；d)向卷积神经网络(CNN)处理转发从步骤c)确定的候选；e)处理候选，以识别关注对象；该方法的特征在于，其中，到卷积神经网络(CNN)处理中的候选输入已经由步骤b)来调整大小。

Description

在车辆图像处理***中检测关注对象的方法

技术领域

本公开涉及图像处理方法，具体地涉及由图像处理和候选选择处理从照相机图像识别对象(诸如行人)的车辆图像处理。

背景技术

包括适于处理照相机图像以抽出与周围环境有关的信息的复杂图像处理装置的自动自驾车辆正在被开发。具体地，需要识别环境中的对象(诸如行人)。

行人检测是高级驾驶辅助***(ADAS：advanced driver assistance system)中具有显著相关性的对象检测的典型情况。由于行人外观(包括服装、姿势、遮挡以及背景杂波)的多样性，行人检测被认为是图像理解最具挑战性的任务之一。当前应用与解决行人检测中的问题有关，但它还可以应用于其他对象检测问题，诸如交通标志识别(TSR)、车辆检测、动物检测等等。

一般对象检测(特别是行人检测)中最快且最流行的方法之一使用如下技术，该技术以非常高效的方式提取聚合通道特征(ACF：aggregated channel feature)，且然后从训练数据学习用于快速检测的常数软级联。

该方法已经通过在通道特征上应用滤波器，或以新特征类型来提取通道特征二者之一，而被广泛研究且显著改进。

近年来，卷积神经网络(CNN：convolutional neural network)已经在许多计算机成像任务中带来突破。将CNN嵌入在***处理中已经被认为是标准策略。例如，在对象检测中，习惯做法是借助高效方法生成候选窗口，然后将CNN用于更细的分类。候选窗口可以为种类独立(例如，一般对象检测)或种类特定的(例如，行人检测)二者之一。在后者的情况下，检测器(例如，ACF)常常用于生成显著减少数量的高质量提议。

然后，CNN处理在不重新使用由候选生成器提取的特征的情况下通过调整原始窗口的大小来评价各提议。虽然CNN能够学习良好特征，但其高计算成本(包括图像调整大小和来自像素的特征提取)常常阻碍其用于实时应用的使用。本发明的目的是克服这些缺点。

发明内容

在本发明的一个方面中，提供了一种在车辆图像处理***中检测关注对象的方法，该方法包括以下步骤：

a)在照相机上拍摄图像；

b)通过沿着所述图像在空间上不同的位置处运行检测窗口，来提供多个潜在候选窗口，并且以相对于检测窗口的尺寸的不同图像缩放来重复这一操作；

c)对于各潜在候选窗口，应用候选选择处理，该候选选择处理适于从所述潜在候选窗口选择一个或更多个候选；

d)向卷积神经网络(CNN)处理转发从步骤c)确定的候选；

e)处理候选，以识别关注对象；

该方法的特征在于，其中，到卷积神经网络(CNN)处理中的候选输入已经由步骤b)来调整大小。

所述候选选择处理可以包括级联。

在步骤d)之后，处理优选地不包括来自步骤a)的原始图像的任何另外处理。

优选地，在步骤e)中不调整候选的大小。

该方法可以包括在步骤a)之后的以下另外步骤：

将所述图像转换成一个或更多个特征平面(通道化图像)，并且

步骤b)包括：通过沿着所述通道化(特征平面)图像中的所述一个或更多个，在空间上不同的位置处运行检测窗口来提供多个潜在候选窗口，并且以相对于检测窗口的尺寸的不同通道图像缩放来重复这一操作。

步骤b)可以包括：对于来自步骤a)的所述图像或，对于一个或更多个通道化图像(特征平面)，将所述图像或所述通道化图像转换成一组(金字塔式的(pyramid))缩放图像，并且对于这些图像中的每一个，在空间上不同的位置处应用固定尺寸检测窗口，以提供潜在候选窗口。

卷积神经网络处理可以不包括正则化层，且包括dropout层(脱落层)。

卷积神经网络处理优选地不包括子采样层。

卷积神经网络处理可以不包括最后两个非线性层，并且包括sigmoid层，所述sigmoid层封闭全连接层。

所述关注对象可以是行人。

附图说明

图1例示了根据现有技术***的图像处理步骤；

图2例示了固定尺寸的滑动检测窗口在图像金字塔上用于检测候选；

图3例示了根据本发明示例的图像处理步骤；以及

图4将现有技术***与本发明的一个示例进行比较。

具体实施方式

定义

现在将描述并定义所用的以下术语。

ACF方法和通道：

ACF代表聚合通道特征。为了提高分类性能，习惯做法依赖于原始图像上的第一计算更丰富的特征。通道是给定输入图像的登记映射，其中，从对应批的输入像素来计算输出像素。比如，在彩色图像中，各彩色通道可以充当通道(例如，红绿蓝(RGB)通道)。可以使用给定输入图像的线性或非线性变换来计算其他通道。典型ACF检测器使用如下10通道代替原始RGB图像(3通道)：

3个通道：luv色彩空间

7个通道：6个通道梯度方向直方图(HOG：Histogram of oriented gradient)+1个通道量级

HOG

该梯度方向直方图(HOG)是针对对象检测目的的、在计算机视觉和图像处理中使用的特征描述符。该技术计算在图像本地化部分中的梯度方向的出现。

使ACF检测器统一的是，ACF检测器不使用Haar特征(在矩形区域中计算的一体子部分之间的差异)来建造弱分类器，而是通道被划分成4*4块，并且对各块中的像素求和(聚合)。这意味着特征在聚合通道中的单个像素查找。

级联

级联是若干(例如，弱)“分类器”中的一个或更多个的线性序列。分类器例如是在潜在候选(窗口)(即，特定图像(该图像常为经处理缩放子图像))上被应用，以查看该候选是否具有例如关注对象(即，行人)的特性的测试。弱分类器经常是用于二元分类(binaryclassification)的决策树。级联可以由若干级构成。对于行人检测的问题，各级可以被认为是如下二元分类函数(弱分类器的线性组合)，其被训练为拒绝一重要部分的非行人，同时允许几乎所有的行人穿到下一级。

软级联

软级联架构允许信息的单调积累。

软级联训练一级级联(单调的)，且能够在各弱分类器之后(而不是在各级之后)拒绝否定候选(非行人)。这通过计算拒绝轨迹来进行(每一个弱分类器取得阈值)。

常数软级联

软级联的常数变量使用一个常数拒绝阈值，而不是使用拒绝痕迹，只要候选的置信度一降至该阈值以下，它就将被拒绝。这允许快速校准用于目标检测率、误报率或速度的检测器。

现有技术

图1例示了根据现有技术***的图像处理步骤。在步骤(a)中，由照相机拍摄输入图像1。

在步骤(b)中，提供金字塔式2或一组特征平面/缩放(scale)。在示例中可以存在例如每通道27个缩放。对于该处理存在两部分：

第一，对图像进行通道化，这意味着将图像转换成下文中被称为通道化图像的一系列特征平面。参见上面对于通道的定义

第二，对于各通道，提供一组或“金字塔式的”图像，其中，该组通道化图像被提供有不同的尺寸(这可以被认为是不同的量级)。这是因为在常用技术中，检测窗口可以具有固定尺寸，用于在空间上封装关注对象(例如，行人)。由此，对于一个或更多个原始通道化图像(即，通道)确定一组不同尺寸的一个或更多个通道化图像。

在步骤c)中，然后沿着金字塔中的各通道化图像(即，由步骤b中的处理产生的各图像)运行检测窗口，以提供潜在的候选窗口，并且在这些潜在候选窗口中的每一个上，例如由级联来实施候选选择处理。附图标记3表示级联处理。

因此，换言之，关于图像金字塔/缩放；在常用方法中从潜在候选窗口执行级联(生成候选)的稍后处理步骤(ACF中)仅可以应用于所谓(固定)检测窗口的内容(即，具有常数尺寸的(通道的)一块图像)。这里，为了封装(例如，通道化)图像中的对象(诸如行人)，在空间上(即，逐像素地)移动检测窗口，其目的在于(通过缩放原始图像)以不同的图像缩放来本地化处于任意位置中的对象/行人。

由此，为了概括，计算用于各个(通道化图像)的一组不同缩放的图像(类似于放大等级)，这被称为图像金字塔。然后在可以被当作“潜在候选窗口”的各个缩放(通道化)图像中(相对于一个或更多个通道组)的不同位置处转移固定尺寸的检测窗口，并且在各情况下应用候选选择处理。在图1中，步骤b)输出是关于各通道的、具有不同定尺的一组或更多组图像。

应注意，另选地，在各通道的原始(即，未调整大小的)通道化图像上使用不同的检测窗口的尺寸。因此，对于各检测窗口的尺寸，沿着原始通道化图像运行检测窗口，以识别潜在的候选窗口，并且在各情况下，应用级联(即，对于检测窗口的多个位置，对于各检测窗口的尺寸)。

图2例示了固定尺寸的滑动检测窗口在图像金字塔上用于检测候选。这示出了对于来自步骤b)的各个缩放(且通道化)图像7以顺序样式(例如，参见箭头A)移动、转移的检测窗口6。

具体在示例中，创建具有三个缩放(7a、7b、7c)的图像金字塔，以检测行人2。沿着各缩放(图像)的连续部分运行检测窗口，在各级处实施候选选择处理(例如，级联)。如图2的(C)所示，对于如所示的检测窗口的位置处的缩放图像7c选择候选。

因此，大体上在步骤b)中，有效提供多个不同缩放的图像。这可以对于一个或更多个通道进行。

返回参照图1，在步骤c)中，这示出了然后如何从潜在候选窗口由级联法选择候选(候选窗口)。为了概述并重复，这通过如下方式来执行：以逐步骤样式沿着从步骤b)输出的各“金字塔”图像(即，各通道的各缩放图像)运行检测窗口，以覆盖整个图像。

在各检测窗口位置处(对于各潜在候选窗口)，执行级联，借此，检测窗口的内容(表示可能的关注对象(即，行人))穿过级联，以识别实际的候选。这由领域中周知的处理来执行。如果候选的置信度降至用于级联的阈值以下，则将拒绝该候选，否则将接受该候选并将其传递到下一CNN级。

可以通过计算由在级联中所包括的各弱分类器给出的置信度的总数来计算候选的置信度。因此，总之，在步骤c)中，处理用于对象(诸如行人)的候选。这可以由级联来执行。步骤c)的输出可以是如下一组一个或更多个候选，其被表示为包括步骤b)或步骤a)的图像的具体部分因此包括不同尺寸的候选窗口的图像。

在步骤d)中，一旦已经选择一个或更多个候选，则对于各候选，包含候选的、来自步骤a)的原始图像的新确定窗口4是且必须被调整大小为先决条件或CNN处理的一部分。然后，CNN处理由如本领域中已知的精化处理来确定关注对象。由此，CNN用于重新计算(重写)穿过级联的候选的原始置信度。CNN是用于该应用的已知技术。附图标记5表示被输入到CNN处理的原始图像(该图像从级联确定)的一部分。

CNN/卷积层

CNN架构由不同层的堆叠形成，其中，给予第一层一图像，并且其种类(行人、非行人)的概率/置信度被给出为输出。卷积层是CNN的核心组成部分(core building block)。层的参数由延伸穿过输入图像的全深度的一组可学习滤波器构成。在训练期间，该网络学习如下的滤波器，当在输入图像的某一空间位置处这些滤波器看到某一具体类型的特征时，滤波器启动。

实施例

在本发明的一般方面中，原始步骤类似于上述过程(例如，步骤a)、步骤b)以及步骤c))(即，ACF过程)。然而，不是向CNN处理输入例如来自原始图像的调整大小的候选窗口，而是到CNN分类处理的输入是(例如，经由ACF)例如来自步骤a)、步骤b)以及步骤c)中的一个或更多个，而不是来自原始图像像素(即，而不是来自原始图像的一部分的)处理后的图像。为了进行这一点，适当修改CNN处理(层)。由此，以该方式，不需要在CNN处理中重复任何调整大小和/或通道化。

图3示出了本发明的一个示例的处理步骤。这些步骤与图1的步骤相同，除了到步骤d)(即，卷积神经网络处理)的输入与之前相同，是来自步骤c)的所选候选，但到CNN的输入是处理后ACF候选(即，该输入是在步骤a)、步骤b)以及步骤c)中已经被通道化/重调整大小的候选9的形式)。因此，例如，到CNN处理的输入将是所选的候选，并且是检测窗口内例如如图2的(C)所示的的所处理的图像的形式。

因此，换言之，根据一个方面的到CNN的输入是如下候选，这些候选已经借助于沿着不同尺寸的一组(各通道的)图像(金字塔)运行固定检测窗口，或如所提及的沿着通道化图像运行调整不同大小的检测窗口而被通道化(即，具有通道特征)，且有效调整大小(从各潜在候选窗口选择)。

由此，到CNN处理的输入意指不必对图形(候选)调整大小和/或通道化。因此，根据一个一般方面，原始图像不再用于确定或导出至CNN处理的任何输入。应注意，其优点是不必调整至CNN的图像输入的大小。此外，该方法(处理)不包括原始图像的任何另外处理(通道化/调整大小)。

应注意，在一些情况下，可以不存在通道化。在该情况下，从原始图像确定缩放图像，并且沿着各缩放图像，且在所执行的级联(候选选择处理)或如所提及的检测窗口可以沿着原始图像运行且对于不同检测窗口的尺寸重复的各情况下，运行检测窗口。再次在各情况下应用级联处理。

因为已经在检测级b)、c)中计算产生合适候选的调整大小/通道化(即，经由ACF)，所以这节省处理。通过进行这一点，避免了是最昂贵步骤的CNN的第一卷积层。乘法总数被减小至大约1/30：从用于使用128*64*3的输入的网络的大致90,000,000减小至使用具有16*8*10的输入的示例的3,000,000。

此外，因为CNN从ACF缩放金字塔取得输入，所以还避免调整大小操作。

架构

为了组合CNN与提供根据本发明示例的方法的方法(ACF)，可以使网络架构适应。

在现有技术中，到CNN处理的输入可以包括RGB图像。在本发明的一个示例中，ACF数据(例如，10通道)是到CNN的n输入。

第一，可以去除CNN的子采样层，使得网络仍然可以具有足够的深度。子采样是非线性降采样(down-sampling)的形式。存在实施池化(Pooling)的若干非线性函数，其中，最大池化(Max-Pooling)是最常用的一个函数。该函数将输入图像分割成一组非交叠矩形，并且对于各这种子区域输出最大值。这一点的另外说明可以在https://en.wikipedia.org/wiki/Convolutional_neural_network找到。

到CNN的输入可以具有16*8*10的尺寸，应用子采样将该尺寸收缩为8*4*10。这将不允许具有使CNN能够学习更复杂模式所需的足够数量的卷积层(足够深度)。

第二，正则化层(regularization layer)(即，对比归一化层和批归一化层)可以用计算上更便宜的脱落层(dropout层)来代替。存在可以用于进行正则化的各种方法。这用于防止网络“过度拟合”(即，对比归一化层和批归一化层)。现在将说明对比归一化。参照图4中的B，示出了对比归一化。在示例中，为了效率目的而避免这种层。

脱落(层)是防止网络过度拟合的一种正则化层。在各训练级，独立节点(以概率1-p)随机“脱落出(dropped out)”网络，或以概率p保持，使得留下缩小的网络。概率p是输入参数。

最后，用封闭全连接层并将CNN的目标函数从柔性最大值传输函数(softmax)和互熵变为平方差的sigmoid层代替。

为了针对非线性层进行说明：在没有非线性激活函数的情况下，神经网络计算值的线性组合或行的线性组合。

最常用非线性激活函数中的一个是ReLU层f(x)＝max(0，x)(整流线性单元)。与其他函数相比，因为ReLU的使用导致神经网络在不对一般化精度有显著影响的情况下更快地训练若干次，所以其是优选的。

s型函数还是非线性函数f(x)＝(1+e^-x)^-1的形式。

其中，ijk是高度、宽度以及深度(通道数量)，D是通道总数。这是柔性最大值传输函数(softmax)运算符。该运算符跨特征通道且以卷积方式来应用。柔性最大值传输函数(softmax)可以被视为激活函数(指数)和归一化函数的组合。

对数损失/互熵

l(x，c)＝-log x_c

X_c是种类c的预测概率。

平方差如下来定义：

其中，E是平方差，n是输入样本的数量，t_i是第i个样本的标签，并且O_i是其对应的网络输出。关于“标签”的定义，每一个种类取整数作为标签。例如，行人取得标签2(在二元法表示中为10)，并且非行人取得标签1(01)。我们在网络端部具有两个神经元。标签1(在二元法表示中为01)意指第一神经元应返回1，并且第二神经元返回0。相反情况对于标签2发生。输入Oi是给定输入i的输出。Oi是0与1之间的实数。基于此，错误E被计算并用于训练网络(反向传播)。

图4将现有技术***的架构和处理速度与根据本发明的一个示例的架构和处理速度进行比较。图4示出了用于A)组合检测器加AlexNet的现有技术***；B)包括具有CifarNet的检测器的现有技术***；以及C)包括检测器加ACNet的本发明的示例的架构(该架构通常用于CNN处理)等。附图示出了所需的各种层。最后两列分别示出了对于处理所需的典型数量的乘法和对数平均缺失率。

Claims

1.一种在车辆图像处理***中检测关注对象的方法，该方法包括以下步骤：

a)在照相机上拍摄图像(1)；

b)通过沿着所述图像在空间上不同的位置处运行检测窗口(6)来提供多个潜在候选窗口，并且以相对于所述检测窗口的尺寸的不同图像缩放来重复这一操作；

c)对于各潜在候选窗口，应用候选选择处理，该候选选择处理适于从所述潜在候选窗口选择一个或更多个候选(9)；

d)向卷积神经网络(CNN)处理转发从步骤c)确定的所述候选；

e)处理所述候选(9)，以识别关注对象；

所述方法的特征在于，其中，输入到所述卷积神经网络(CNN)处理中的所述候选(9)已经通过步骤b)来调整大小，并且

其中，在步骤d)之后，所述处理不包括对来自步骤a)的原始图像(1)的任何另外处理。

2.根据权利要求1所述的方法，其中，所述候选选择处理包括级联(3)。

3.根据权利要求1或2所述的方法，其中，在步骤e)中，不调整所述候选(9)的大小。

4.根据权利要求1或2所述的方法，所述方法包括在步骤a)之后的以下另外步骤：

将所述图像转换成一个或更多个特征平面(2)，即通道化图像(2)，并且

步骤b)包括：通过沿着所述通道化图像(2)中的，即所述特征平面(2)中的所述一个或更多个在空间上不同的位置处运行检测窗口(6)，来提供多个潜在候选窗口，并且以相对于所述检测窗口的尺寸的不同通道图像缩放来重复这一操作。

5.根据权利要求1或2所述的方法，其中，步骤b)包括：

对于来自步骤a)的所述图像，或对于一个或更多个通道化图像，即特征平面，将所述图像或所述通道化图像转换成一组金字塔式缩放图像(2)，并且对于这些图像中的每一个，在空间上不同的位置处应用固定尺寸检测窗口(7)，以提供潜在候选窗口。

6.根据权利要求1或2所述的方法，其中，所述卷积神经网络处理不包括正则化层，且包括dropout层。

7.根据权利要求1或2所述的方法，其中，所述卷积神经网络处理不包括子采样层。

8.根据权利要求1或2所述的方法，其中，所述卷积神经网络处理不包括最后两个非线性层，并且包括sigmoid层，所述sigmoid层封闭全连接层。

9.根据权利要求1或2所述的方法，其中，所述关注对象是行人(8)。