CN111801689A

CN111801689A - 使用图像和尺寸特征进行实时对象检测和辨识的***

Info

Publication number: CN111801689A
Application number: CN201980016839.5A
Authority: CN
Inventors: 陈洋; D·科斯拉; R·M·乌伦布罗克
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2018-04-17
Filing date: 2019-02-14
Publication date: 2020-10-20
Also published as: EP3782075A4; EP3782075A1; WO2019203921A1

Abstract

描述了一种对象辨识***。使用积分通道特征(ICF)检测器，该***从围绕平台的场景的输入图像提取候选目标区域(该候选目标区域具有表示候选对象的关联原始置信度得分)。基于候选对象的检测的位置和高度来生成经修改的置信度得分。使用经训练的卷积神经网络(CNN)分类器，基于经修改的置信度得分对候选目标区域进行分类，从而得到分类对象。使用多目标***跟踪分类对象，以将各个分类对象最终分类成目标或非目标。如果分类对象是目标，则基于目标控制设备。

Description

使用图像和尺寸特征进行实时对象检测和辨识的***

政府权利

本发明是在美国政府合同号W15P7T-10-D-D413的政府支持下完成的。政府拥有本发明的某些权利。

相关申请的交叉引用

本申请是于2018年1月30日提交的美国申请No.15/883,822的部分继续申请，该美国申请No.15/883,822是于2017年3月30日提交的美国临时申请No.62/479,204的非临时申请，其全部内容通过引用并入本文中。

本申请还是于2018年4月17日提交的序列号为No.62/659,100的美国临时申请的非临时专利申请，其全部内容通过引用并入本文中。

背景技术

(1)技术领域

本发明涉及对象检测***，并且更具体地涉及使用图像和尺寸特征的对象检测和辨识***。

(2)相关技术的描述

对象检测和辨识***通常用于自主驾驶车辆和侦察***中，以快速且自动地检测和辨识视场内的对象。传统的对象检测和辨识***试图基于对象的图像特征来识别对象。在起作用时，这样的***的限制在于无法基于尺寸特征来验证辨识。

已经使用地平面的估计进行了确定尺寸的其它尝试。参见例如Dragon R.,VanGool L.,“Ground plane estimation using a hidden Markov model(使用隐马尔可夫模型的地平面估计)”，公开于第27届IEEE计算机视觉和模式辨识会议(the 27th IEEEconference on computer vision and pattern recognition)-CVPR 2014,pp.4026-4033,2014年6月23日至28日,美国俄亥俄州哥伦布市，其全部内容通过引用并入本文中。然而，当存在遮挡、阴影或无法提供开放空间的清晰视野的其它问题(例如，车辆在林区中行驶)时，这种方法通常会失败。

其它现有技术使用相机标定来从图像确定对象高度。参见例如，G.Führ,C.R.Jung和M.B.d.Paula,"On the Use of Calibration for Pedestrian Detection in On-BoardVehicular Cameras(关于车载相机中用于行人监测的标定的使用)"，公开于2016年第29届关于图形、模式和图像的SIBGRAPI会议(the 2016 29th SIBGRAPI Conference onGraphics,Patterns and Images)(SIBGRAPI),Sao Paulo,2016,pp.80-87，其全部内容通过引用并入本文中。当没有相机标定可用时，这种标定方法将失败。

因此，存在对同时从图像和位置数据学习的对象检测和辨识***的持续需求，该***对于数据类型是鲁棒性的并且在各种目标尺寸和位置下都是准确的。

发明内容

本公开提供了一种对象辨识***。在各个实施方式中，该***包括存储器和一个或更多个处理器。该存储器包括在其上被编码的可执行指令，使得在执行该指令时，一个或更多个处理器执行如本文所述的操作。例如，使用积分通道特征(ICF)检测器，该***从围绕平台的场景的输入图像提取候选目标区域(该候选目标区域具有表示候选对象的关联原始置信度得分)。基于候选对象的检测的位置和高度来生成经修改的置信度得分。使用经训练的卷积神经网络(CNN)分类器，基于经修改的置信度得分对候选目标区域进行分类，从而得到分类对象。使用多目标***跟踪分类对象，以将各个分类对象最终分类成目标或非目标。如果分类对象是目标，则可以基于目标控制设备。

在另一方面，ICF检测器计算用于视频的图像帧的通道特征向量，并且其中，对于各个图像帧，ICF分类器是以多个图像尺度并且跨整个图像帧被应用的。

在又一方面，CNN分类器被实现为包括CNN接口和CNN服务器的交互软件模块，其中，CNN接口显示从CNN服务器接收的结果。

在另一方面，经训练的CNN被用于电光(EO)和红外(IR)图像分类二者。

在又一方面，将输入图像划分成多个水平条带，并且基于输入图像中的真值(ground truth)对象的位置是否位于该条带中，将真值对象分成相同数量的组，各个组中的对象被用于估计输入图像中的对象高度分布的均值和标准差。

在另一方面，生成经修改的置信度得分的处理根据以下等式使用加权高斯：

以及

经修改的置信度得分＝原始置信度得分*wf，

其中，h表示输入图像中的候选对象的高度，m和σ分别表示输入图像和直条中的对象高度分布的均值和标准差，exp(.)表示指数函数，N是乘数，并且*表示乘法。

在又一方面，生成经修改的置信度得分的处理根据以下等式使用加权门限(gate)：

以及

经修改的置信度得分＝原始置信度得分*wf，

其中，h表示输入图像中的候选对象的高度，m和σ分别表示输入图像和直条中的对象高度分布的均值和标准差，N是乘数，并且*表示乘法。

在又一方面，该一个或更多个处理器执行以下操作：使用经修改的卷积网络(CNN-2)分类器基于经修改的置信度得分对候选目标区域进行分类，从而得到经修改的分类对象；以及将经修改的分类对象与来自经训练的CNN分类器的分类对象融合，以用于由多目标***进行处理。

最后，本发明还包括计算机程序产品和计算机实现方法。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令，该计算机可读指令可由具有一个或更多个处理器的计算机执行，使得在执行这些指令时，该一个或更多个处理器执行本文列出的操作。另选地，计算机实现方法包括使计算机执行这种指令并执行所得到的操作的动作。

附图说明

从参照以下附图对本发明的多个方面的以下详细描述，将容易理解本发明的目的、特征和优点，其中：

图1是示出了根据本发明的多种实施方式的***的组件的框图；

图2是具体实现本发明的一个方面的计算机程序产品的例示；

图3是根据本发明的多种实施方式的***框图；

图4A是根据本发明的多种实施方式的***框图；

图4B是示出了根据本发明的多种实施方式的经修改的卷积网络分类器的***框图；

图5是例示了将图像帧划分成N个水平条带的图像，其中，真值对象被分组成N个直条(bin)；

图6A是示出了用于面向侧面的传感器的88个训练序列中的对象的示例高度分布的例示；

图6B是示出了用于面向前面的传感器的88个训练序列中的对象的示例高度分布的例示；

图7是例示了针对30个测试序列的加权和未加权的检测得分的比较的图表；

图8是例示了高斯和门控(gated)检测得分权重方法的后CNN(第二级)基线接收器工作特性(ROC)与未加权得分的ROC相比较的图表；

图9A是示出了用于面向侧面的传感器的88个训练序列中的真值对象(例如，人、下车者(dismount))的示例高度分布的例示；

图9B是示出了用于面向前面的传感器的88个训练序列中的真值MAN对象的示例高度分布的例示；

图10是例示了对前CNN(第一级+尺寸过滤)和后CNN(第二级)结果中的30个EO测试序列的检测得分加权ROC与检测得分未加权ROC进行比较的结果的图表；以及

图11是示出了根据多种实施方式的设备的控制的框图。

具体实施方式

本发明涉及对象检测***，并且更具体地涉及使用图像和尺寸特征的对象检测和辨识***。呈现以下描述以使得本领域普通技术人员能够做出和使用本发明并且将本发明并入到特定应用的上下文中。对于本领域技术人员而言，多种修改以及在不同应用中的多种使用将是显而易见的，并且本文中限定的一般原理可以应用于广泛方面。因此，本发明不旨在限于所呈现的多个方面，而是应符合与本文所公开的原理和新颖特征一致的最广范围。

在下面的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，可以在不必限于这些特定细节的情况下实践本发明。在其它实例中，以框图的形式而不是详细地示出了众所周知的结构和设备，以便避免模糊本发明。

读者的注意力被引导到与本说明书同时提交并随本说明书公开以供公众检查的所有论文和文献，并且所有这种论文和文献的内容均通过引用并入本文。除非另有明确说明，否则本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)可以由具有相同、等效或类似目的的另选特征代替。因此，除非另有明确说明，否则所公开的各个特征仅是通用系列的等效或类似特征的一个示例。

此外，权利要求中未明确说明用于执行特定功能的“手段”或用于执行特定功能的“步骤”的任何要素均不被解释成在35U.S.C第112条第6款中规定的“设备”或“步骤”条款。尤其是，此处权利要求中“的步骤”或“的动作”的使用不旨在援引35U.S.C第112条第6款的规定。

在详细描述本发明之前，首先提供对本发明的多个主要方面的描述。随后，介绍为读者提供了对本发明的一般理解。接下来，提供了本发明的多种实施方式的具体细节，以给出对具体方面的理解。第四，提供了具有实验结果的示例实现。最后，描述了例示***的实际应用的示例实现。

(1)主要方面

本发明的多种实施方式包括三个“主要”方面。第一方面是用于对象检测和辨识的***。该***通常是计算机***操作软件的形式或是“硬编码”指令集的形式。该***可以被结合到提供不同功能的广泛多种设备中。第二主要方面是通常为使用数据处理***(计算机)运行的软件形式的方法。第三主要方面是计算机程序产品。该计算机程序产品一般代表存储在非暂时性计算机可读介质上的计算机可读指令，非暂时性计算机可读介质例如是诸如光盘(CD)或数字多功能盘(DVD)的光学存储设备，或者诸如软盘或磁带的磁性存储设备。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(ROM)和闪存型存储器。这些方面将在下面更详细地描述。

在图1中提供了描绘本发明的***(即，计算机***100)的示例的框图。计算机***100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文中讨论的某些过程和步骤被实现成驻留在计算机可读存储单元内并且由计算机***100的一个或更多个处理器执行的一系列指令(例如，软件程序)。当被执行时，该指令使计算机***100执行诸如本文所描述的特定动作并呈现特定行为。

计算机***100可以包括被配置成传输信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如，一个或更多个处理器104)与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机***100被配置成利用一个或更多个数据存储单元。计算机***100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机***100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM“EEPROM”、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机***100可以执行从在线数据存储单元中检索到(诸如在“云”计算中)的指令。在一方面，计算机***100还可以包括与地址/数据总线102联接的一个或更多个接口，诸如接口110。该一个或更多个接口被配置成使得计算机***100能够与其它电子设备和计算机***对接。由一个或更多个接口实现的通信接口可以包括有线通信技术(例如，串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如，无线调制解调器、无线网络适配器等)。

在一方面，计算机***100可以包括与地址/数据总线102联接的输入设备112，其中，输入设备112被配置成将信息和命令选择传递至处理器100。根据一个方面，输入设备112是字母数字输入设备(诸如键盘)，其可以包括字母数字键和/或功能键。另选地，输入设备112可以是除字母数字输入设备以外的输入设备。在一方面，计算机***100可以包括与地址/数据总线102联接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和/或命令选择传递至处理器100。在一方面，使用诸如鼠标、轨迹球、触控板、光学跟踪设备或触摸屏的设备来实现光标控制设备114。尽管存在前述内容，但是在一方面，经由来自输入设备112的输入(诸如，响应于与输入设备112相关联的特定键和键序列命令的使用)来引导和/或激活光标控制设备114。在另选方面，光标控制设备114被配置成由语音命令引导或指导。

在一方面，计算机***100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储设备，诸如存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面，存储设备116是诸如磁盘驱动器或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字多功能盘(“DVD”)的存储设备。根据一个方面，显示设备118与地址/数据总线102联接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子显示器或适于显示用户可识别的视频和/或图形图像和字母数字字符的任何其它显示设备。

本文呈现的计算机***100是根据一方面的示例计算环境。然而，计算机***100的非限制性示例不严格限于计算机***。例如，一方面提供了计算机***100表示可以根据本文描述的多个方面使用的一个类型的数据处理分析。此外，还可以实现其它计算***。实际上，本技术的精神和范围不限于任何单个数据处理环境。因此，一方面，使用由计算机执行的计算机可执行指令(诸如，程序模块)来控制或实现本技术的多个方面的一个或更多个操作。在一实现中，这种程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如其中，任务是由通过通信网络链接的远程处理设备执行的，或者诸如其中，多个程序模块位于本地和远程计算机存储介质(包括存储器存储设备)二者中。

在图2中示出了具体实现本发明的计算机程序产品(即，存储设备)的例示图。该计算机程序产品被示出为软盘200或诸如CD或DVD的光盘202。然而，如前所述，计算机程序产品一般表示存储在任何兼容非暂时性计算机可读介质上的计算机可读指令。关于本发明使用的术语“指令”一般表示要在计算机上执行的一组操作，并且可以表示整个程序的多段或单独可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源代码或目标代码)和“硬编码”电子器件(即，被编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如计算机的存储器中或软盘、CD-ROM和闪存驱动器中。无论哪种情况，指令均被编码在非暂时性计算机可读介质上。

(2)介绍

本公开提供了使用图像和尺寸/位置特征二者的对象检测和辨识***。该***扩展了仅使用图像特征的美国申请No.15/883,822的公开内容。本公开的***可操作用于：1)从图像和位置数据学习以准确地检测和辨识目标；2)基于位置数据对检测结果进行置信度调整；以及3)将以上所有内容组合成集成***作为单个管线。在回顾下面描述的***和对应的性能评估时，明显的是，本公开向用于对象检测和辨识的领域和技术提供了显著的技术改进。

(3)多种实施方式的具体细节

如图3所示，本公开的***对三级级联分类器进行改进，以用于来自静态或移动平台的EO和IR视频中的目标识别。关于三级分类器的具体细节可以在美国申请No.15/883,822中找到。第一级是积分通道特征(ICF)检测器300，其接收视频并运行快速检测(例如，每秒大于15帧)以提供作为视频中的边界框的高置信度候选目标区域和得分(例如，“MAN”或人物目标(或其它感兴趣对象))。ICF基于“通道特征”的聚集以及使用这些特征的小型决策树的训练。基本特征可以看作从原始像素值(RGB/IR)到更多信息特征(诸如，定向梯度、Haar特征、区域差异或简单颜色空间变换)的映射。ICF检测器300的输出是检测到的目标框位置和相关联的置信度。ICF检测器300为视频的图像帧计算通道特征向量，并且对于各个图像帧，ICF分类器是以多个图像尺度并且跨整个图像帧被应用的。

与美国申请No.15/883,822中描述的三级分类器形成对比，本公开的***向该***添加了目标尺寸过滤器302。目标尺寸过滤器302被应用于第一级的输出，以基于预期目标尺寸框对所检测的目标尺寸框来影响置信度得分。然后将具有经修改的置信度得分的候选边界框馈送到第二级，该第二级是输出目标类别、位置和置信度的卷积神经网络(CNN)分类器304。

在各种实施方式中，CNN分类器304被实现为包括CNN接口和CNN服务器(例如，一个或更多个处理器以及对应存储器)的交互软件模块，其中，CNN接口显示从CNN服务器接收的结果。CNN接口从ICF检测器300获取候选目标框信息并且从输入视频提取图像区域，并且将其交给CNN服务器进行分类。当从CNN服务器接收到结果时，CNN接口可以实时显示结果，并且也可以将结果记录到磁盘文件中，并且提供输出目标框以进行进一步处理。

第三级是多目标***(MTT)306，该多目标***(MTT)306跟踪来自CNN级(即，CNN分类器304)的目标框，以用于最终目标分类、位置和置信度得分。在另选实施方式中，***结果被馈送到比较器，以由CNN级进行进一步处理。

施加对象尺寸约束的思想如下。当相机感测到平坦表面上的下车者(例如，“MAN”或人(或其它感兴趣对象))时，图像中的受试者(subject)的高度与受试者到相机的距离直接相关，这反映在受试者的脚在图像中的位置。给定受试者的脚位于图像中的位置的图像行，在给定受试者的高度、相机固有特性、相机在地面上方的高度和相机倾斜的情况下，***可以精确地计算(或预测)图像中的受试者的高度。通过比较预测高度和图像中的检测框的高度，***可以根据两者的匹配程度提供检测的置信度。

***在经验上估计图像中的对象的底部(例如，脚位置)对对象高度(即，对象的顶部)，而不是构造解析公式。在这样做时并且如图5所示，将图像帧500(例如，640×480个像素)划分成N个(例如，16个)水平条带502，并且根据真值框的底部(或脚)位于图像中的位置，将真值对象分组成N个直条504。根据各个直条中的对象组，***可以估计它们的高度分布。例如，具有均值和标准差(m，σ)的正态(高斯)分布用于表示该分布。然而，如所描述和例示的，通常经由直方图绘图例示分布是方便的。

为了使用以上根据经验的高度分布来影响对象检测的置信度并由此改进***性能，修改来自ICF检测器300的检测器或置信度得分。后处理被用于评估此方法对***接收器工作特性(ROC)的影响，使得不需要实际检测器或分类处理。这种评估方法仅涉及前两级(即，ICF检测器300和CNN分类器304)以及目标尺寸过滤器302，而不涉及第三级(即，MTT306)。为了修改置信度得分，***基于检测的位置和高度来计算乘法权重因子(wf)并将其应用于检测置信度得分。下面进一步描述计算wf的两种方法。

在第二实施方式中并且如图4A所示，***学习通过组合图像和位置/尺寸信息以训练另选神经网络以产生分类结果来预测对象类别。在此实施方式中，顶部行处理采用与第二级中相同的深度卷积网络(CNN-1)分类器304，而第二行采用经修改的卷积网络(CNN-2)分类器400。经修改的卷积网络分类器400输出目标类别、位置和置信度，将其与来自CNN分类器304的目标类别、位置和置信度融合402，并提供给跟踪目标框的MTT 306，以用于最终目标分类、位置和置信度得分。

经修改的卷积网络分类器被扩展并且在图4B中进一步例示。在从ICF 300接收到输入404之后，来自最终卷积层(即，深度卷积层406)的1024-D(维度)特征408被填充有目标尺寸和位置410，并且被馈送到在分类器层之前的全连接(FC)层412。经修改的CNN-2 400可以与原始CNN-1 304一起使用，并且可以将CNN-1 304和CNN-2 400的结果融合402以得出最终决策。另选地，在维持相同处理流程的同时，可以利用CNN-2 400代替CNN-1 304。融合402可以通过跨要分类的类别集合组合CNN-1和CNN-2的概率分布来实现；例如，将来自两个CNN的类别的权重进行简单平均，然后重新归一化以使权重之和为1.0。

(3.1)方法1：加权高斯

修改置信度得分的第一种方法使用根据以下等式的加权高斯，：

new_score＝原始得分*wf，

其中，h表示图像中的其检测置信度得分将被修改的所检测对象的高度。m和σ分别表示对应图像和直条中的对象高度分布的均值和标准差。Exp(.)表示指数函数。在缺少与图像条带对应的直方图的情况下(即，没有对m和σ的估计)，将乘法权重因子(wf)设置为零(即，wf＝0.0)。此外，N＝{1,2,3,4...}是用于放宽检测尺寸约束的乘数。然后将乘法权重因子(wf)与原始得分相乘，以得出新的和经修改的置信度得分(即，new_score)。

通过实验确定N＝1是非常有限制性的，并且不会导致***性能的明显改进，而N＝4提供了大多数益处。图6A和图6B示出了绘图604，该绘图604示出了基于来自人类标注的真值(GT)信息分别来自面向侧面(在图6A中所示)和面向前面(在图6B中所示)传感器的IR数据集的88个训练序列的目标高度600分布。高度分布600在跨480行的图像高度的16个水平条带中(在图6A和图6B的各个中表示成16个绘图)被收集，并且利用它们的高斯近似值(均值和标准差)被绘制成25直条直方图。各个条带的直方图都标记有其覆盖的图像行。不存在所绘制的直方图的情况意味着没有足够的GT目标样本来支持针对对应条带的直方图估计。

为了进一步理解，图6A和图6B例示了两件事。首先，当对应直条中缺少直方图绘图时，无论目标高度如何，出现在那些直条中的目标都是不可能的。其次，对于具有直方图绘图的直条，直方图是高斯型(Gaussian-like)的。也就是说，潜在目标高度可以通过高斯分布很好地建模。这样，一旦估计了针对特定直条的估计目标高度，就可以基于这种分布来估计目标检测将为真的可能性。这些观察支持此处针对方法1提出的方法。

(3.2)方法2：加权门控

修改置信度得分的第二种方法根据以下等式使用加权门限

基本上，这在对应图像条带的GT框高度的均值(m)附近对检测框高度(h)进行门控。如果检测高度在门限内，则保留原始得分。否则，原始得分将被清零，从而有效地避免了检测进行进一步处理。这种方法被称为“加权门控”。与方法1类似，在缺少与图像条带对应的直方图的情况下(即，没有对m和σ的估计)，wf＝0。与上面的情况一样，一旦确定了乘法权重因子(wf)，就将其与原始得分相乘以得出新的和经修改的置信度得分。

在实验中发现，当N>3时，“加权门控”方法在提高ROC方面的检测性能中同样有效，而N＝1时，获得较差性能。例如，图8是例示了高斯和门控检测得分权重方法的后CNN(第二级)ROC与未加权得分的基线ROC相比的图表。如可以看出的，高斯方法和门控方法二者表现得差不多(对于N＝4)，并且比基线好约5％。

(4)实验结果

如图3所示的实施方式已经被实现和测试以用于辨识来自固定和移动地面车辆的EO和IR视频中的下车者(“MAN”目标)及它们的活动。

(4.1)IR视频数据

如图6A和图6B所示，从移动车辆收集IR视频序列的集合，并且绘制对象602的真值(GT)框的高度600的直方图分布，以形成收集高度直方图绘图604的集合。由于用于面向侧面的IR传感器序列和面向前面的IR传感器序列的传感器具有不同的倾斜角度，所以分别针对h1co和h2co序列执行直方图收集。这些在前面讨论的图6A和图6B中示出。如从图6A和图6B中的直方图绘图可以看出的，GT高度600从图像的底部(行450至行479)606朝向顶部单调减小，并且对于h1co，在均值为23.9个像素的行30至行59 608结束，而对于h2co，在均值为17.2的行180至行209610结束。对于h1co和h2co二者，最大浓度的GT MAN-*对象位于上面列出的最短目标条带之下的3至4个条带中。

计算如上所述的权重因子wf，并且使用wf修改检测得分。执行图3所示的其余管线，并且评估性能。实验表明加权高斯方法(方法1)如何提高置信度得分的有效性。具体地，图7是例示在前CNN(第一级)和后CNN(第二级)接收器工作特性(ROC)曲线中针对30个IR测试序列加权和未加权的检测得分的比较的图表。由于门控方法(方法2)获得了几乎相同的结果，所以仅示出了高斯窗口方法。如从图7中的这些绘图可以看出的，对于任何给定的每图像的假阳性(FPPI：false positive per image)或FPPI降低接近50％(例如，略高于75％的Pd水平)，我们得到达到7％(0.07)以上的Pd(正确检测的可能性)。

(4.2)EO视频数据

对可见条带(EO)视频数据进行了相同的实验和分析。分别在图9A和图9B中示出了结果。具体地，图9A和图9B是例示了用于面向侧面的彩色(或EO)传感器(图9A)和面向前面的EO传感器(图9B)的88个训练序列中的GT“MAN*”对象的高度分布的图表(即，高度直方图绘图的集合900)。高度分布在跨768行的图像高度的16个水平条带中收集，并且利用所覆盖的高斯近似值(来自均值和标准差)被绘制为25个直条直方图。各个条带的直方图都标记有其覆盖的图像行。在不存在所绘制的直方图的情况下，其意味着没有足够的GT条目支持直方图估计。

这些直方图看起来与来自先前章节中呈现的IR序列的直方图(参见图6A和图6B)没有太大不同。尽管具体数字有所不同，但趋势相同：随着目标移动接近传感器(目标框的底部边缘移动接近图像的底部)，目标的高度会变大，如绘图的均值所示的。图9A和图8B中所示的估计分布被用于以与针对IR图像讨论的相同方式对MAN对象检测得分进行加权。图10示出了对前CNN(第一级+尺寸过滤)和后CNN(第二级)结果中的30个EO测试序列的检测得分加权和未加权ROC进行比较的结果。如可以看出的，加权得分的检测ROC(前CNN)具有比未加权ROC高约4％的性能优势，但针对后CNN ROC的益处几乎消失。假设这发生是因为在EO中训练的CNN的性能已经非常好，并且经改进的检测几乎不能帮助进一步改进这种情况。这与IR情况相反。IR域中的CNN不如EO中的CNN好，因为目标对象往往更小并且包含较少的区分纹理。

因此，上述是对象检测和辨识***，其利用添加检测尺寸过滤来改进美国申请No.15/883,822中描述的工作。根据***ROC，与基线相比，在CNN辨识之前(即，仅在第一级)和CNN辨识之后(在第一级和第二级)，实验示出了对总体检测性能(Pd为5％至7％，FPPI下降接近50％)的积极改进。

(5)设备的控制

本文所述的发明甚至在小型、低功率、低成本平台(诸如，UAV和UGV)中也允许基于EO或IR视觉的对象/目标实时辨识。该方法也适合在新兴尖峰神经形态硬件(例如，神经形态芯片)上实现。根据本公开的实施方式的***可以用于情报、监视和侦察(ISR)操作、边界安全和任务安全中，诸如，用于基于UAV的监视、人类活动检测、威胁检测和分布式移动操作。例如，对于军事应用，分类的对象输出可用于(经由听觉、触觉和/或视觉警报等)警告驾驶员/团队存在高置信度“MAN”目标及其位置。然后，在手动确认其危险之后，通过使车辆改变路线等可以采取规避动作或攻击该目标。对于远程操作的车辆，其也可以提供类似警报。

另外，该***可以被嵌入自主驾驶机器人车辆(诸如，UAV和UGV)以及自动驾驶车辆中。例如，在自动驾驶车辆中，该***可用于碰撞避免。在该示例中，如果***在其路径中检测到对象(目标)(例如，行人、另一车辆)，则将警报发送到车辆操作***以使车辆执行制动操作。另选地，警报可以发信号通知车辆操作***应当围绕对象(目标)执行转弯运动，包括转向和加速操作或提供碰撞避免所需的任何其它操作。此外，所检测的对象可以是道路标志，诸如停车标志。在对停车标志进行分类时，可以将警报发送到车辆操作***，使车辆制动或以其它方式遵守由路标传达的消息。因此，如上所述，本文所述的***和处理可以用于控制各种设备，诸如，使所述设备执行操作或物理操纵。

图11是例示了使用处理器1100基于对象作为目标的分类来控制设备1102的流程图。可以经由处理器1100控制的设备1102的非限制性示例以及目标对象的分类包括车辆或车辆组件(诸如，制动器、加速度/减速度控制、转向机构、悬架或安全设备(例如，安全气囊、安全带拉紧器等)或其任意组合)。此外，该车辆可以是由驾驶员或远程操作员控制的无人飞行器(UAV)、自主地面车辆或人类操作的车辆。如本领域技术人员可以理解的，给出对象作为目标的分类以及采用该***的对应情况，其它设备类型的控制也是可能的。

最后，尽管已经根据多种实施方式描述了本发明，但是本领域普通技术人员将容易认识到，本发明可以在其它环境中具有其它应用。应当注意，许多实施方式和实现是可能的。另外，所附权利要求绝不旨在将本发明的范围限制到上述特定实施方式。另外，对“用于……的装置”的任何表述旨在引起对要素和权利要求的设备加功能阅读，而对不特别使用对“用于……的装置”的表述的任何要素不旨在被读作设备加功能要素，即使权利要求另外包括“装置”一词。此外，尽管以特定顺序叙述了特定方法步骤，但是这些方法步骤可以以任何期望顺序发生，并且落入本发明的范围内。

Claims

1.一种对象辨识***，所述对象辨识***包括：

非暂时性计算机可读介质以及一个或更多个处理器，所述非暂时性计算机可读介质上编码有可执行指令，使得所述可执行指令在被执行时，所述一个或更多个处理器执行以下操作：

使用积分通道特征(ICF)检测器，从围绕一平台的场景的输入图像提取候选目标区域，其中，所述候选目标区域具有表示候选对象的关联的原始置信度得分；

基于所述候选对象的检测的位置和高度，生成经修改的置信度得分；

使用经训练的卷积神经网络(CNN)分类器，基于所述经修改的置信度得分对所述候选目标区域进行分类，从而得到分类对象；

使用多目标***跟踪所述分类对象，以将各个分类对象最终分类成目标或非目标；以及

如果所述分类对象是目标，则基于所述目标对设备进行控制。

2.根据权利要求1所述的对象辨识***，其中，所述ICF检测器针对视频的图像帧计算通道特征向量，并且其中，对于各个图像帧，ICF分类器是以多个图像尺度并且跨整个图像帧被应用的。

3.根据权利要求1所述的对象辨识***，其中，所述CNN分类器被实现为包括CNN接口和CNN服务器的交互软件模块，其中，所述CNN接口显示从所述CNN服务器接收到的结果。

4.根据权利要求1所述的对象辨识***，其中，所述经训练的CNN被用于电光(EO)和红外(IR)图像分类二者。

5.根据权利要求1所述的对象辨识***，其中，将所述输入图像划分成多个水平条带，并且基于所述输入图像中的真值对象的位置是否位于所述条带中，将所述真值对象分成相同数量的组，各个组中的所述对象被用于估计所述输入图像中的对象高度分布的均值和标准差。

6.根据权利要求1所述的对象辨识***，其中，根据以下等式，使用加权高斯来生成所述经修改的置信度得分：

以及

经修改的置信度得分＝原始置信度得分*wf，

其中，h表示所述输入图像中的所述候选对象的高度，m和σ分别表示所述输入图像和直条中的对象高度分布的均值和标准差，exp(.)表示指数函数，N是乘数，并且*表示乘法。

7.根据权利要求1所述的对象辨识***，其中，根据以下等式，使用加权门限来生成所述经修改的置信度得分：

以及

经修改的置信度得分＝原始置信度得分*wf，

其中，h表示所述输入图像中的所述候选对象的高度，m和σ分别表示所述输入图像和直条中的对象高度分布的均值和标准差，N是乘数，并且*表示乘法。

8.根据权利要求1所述的对象辨识***，所述对象辨识***还包括以下操作：

使用经修改的卷积网络(CNN-2)分类器，基于所述经修改的置信度得分对所述候选目标区域进行分类，从而得到经修改的分类对象；以及

将所述经修改的分类对象与来自所述经训练的CNN分类器的所述分类对象融合，以由所述多目标***进行处理。

9.一种用于对象辨识的计算机程序产品，所述计算机程序产品包括：

非暂时性计算机可读介质，所述非暂时性计算机可读介质上编码有可执行指令，使得在由一个或更多个处理器执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

10.根据权利要求9所述的计算机程序产品，其中，所述ICF检测器针对视频的图像帧计算通道特征向量，并且其中，对于各个图像帧，ICF分类器是以多个图像尺度并且跨整个图像帧被应用的。

11.根据权利要求9所述的计算机程序产品，其中，所述CNN分类器被实现为包括CNN接口和CNN服务器的交互软件模块，其中，所述CNN接口显示从所述CNN服务器接收到的结果。

12.根据权利要求9所述的计算机程序产品，其中，所述经训练的CNN被用于电光(EO)和红外(IR)图像分类二者。

13.根据权利要求9所述的计算机程序产品，其中，将所述输入图像划分成多个水平条带，并且基于所述输入图像中的真值对象的位置是否位于所述条带中，将所述真值对象分成相同数量的组，各个组中的所述对象被用于估计所述输入图像中的对象高度分布的均值和标准差。

14.根据权利要求9所述的计算机程序产品，其中，根据以下等式，使用加权高斯来生成所述经修改的置信度得分：

以及

经修改的置信度得分＝原始置信度得分*wf，

15.根据权利要求9所述的计算机程序产品，其中，根据以下等式，使用加权门限来生成所述经修改的置信度得分：

以及

经修改的置信度得分＝原始置信度得分*wf，

16.根据权利要求9所述的计算机程序产品，所述计算机程序产品还包括以下操作：

17.一种用于对象辨识的计算机实现方法，所述计算机实现方法包括以下动作：

18.根据权利要求17所述的计算机实现方法，其中，所述ICF检测器针对视频的图像帧计算通道特征向量，并且其中，对于各个图像帧，ICF分类器是以多个图像尺度并且跨整个图像帧被应用的。

19.根据权利要求17所述的计算机实现方法，其中，所述CNN分类器被实现为包括CNN接口和CNN服务器的交互软件模块，其中，所述CNN接口显示从所述CNN服务器接收到的结果。

20.根据权利要求17所述的计算机实现方法，其中，所述经训练的CNN被用于电光(EO)和红外(IR)图像分类二者。

21.根据权利要求17所述的计算机实现方法，其中，将所述输入图像划分成多个水平条带，并且基于所述输入图像中的真值对象的位置是否位于所述条带中，将所述真值对象分成相同数量的组，各个组中的所述对象被用于估计所述输入图像中的对象高度分布的均值和标准差。

22.根据权利要求17所述的计算机实现方法，其中，根据以下等式，使用加权高斯来生成所述经修改的置信度得分：

以及

经修改的置信度得分＝原始置信度得分*wf，

23.根据权利要求17所述的计算机实现方法，其中，根据以下等式，使用加权门限来生成所述经修改的置信度得分：

以及

经修改的置信度得分＝原始置信度得分*wf，

24.根据权利要求17所述的计算机实现方法，所述方法还包括以下动作：