CN107851195B

CN107851195B - 利用神经网络进行目标检测

Info

Publication number: CN107851195B
Application number: CN201580081941.5A
Authority: CN
Inventors: 姜晓恒
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2022-02-11
Anticipated expiration: 2035-07-29
Also published as: US20180211130A1; EP3329424A1; EP3329424B1; US10614339B2; EP3329424A4; CN107851195A; JP2018527660A; WO2017015887A1

Abstract

提供了一种装置，其包括至少一个处理内核、包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理内核一起使得该装置至少：向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项(610)，在卷积层集合中处理输入数据项(620)，在从卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁，以及向第一分类器提供第一特征图补丁并且向第二分类器提供第二特征图补丁(630)。

Description

利用神经网络进行目标检测

技术领域

本发明涉及使用计算网络来检测对象。

背景技术

机器学习是探索能够从数据中进行学习的算法设计的学科。机器学习算法可以适应输入来构建模型，并且然后可以被用在新数据上以进行预测。机器学习与统计学、人工智能和优化有关，并且常常被用在其中明确的基于规则的算法难以用公式表示的任务中。这样的任务的示例包括图像识别、字符识别和垃圾邮件过滤。

人工神经网络是能够进行机器学习的计算工具。在下文中可以被称为神经网络的人工神经网络中，被称为“神经元”的互连的计算单元被允许适应训练数据，并且随后一起工作以在模型中产生预测，该模型在某种程度上可以类似于生物学神经网络中的处理。

神经网络可以包括一组层，第一层是被配置为接收输入的输入层。输入层包括神经元，神经元被连接到被包括在第二层中的神经元，第二层可以被称为隐藏层。隐藏层的神经元可以连接到另外的隐藏层或输出层。

在一些神经网络中，一层中的每个神经元具有与下一层中的每个神经元的连接。这样的神经网络被称为全连接网络。训练数据用于让每个连接承担表征连接强度的权重。一些神经网络包括全连接层和未完全连接的层。卷积神经网络中的全连接层可以被称为密集连接层。

在一些神经网络中，信号严格地以一种方式从输入层传播到输出层，这表示不存在传播回输入层的连接。这样的神经网络被称为前馈神经网络。在传播回输入层的连接确实存在的情况下，所讨论的神经网络可以被称为递归神经网络。

卷积神经网络CNN是包括未完全连接的层的前馈神经网络。在CNN中，卷积层中的神经元连接到较早层的子集或邻域中的神经元。这使得在至少一些CNN中能够保持输入中的空间特征。CNN可以具有卷积层和全连接层两者。

发明内容

本发明由独立权利要求的特征限定。在从属权利要求中限定了一些具体实施例。

根据本发明的第一方面，提供了一种装置，其包括至少一个处理内核、包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理内核一起使得该装置至少：向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项，在卷积层集合中处理输入数据项，在从卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁，以及向第一分类器提供第一特征图补丁并且向第二分类器提供第二特征图补丁。

第一方面的各种实施例可以包括来自以下项目列表的至少一个特征：

·输入数据项包括图像

·至少一个存储器和计算机程序代码被配置为与至少一个处理内核一起使得该装置通过组合原始图像的缩放版本集合来导出图像

·第一分类器包括人工神经网络的第一全连接层

·第二分类器包括人工神经网络的第二全连接层

·卷积层集合包括四个卷积层

·该装置被布置为通过在后续层中处理之前对前一卷积层的输出进行归一化来在卷积层集合中处理输入数据项

·该装置被布置为通过在后续层中处理之前对前一卷积层的输出进行子采样来在卷积层集合中处理输入数据项

·该装置被布置为通过在第三卷积层之后执行局部对比度归一化来在卷积层集合中处理输入数据项

·人工神经网络被配置为检测人的图像

·卷积神经网络被配置为检测行人的图像

·第一特征图补丁和第二特征图补丁至少部分交叠

·第一特征图补丁被包括在第二特征图补丁中。

根据本发明的第二方面，提供了一种方法，其包括：向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项，在卷积层集合中处理输入数据项，在从卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁，以及向第一分类提供第一特征图补丁并且向第二分类器提供第二特征图补丁。

第二方面的各种实施例可以包括来自以下项目列表的至少一个特征：

·输入数据项包括图像

·该方法包括通过组合原始图像的缩放版本集合来导出图像

·第一分类器包括人工神经网络的第一全连接层

·第二分类器包括人工神经网络的第二全连接层

·卷积层集合包括四个卷积层

·在卷积层集合中处理输入数据项包括在后续层中处理之前对前一卷积层的输出进行归一化

·在卷积层集合中处理输入数据项包括在后续层中处理之前对前一卷积层的输出进行子采样

·在卷积层集合中处理输入数据项包括在第三卷积层之后执行局部对比度归一化

·人工神经网络被配置为检测人的图像

·卷积神经网络被配置为检测行人的图像

·第一特征图补丁和第二特征图补丁至少部分交叠

·第一特征图补丁被包括在在第二特征图补丁中。

根据本发明的第三方面，提供了一种装置，其包括：用于向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项的装置，用于在卷积层集合中处理输入数据项的装置，用于在从卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁的装置，以及用于向第一分类器提供第一特征图补丁并且向第二分类器提供第二特征图补丁的装置。

根据本发明的第四方面，提供了一种非暂态计算机可读介质，具有在其上存储的计算机可读指令集，计算机可读指令集在由至少一个处理器执行时使得装置至少：向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项，在卷积层集合中处理输入数据项，在从卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁，以及向第一分类器提供第一特征图补丁并且向第二分类器提供第二特征图补丁。

根据本发明的第五方面，提供了一种计算机程序，其被配置为使得根据第二方面的方法被执行。

工业适用性

本发明的至少一些实施例在增强基于机器的模式识别中找到工业应用。

附图说明

图1示出了能够支持本发明的至少一些实施例的示例***；

图2A和图2B示出了根据本发明的至少一些实施例的示例CNN；

图3示出了能够支持本发明的至少一些实施例的示例装置；

图4示出了根据本发明的至少一些实施例的示例人工神经网络；

图5示出了根据本发明的至少一些实施例的特征图补丁与输入图像部分之间的对应关系，以及

图6是根据本发明的至少一些实施例的方法的流程图。

具体实施方式

为了减少识别大小不同的对象中的计算负担，针对至少两个尺度重复使用人工神经网络中的卷积层集合，使得卷积处理仅发生一次以便以至少两个尺度执行对象识别。卷积层的特征可以用于对单个输入图像操作，使得从所得到的特征图可以标识与至少两个尺度相对应的至少两个特征图补丁。至少两个特征图补丁中的每一个然后可以作为输入被提供给相应的分类器，其被布置为以相应的尺度执行对象识别。

图1示出了能够支持本发明的至少一些实施例的示例***。图1具有行人120正在其上行走的道路101的视图110。虽然在本文中结合检测行人进行描述，但是本发明不限于此，而是如本领域技术人员将理解的，本发明还更一般地适用于视觉、听觉或其他类型的数据中的模式识别。例如，取决于所讨论的实施例，骑自行车者识别、手写识别、面部识别、交通标志识别、语音识别、语言识别、手语识别和/或垃圾邮件识别可以受益于本发明。

在图1中，道路101由相机130成像。相机130被配置为捕获至少部分地覆盖道路的视图110。相机130可以被配置为预处理从图像捕获设备获得的图像数据，图像捕获设备诸如被包括在相机130中的电荷耦合设备CCD等。预处理的示例包括简化为黑白、对比度调整和亮度平衡以增加捕获图像中存在的动态范围。在一些实施例中，图像数据也被缩放到适合于馈送到图像识别算法的位深度。预处理可以包括选择感兴趣的区域，诸如区域125，例如用于馈送到图像识别算法中。预处理在本质上可以是不存在的或者是有限的，因为CNN的一个益处在于，一般的输入数据在提供给CNN之前不需要被广泛地预处理。例如，相机130可以安装在被配置为自己驾驶的汽车中。备选地，相机130可以安装在被设计为由人类驾驶员驾驶的汽车中，但是如果汽车似乎将要撞上行人或动物，则提供警告和/或自动刹车。

数据从相机130被提供到卷积神经网络，卷积神经网络包括阶段140、150、160、170和180。阶段140包括第一卷积层，第一卷积层被配置为处理从相机130接收的图像。第一卷积层140可以包括多个内核，多个内核被布置为处理来自从相机130接收的图像的数据。提供给内核的图像的一部分可以被称为内核的感受野(receptive field)。内核的替代术语是过滤器。例如，相邻内核的感受野可以在一定程度上交叠，这可以使得卷积神经网络能够响应于在图像中移动的对象。在一些实施例中，内核第一卷积层140采用相同的权重，这表示虽然权重可以在被包括在内核中的神经元之间不同，但是内核权重表对于第一卷积层140的每个内核是相同的。这减少了独立权重的数目并且使得卷积神经网络以类似的方式处理图像的不同部分。在例如行人检测中，这可以是有用的，因为行人可能存在于图像的任何部分中。控制独立权重的数目也可以提供训练卷积神经网络更容易的优点。

第一卷积层140可以产生多个特征图。第二卷积层150可以接收这些特征图，或者被使得能够从第一卷积层140读取这些特征图。第二卷积层150可以使用第一卷积层140的全部特征图或者仅使用它们的子集。在这点上，子集表示包括由第一卷积层140产生的特征图中的至少一个特征图而不是全部特征图的集合。第二卷积层150可以被配置为使用第二卷积层150的一个或多个内核来处理在第一卷积层中产生的特征图以产生第二层特征图。第二层特征图可以至少部分地被提供给第三卷积层160，第三卷积层160又可以被布置为使用第三卷积层160的内核来处理第二层特征图以产生至少一个第三层特征图作为输出。

图1的阶段170包括第一分类器，第一分类器可以包括例如全连接层。在图1的示例中，第一分类器的输出是关于行人是否被包括在视图110中的确定。例如，第一分类器可以包括softmax(柔性最大值)分类器。阶段170被布置为接收至少一个第三层特征图的第一子部分或补丁作为输入，第一子部分对应于阶段170被布置为在其上操作以执行对象识别的尺度。

图1的阶段180包括第二分类器，第二分类器可以包括例如全连接层。在图1的示例中，第二分类器的输出是关于行人是否被包括在视图110中的确定。例如，第二分类器可以包括softmax分类器。阶段180被布置为接收至少一个第三层特征图的第二子部分或补丁作为输入，第二子部分对应于阶段180被布置为在其上操作以执行对象识别的尺度。

通常，可以存在多于两个分类器被布置为接收来自第三卷积层160的特征图数据作为输入。详细地，每个分类器可以被布置为接收特征图补丁作为输入，特征图补丁与分类器被布置为以其执行对象识别的尺度相对应。特征图补丁可以至少部分交叠。被修补的特征图中的至少一个特征图可以被包括在另一特征图补丁中。在第三卷积层160输出多个特征图的情况下，特征图补丁可以包括从最后的卷积层输出的特征图中的每个特征图的补丁。换言之，在一组特征图被输出的情况下，特征图补丁可以包括一组特征图补丁。

图1所示的三个卷积层是示例，因为卷积层的数目可以变化，例如可以有四个、五个或六个卷积层或者实际上另一数目的卷积层。用于到分类器的输入的特征图补丁在每种情况下可以源自于最后的卷积层，而不管有多少个卷积层。有益效果从针对多于一个尺度仅执行一次卷积处理被获得，因为与其中针对每个尺度单独执行卷积处理的情况相比，计算机处理时间和/或处理器周期被节省。

例如，图1的相机130和CNN可以被包括在移动设备中，诸如例如移动电话、智能电话或其他类似的移动设备。移动设备可以可附接到汽车，以使得能够在行人可能在前方的情况下警告汽车司机。

在一些实施例中，相机130和CNN没有被包括在同一装置中。例如，相机130可以被包括在汽车或移动设备中，并且相机130可以被布置为至少部分地、和/或以处理和/或压缩形式向CNN提供其视频馈送，CNN在后端服务器设备或汽车的计算机中运行。例如，服务器可以提供其向汽车或移动设备作回的决定的指示。

在一些实施例中，CNN层(诸如例如第一卷积层140和第二卷积层160)被包括在不同的装置中。例如，第一装置可以包括相机130和第一卷积层140，而第二装置可以被配置为运行第二卷积层150。原则上，第三装置可以运行第三卷积层160。例如，第一、第二和/或第三装置可以包括移动设备，或者备选地，例如，它们中的至少一个装置可以包括后端服务器。例如，在第一、第二和第三装置中的至少两个装置包括移动设备的情况下，它们可以被布置为彼此通信，例如经由近场通信接口，诸如NFC或蓝牙。

图2A示出了根据本发明的至少一些实施例的示例CNN。示例CNN包括五层，在图2A中表示为层1、层2、层3、层4和输出。层1-4是卷积层，并且输出层是全连接的。图2A的网络的输入窗口的尺寸为128×64。输出层中的分类器被布置为接收尺寸为14×6的特征图补丁。

图2B示出了根据本发明的至少一些实施例的示例CNN。示例CNN包括五层，在图2B中表示为层1、层2、层3、层4和输出。层1-4是卷积层，并且输出层是全连接的。图2B的网络的输入窗口的尺寸为152×76。层1-4与图2A的网络中相同。输出层中的分类器被布置为接收尺寸为17×7的特征图补丁。

因此，图2A和2B的CNN在输入窗口的尺寸、提供给分类器的特征图补丁的尺寸和分类器的结构方面不同。根据本发明的至少一些实施例，具有足以填充较大的输入窗口的尺寸的单个图像被提供给层1-4，之后特征图补丁从最后的卷积层的输出被确定并且被提供以分离图2A和2B的分类器。因此，两个分类器可以通过仅运行一次卷积处理而被提供特征图补丁输入。

在图示的示例中，局部对比度归一化操作跟在前三个卷积层之后。子采样操作跟在局部标准化操作之后。通常，输入图像可以包括原始图像的缩放版本。这可以有助于检测不同大小的对象。例如，原始图像的缩放版本可以在输入图像中至少部分交叠。

在图2A和2B的示例中，第一卷积层(层1)利用大小为7×7×3的32个内核、以1个像素的步幅对128×68×3的输入图像进行过滤。例如，第二卷积层将第一卷积层的输出作为输入，第一卷积层的输出可以被归一化和子采样。第二卷积层(层2)利用大小为5×5×32的64个内核来过滤其输入。例如，第三卷积层(层3)具有连接到第二卷积层的输出的大小为3×3×128的128个内核，第二卷积层的输出也可以被归一化和子采样。第四卷积层(层4)具有大小为3×3×128的内核。

图3示出了能够支持本发明的至少一些实施例的示例装置，例如通过运行CNN。示出了设备300，设备300可以包括例如计算机或计算设备。被包括在设备300中的是处理器310，处理器310可以包括例如单核或多核处理器，其中单核处理器包括一个处理内核并且多核处理器包括多于一个处理内核。例如，处理器310可以包括Qualcomm Snapdragon800处理器。处理器310可以包括多于一个处理器。处理内核可以包括例如由ARM Holdings制造的Cortex-A8处理内核或由Advanced Micro Devices公司制造的Brisbane处理内核。处理器310可以包括至少一个Qualcomm Snapdragon和/或Intel Core处理器。处理器310可以包括至少一个专用集成电路ASIC。处理器310可以包括至少一个现场可编程门阵列FPGA。处理器310可以是用于执行设备300中的方法步骤的装置。处理器310可以至少部分地由计算机指令配置为执行动作。

设备300可以包括存储器320。存储器320可以包括随机存取存储器和/或持久存储器。存储器320可以包括至少一个RAM芯片。例如，存储器320可以包括磁性、光学和/或全息存储器。存储器320可以至少部分地由处理器310可访问。存储器320可以是用于存储信息的装置。存储器320可以包括处理器310被配置为执行的计算机指令。当配置为使得处理器310执行某些动作的计算机指令被存储在存储器320中并且设备300总体上被配置为在处理器310的指引下使用来自存储器320的指令运行时，处理器310和/或其至少一个处理内核可以被认为被配置为执行上述特定动作。存储器320可以至少部分地被包括在处理器310中。

设备300可以包括发射器330。设备300可以包括接收器340。发射器330和接收器340可以被配置为分别根据至少一个蜂窝标准或非蜂窝标准来发射和接收信息。发射器330可以包括多于一个发射器。接收器340可以包括多于一个接收器。例如，发射器330和/或接收器340可以被配置为根据WLAN、以太网、宽带码分多址WCDMA和/或全球微波接入互操作性WiMAX标准进行操作。

设备300可以包括用户界面UI 360。UI 360可以包括显示器、键盘和触摸屏中的至少一个。用户可以能够经由UI 360来操作设备300，例如以配置人工神经网络或者编程用于驾驶的目的地。

处理器310可以配备有发射器，发射器被布置为经由设备300内部的电引线将来自处理器310的信息输出到被包括在设备300中的其他设备。这样的发射器可以包括串行总线发射器，串行总线发射器例如被布置为经由至少一个电引线向存储器320输出信息以存储在存储器320中。作为串行总线的备选，发射器可以包括并行总线发射器。类似地，处理器310可以包括被布置为经由设备300内部的电引线在处理器310中从被包括在设备300中的其他设备接收信息的接收器。这样的接收器可以包括串行总线接收器，串行总线接收器被布置为例如经由来自接收器340的至少一个电引线来接收信息用于在处理器310中进行处理。作为串行总线的备选，接收器可以包括并行总线接收器。

设备300可以包括图3中未示出的另外的设备。设备300可以包括被布置为至少部分地认证设备300的用户的指纹传感器。在一些实施例中，设备300缺少上述的至少一个设备。

处理器310、存储器320、发射器330、接收器340和/或UI 360可以以多种不同的方式通过设备300内部的电引线被互连。例如，前述设备中的每个设备可以分别连接到设备300内部的主总线，以允许设备交换信息。然而，如本领域技术人员将理解的，这仅仅是一个示例，并且取决于实施例，在不脱离本发明的范围的情况下，各种用于互连至少两个上述设备的方式可以被选择。

图4示出了根据本发明的至少一些实施例的示例人工神经网络。在图中的左边的是输入窗口，输入1的尺寸为128×64，输入2的尺寸为152×76，并且一般地输入n的尺寸为h_n×w_n。在图的中间部分的是一组卷积神经网络层，如C1-C2-C3-C4示意性地所示的。在图的右侧是被布置为用作分类器的全连接输出层。被表示为输出1的分类器被布置为接收大小为14×6的特征图补丁作为输入。这可以详细地表示，该分类器从由最后的卷积层输出的128个特征图中的每个特征图接收大小为14×6的补丁。被表示为输出2的分类器被布置为接收大小为17×7的特征图补丁作为输入。这可以详细地表示，该分类器从由最后的卷积层输出的128个特征图中的每个特征图接收大小为17×7的补丁。被表示为输出n的分类器被布置为接收大小为h_n'×w_n'的特征图补丁作为输入。这可以详细地表示，该分类器从由最后的卷积层输出的128个特征图中的每个特征图接收大小为h_n'×w_n'的补丁。例如，分类器可以包括softmax分类器。

在图4的示例中，分类器输出1被布置为在从尺寸为128×64的对应输入窗口导出的大小为14×6的特征图补丁上操作，以便以输出1被配置为在其上操作的尺度来执行对象识别。类似地，输出2到输出n分别被配置为在特定尺度上操作，并且接收从对应大小的对应输入窗口导出的特征图补丁。卷积处理只需被执行一次，节省了计算资源。输入窗口可以至少部分交叠输入图像中的输入图像部分。特征图补丁可以在从最后的卷积层输出的特征图中至少部分交叠。

图5示出了根据本发明的至少一些实施例的特征图补丁与输入图像部分之间的对应关系。在左侧的是输入图像510，并且在右侧的是经由卷积层集合C从输入图像510导出的特征图520。

具体地，尺寸为128×64的输入窗口或输入图像部分在穿过卷积层集合C时产生尺寸为14×6的特征图补丁。类似地，尺寸为152×76的输入图像部分在穿过卷积层集合C时产生尺寸为17×7的特征图补丁。尺寸为184×96的输入图像部分在穿过卷积层集合C时产生尺寸为21×9的特征图补丁，并且尺寸为220×110的输入图像部分在穿过卷积层集合C时产生尺寸为25×11的特征图补丁。所有的特征图补丁从一次通过卷积层集合C的输入图像来获得。每个特征图补丁可以以分类器被配置为在其上操作的尺度被提供给分类器用于对象识别。因此，多尺度目标识别可以利用单次通过卷积层集合C来实现。

在使用一组四个基于卷积神经网络的行人检测器的比较性能评估中，已经获得以下结果。性能评估使用INRIA行人数据集用于训练，并且使用INRIA行人数据集和Caltech-USA行人数据集两者用于测试。根据本发明的方法被标记为CNN-SF，表示具有共享特征的卷积神经网络。用于比较的方法是CNN-patch(表示具有通用补丁级对象识别的CNN)以及针对使用现有技术的方法的图像级扫描的CNN-image。在补丁级扫描中，从输入图像生成的每个候选窗口中直接提取关于窗口的特征。图像级扫描与其不同之处在于，从预先在整个输入图像上计算的特征图中提取关于窗口的特征。在表1中，MR以百分比表示每个图像的假阳性的缺失率。表1示出了CNN-SF方法实现与CNN-patch和CNN-image方法两者相似的准确度。

表1：检测准确度的比较

表2：速度的比较

表2示出了相对于CNN-patch和CNN-image技术两者使用CNN-SF的对象识别过程的显著加速。例如，相对于CNN-image技术获得了两倍的加速。

图6是根据本发明的至少一些实施例的方法的流程图。例如，所示方法的阶段可以在诸如图3的设备300的设备中执行。

阶段610包括向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项。阶段620包括在卷积层集合中处理输入数据项。阶段630包括在从卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁。最后，阶段640包括向第一分类器提供第一特征图补丁并且向第二分类器提供第二特征图补丁。

应当理解，所公开的本发明的实施例不限于本文中公开的特定结构、过程步骤或材料，而是如本领域普通技术人员将认识到的那样扩展到其等价物。还应当理解，本文中使用的术语仅用于描述特定实施例的目的，而不旨在限制。

在整个说明书中对“一个实施例”或“实施例”的引用表示结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此，贯穿本说明书在各个地方出现的短语“在一个实施例中”或“在实施例中”不一定都指同一实施例。

如本文中使用的，为了方便起见，多个项目、结构元件、组成元件和/或材料可以呈现在公共列表中。然而，这些列表应当被解释为列表中的每个成员都被单独地标识为单独的且独特的成员。因此，这样的列表中的任何个体成员都不应当仅仅根据他们在一个共同分组中的存在而在没有相反指示的情况下被解释为事实上等同于同一列表的任何其他成员。另外，本发明的各种实施例和示例可以在本文中与其各种组件的备选方案一起被引用。可以理解，这样的实施例、示例和备选方案不被解释为事实上彼此等同，而是被认为是本发明的独立和自主的表示。

此外，所描述的特征、结构或特性可以以任何合适的方式在一个或多个实施例中被组合。在以下描述中，提供了很多具体细节，诸如长度、宽度、形状的示例，以提供对本发明实施例的透彻理解。然而，相关领域的技术人员将认识到，本发明能够在没有一个或多个具体细节的情况下或者利用其他方法、部件、材料等来被实践。在其他实例中，公知的结构、材料或操作未被示出或详细描述以避免混淆本发明的方面。

尽管前面的示例是在一个或多个特定应用中说明本发明的原理，但是对于本领域的普通技术人员来说显而易见的是，可以在没有运用创造能力并且在不偏离本发明的原理和概念的情况下，在实现的形式、使用和细节方面做出很多修改。因此，不旨在限制本发明，除了由下面阐述的权利要求限制之外。

Claims

1.一种用于对象检测的装置，包括至少一个处理内核、包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理内核一起使得所述装置至少：

- 向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项；

- 在所述卷积层集合中处理所述输入数据项；

- 在从所述卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁，以及

- 向第一分类器提供所述第一特征图补丁并且向第二分类器提供所述第二特征图补丁；

其中所述输入数据项包括图像；并且

其中所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理内核一起使得所述装置通过组合原始图像的缩放版本集合来导出所述图像；

其中所述第一特征图补丁对应于第一尺度，所述第一分类器被布置为在所述第一尺度上操作以执行对象识别，并且所述第二特征图补丁对应于第二尺度，所述第二分类器被布置为在所述第二尺度上操作以执行对象识别。

2.根据权利要求1所述的装置，其中所述第一分类器包括所述人工神经网络的第一全连接层。

3.根据权利要求1所述的装置，其中所述第二分类器包括所述人工神经网络的第二全连接层。

4.根据权利要求1所述的装置，其中所述卷积层集合包括四个卷积层。

5.根据权利要求1所述的装置，其中在所述卷积层集合中处理所述输入数据项包括在后续层中处理之前对前一卷积层的输出进行归一化。

6.根据权利要求1所述的装置，其中在所述卷积层集合中处理所述输入数据项包括在后续层中处理之前对前一卷积层的输出进行子采样。

7.根据权利要求1所述的装置，其中在所述卷积层集合中处理所述输入数据项包括在第三卷积层之后执行局部对比度归一化。

8.根据权利要求1所述的装置，其中所述人工神经网络被配置为检测人的图像。

9.根据权利要求7所述的装置，其中所述人工神经网络被配置为检测行人的图像。

10.根据权利要求1所述的装置，其中所述第一特征图补丁和所述第二特征图补丁至少部分交叠。

11.根据权利要求10所述的装置，其中所述第一特征图补丁被包括在所述第二特征图补丁中。

12.一种用于对象检测的方法，包括：

- 在所述卷积层集合中处理所述输入数据项；

其中所述输入数据项包括图像，并且所述方法还包括通过组合原始图像的缩放版本集合来导出所述图像;

13.根据权利要求12所述的方法，其中所述第一分类器包括所述人工神经网络的第一全连接层。

14.根据权利要求12所述的方法，其中所述第二分类器包括所述人工神经网络的第二全连接层。

15.根据权利要求12所述的方法，其中所述卷积层集合包括四个卷积层。

16.根据权利要求12所述的方法，其中在所述卷积层集合中处理所述输入数据项包括在后续层中处理之前对前一卷积层的输出进行归一化。

17.根据权利要求12所述的方法，其中在所述卷积层集合中处理所述输入数据项包括在后续层中处理之前对前一卷积层的输出进行子采样。

18.根据权利要求12所述的方法，其中在所述卷积层集合中处理所述输入数据项包括在第三卷积层之后执行局部对比度归一化。

19.根据权利要求12所述的方法，其中所述人工神经网络被配置为检测人的图像。

20.根据权利要求19所述的方法，其中所述人工神经网络被配置为检测行人的图像。

21.根据权利要求12所述的方法，其中所述第一特征图补丁和所述第二特征图补丁至少部分交叠。

22.根据权利要求21所述的方法，其中所述第一特征图补丁被包括在所述第二特征图补丁中。

23.一种用于对象检测的装置，包括：

- 用于向包括卷积层集合的人工神经网络的第一卷积层提供输入数据项的装置；

- 用于在所述卷积层集合中处理所述输入数据项的装置；

- 用于在从所述卷积层集合中的最后的卷积层输出的特征图中定义第一特征图补丁和第二特征图补丁的装置，以及

- 用于向第一分类器提供所述第一特征图补丁并且向第二分类器提供所述第二特征图补丁的装置；

其中所述输入数据项包括图像，并且所述装置还包括用于通过组合原始图像的缩放版本集合来导出所述图像的装置;

24.一种非暂态计算机可读介质，具有在其上存储的一组计算机可读指令，所述一组计算机可读指令在由至少一个处理器执行时使得所述至少一个处理器执行根据权利要求12至22中任意一项所述的方法。