CN105917354A

CN105917354A - 用于图像处理的空间金字塔池化网络

Info

Publication number: CN105917354A
Application number: CN201480072125.3A
Authority: CN
Inventors: K·何; J·孙; X·张; S·任
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-10-09
Filing date: 2014-10-09
Publication date: 2016-08-31
Also published as: EP3204888A1; US20160104056A1; WO2016054779A1; US9542621B2; EP3204888A4

Abstract

空间金字塔池化(SPP)层与卷积层组合，并把输入图像从较精细到较粗略水平地划分各部分，并且聚集这些部分中的局部特征。SPP层可不管输入大小如何都生成固定长度的输出。SPP层使用的多层空间箱可向对象变形提供稳健性。基于SPP层的***可池化由于输入尺度的灵活性而以可变尺度提取的特征，从而使其能够生成供测试的全图像表示。此外，SPP网络可允许在训练期间馈送具有不同大小或尺度的图像，这可增加尺度不变性并降低过拟合的风险。

Description

用于图像处理的空间金字塔池化网络

背景

计算机视觉包括对图像以及，一般来说，来自现实世界的高维数据的获取、处理、分析和理解，以便产生数字或符号信息，例如，以决策的形式。所述图像理解可被视为使用由几何、物理、统计和学习理论辅助构造的模型对来自图像数据的符号信息的剖析(disentangle)。该图像数据可采取许多形式，如视频序列、来自多个相机的视图、或来自医疗扫描仪的多维数据。计算机视觉的进一步领域可包括场景重构、事件检测、视频跟踪、对象识别、学习、索引、运动估计以及图像恢复。

计算机视觉技术通常是复杂的工作，在许多情况下涉及大量的计算资源并且缺少准确性。例如，现有深度卷积神经网络(CNN)涉及固定大小(例如224×224)的输入图像。这个要求是“人工的”并且可能降低对任意大小/尺度的图像或子图像的识别准确性。

发明内容

提供本概述以便以简化的形式介绍将在以下的详细描述中进一步描述的一些概念。该概述不旨在穷尽地标识所要求保护的主题的关键特征或必要特征，也不旨在帮助确定所要求保护的主题的范围。

各实施例涉及使用空间金字塔池化网络来处理图像的方法、设备和***。一示例方法可包括接收输入图像；由神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图(feature map)；在跟随所述顶部卷积层的空间金字塔池化(SPP)网络处对顶部卷积层的每个滤波器的响应进行空间池化，其中SPP网络包括一个或多个层；将顶部SPP网络层的输出作为固定维度向量提供给全连接层。

从阅读以下详细描述及查看相关附图后，这些及其它特征和优点将显而易见。应当理解，以上一般描述及以下详细描述两者均是说明性的，而不限制所要求保护的各方面。

附图简述

图1概念性地例示出基于CNN的图像处理和基于SPP的图像处理的过程；

图2例示出具有空间金字塔池化层的示例神经网络结构；

图3例示出根据一些实施例的用于图像处理的***的框图，该***包括SPP层以及卷积神经网络层；

图4是可用于管理用于自动图像处理的SPP网络的示例通用计算设备的框图；

图5例示出根据实施例的使用SPP网络来进行图像处理的过程的逻辑流程图。

详细描述

如上面简要描述的，空间金字塔池化(SPP)层可与卷积层组合，并把图像从较精细到较粗略水平地划分成各部分，并且聚集这些部分中的局部特征。SPP层可不管输入大小如何都生成固定长度的输出。该SPP层使用的多层空间箱(spatial bin)可向对象变形提供稳健性。基于SPP层的***可池化由于输入尺度的灵活性而以可变尺度提取的特征，从而使得能够生成供测试的全图像表示。此外，SPP网络可允许在训练期间馈送具有不同大小或尺度的图像，这可增加尺度不变性并降低过拟合的风险。

在下面的详细描述中，参考构成其一部分的附图，在附图中，通过例图，示出了具体的实施例或示例。可以将这些方面组合起来，也可以理由其它方面，并且可以作出结构上的改变而在不背离本公开的精神或范围。因此，下面的详细描述并不旨在进行限制，并且本发明的范围由所附权利要求书以及其等效方案来限定。

尽管将在与在个人计算机上的操作***上运行的应用程序一起执行的程序模块的一般上下文中来描述一些实施例，但是，本领域的技术人员将认识到，这些方面也可以与其他程序模块相结合地实现。

一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构及其它类型的结构。此外，本领域的技术人员将理解，各实施例可以用其它计算机***配置来实现，包括手持设备、多处理器***、基于微处理器的或可编程的消费者电子设备、小型计算机、大型计算机及类似的计算设备。各实施例也可以在分布式计算环境中实现，在分布式计算环境中，多个任务由通过通信网络链接的远程处理设备来执行。在分布式计算环境中，程序模块可位于本地和远程的存储器存储设备两者中。

一些实施例可以被实现为计算机实现的过程(方法)、计算***、或者作为诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是可由计算机***读取的计算机存储介质，该计算机存储介质对包括指令的计算机程序进行编码，这些指令用于使计算机或计算***执行(多个)示例进程。计算机可读存储介质是计算机可读存储器设备。计算机可读存储介质可以例如通过易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或紧致盘、以及类似硬件介质中的一个或多个来实现。

贯穿本说明书，术语“平台”可以是用于图像处理的软件和硬件组件的组合。平台的示例包括、但不限于：在多个服务器上执行的主存服务、在单个计算设备上执行的应用、及类似的***。术语“服务器”一般是指一般在联网环境中执行一个或多个软件程序的计算设备。然而，服务器也可以被实现为在一个或多个计算设备上执行的虚拟服务器(软件程序)，该虚拟服务器被视为网络上的服务器。以下提供了关于这些技术和示例操作的更多细节。

图1概念性地例示出基于CNN的图像处理和基于SPP的图像处理的过程。

对深度卷积神经网络(CNN)的使用以及大规模训练数据的可用性正导致视觉技术的革命性变化，特别是在图像分析与对象检测方面。基于深度网络的方法被用于图像分类、对象检测、以及其它识别或非识别任务。如上所述，SPP层可不管输入大小如何都生成固定长度的输出，而常规深度网络中所使用的滑动窗口池化则不能。SPP层使用的多层空间箱可向对象变形提供稳健性，而滑动窗口池化仅使用单一窗口大小。

CNN的技术缺点是它们要求固定输入图像大小的事实。如图示100示出的，常规的基于CNN的图像处理***开始于输入图像102，如示例图示106和108示出的，该输入图像可能经受裁剪或扭曲(warping)104。经裁剪或扭曲的图像然后可被卷积层110处理，接着由提供输出116的全连接层114处理。经裁剪的区域可能不包含整个对象，而经扭曲的内容可能导致不合需要的几何失真。由于内容丢失或失真，识别准确性可能受到损害。此外，当对象尺度变化时，预定义尺度(例如224)可能不合适。固定输入大小可能忽略了涉及尺度的问题。卷积层可以按滑动窗口方式操作并输出特征图，特征图表示激活值(activation)的空间排列。实际上，卷积层可不要求固定图像大小并且可生成任何大小的特征图。另一方面，全连接层可能需要按其定义具有固定大小/长度的输入。因此，该固定大小约束可来自全连接层，全连接层存在于网络的较深阶段。

与用于图像处理的常规神经网络相反，根据各实施例***可首先在卷积层110处理该输入图像102而不管输入图像的大小或尺度，然后在可向全连接层114提供所需的固定大小输入的SPP层112执行进一步的处理。

图1中的示例图像已被描述为具有特定大小、类型和形状的具体图像。各实施例不限于对特定大小、形状或类型的对象的检测，也不限于对特定大小、类型或内容的图像的检测。根据各实施例的使用空间金字塔池化来进行图像处理的***可在能作用于任何大小、类型或内容的图像且能使用本文所描述的原理检测任何大小、形状或类型的对象的配置中实现。

图2例示出具有空间金字塔池化层的示例神经网络结构。

卷积层204可接受任意输入图像202大小，但是它们产生可变大小的输出。由预训练网络给出的固定长度表示还可被用于在其它数据集上训练分类器(诸如SVM或softmax)。在另一方面，分类器或全连接层可要求固定长度向量作为输入。空间金字塔池化可在生成这样的向量的同时通过在局部空间箱中的池化维护空间信息。空间箱可具有正比于图像大小的大小，所以箱的数量可不管图像大小而固定，这与常规深度网络的滑动窗口池化相反，其中滑动窗口的数量取决于输入大小。

为了使深度网络采用任意大小的图像，卷积层5(conv5)之后的池化层可被例如空间金字塔池化层210取代。在每个空间箱中，可池化每个滤波器的响应。最大池化是池化的一示例方法，但还可使用其它的池化方法。在一示例实现中，空间金字塔池化的输出208可以是kM维向量，箱的数量被表示成M(k为conv5滤波器的数量)。然后，固定维度向量可作为全连接层(fc6)212的输入被提供。

利用空间金字塔池化，输入图像可以是不仅允许任意宽高比而且允许任意尺度的任何大小。输入图像可以被按任何尺度调整大小(例如min(w；h)＝180,224,...)并且相同深度网络被应用于该输入图像。当输入图像处于不同尺度时，网络(具有相同的滤波器大小)可以按不同尺度提取特征。

可用标准反向传播来训练上述网络结构而不管输入图像大小。然而，在实际图形处理单元(GPU)实现中，可使用固定输入图像。然而，GPU实现可在被利用的同时仍保留空间金字塔池化行为。

在一个示例场景中，网络可收到从图像裁剪出的固定大小输入(224×224)。裁剪可被用于数据扩充的目的。对于具有给定大小的图像，空间金字塔池化需要的箱大小可以被预计算。

考虑conv5之后的具有a×a(例如13×13)大小的特征图与一金字塔层的n×n个箱，池化层可被实现为滑动窗口池化，其中窗口大小并且步幅其中和表示向上和向下取整操作。

对于l层金字塔，可实现l个这样的层。接下来的全连接层(fc6)可串接这l个输出。在一个示例配置中，具有conv5 13×13大小的特征图的3层空间金字塔池化网络可具有分别具有3×3、2×2和1×1个箱的各池化层。单一大小训练可允许多层池化行为，并且还提供增加的准确性。

为了解决训练中变化的图像大小，可考虑一组预定义大小。例如，可使用两种大小(180×180和224×224)，但也可实现任何数量的大小。不是裁剪较小的180×180区域，而是可将上述224×224区域调整到180×180大小。因此，两个尺度的区域可仅在分辨率不同，而不是在内容和/或布局不同。为使网络接受180×180输入，可实现另一固定大小输入(180×180)的网络。这个情况下，在conv5之后的特征图大小可以是a×a＝10×10。然后，窗口大小和步幅可仍旧被用于实现每个金字塔池化层。该180-网络的空间金字塔池化层的输出可具有与224-网络相同的固定长度。因此，这个180-网络可在每个层具有与224-网络完全相同的参数。换言之，在训练期间，可由共享参数的两个固定大小输入的网络来实现不同大小输入的SPP网络。

为了降低从一个网络(例如224)切换到另一网络(例如180)的开销，每个完整时期可在一个网络上被训练，然后为了下一个完整时期切换到另一个网络(复制所有权重)。这可被迭代地执行。该多大小训练的收敛速率可类似于以上讨论的单一大小训练。多大小训练可被用于模拟不同输入大小，同时仍利用现有的良好优化的固定大小实现。根据其它实施例，还可使用附加尺度/宽高比，每个尺度/宽高比对应一个网络并且所有网络共享权重。或者，可使用不同大小的实现来避免网络切换。应当注意，本文中描述的单一/多大小方法可被用于训练。在测试阶段，SPP网络可被应用于任何大小的图像。

图3例示出根据一些实施例的用于图像处理的***的框图，该***包括SPP层以及卷积神经网络层。

在根据各实施例的***中，多层池化的增益不是简单地归因于较多参数。相反，它是由于多层池化对对象变形和空间布局的变化是稳健的。由于基于空间金字塔池化的网络的使用不取决于尺度，所以可调整图像大小使得可用较小维度和相同网络来提取特征。

如图示300示出的，根据各实施例的图像处理***可采用一个或多个神经网络304来处理输入图像302并提供可被用于训练分类器、场景重构、事件检测、视频跟踪、对象识别、图像索引、或运动估计的输出316。特征图可从整个图像中被提取一次(任选地以多个尺度)。然后，空间金字塔池化可被应用于特征图的每个候选窗口以便池化此窗口的固定长度表示。因为可能耗时的卷积网络被应用了一次，该***可以比诸如R-CNN之类的办法快诸数量级地检测对象。

在一些实施例中，可从特征图308的诸区域中提取(310)窗口级特征。从而，在来自深度卷积特征图308的任意窗口中可启用特征提取。可调整输入图像302的大小以便适合网络的结构。包括基于滤波器数量的空间箱的一层或多层的SPP网络312，顶部卷积层可池化所提取的特征，并为全连接层314生成固定大小输出。

在一些示例中，输入图像302可被调整大小使得min(w；h)＝s，其中w是宽度，h是高度，s表示预定义尺度(例如256)，并且可从整个图像提取conv5的特征图。在一些示例实现中，4层空间金字塔(1×1、2×2、3×3和6×6，总共50个箱)可被用于每个候选窗口以便池化特征。这可为每个窗口生成12800维(256×50)表示。这些表示可被提供给网络的全连接层。

在其它实施例中，也可使用多尺度特征提取。图像可被调整大小使得min(w；h)＝s∈{480；576；688；864；1200}，并且可针对每个尺度计算conv5的特征图。在一些示例中，可通过逐通道地池化来自这些尺度的特征来组合它们。在其它示例中，可为每个候选窗口选择单一尺度s，以使得经缩放的候选窗口具有与一预定义值(例如224×224)最接近的像素数量。然后，根据这个尺度提取的特征图可被用于计算该窗口的特征。

已经使用具体示例、配置和基于空间金字塔池化的图像处理过程描述了图1至3中的示例。使用空间金字塔池化执行图像处理的实施例并不限于根据这些示例描述的具体示例、配置和过程。

一种采用SPP网络来处理图像的***，可有利地提高对象检测在搜索、视觉***和其它图像分析实现中的可用性，以及降低诸如处理器负载、存储器负载之类的计算开销，并增强在例如卫星成像、安全监控和类似***中的对象检测的可靠性。

图4是可使用空间金字塔池化来处理图像的示例通用计算设备的框图。

例如，计算设备400可被用作服务器、台式计算机、便携式计算机、智能电话、专用计算机或类似设备。在示例基本配置402中，计算设备400可包括一个或多个处理器404和***存储器406。存储器总线408可用于处理器404与***存储器406之间的通信。该基本配置402在图4中用内部虚线内的那些组件例示出。

取决于所期望的配置，处理器404可以是任何类型的，包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)、或其任何组合。处理器404可包括诸如分级高速缓存存储器412之类的一级或多级高速缓存、一个或多个处理器核414、以及寄存器416。示例处理器核414可(各自)包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)、或其任何组合。一示例存储器控制器418也可与处理器404一起使用，或在一些实现中，存储器控制器418可以是处理器404的内部部分。

取决于所期望的配置，***存储器406可以是任何类型的，包括但不限于易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等等)、或其任何组合***存储器406可包括操作***420、应用422、以及程序数据424。应用422可包括图像处理模块426，图像处理模块426可以是应用的一个组成部分或其本身就是一个独立应用。图像处理模块426可执行图像大小调整、特征提取(使用深度卷积特征图)、空间金字塔池化、以及分类器训练。任选地，多个固定大小网络可被用于不同大小的输入图像以及SPP层的结果在全连接层串接。如本文所描述的，程序数据424可包括与使用SPP层的图像处理的启用有关的图像数据428，以及其它数据。

计算设备400可具有附加特征或功能，以及附加接口以便促进基本配置402和任何所需设备与接口之间的通信。例如，总线/接口控制器430可被用于促进基本配置402与一个或多个数据存储设备432之间经由存储接口总线434进行的通信。数据存储设备432可以是一个或多个可移动存储设备436、一个或多个不可移动存储设备438、或其组合。仅举数例，可移动存储和不可移动存储设备的示例包括诸如软盘驱动器和硬盘驱动器(HDD)之类的磁盘设备、诸如紧致盘(CD)驱动器或数字多功能盘(DVD)驱动器之类的光盘驱动器、固态驱动器(SSD)、以及带驱动器。示例计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。

***存储器406、可移动存储设备436和不可移动存储设备438都是计算机存储介质的示例。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)、固态驱动器或其他光学存储、磁盒、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算设备400访问的任何其他介质。任何此类计算机存储介质可以是计算设备400的一部分。

计算设备400还可包括接口总线440用于促进经由总线/接口控制器430从各种接口设备(例如一个或多个输出设备442，一个或多个***接口444、以及一个或多个通信设备446)到基本配置402的通信。一些示例输出设备442包括图形处理单元448和音频处理单元450，可配置输出设备442以便其经由一个或多个A/V端口452与诸如显示器或扬声器的各种外部设备通信。一个或多个示例***接口444可包括串行接口控制器454或并行接口控制器456，可配置***接口444以便经由一个或多个I/O端口458与诸如输入设备(例如键盘、鼠标、笔、语音输入设备、触摸输入设备等等)或其它***设备(例如打印机、扫描仪等等)的外部设备通信。一示例通信设备446包括网络控制器460，网络控制器460可被安排成促进经由一个或多个通信端口464通过网络通信链接与一个或多个其它计算设备462进行通信。该一个或多个其它计算设备462可包括服务器、客户端设备以及类似设备。

网络通信链路可以是通信介质的一个示例。通信介质通常可由计算机可读指令、数据结构、程序模块或诸如载波或其它传输机制等已调制数据信号中的其它数据来体现，并可包括任何信息传递介质。“已调制数据信号”可以是通过对信号中的信息进行编码的方式设置或改变其具有的一个或多个特征的信号。通过示例而非限制，通信介质可包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声、射频(RF)、微波、红外(IR)和其它无线介质之类的无线介质。如此处所使用的术语计算机可读介质可包括存储介质和通信介质两者。

计算设备400可被实现为包括任何上述功能的通用或专门的服务器、大型机或类似的计算机的一部分。计算设备400还可被实现为包括膝上型计算机和非膝上型计算机配置两者的个人计算机。

示例实施例还可包括图像中通用对象检测的方法。这些方法可以以任何数量的方式来实现，包括本文中描述的结构。一种这样的方式可以是通过具有本公开中描述的类型的设备的机器操作。另一可任选方式可以是该方法的各个操作中的一个或多个操作结合一个或多个人类操作者执行某些操作来执行，的同时其它操作可被机器执行。这些人类操作者不需要彼此位于同处，但每个人类操作者可以仅具有执行程序的一部分的一台机器。在其它实施例中，人类交互可被自动化，诸如通过可以是机器自动化的预选标准。

图5解说了根据各实施例的过程500的逻辑流程图，即使用基于空间金字塔池化的神经网络来处理图像的过程。可在服务器或其它***上实现过程500。

过程500始于操作510，其中图像处理应用可接收输入图像以便处理。图像处理应用可以是视觉应用、分析应用、监视应用、搜索引擎、或被配置为把使用SPP网络处理图像作为其操作的一部分的任何类似应用。

在操作520，可由处理输入图像的神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图。该滤波器可以是滑动滤波器。在卷积层顶层的多个滤波器可确定在后续SPP网络中所需要的多个箱。特征图可从整个输入图像以一个或多个尺度生成一次。

在操作530，图像处理应用对SPP网络的一个或多个层上的每个滤波器的响应进行空间池化。该SPP网络可在多个空间箱中池化每个滤波器的响应并且生成多维输出向量，其中输出向量的维数基于该多个空间箱的数量乘以最后卷积层中的滤波器数量。

在操作540，可将SPP网络的顶层的输出作为固定维度向量提供给全连接层。全连接层的输出可被用于训练分类器、场景重构、事件检测、视频跟踪、目标识别、图像索引、运动估计、或类似的目的。

过程500中包括的操作用于说明目的。使用SPP层的图像处理可使用本文描述的各原理通过具有更少或更多步骤、以及不同的操作次序的类似过程来实现。

在一些实施例中，用于使用SPP网络的图像处理装置可包括用于接收输入图像的装置；用于由神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图的装置；用于在跟随该顶部卷积层的空间金字塔池化(SPP)网络处对顶部卷积层的每个滤波器的响应进行空间池化的装置，其中该SPP网络包括一个或多个层；以及用于将顶部SPP网络层的输出作为固定维度向量提供给全连接层的装置。

根据一些示例，使用SPP网络的图像处理方法可包括接收输入图像；由神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图；在跟随该顶部卷积层的空间金字塔池化(SPP)网络处对顶部卷积层的每个滤波器的响应进行空间池化，其中该SPP网络包括一个或多个层；将顶部SPP网络层的输出作为固定维度向量提供给全连接层。

根据其它示例，该方法可进一步包括采用全连接层的输出用于以下各项中的一个或多个：训练分类器、场景重构、事件检测、视频跟踪、目标识别、图像索引以及运动估计。在SPP网络处对顶部卷积层上的每个滤波器的响应进行空间池化可包括在SPP网络的多个空间箱中对每个滤波器的响应进行池化。将顶部SPP网络层的输出提供给全连接层可包括将顶部SPP网络层的输出作为kM维向量来提供，其中M表示SPP网络中空间箱的数量并且k表示在顶部卷积层的滤波器数量。

根据进一步的示例，该方法还可包括调整输入图像大小以适合SPP网络的窗口大小，使用反向传播训练神经网络，和/或基于输入图像大小预计算SPP网络的空间箱数量。该方法可进一步包括a×a的图像大小以及包括n×n个箱的SPP网络层，将SPP网络层实现为滑动窗口池化层，其中由定义窗口大小并且由具有表示向上和向下取整操作的和的定义步幅。该方法还可包括在全连接层串接SPP网络层的输出。在SPP网络处对顶部卷积层上的每个滤波器的响应进行空间池化还可包括对顶部卷积层上的滤波器的响应采用最大池化。

根据又一些示例，描述了用于执行图像处理的计算设备。该计算设备可包括：被配置为通过有线或无线通信中的一种或多种来接收输入图像的输入模块，被配置为存储指令的存储器，以及耦合到该存储器和该输入模块的处理器。处理器可执行图像处理应用，其可被配置为接收输入图像；由神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图；在跟随顶部卷积层的空间金字塔池化(SPP)网络的多个空间箱中对顶部卷积层的每个滤波器的响应进行空间池化，其中该SPP网络包括一个或多个层；以及将顶部SPP网络层的输出作为固定维度向量提供给全连接层。

根据又进一步的示例，特征图可从整个输入图像以一个或多个尺度生成一次。图像处理应用可进一步被配置为采用具有相应的SPP网络的两个或更多个固定大小的神经网络来处理两个或更多个大小的图像。两个或更多个固定大小的神经网络的顶部SPP网络层的输出可被配置为具有相同固定长度。图像处理应用也可被配置为在两个或更多个固定大小的神经网络中的第一固定大小的神经网络上训练第一完整时期，并且在两个或更多个固定大小神经网络中的第二固定大小的神经网络上训练第二完整时期。图像处理应用还可被配置为在两个或更多个固定大小的神经网络中的第二固定大小的神经网络上训练第二个时期之前将两个或更多个固定大小的神经网络中的第一固定大小的神经网络的权重复制给两个或更多个固定大小的神经网络中的第二固定大小的神经网络，并且以迭代的方式在不同的神经网络上执行训练。

根据其它示例，描述了具有存储在其上的用于执行图像处理的指令的计算机可读存储设备。这些指令可包括接收输入图像；由神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图；在跟随该顶部卷积层的空间金字塔池化(SPP)网络的多个空间箱中对顶部卷积层的每个滤波器的响应空间池化，其中该SPP网络包括一个或多个层；将顶部SPP网络层的输出作为固定维度向量提供给全连接层。

根据进一步的示例，该指令可进一步包括调整该输入图像的大小，使得min(w；h)＝s，其中w是图像的宽度，h是图像的高度，以及s代表针对图像的预定义尺度，并且通过以迭代的方式将第一固定大小的神经网络的权重复制给后续的固定大小的神经网络来在不同的固定大小的神经网络上训练不同的完整时期。

以上说明、示例和数据提供了各实施例的组成的制造和用途的完整描述。尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求和实施例的示例形式公开的。

Claims

1.一种执行图像处理的方法，所述方法包括：

接收输入图像；

由神经网络的一个或多个卷积层上的一个或多个滤波器生成特征图；

在跟随顶部卷积层的空间金字塔池化(SPP)网络处对所述顶部卷积层的每个滤波器的响应进行空间池化，其中所述SPP网络包括一个或多个层；以及将顶部SPP网络层的输出作为固定维度向量提供给全连接层。

2.如权利要求1所述的方法，其特征在于，进一步包括：

采用全连接层的输出用于以下各项中的一个或多个：训练分类器、场景重构、事件检测、视频跟踪、目标识别、图像索引、和运动估计。

3.如权利要求1所述的方法，其特征在于，在所述SPP网络处对所述顶部卷积层的每个滤波器的响应进行空间池化包括：

在所述SPP网络的多个空间箱中对每个滤波器的响应进行池化。

4.如权利要求3所述的方法，其特征在于，将所述顶部SPP网络层的输出提供给所述全连接层包括：

将所述顶部SPP网络层的输出作为kM维向量来提供，其中M表示所述SPP网络中的空间箱的数量并且k表示所述顶部卷积层处的滤波器数量。

5.如权利要求1所述的方法，其特征在于，进一步包括：

调整所述输入图像大小以适合所述SPP网络的窗口大小。

6.如权利要求1所述的方法，其特征在于，进一步包括：

在所述全连接层处串联所述SPP网络层的输出。

7.一种执行图像处理的计算设备，所述计算设备包括：

被配置为通过有线或无线通信中的一种或多种来接收输入图像的输入模块；

被配置为存储指令的存储器；以及

耦合到所述存储器和所述输入模块的处理器，所述处理器执行图像处理应用，其中所述图像处理应用被配置为：

接收输入图像；

在跟随顶部卷积层的空间金字塔池化(SPP)网络处的多个空间箱中对所述顶部卷积层的每个滤波器的响应进行空间池化，其中所述SPP网络包括一个或多个层；以及

将顶部SPP网络层的输出作为固定维度向量提供给全连接层。

8.如权利要求7所述的计算设备，其特征在于，所述图像处理应用被进一步配置为：

采用具有相应的SPP网络的两个或更多个固定大小的神经网络来处理两个或更多个大小的图像。

9.如权利要求8所述的计算设备，其特征在于，所述两个或更多个固定大小的神经网络的顶部SPP网络层的输出被配置为具有相同固定长度。

10.一种其上存储有执行图像处理的指令的计算机可读存储器设备，所述指令包括：

接收输入图像；

在跟随顶部卷积层的空间金字塔池化(SPP)网络的多个空间箱中对所述顶部卷积层的每个滤波器的响应进行空间池化，其中所述SPP网络包括一个或多个层；

将顶部SPP网络层的输出作为固定维度向量提供给全连接层；以及

基于在所述全连接层处所接收到的所述固定维度向量来训练分类器以便标记所述输入图像。