CN107203775A

CN107203775A - 一种图像分类的方法、装置和设备

Info

Publication number: CN107203775A
Application number: CN201610158639.1A
Authority: CN
Inventors: 张帆; 张伦; 刘曦; 刘荣; 楚汝峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Banma Zhixing Network Hongkong Co Ltd
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2017-09-26
Anticipated expiration: 2036-03-18
Also published as: CN107203775B

Abstract

本发明提供了一种图像分类的方法、装置和设备，其中方法包括：获取输入图像；利用深度神经网络对所述输入图像进行特征提取，得到M层特征图；利用分类器分别对其中的N层特征图进行分类；对所述N层特征图分别对应的分类结果进行融合，得到对所述输入图像的分类结果；其中M≥N，且M和N均为大于1的正整数。本发明对图像的分类不再是单纯利用深度神经网络输出的最高层特征图，而是考虑到多层特征图的特性，提高了图像分类结果的准确度。

Description

一种图像分类的方法、装置和设备

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种图像分类的方法、装置和设备。

【背景技术】

深度神经网络是人工神经网络的一种，已成为当前图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

随着深度神经网络的提出，特别是卷积神经网络的提出，使得图像分类技术获得了巨大的进步。该技术利用卷积层、全连层等构建深度神经网络，通过对海量的图像样本进行训练，以获得一个对图像内容可以进行描述的神经网络。在对图像进行分类时，将图像输入该神经网络，将神经网络的最高层的输出视为对图像的视觉特征，然后在该视觉特征上利用预先训练的分类模型，对图像进行分类。

深度神经网络尽管在分类性能上相较于传统方法取得了明显的进步，但是由于网络最高层是对图像全局内容的描述，单纯的选用网络最高层的输出作为视觉特征来描述图像，忽略了图像的细节信息，图像分类结果的准确度较低。

【发明内容】

有鉴于此，本发明提供了一种图像分类的方法、装置和设备，以便于提高图像分类的准确度。

具体技术方案如下：

本发明提供了一种图像分类的方法，该方法包括：

获取输入图像；

利用深度神经网络对所述输入图像进行特征提取，得到M层特征图；

利用分类器分别对其中的N层特征图进行分类；

对所述N层特征图分别对应的分类结果进行融合，得到对所述输入图像的分类结果；

其中M≥N，且M和N均为大于1的正整数。

根据本发明一优选实施方式，所述深度神经网络包括卷积神经网络。

根据本发明一优选实施方式，所述N层特征图的各层分别采用P个分类器进行分类，所述P≥1。

根据本发明一优选实施方式，对所述N层特征图分别对应的分类结果进行融合包括：

将同一类别的分类器对各层特征图进行分类的分类结果进行融合，分别得到各类别的分类器对所述输入图像的分类结果；

综合各类别的分类器对所述输入图像的分类结果，得到所述输入图像所属的类别。

根据本发明一优选实施方式，所述综合各类别的分类器对所述输入图像的分类结果，得到所述输入图像所属的类别包括：

将所述输入图像在各类别上的置信度中，置信度最高的若干个类别作为所述输入图像所属的类别；或者，

将所述输入图像在各类别上的置信度中，置信度超过预设阈值的类别作为所述输入图像所属的类别。

根据本发明一优选实施方式，在利用第i个分类器对第j层的特征图进行分类时，具体包括：

将所述第i个分类器采用滑动窗口的方式对所述第j层的特征图的各子块进行分类，分别得到各子块的分类结果，其中所述各子块具有与所述第j层的特征图相同的深度；

将所述第j层的特征图的各子块的分类结果进行融合，得到所述第i个分类器对所述第j层的特征图的分类结果。

根据本发明一优选实施方式，所述融合包括：

加权平均、支持向量机或boosting。

根据本发明一优选实施方式，该方法还包括：

利用样本图像，预先对所述分类器进行训练。

根据本发明一优选实施方式，所述利用样本图像，预先对所述分类器进行训练包括：

利用所述深度神经网络对特定类别的正样本图像和负样本图像进行特征提取，分别得到正样本图像对应的M层特征图以及负样本图像对应的M层特征图；

分别利用正样本图像的其中N层特征图以及负样本图像的其中N层特征图对分类器进行训练，得到所述特定类别的分类器。

根据本发明一优选实施方式，所述正样本图像包括：样本图像中所述特定类别的对象所在的第一图像区域；所述负样本图像包括：样本图像中除了所述特定类别的对象所在的图像区域之外的第二图像区域；

所述正样本图像对应的M层特征图包括：利用所述深度神经网络对样本图像进行特征提取后，得到的M层特征图中与所述第一图像区域对应的特征图区域；

所述负样本图像对应的M层特征图包括：利用所述深度神经网络对样本图像进行特征提取后，得到的M层特征图中与所述第二图像区域对应的特征图区域。

本发明提供了一种图像分类的装置，该装置包括：

输入单元，用于获取输入图像；

提取单元，用于利用深度神经网络对所述输入图像进行特征提取，得到M层特征图；

分类单元，用于利用分类器分别对其中的N层特征图进行分类；

融合单元，用于对所述N层特征图分别对应的分类结果进行融合，得到对所述输入图像的分类结果；

其中M≥N，且M和N均为大于1的正整数。

根据本发明一优选实施方式，所述融合单元，具体用于：

根据本发明一优选实施方式，所述融合单元在综合各类别的分类器对所述输入图像的分类结果时，具体执行：

根据本发明一优选实施方式，所述分类单元在利用第i个分类器对第j层的特征图进行分类时，具体执行：

根据本发明一优选实施方式，所述融合包括：

加权平均、支持向量机或boosting。

根据本发明一优选实施方式，该装置还包括：

训练单元，用于利用样本图像，预先对所述分类器进行训练。

根据本发明一优选实施方式，所述训练单元具体包括：

提取子单元，用于利用所述深度神经网络对特定类别的正样本图像和负样本图像进行特征提取，分别得到正样本图像对应的M层特征图以及负样本图像对应的M层特征图；

训练子单元，用于分别利用正样本图像的其中N层特征图以及负样本图像的其中N层特征图对分类器进行训练，得到所述特定类别的分类器。

本发明提供了一种设备，包括

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，被所述一个或者多个处理器执行以实现如下操作：

获取输入图像；

利用分类器分别对其中的N层特征图进行分类；

其中M≥N，且M和N均为大于1的正整数。

由以上技术方案可以看出，本发明对图像的分类不再是单纯利用深度神经网络输出的最高层特征图，而是利用分类器对深度神经网络输出的多层特征图分别进行分类后，对得到的分类结果进行融合，最终得到对输入图像的分类结果。这种方式能够考虑到多层特征图的特性，提高了图像分类结果的准确度。

【附图说明】

图1为本发明实施例提供的主要方法流程图；

图2为本发明实施例提供的一种对各层特征图进行分类和融合的示意图；

图3为本发明实施例提供的一种特征图与其子块之间关系的示意图；

图4为本发明实施例提供的第i个分类器对第j层特征图进行分类的示意图；

图5为本发明实施例提供的训练分类器的方法流程图；

图6为本发明实施例提供的一个样本图像的实例图；

图7为本发明实施例提供的装置结构图；

图8为本发明实施例提供的设备结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1为本发明实施例提供的主要方法流程图，如图1中所示，该方法可以包括以下步骤：

在101中，获取输入图像。

在本发明实施例中，可以将待分类的图像数据作为输入图像。

在102中，利用深度神经网络对输入图像进行特征提取，得到M层特征图，M为大于1的正整数。

本发明实施例中采用的深度神经网络是预先学习得到的深度神经网络，其学习过程以及深度神经网络的特征提取过程本发明并不加以限制，本发明改进之处在于利用深度申请网络对输入图像提取特征之后，对特征的利用方式以及后续的分类方式。其中深度神经网络可以采用多种类型，诸如卷积神经网络、BP神经网络、离散Hopfield网络、LVQ神经网络等。网络结构可以采用诸如AlexNet、***Net等已有的经典网络结构，也可以采用自定义的网络结构。

深度神经网络对输入图像进行特征提取后，可以形成一种多层次的立方体形式的特征描述，每一层的特征描述称为特征图，其形式可以表示为w*h*c，其中w和h分别为特征图的宽和高，c为特征图的深度(也称为通道数)，也就是该层特征图的个数，该层的若干个特征图一起构成了立方体形式的特征描述。每一层实际上是经过了一种输入到输出的数学运算，以卷积神经网络为例，采用的数学运算为卷积运算、池化运算等。

在103中，利用分类器分别对其中的N层特征图进行分类，N为大于1的正整数，且M≥N。

通常一幅图像中会包含很多事物，其颜色、形状、纹理等视觉特征大不相同，对于深度神经网络而言，其提取的各层特征中，越高层的特征越关注图像的整体信息，越低层的特征越关注图像的局部信息。与现有实现方式不同的是，本发明并不是单纯利用最高层的特征来进行分类，而是利用多个层次的特征分别进行分类后，将多个层次的分类结果进行融合，从而得到更加准确地分类。

在本步骤中，可以对得到的M层特征图分别利用分类器进行分类，也可以对其中的某些层的特征图利用分类器进行分类，具体对哪些层的特征图进行分类可以根据实际的需求或者根据经验进行灵活设置。

在104中，对上述N层特征图分别对应的分类结果进行融合，得到对输入图像的分类结果。

在步骤103中，针对每一层的特征图分别设置多个分类器，例如分别设置P个分类器，P≥1。每个分类器可以对应于一种类别，可以有多个分类器对应于同一类别。也就是说，针对每一层的特征图分别采用P个分类器进行分类，然后对同一类型的分类器对N层特征图的分类结果进行融合，得到各类型的分类器对输入图像的分类结果，如图2中所示。依据各类型的分类器对输入图像的分类结果，就可以确定出输入图像所属的类别。通常，各分类器输出的是置信度可以依据各类别的置信度来确定输入图像所属的类别，例如将置信度最高的若干个类别作为输入图像所属的类别，或者将置信度超过预设阈值的类别作为输入图像所属的类别，等等。

在进行融合时，可以采用但不限于加权平均、支持向量机或boosting等方式。以加权平均为例，对同一类型的分类器对N层特征图的分类结果进行融合时，可以将该类型的分类器对各层特征图的分类置信度进行加权平均，各层特征图对应的权值可以预先依据实际需求或经验值进行设置，最终得到一个总的置信度，该置信度就是输入图像在该类型上的置信度。

其中，每个分类器进行分类时，可以将一层的整个特征图作为输入，输出的就是该分类器对该层特征图的分类结果。然而，为了得到更加准确的分类结果，各分类器的输入可以是特征图的一个子块。如图3中所示，某一层的特征图为h*w*c，其中一个子块为h’*w’*c，该子块具有和特征图相同的深度，但不同的长和宽。分类器采用滑动窗口的方式遍历整个特征图的各子块，得到该分类器对各子块的分类结果，然后将该分类器对各子块的分类结果进行融合，就得到该分类器对该层特征图的分类结果。

以第i个分类器对第j层的特征图进行分类为例，该第i个分类器采用滑动窗口的方式对该第j层的特征图的各子块进行分类，分别得到各子块的分类结果；然后将第j层的特征图的各子块的分类结果进行融合，得到第i个分类器对第j层的特征图的分类结果，如图4所示。其中在将第j层的特征图的各子块的分类结果进行融合时，也可以采用但不限于加权平均、支持向量机或boosting等方式。以加权平均方式为例，可以依据各子块的位置分别设置对应权值，也可以设置为相同的权值，然后将各子块的在第i个分类器所对应类别上的置信度进行加权平均，得到第j层的特征图在该类别上的置信度。

上述的各分类器可以利用样本图像进行预先训练得到，具体的训练过程可以如图5所示，包括以下步骤：

在501中，利用深度神经网络对特定类别的正样本图像和负样本图像进行特征提取，分别正样本图像对应的M层特征图以及负样本图像对应的M层特征图。

其中，正样本图像为确认属于该特定类别的图像，负样本图像为确认不属于该特定类别的图像。作为一种优选的实施方式，也可以将一幅特定类别的图像中，属于该特定类别的对象所在的图像区域作为正样本图像，其他图像区域作为负样本图像。

举一个例子，图6为一幅猫的图像，其中虚线框内的图像区域为猫这一对象所在的图像区域，将该部分图像区域作为正样本图像，将虚线框之外的图像区域作为负样本图像。利用深度神经网络对图6所示的图像进行特征提取后，形成的各层特征图中，都存在一个区域与输入图像(即图6所示的图像)中虚线框内的区域(正样本图像)对应，这部分区域即为正样本图像对应的特征图；也存在区域与输入图像中虚线框外的区域(负样本图像)对应，这部分区域即为负样本图像对应的特征图。

在502中，分别利用正样本图像的其中N层特征图以及负样本图像的其中N层特征图对分类器进行训练，得到该特定类别的分类器。

训练分类器时使用的其中N层特征图与图1中所示的图像分类过程中使用的其中N层是相互对应的，也就是说，在训练分类器时使用了哪几层的特征图，那么在图像分类过程中也对应使用这几层的特征图。

通过大量的正样本图像和负样本图像的其中N层特征图，就可以训练得到特定类别的分类器。本发明实施例中采用的分类器可以包括但不限于SVM(支持向量机)、贝叶斯分类器、逻辑回归分类器等等。

接续上述关于图6的例子，将其中N层特征图中正样本图像对应的特征图区域以及负样本图像对应的特征图区域输入分类器，经过大量的猫的正样本图像和负样本图像就可以得到一个猫的分类器。

更细致地，还可以将图6所示的图像中虚线框内上半部分作为猫头的正样本图像，其他区域作为猫头的负样本图像，经过大量的猫头的正样本图像和负样本图像可以训练得到猫头的分类器。将图6所示的虚线框内下半部分作为猫脚的样本图像，其他区域作为猫脚的负样本图像，经过大量的猫脚的正样本图像和负样本图像就可以训练得到一个猫脚的分类器。诸如此类，猫头、猫耳朵、猫脚等分类器可以构成一个分类器组，利用该分类器组后续分别对输入图像进行图像分类后，该分类器组的分类结果可以综合确定一个输入图像是否属于猫的类别，从而使得分类结果更加准确。

以上是对本发明所提供方法进行的详细描述，上述方法的执行主体可以为图像分类装置，该装置可以位于本地终端的应用，或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者，还可以位于服务器端，本发明实施例对此不进行特别限定。下面结合实施例对本发明提供的装置进行详细描述。图7为本发明实施例提供的装置结构图，如图7所示，该装置包括：输入单元10、提取单元20、分类单元30和融合单元40，还可以进一步包括训练单元00。各组成单元的主要功能如下：

输入单元10负责获取输入图像，即待分类的图像数据。

提取单元20负责利用深度神经网络对输入图像进行特征提取，得到M层特征图，M为大于1的正整数。本发明实施例中采用的深度神经网络是预先学习得到的深度神经网络，其学习过程以及深度神经网络的特征提取过程本发明并不加以限制，本发明改进之处在于利用深度申请网络对输入图像提取特征之后，对特征的利用方式以及后续的分类方式。其中深度神经网络可以采用多种类型，诸如卷积神经网络、BP神经网络、离散Hopfield网络、LVQ神经网络等。

分类单元30负责利用分类器分别对其中的N层特征图进行分类。可以对得到的M层特征图分别利用分类器进行分类，也可以对其中的某些层的特征图利用分类器进行分类，即M≥N，且N为大于1的正整数，具体对哪些层的特征图进行分类可以根据实际的需求或者根据经验进行灵活设置。

融合单元40负责对N层特征图分别对应的分类结果进行融合，得到对输入图像的分类结果。

其中，分类单元30在进行分类时，N层特征图的各层可以分别采用P个分类器进行分类，P≥1。每个分类器可以对应于一种类别，可以有多个分类器对应于同一类别。这种情况下，融合单元40可以将同一类别的分类器对各层特征图进行分类的分类结果进行融合，分别得到各类别的分类器对输入图像的分类结果；再综合各类别的分类器对输入图像的分类结果，得到输入图像所属的类别。

其中，融合单元40在综合各类别的分类器对输入图像的分类结果时，可以输入图像在各类别上的置信度中，置信度最高的若干个类别作为输入图像所属的类别，也可以将输入图像在各类别上的置信度中，置信度超过预设阈值的类别作为输入图像所属的类别。

其中，每个分类器进行分类时，可以将一层的整个特征图作为输入，输出的就是该分类器对该层特征图的分类结果。然而，为了得到更加准确的分类结果，各分类器的输入可以是特征图的一个子块，例如，分类单元30在利用第i个分类器对第j层的特征图进行分类时，可以将第i个分类器采用滑动窗口的方式对第j层的特征图的各子块进行分类，分别得到各子块的分类结果，其中各子块具有与第j层的特征图相同的深度；再将第j层的特征图的各子块的分类结果进行融合，得到第i个分类器对第j层的特征图的分类结果。

这种实现方式下，对分类结果的融合既包括相同类型的分类器对每一层特征图中各子块的分类结果的融合，又包括对各层特征图所对应分类结果的融合，从而获得更加鲁棒和准确的分类结果。

本发明实施例中涉及的融合可以采用但不限于加权平均、支持向量机或boosting等方式。

训练单元00负责利用样本图像，预先对分类器进行训练。其中，训练单元00可以具体包括：提取子单元01和训练子单元02。

提取子单元01负责利用深度神经网络对特定类别的正样本图像和负样本图像进行特征提取，分别得到正样本图像对应的M层特征图以及负样本图像对应的M层特征图。

训练子单元02负责分别利用正样本图像的其中N层特征图以及负样本图像的其中N层特征图对分类器进行训练，得到特定类别的分类器。

其中，正样本图像为确认属于该特定类别的图像，负样本图像为确认不属于该特定类别的图像。作为一种优选的实施方式，正样本图像可以包括：样本图像中特定类别的对象所在的第一图像区域；负样本图像可以包括：样本图像中除了特定类别的对象所在的图像区域之外的第二图像区域。相应地，正样本图像对应的M层特征图包括：利用深度神经网络对样本图像进行特征提取后，得到的M层特征图中与第一图像区域对应的特征图区域；负样本图像对应的M层特征图包括：利用深度神经网络对样本图像进行特征提取后，得到的M层特征图中与第二图像区域对应的特征图区域。

训练子单元02在训练分类器时使用的其中N层特征图与分类单元30使用的其中N层是相互对应的，也就是说，在训练分类器时使用了哪几层的特征图，那么在图像分类过程中也对应使用这几层的特征图。

本发明实施例提供的上述方法和装置可以以设置并运行于设备中的计算机程序体现。该设备可以包括一个或多个处理器，还包括存储器和一个或多个程序，如图8中所示。其中该一个或多个程序存储于存储器中，被上述一个或多个处理器执行以实现本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

获取输入图像；

利用分类器分别对其中的N层特征图进行分类；

其中M≥N，且M和N均为大于1的正整数。

本发明实施例提供的上述方法和装置可以适用于多种应用场景，例如：

随着智能终端设备的普及，用户在智能终端设备上存储的图像越来越多，帮助用户管理图像变得越发重要。通过本发明实施例提供的上述方法和装置对智能终端设备上的图像进行分类后，打上类别标签，从而方便用户查找和浏览智能终端设备上的图像。

随着搜索引擎所提供服务的越来越多样化，搜索引擎所提供的服务已经不仅仅限于网页搜索、文本搜索，图像搜索已经成为其中一种非常重要的服务。对于搜索引擎抓取到的海量图像，采用人工标注的方式已经非常不现实。因此可以采用本发明实施例提供的上述方法和装置，对搜索引擎抓取到的图像进行分类后，标注上类别标签，并存储于数据库，从而用于响应终端的图像搜索请求。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种图像分类的方法，其特征在于，该方法包括：

获取输入图像；

利用分类器分别对其中的N层特征图进行分类；

其中M≥N，且M和N均为大于1的正整数。

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络包括卷积神经网络。

3.根据权利要求1所述的方法，其特征在于，所述N层特征图的各层分别采用P个分类器进行分类，所述P≥1。

4.根据权利要求3所述的方法，其特征在于，对所述N层特征图分别对应的分类结果进行融合包括：

5.根据权利要求4所述的方法，其特征在于，所述综合各类别的分类器对所述输入图像的分类结果，得到所述输入图像所属的类别包括：

6.根据权利要求1所述的方法，其特征在于，在利用第i个分类器对第j层的特征图进行分类时，具体包括：

7.根据权利要求1、4或6所述的方法，其特征在于，所述融合包括：

加权平均、支持向量机或boosting。

8.根据权利要求1至6任一权项所述的方法，其特征在于，该方法还包括：

利用样本图像，预先对所述分类器进行训练。

9.根据权利要求8所述的方法，其特征在于，所述利用样本图像，预先对所述分类器进行训练包括：

10.根据权利要求9所述的方法，其特征在于，所述正样本图像包括：样本图像中所述特定类别的对象所在的第一图像区域；所述负样本图像包括：样本图像中除了所述特定类别的对象所在的图像区域之外的第二图像区域；

11.一种图像分类的装置，其特征在于，该装置包括：

输入单元，用于获取输入图像；

其中M≥N，且M和N均为大于1的正整数。

12.根据权利要求11所述的装置，其特征在于，所述深度神经网络包括卷积神经网络。

13.根据权利要求11所述的装置，其特征在于，所述N层特征图的各层分别采用P个分类器进行分类，所述P≥1。

14.根据权利要求13所述的装置，其特征在于，所述融合单元，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述融合单元在综合各类别的分类器对所述输入图像的分类结果时，具体执行：

16.根据权利要求11所述的装置，其特征在于，所述分类单元在利用第i个分类器对第j层的特征图进行分类时，具体执行：

17.根据权利要求11、14或16所述的装置，其特征在于，所述融合包括：

加权平均、支持向量机或boosting。

18.根据权利要求11至16任一权项所述的装置，其特征在于，该装置还包括：

19.根据权利要求18所述的装置，其特征在于，所述训练单元具体包括：

20.根据权利要求19所述的装置，其特征在于，所述正样本图像包括：样本图像中所述特定类别的对象所在的第一图像区域；所述负样本图像包括：样本图像中除了所述特定类别的对象所在的图像区域之外的第二图像区域；

21.一种设备，包括

一个或者多个处理器；

存储器；

获取输入图像；

利用分类器分别对其中的N层特征图进行分类；

其中M≥N，且M和N均为大于1的正整数。