CN104866855A

CN104866855A - 一种图像特征提取方法及装置

Info

Publication number: CN104866855A
Application number: CN201510229858.XA
Authority: CN
Inventors: 张世周; 龚怡宏; 柴振华
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2015-08-26

Abstract

本发明实施例公开了一种图像特征提取方法及装置，用于在无监督图像训练过程中进行高效的图像特征提取。本发明实施例方法包括：对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数；根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图；分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征；对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

Description

一种图像特征提取方法及装置

技术领域

本发明涉及通信技术，尤其涉及一种图像特征提取方法及装置。

背景技术

特征提取是许多计算机视觉分析任务(如场景识别、物体识别、目标检测)的关键步骤。因此，如何提取判别性强、鲁棒性高的特征一直是一个研究热点。传统意义上，研究人员的精力主要放在如何手工设计具有尺度、视点、光照以及类内差异等等不变性的图像特征。但是手工设计图像特征，需要研究人员具有非常专业的领域知识，挑战性很强。因此，像尺度不变性特征转换(SIFT，Scale-invariant Feature Transformation)、方向梯度直方图(HOG，Histogram of Oriented Gradients)、局部二进制模式(LBP，Local Binary Pattern)等鲁棒性较好的图像特征非常稀少，通常每5到10年才能设计出一项较好的手工特征。此外，手工设计的特征通常在某些视觉任务中表现出色，但在另外一些任务中却表现一般，例如LBP在人脸识别领域赢得了广泛的声誉，而HOG主要是因为行人检测而出名。

近年来的研究热点一直关注于如何从数据中直接学习得到特征表示。广受关注的是卷积神经网络模型(CNN，Convolutional Neural Network)，大规模视觉识别挑战赛中图像分类比赛的冠军都是基于CNN的模型。

图1所示为一个卷积神经网络的结构示意图，CNN通过对局部感受野进行一系列的卷积，池化等操作，得到图像的特征表示。在图像特征进行池化之后，需要将池化后的图像特征与标注的图像样本进行比对，根据比对结果进行误差反传，逐渐调整优化模型参数，最终理想的图像特征。CNN在训练过程中需要大量有标注的数据样本，例如，ImageNet大规模视觉识别挑战赛中的训练图片有超过一百万张，整个ImageNet数据集有超过一千万张的标注图片数据。尽管如此，对于训练一个超大的CNN模型来说，标注数据量仍显得不足。更加不用说标注一个超大规模的数据集所需要耗费的人力、财力。因此，研究如何从海量的无标注信息的数据当中无监督式的学习(unsupervisedlearning)得到判别性较强的特征，显得更加有意义一些，也历来就是学术界研究的热点。

在实际应用中，训练一个大规模的CNN模型同时其训练结果具有良好的性能并不是一件容易的事情，因为CNN的训练严重依赖已标注的大数据训练样本，虽然ImageNet已经有众多的标注样本，但是对于实际生活中的数据来说还远远不够。互联网上每天都会有海量的图片、视频数据上传，难以对海量新增的图片样本进行标注。

发明内容

本发明实施例提供了一种图像特征提取方法及装置，用于在无监督图像训练过程中进行高效的图像特征提取。

本发明实施例第一方面提供的图像特征提取方法，包括：

对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数，M为大于0的整数；

根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数；

分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征，所述M个稀疏编码图与所述池化特征的M个维度一一对应；

对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

结合第一方面，在第一种可能的实现方式中，所述对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数包括：

对所述区域像素对应的像素样本进行稀疏编码，从而得到所述区域像素的M维的编码系数；

其中，根据以下公式求取所述区域像素的编码系数；

c_{ij} = \arg \min_{c} \frac{1}{2} {| | x_{ij} - {Zc}_{ij} | |}^{2}, s . t . {| | c_{ij} | |}_{0} \leq K;

所述x_ij是由所述区域像素对应的像素样本中的坐标点的值所列化的列向量，(i，j)为所述区域像素的坐标，所述K为稀疏函数的稀疏度，所述c_ii为所述区域像素的编码系数，所述Z为所述x_ij的字典。

结合第一方面或第一方面的第一种实现方式，在第二种可能的实现方式中，所述分别对所述M个稀疏编码图进行池化处理，从而得到所述M维的池化特征，包括：

根据以下公式求取所述M维的池化特征；

Ω_{ij}^{c} = {[\max (c_{pq}^{1}), . . ., \max (c_{pq}^{M})]}_{p, q &Element; N (i, j)};

所述表示所述池化特征，N(i，j)表示所述稀疏编码图相对于所述输入图像所在的坐标区域，所述p，q∈N(i，j)表示坐标(p，q)在所述坐标区域之内，所述为对应的空间坐标为(p，q)的编码系数在第1维度下的值，所述为对应的空间坐标为(p，q)的编码系数在第M维度下的值。

结合第一方面，或第一方面第一至二任一种可能的实现方式，在第三种可能的实现方式中，对所述池化特征进行维度约减，从而得到用于表示所述池化特征的约减特征，包括：

根据以下公式得到用于维度约减的编码器对应的函数f，利用函数f对所述池化特征进行维度约减，从而得到用于表示所述池化特征的约减特征；

f, g = \arg \min_{f, g} {| | n - g (f (n)) | |}^{2};

其中，g表示用于将所述约减特征恢复为所述池化特征的解码器的函数，n表示所述池化特征。

结合第一方面，或第一方面第一至二任一种可能的实现方式，在第四种可能的实现方式中，在所述对所述池化特征进行维度约减之前，还包括：

对所述M维的池化特征进行归一化处理。

本发明实施例第二方面提供的图像的特征图提取方法，包括：

提取输入图像的至少部分区域内的待提取像素的约减特征，所述待提取像素的约减特征为L维向量，L为大于0的整数；

根据所述待提取像素的约减特征，获得所述至少部分区域对应的所述输入图像的L个约减特征图，其中，所述L个约减特征图中的第p个约减特征图中任意坐标点的值为所述任意坐标点对应在所述至少部分区域内的像素的约减特征在第p个维度下的值，p为小于等于L的正整数；

所述提取输入图像的至少部分区域内的待提取像素的约减特征，包括：

对所述待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数M为大于0的整数；

结合第二方面，在第一种可能的实现方式中，在获得所述L个约减特征图之后，还包括：

将所述L个约减特征图作为新的输入图像，进而获得L个新的约减特征图。

本发明实施例第三方面提供的图像特征提取装置，包括：

稀疏编码模块，池化模块和维度约减模块；

所述稀疏编码模块用于对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数，M为大于0的整数；根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数；

所述池化模块用于分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征，所述M个稀疏编码图与所述池化特征的M个维度一一对应；

所述维度约减模块用于对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

结合第三方面，在第一种可能的实现方式中，所述稀疏编码模块具体用于：

对所述区域像素对应的像素样本进行稀疏编码，从而得到所述区域像素的M维的编码系数，其中，根据以下公式求取所述区域像素的编码系数；

c_{ij} = \arg \min_{c} \frac{1}{2} {| | x_{ij} - {Zc}_{ij} | |}^{2}, s . t . {| | c_{ij} | |}_{0} \leq K;

所述x_ij是由所述区域像素对应的像素样本中的坐标点的值所列化的列向量，(i，j)为所述区域像素的坐标，所述K为稀疏函数的稀疏度，所述c_ij为所述区域像素的编码系数，所述Z为所述x_ij的字典。

结合第三方面，或第三方面的第一种实现方式，在第二种可能的实现方式中，所述池化模块具体用于：

根据以下公式求取所述M维的池化特征；

Ω_{ij}^{c} = {[\max (c_{pq}^{1}), . . ., \max (c_{pq}^{M})]}_{p, q &Element; N (i, j)};

结合第三方面，或第三方面第一至二任一种可能的实现方式，在第三种可能的实现方式中，所述维度约减模块具体用于：

f, g = \arg \min_{f, g} {| | n - g (f (n)) | |}^{2};

结合第三方面，或第三方面第一至二任一种可能的实现方式，在第四种可能的实现方式中，所述图像特征提取装置还包括：归一化模块；

所述归一化模块用于对所述M维的池化特征进行归一化处理。

本发明实施例第四方面提供的图像特征提取装置，包括：第一图像处理单元；

所述第一图像处理单元包括：第一特征提取模块，第一特征图获取模块；

所述第一特征提取模块用于提取输入图像的至少部分区域内的待提取像素的约减特征，所述待提取像素的约减特征为L维向量，L为大于0的整数；

所述第一特征图获取模块用于根据所述待提取像素的约减特征，获得所述至少部分区域对应的所述输入图像的L个约减特征图，其中，所述L个约减特征图中的第p个约减特征图中任意坐标点的值为所述任意坐标点对应在所述至少部分区域内的像素的约减特征在第p个维度下的值，p为小于等于L的正整数；

所述第一特征提取模块具体还用于：

结合第四方面，在第一种可能的实现方式中，所述图像特征提取装置还包括：第二图像处理单元；

所述第二图像处理单元包括：第二特征提取模块，第二特征图获取模块；

所述第二特征提取模块用于将所述第一图像处理单元输出的所述L个约减特征图作为新的输入图像，提取输入图像的至少部分区域内的待提取像素的约减特征；

所述第二特征图获取模块用于根据所述待提取像素的约减特征，获得所述至少部分区域对应的L个新的约减特征图。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，通过对输入图像的待提取像素所在的图像区域内的区域像素对应的像素样本进行稀疏编码，从而得到所述区域像素的编码系数，并通过该编码系数来高效的表示样本数据，无需通过标记的图像样本进行误差返传；并且，在对稀疏编码图进行池化之后，对所述池化特征进行维度约减，使得池化特征的图像维度缩减，减小了在图像特征提取过程中对内存的消耗，提高了图像特征提取的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的图像特征提取示意图；

图2是本发明实施例中图像特征提取的应用示意图；

图3是本发明实施例中图像特征提取方法的一个流程示意图；

图4是本发明实施例中图像特征提取方法的一个图像特征提取示意图；

图5是本发明实施例中维度约减和维度恢复的示意图；

图6是本发明实施例中图像特征提取方法的一个流程示意图；

图7是本发明实施例中图像特征提取方法的另一个图像特征提取示意图；

图8是本发明实施例中图像特征提取装置的示意图；

图9是本发明实施例中图像特征提取装置的示意图；

图10是本发明实施例中基于图像特征提取方法的计算机结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图2，本发明实施例中图像特征提取方法可以应用于图2所示图像分类***，具体的：

在实际应用中，图像分类***可以分为离线的分类器训练过程和在线的测试过程，如图2所示：离线训练过程首先在对训练数据集上的所有图片进行特征提取，然后训练分类器。训练阶段得到的分类器保存下来以供在线测试使用；在线测试阶段，首先与训练过程类似，对输入图像进行特征提取，这里的特征提取过程须与训练过程中的特征提取过程完全一致，获得输入图像的特征表示之后，调用训练阶段生成的分类器进行判别，以便识别出输入图像所属的类别。本发明实施例中的图像特征提取方法可以在图像训练过程中实现无监督的图像特征提取的操作。

进一步的，根据实际的精度需要，图像特征提取装置11中可以包括有多个图像处理单元，所述多个图像处理单元顺序连接，以上一个图像处理单元的特征提取结果作为下一个图像处理单元的输入图像，进一步对图像特征进行精炼提取，使得图像特征的提取结果精确度更高。

本发明实施例中图像特征提取方法的一个实施例包括：

请参阅图3，本发明实施例中图像特征提取方法的另一个实施例包括：

301、对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码；

具体的，图像处理单元对所述区域像素对应的像素样本进行稀疏编码，从而得到所述区域像素的M维的编码系数，所述区域像素的编码系数为M维向量，M为大于0的整数。

在本发明实施例中，像素样本可以为单个像素点，也可以为多个像素点组成的像素区域，还可以为数据块；具体的，若像素样本为数据块，则所述数据块可以为一维或二维以上的数据。

示例性的，所述待提取像素所在的图像区域可以有以下几种形式：

一、以所述待提取像素的空间坐标为中心，以K为邻域直径的图像区域，K为大于1的整数；

二、以所述待提取像素的空间坐标作为的起始坐标，分别以a和b为的长度和宽度的图像区域，a和b分别为大于1的整数；其中，所述起始坐标可以为位于图像区域左下角的原点坐标，也可以为所述图像区域中任意一个端点的坐标，此处不做限定；

三、可以为在上述一或二所描述的图像区域中抠出任意一个或多个像素点所得到图像区域。

可以理解的是，上述对图像区域的限定仅是示例性的，在实际应用中，图像区域还可以有其它表示方式，此处不作限定。

在本发明实施例中，可以将输入图像在边缘、端点、条纹等方面的特性以稀疏编码的形式进行描述；从数学的角度来说，稀疏编码是一种多维数据描述方法，数据经稀疏编码后仅有少数分量同时处于明显激活状态，这大致等价于编码后的分量呈现超高斯分布。在实际应用中，稀疏编码有如下几个优点：编码方案存储能力大，具有联想记忆能力，并且计算简便，使自然信号的结构更加清晰。

示例性的，请参阅图4，以红绿蓝(RGB，Red Green Blue)作为颜色输入通道为例，原始图像(图4的最左侧)通过RGB三个通道输入到图像处理单元进行处理，图像处理单元根据预设的稀疏编码函数以及字典对输入图像进行稀疏编码，得到得到一个M维的编码系数。具体的，M的取值与实际的应用需求(即可以预设)相关，此处不作限定。

在稀疏编码的过程中，图像处理单元设在输入图像中待提取像素所在的图像区域内的一个像素的图像坐标为(i，j)，将位于(i，j)位置处的像素样本(在实际应用中，一个像素样本可以为一处局部感受野)记为X_ij，X_ij是一个C×w×h的数据块，其中C为通道数，w×h代表所述输入图像中以(i，j)为中心的一块图像区域(即，所述像素样本)，w和h分别表示。如果输入图像是原始图像，C即为图像的颜色通道数，而如果输入图像是上一个图像处理单元输出的特征图，C则为该特征图的个数。将X_ij列化成一个列向量x_ij，其中x_jj的维度为D＝C×w×h。

在本发明实施例中，输入图像内具有多个像素样本(像素样本的数量根据输入图像的大小，以及w和h的大小而定)，在进行稀疏编码的过程中，图像处理单元会根据坐标(i，j)对每个像素样本进行遍历，分别得到每个像素对应的编码系数。

示例性的，稀疏编码函数可以参考以下公式：

公式一：

c_{ij} = \arg \min_{c} \frac{1}{2} {| | x_{ij} - {Zc}_{ij} | |}^{2}, s . t . {| | c_{ij} | |}_{0} \leq K;

在公式一中，所述表示满足函数的最小值，||x_ij-Zc_ij||²表示矩阵x_ij-Zc_ij的二范数。所述s.t.表示“受限于”，||c_ij||₀表示c_ij的零范数。所述x_ij是由所述区域像素对应的像素样本中的坐标点的值所列化的列向量，(i，j)为所述区域像素的坐标，所述K为稀疏函数的稀疏度，所述c_ij为所述区域像素的编码系数；所述Z为所述x_ij的字典，且其中，在以原始图像作为输入图像时，Z为预设的初始值，在后续的图像单元处理的过程中，Z可以根据前一个图像单元处理的稀疏编码结果进行更新调整。所述为一个实数空间。

在公式一中，编码系数c_ij为Z的加权值，公式一表达的是找到一个最优的编码系数，使得x_ij-Zc_ij的差值最小。

302、根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图；

图像处理单元根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数。

示例性的，稀疏编码图可以为K*K的矩阵图像，也可以为其它形状的图像，此处不作限定。

303、分别对所述M个稀疏编码图进行池化处理；

图像处理单元分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征，所述M个稀疏编码图与所述池化特征的M个维度一一对应。

具体的，池化处理表示将所述稀疏编码图每个像素点都实数化，并且获取所述实数化后所有像素点中实数的最大值，即在稀疏编码图的区域内获取特征最强的像素点。

示例性的，所述池化处理具体可以参考以下公式：

公式二：

Ω_{ij}^{c} = {[\max (c_{pq}^{1}), . . ., \max (c_{pq}^{M})]}_{p, q &Element; N (i, j)};

在公式二中，所述表示所述池化特征，N(i，j)表示所述稀疏编码图相对于所述输入图像所在的坐标区域，所述p，q∈N(i，j)表示坐标(p，q)在所述坐标区域之内，所述为对应的空间坐标为(p，q)的编码系数在第1维度下的值，所述为对应的空间坐标为(p，q)的编码系数在第M维度下的值，max()函数返回输入向量的最大元素值。

304、对所述M维的池化特征进行归一化处理；

可选的，在输入图像经过稀疏编码之后，编码系数可能由于尺度不同可能导致幅值差异较大，因此需经过归一化操作后再进行处理。

具体的，对所述池化特征进行归一化处理可以参考以下公式：

公式3：

n_{ij} = \frac{Ω_{ij}}{{| | Ω_{ij} | |}^{2} + ϵ};

其中，所述n_ij为归一化后的池化特征，ε为一个数值非常小的正数(为了保证分母非0)。

可以理解的是，在实际应用中，还存在有其它归一化处理方法，此处具体不作限定。

305、对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征；

图像处理单元对所述池化特征进行维度约减，从而得到用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

为使得稀疏编码具有稳定的解，稀疏编码中的字典通常为过完备字典，即编码输出系数的维度一般要远大于输入的维度(M＞＞D)。随着层数的叠加，稀疏编码输入系数的维度增长过快，使得字典在训练过程中对内存的消耗变得不可承受。因此，需要对池化特征进行维度约减，使得待编码数据的维度约减。

具体的，采用可以采用深度自编码器实现维度约减。深度自编码器的结构示意图如图5所示，编码器记为解码器记为其中，M表示约减前的维度，L表示约减后的维度，具体可以通过如下公式优化编码器参数：

公式四：

f, g = \arg \min_{f, g} {| | n - g (f (n)) | |}^{2};

其中，f表示编码器的函数，g表示用于将所述约减特征恢复为所述池化特征的解码器的函数，n表示所述池化特征。(即，池化处理后或归一化处理后输入的图像特征)。

可以理解的是，在实际应用中，还存在有其它维度约减的方法，此处具体不作限定。

306、将所述约减后的池化特征作为所述输入图像的特征提取结果输出。

如图2所示，离线训练过程首先在对训练数据集上的所有图片进行特征提取，然后训练分类器。训练阶段得到的分类器保存下来以供在线测试使用；在线测试阶段，首先与训练过程类似，对输入图像进行特征提取，这里的特征提取过程须与训练过程中的特征提取过程完全一致，获得输入图像的特征表示之后，调用训练阶段生成的分类器进行判别，以便识别出输入图像所属的类别。本发明实施例所描述的图像特征提取方法应用于图2所示的特征提取阶段。

在实际应用中，还可以对输入图像的至少部分区域进行特征提取，请参阅图6，本发明实施例中图像的特征图提取方法的一个实施例包括：

601、提取输入图像的至少部分区域内的待提取像素的约减特征；

图像处理单元提取输入图像的至少部分区域内的待提取像素的约减特征，所述待提取像素的约减特征为L维向量，L为大于0的整数。

具体的，所述至少部分区域表示可以为所述输入图像的局部区别或全部区域。

具体的，提取输入图像的至少部分区域内的待提取像素的约减特征的方法可以为：

对所述待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数M为大于0的整数；根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数；分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征，所述M个稀疏编码图与所述池化特征的M个维度一一对应；对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

在本发明实施例中，约减特征获取的具体过程在图3实施例中已经有详细的描述，此处不再赘述。

602、根据所述待提取像素的约减特征，获得所述至少部分区域对应的所述输入图像的L个约减特征图。

图像处理单元根据所述待提取像素的约减特征，获得所述至少部分区域对应的所述输入图像的L个约减特征图，其中，所述L个约减特征图中的第p个约减特征图中任意坐标点的值为所述任意坐标点对应在所述至少部分区域内的像素的约减特征在第p个维度下的值，p为小于等于L的正整数。

可选的，若当前的图像处理单元还连接有另一个图像处理单元，则所述图像处理单元得到池化特征图之后，向另一个图像处理单元输出所述池化特征图，并将所述池化特征图作为所述另一个图像处理单元的输入图像，进而获得L个新的约减特征图，使得图像特征的提取结果精确度更高。

进一步的，在本发明实施例中图像特征提取方法的基础上，还可以通过多尺度和多局部性技术增强所提取特征的判别能力和鲁棒性，参阅图7。

具体的，多尺度指的是对输入图片进行多分辨率处理，然后通过多个分辨率的输入分别通过本发明实施例中图像特征提取方法进行特征提取，并且最终将多个分辨率提取的特征合并在一起，作为最终的图像特征表示。

具体的，多局部性指的是，设定N组不同的图像区域，再通过本发明实施例中图像特征提取方法分别获取相应的N组约减特征图，将相同空间位置上的N组特征图合并起来一起进行后续的操作，这样使得深度稀疏编码网络能够进一步提取出有互补作用信息的特征表示。

在实际应用中，通过本发明实施例提取出来的图像特征表示判别性较强，在多个公共测试数据集上到达较高的识别率。另外，本发明实施例的图像特征提取方法在稀疏编码层中使得字典学习对内存的要求大大降低，复杂度从O(M²)降低到O(L²)，编码算法复杂度从O(M)到O(L)，M＞＞L，其中，L为维度约减后的维度。

以下为具体的实验数据，表1为MITScenes67数据集的场景，具体包含67类场景，总计有15620张图片。

表1

算法	性能(％)
		DPM(Deformable Part Model)	30.4
SPM(Spatial Pyramid Matching)	34.4
		ScSPM	36.9
RBoW(Reconfigurable Models)	37.9
		DPM+Gist+SPM	43.1

HMP(Hierarchical Matching Pursuit)	41.8
		VC(Visual Coneept)	46.4
CNN-AlexNet(no pretraining)	19.3
		CNN-AlexNet(with pretrain on ImageNet)	51.5
M-HMP	51.2
		本发明实施例的方法	49.4
Our Method+Multi-Path HMP	52.3

表1为UIUC Sports Event数据集的场景，具体包含有八类体育事件的数据集，该数据集总计有1792张图片，每一类含有137到250张图片。

表2

算法	性能(％)
		HIK+OCSVM	83.5
ScSPM	82.7
		LScSPM	85.3
Sc⁺SPM	83.7
		HMP(Hierarchical Matching Pursuit)	85.7
CA-TM	78.0
		VC(Visual Concept)	84.8

CNN-AlexNet(no pretrain)	65.1
		CNN-AlexNet(with pretrain on ImageNet)	89.6
本发明实施例的方法	87.1

下面对实现本发明实施例中的图像特征提取方法的图像特征提取装置进行描述，需要说明的是，上述图像特征提取方法各实施例中所记载的方法可实施于本发明的图像特征提取装置。请参阅图8，本发明实施例中的图像特征提取装置的一个实施例包括：

稀疏编码模块801，池化模块802和维度约减模块803；

所述稀疏编码模块801用于对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数，M为大于0的整数；根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数；

所述池化模块802用于分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征，所述M个稀疏编码图与所述池化特征的M个维度一一对应；

所述维度约减模块803用于对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

进一步的，所述稀疏编码模块801具体用于：

c_{ij} = \arg \min_{c} \frac{1}{2} {| | x_{ij} - {Zc}_{ij} | |}^{2}, s . t . {| | c_{ij} | |}_{0} \leq K;

进一步的，所述池化模块802具体用于：

根据以下公式求取所述M维的池化特征；

Ω_{ij}^{c} = {[\max (c_{pq}^{1}), . . ., \max (c_{pq}^{M})]}_{p, q &Element; N (i, j)};

进一步的，所述维度约减模块803具体用于：

f, g = \arg \min_{f, g} {| | n - g (f (n)) | |}^{2};

进一步的，所述图像特征提取装置还包括：归一化模块804；

所述归一化模块804用于对所述M维的池化特征进行归一化处理。

在本发明实施例中，图像特征提取装置的各个模块的具体操作流程可以参考图3实施例，此处不再赘述。

请参阅图9，本发明实施例中的图像特征提取装置的另一个实施例包括：

第一图像处理单元901；

所述第一图像处理单元901包括：第一特征提取模块9011，第一特征图获取模块9012；

所述第一特征提取模块9011用于提取输入图像的至少部分区域内的待提取像素的约减特征，所述待提取像素的约减特征为L维向量，L为大于0的整数；

所述第一特征图获取模块9012用于根据所述待提取像素的约减特征，获得所述至少部分区域对应的所述输入图像的L个约减特征图，其中，所述L个约减特征图中的第p个约减特征图中任意坐标点的值为所述坐标点对应在所述至少部分区域内的像素的约减特征在第p个维度下的值，p为小于等于L的正整数；

所述第一特征提取模块9011具体还用于：

对所述待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的编码系数，所述区域像素的编码系数为M维向量，M为大于0的整数；

根据所述待提取像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数；

对所述池化特征进行维度约减，从而得到用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

进一步的，所述图像特征提取装置还包括：第二图像处理单元902；

所述第二图像处理单元902包括：第二特征提取模块9021，第二特征图获取模块9022；

所述第二特征提取模块9021用于将所述第一图像处理单元输出的所述L个约减特征图作为新的输入图像，提取输入图像的至少部分区域内的待提取像素的约减特征；

所述第二特征图获取模块9022用于根据所述待提取像素的约减特征，获得所述至少部分区域对应的L个新的约减特征图。

在本发明实施例中，图像特征提取装置的各个模块的具体操作流程可以参考图6实施例，此处不再赘述。

图9是基于本发明实施例中图像特征提取方法的图像特征提取装置的计算机结构示意图，图像特征提取装置可包括输入设备1010、输出设备1020、处理器1030和存储器1040。

存储器1040可以包括只读存储器和随机存取存储器，并向处理器1030提供指令和数据。存储器1040的一部分还可以包括非易失性随机存取存储器(NVRAM)。

存储器1040存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：

操作指令：包括各种操作指令，用于实现各种操作。

操作***：包括各种***程序，用于实现各种基础业务以及处理基于硬件的任务。

在本发明实施例中，处理器1030通过调用存储器1040存储的操作指令(该操作指令可存储在操作***中)，执行如下操作：

所述处理器1030具体用于对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数，M为大于0的整数；

根据所述区域像素的编码系数，获得所述图像区域对应的M个稀疏编码图，其中，所述M个稀疏编码图中的第k个稀疏编码图中任意坐标点的值为所述任意坐标点对应在所述图像区域内的像素的编码系数在第k个维度下的值，k为小于等于M的正整数；分别对所述M个稀疏编码图进行池化处理，从而得到所述待提取像素的M维的池化特征，所述M个稀疏编码图与所述池化特征的M个维度一一对应；对所述池化特征进行维度约减，从而得到所述待提取像素的用于表示所述池化特征的约减特征，所述约减特征的维度小于所述池化特征的维度。

处理器930控制图像特征提取装置的操作，处理器1030还可以称为CPU(Central Processing Unit，中央处理单元)。存储器1040可以包括只读存储器和随机存取存储器，并向处理器1030提供指令和数据。存储器1040的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中，图像特征提取装置的各个组件通过总线***1050耦合在一起，其中总线***1050除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线***1050。

上述本发明实施例揭示的方法可以应用于处理器1030中，或者由处理器1030实现。处理器1030可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1030中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1030可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1040，处理器1030读取存储器1040中的信息，结合其硬件完成上述方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像特征提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对输入图像的待提取像素所在的图像区域内的区域像素进行稀疏编码，从而得到所述区域像素的M维的编码系数包括：

其中，根据以下公式求取所述区域像素的编码系数；

c_{ij} = \arg \min_{c} \frac{1}{2} {| | x_{ij} - {Zc}_{ij} | |}^{2}, s . t . {| | c_{ij} | |}_{0} \leq K;

3.根据权利要求1或2所述的方法，其特征在于，所述分别对所述M个稀疏编码图进行池化处理，从而得到所述M维的池化特征，包括：

根据以下公式求取所述M维的池化特征；

Ω_{ij}^{c} = {[\max (c_{pq}^{1}), . . ., \max (c_{pq}^{M})]}_{p, q &Element; N (i, j)};

4.根据权利要求1至3任一项所述的方法，其特征在于，对所述池化特征进行维度约减，从而得到用于表示所述池化特征的约减特征，包括：

f, g = \arg \min_{f, g} {| | n - g (f (n)) | |}^{2};

5.根据权利要求1至3任一项所述的方法，其特征在于，在所述对所述池化特征进行维度约减之前，还包括：

对所述M维的池化特征进行归一化处理。

6.一种图像的特征图提取方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，在获得所述L个约减特征图之后，还包括：

8.一种图像特征提取装置，其特征在于，包括：

稀疏编码模块，池化模块和维度约减模块；

9.根据权利要求8所述的装置，其特征在于，所述稀疏编码模块具体用于：

c_{ij} = \arg \min_{c} \frac{1}{2} {| | x_{ij} - {Zc}_{ij} | |}^{2}, s . t . {| | c_{ij} | |}_{0} \leq K;

10.根据权利要求8或9所述的装置，其特征在于，所述池化模块具体用于：

根据以下公式求取所述M维的池化特征；

Ω_{ij}^{c} = {[\max (c_{pq}^{1}), . . ., \max (c_{pq}^{M})]}_{p, q &Element; N (i, j)};

11.根据权利要求8至10任一项所述的装置，其特征在于，所述维度约减模块具体用于：

f, g = \arg \min_{f, g} {| | n - g (f (n)) | |}^{2};

12.根据权利要求8至10任一项所述的装置，其特征在于，所述图像特征提取装置还包括：归一化模块；

所述归一化模块用于对所述M维的池化特征进行归一化处理。

13.一种图像特征提取装置，其特征在于，包括：第一图像处理单元；

所述第一特征提取模块具体还用于：

14.根据权利要求13所述的装置，其特征在于，所述图像特征提取装置还包括：第二图像处理单元；