CN105760488B

CN105760488B - 基于多层次特征融合的图像表达方法和装置

Info

Publication number: CN105760488B
Application number: CN201610089958.1A
Authority: CN
Inventors: 田永鸿; 鄢科; 梁大为; 王耀威
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-02-17
Filing date: 2016-02-17
Publication date: 2020-06-16
Anticipated expiration: 2036-02-17
Also published as: CN105760488A

Abstract

本发明实施例提供了一种基于多层次特征融合的图像表达方法和装置。所述基于多层次特征融合的图像表达方法，包括：获取输入图像的至少两个特征；所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合；将所述至少两个特征融合到所述输入图像的特征空间，作为所述输入图像的表达；根据所述输入图像的表达，对所述输入图像进行处理。本发明能够提高对图像的表达力。

Description

基于多层次特征融合的图像表达方法和装置

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于多层次特征融合的图像表达方法和装置。

背景技术

随着移动互联网的兴起和摄像头在终端的快速普及，人们记录图像越来越方便。图像数据呈现指数级的增长趋势。如何合理准确的表达图像中的信息是许多计算机视觉任务的关键，例如图像检索、图像分类等。近十年来，尺度不变特征变换(SIFT)广泛应用于计算机视觉的众多方向，其对旋转、尺度变化等具有较好的几何不变形。为了让SIFT更有效的表达图像的语义信息，人们提出了词袋模型(Bag-of-Word)、费舍尔向量(Fisher Vector)以及局部特征聚合描述符(VLAD)等表达方法。但这些方法并没有较好的解决“语义鸿沟”。

近年来，卷积神经网络(CNN)作为深度学习的代表，在图像分类，对象检测等诸多视觉任务中显著超越了传统方法，其能较好的表达图像的高层语义信息。当前大多数基于CNN的图像表达是将全图输入训练好的网络得到一个固定维数的特征向量，表达一张图像。尽管CNN的表达具有较为丰富的语义信息，但其对一些几何变换较为敏感，且其性能受训练数据的影响很大，故在缺少训练数据或训练数据较少的任务不能很好的发挥作用。

现有的特征描述主要是基于SIFT或CNN的表达，一般只描述图像全局的信息，即整张图像的特征分布。如果对象在图像中所占比例较小在特征中将很难描述该对象的信息。显然，这对对象检索及分类等相关应用的影响很大。

发明内容

本发明的实施例提供了一种基于多层次特征融合的图像表达方法和装置，能够提高对图像的表达力。

为了实现上述目的，本发明采取了如下技术方案。

一种基于多层次特征融合的图像表达方法，包括：

获取输入图像的至少两个特征；所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合；

将所述至少两个特征融合到所述输入图像的特征空间，作为所述输入图像的表达；

根据所述输入图像的表达，对所述输入图像进行处理。

一种基于多层次特征融合的图像表达装置，包括：

获取单元，获取输入图像的至少两个特征；所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合；

聚合单元，将所述至少两个特征融合到所述输入图像的特征空间，作为所述输入图像的表达；

处理单元，根据所述输入图像的表达，对所述输入图像进行处理。

本发明提出一种基于多层次特征融合的图像表达方法及装置，融合后的特征具有很强的表达力，其在较低维度下仍能保持稳定的性能。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于多层次特征融合的图像表达方法的的处理流程图；

图2是本发明另一实施例提供的基于多层次特征融合的图像表达方法的步骤图；

图3是本发明实施例中对象级别特征表达的图像表达方法的流程图；

图4是以一图像为例的基于多层次特征融合的图像表达方法的示意图。

图5是本发明的基于图像表达方法进行检索的流程图；

图6是本发明的基于图像表达方法进行分类的流程图；

图7是本发明实施例提供的一种基于多层次特征融合的图像表达装置的连接示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

如图1所示，一种基于多层次特征融合的图像表达方法的实施例，包括：

步骤11，获取输入图像的至少两个特征；所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合；

步骤12，将所述至少两个特征融合到所述输入图像的特征空间，作为所述输入图像的表达；

步骤13，根据所述输入图像的表达，对所述输入图像进行处理。其中，处理可以为根据输入图像的表达，进行具体的应用。

例如，步骤13包括：

根据所述输入图像的特征空间，对所述输入图像进行分类；或者

根据所述输入图像的特征空间，对所述输入图像进行检索。

或者，步骤13包括：

步骤131，对所述输入图像的表达进行后处理；

步骤132，根据后处理的所述输入图像的表达，对所述输入图像进行处理。

步骤131包括：

对所述输入图像的特征空间进行幂归一化处理、归一化处理、降维处理、或者白化处理。

其中，步骤12包括：

对所述至少两个特征进行等权值或不等权值融合，将所述至少两个特征融合到所述输入图像的特征空间。

其中，所述场景级别特征的获取步骤包括：

利用深度学习和/或人工筛选特征,获取所述输入图像在全图级别的信息，作为所述输入图像的场景级别特征。

所述对象级别特征的获取步骤包括：

生成所述输入图像的对象区域矩形框；

获取每个所述对象区域矩形框的深度学习和/或人工筛选的特征；

聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征。

所述聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征的步骤包括：

聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征；

对聚合后的所述特征进行后处理，作为所述输入图像的对象级别特征。其中，后处理可以为归一化处理或者降维处理；

其中，所述输入图像的点级别特征的获取步骤包括：

获取所述输入图像的基于尺度空间极值点检测的特征；

聚合所述基于尺度空间极值点检测的特征，得到固定维数的特征，作为所述输入图像的点级别特征。

本发明可以同时表达图像多个层次的特征，能很好的克服现有图像表达方法上的缺陷，同时描述图像场景、对象和点三个级别的信息，进一步产生精简描述，从而大幅提升基于图像表达相关任务的准确率。

以下具体描述本发明的另一实施例。

如图2所示，本方法包括以下步骤：

步骤1、场景级别特征表达，获得全图的抽象描述；

步骤2、对象级别特征表达，针对对象区域或其它重要区域，获得每个区域的特征描述，然后聚合各个区域的表达；

步骤3、点级别的特征表达，获得图像基于尺度空间极值点的描述；

步骤4、多层次特征融合方法，利用特征融合和后处理方法，将多个层次的特征融合到一个特征空间。

下面具体说明上述各个步骤：

步骤1、场景级别特征表达

图像的场景级别特征是指：综合考虑图像的整体信息后产生的能表达其全局抽象的特征。场景级别的特征与图像整体的语义相关，每张图像具有相同维数的场景级别特征。所述场景级别特征获取步骤包括针对输入图像，获取其场景级别的抽象特征，可利用深度学习和\或人工筛选特征描述所输入图像在全图级别的信息。

步骤2、对象级别特征表达

对象级别特征表达是指针对图像中的对象区域或其它重要区域进行特征描述。所述对象级别特征获取步骤包括针对输入图像，获取其所有对象区域或其它重要区域的特征。

如图3所示，其包括的步骤

a)区域选择，利用对象候选区域方法或人为选定一定数目的矩形区域，以此标记图像中的对象或重要区域；

b)区域特征提取，获取每个选定区域的深度学习和\或人工筛选特征；

c)区域特征聚合，聚合所有选定区域的特征；

d)区域特征后处理，对聚合的区域特征进行后处理。

步骤3、点级别特征表达

点级别特征表达是指对图像进行基于特征点的描述，从而让图像的表达具有较好的几何不变形，同时保持较为稳定的表达效力。所述点级别特征获取步骤包括针对输入图像，获取其基于尺度空间极值点的特征。具体包括以下步骤：

a)极值点特征描述，获取图像根据极值点检测的特征描述；

b)点级别特征聚合，聚合步骤a)中特征，得到固定维数的特征；

c)点级别特征后处理，对聚合的特征进行后处理。

步骤4、多层次特征融合方法

多层次特征融合方法是指将图像多个层次的特征融合到一个特征空间，使得每张图片可以用相同维度的特征去表达多个层次特征。多层次特征融合可针对任两种层次的特征或全部三个层次的特征进行融合。多层次特征融合步骤，所述多层次特征融合步骤包括利用特征融合和后处理方法，将多个层次的特征融合到一个特征空间。

特征融合过程中，不同层次之间的特征可进行等权值或不等权值的融合。融合后的特征可进行后处理，产生精简的图像表达。

图4为以一图像为例的基于多层次特征融合的图像表达的示意图。

本发明可应用于多个计算机视觉的任务。以下以基于多层次特征融合的图像检索实施例和基于多层次特征融合的图像分类的实施例进行说明。

以下实施例是基于多层次特征融合的图像检索。图5是本发明实施例的基于多层次特征融合的图像检索的流程图。本实施例包括以下步骤：

步骤51，场景级别特征表达步骤：本实例用卷积神经网络的全连接层来表达场景级别的信息。可用来提取场景级别特征的网络结构有GoogLeNet，Alexnet，VGGnet等。

步骤52，对象级别特征表达步骤：图像的对象级别特征是指针对图像中出现的对象进行描述。主要步骤如下所示：

(1)对象建议区域，使用对象建议方法检测图像中的对象建议区域，可用的对象建议方法有edgebox，selective search，Bing等。

(2)区域筛选，利用相关先验知识对候选区域进行筛选和排名，获得需要的候选区域；

(3)对象区域特征提取，将各个对象区域输入卷积神经网络，提取其全连接层的特征；

(4)对象级别特征聚合，将各个对象区域的特征聚合，获得相同维度的特征，可用的对象特征聚合方法有Sum(Average)聚合、Max聚合、VLAD聚合及其相关变形等，下面介绍这几种对象级别的特征聚合方法：

(a)Sum聚合是将所有对象同一维度的特征求和：

f_o是聚合后的特征，指第n个对象区域的特征向量的第i维，N为对象区域的数目，D为每个对象特征的维数。average聚合需将替换为

即可。

(b)Max聚合是在每个维度上取所有对象的最大值：

f_o是聚合后的特征，

指第n个对象区域的特征向量的第i维，N为对象区域的数目，D为每个对象特征的维数。

(c)VLAD聚合是一种较为复杂的聚合方法，首先使用k-means算法获得c₁,c₂,…,c_kk个聚类中心，每个对象特征寻找最近的聚类中心

然后保留其与对用聚类中心的残差，VLAD即为每个聚类中心保留的残差之和：

表示最近邻中心为c_t的所有特征向量累加，因而使用VLAD来表达对象级别特征的维度为k*D，维度过高，故之后会对其进行归一化和降维处理得到f_o。

步骤53、点级别特征表达步骤。

本示例基于SIFT进行点级别特征表达。具体来说，首先提取图像的SIFT特征点的描述，然后将这些特征点聚合，获得一个固定维数的表达f_p。可用的聚合方法有FisherVector、VLAD等，之后可使用PCA进行后处理，降低特征维度。

步骤54、特征融合步骤。

本实例的特征融合模块将全部三层特征进行等权值的融合，对每张图都能产生一个固定维数的特征去同时表达三个层次的信息。在进行特征融合前，三个表达的表达已有相同维度的表达。特征融合时，首先将三个部分的特征分别归一化，然后将三部分拼接起来：

f＝[f_s,f_o,f_p]

f_s为场景级别的特征，f_o为对象级别的特征，f_p为点级别特征，f为拼接后的特征，接着对f进行降维和白化，可用主成分分析来降低f的维度，进一步进行白化:

f_whiten＝diag(1./sqrt(v₁,v₂,…,v_h))*U*f

其中,h为进行主成分分析后保留的特征维数，v_i为第i个奇异值，U为主成分分析的转换矩阵。白化后要重新进行归一化得到最终的表达。这样最终获得的精简表达同时描述图像三个层次的信息。

步骤55，特征度量；使用欧式距离或其它距离度量方法计算图像间的距离，在数据库中寻找与检索图像相似的图像。

以下实施例是基于多层次特征融合的图像分类。

图6是本发明实施例二的基于多层次特征融合的图像分类的流程图。本实施例包括的场景级别特征表达步骤、对象级别特征表达步骤、点级别特征表步骤以及特征融合步骤与实施例一使用的方法相同，故本部分只介绍分类器步骤。

分类器步骤：图像分类任务需在训练集上训练得到分类器。对训练集上的图片，使用本发明的基于多层次特征融合的图像表达方法来描述图像，然后结合图像类别标签，使用合适的分类器(SVM,Logistic Regression等)训练得到分类器参数。对分类图像首先进行同样的特征表达，然后将特征输入到训练好的分类器中，得到分类结果。

如图7所示，为本发明所述的一种基于多层次特征融合的图像表达装置，包括：

获取单元71，获取输入图像的至少两个特征；所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合。所述获取单元21包括场景级别特征处理单元、对象级别特征处理单元、点级别特征处理单元。

聚合单元72，将所述至少两个特征融合到所述输入图像的特征空间，作为所述输入图像的表达；

处理单元73，根据所述输入图像的表达，对所述输入图像进行处理。

以下描述本发明的装置的另一实施例。

一种基于多层次特征融合的图像表达装置，所述装置包括：

场景级别特征处理单元，所述场景级别特征处理单元用于针对输入图片，提取深度学习和/或人工筛选的特征；

对象级别特征处理单元，所述对象级别特征处理单元用于针对输入图片，生成对象区域矩形框，提取对象区域深度学习和\或人工筛选特征，并聚合所有对象区域特征；

点级别特征处理单元，所述点级别特征处理单元用于针对输入图片，提取其基于极值点的特征，并聚合到固定维数。

多层次特征融合单元，所述多层次特征融合单元将多个层次特征处理单元输入的特征融合到一个特征空间。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多层次特征融合的图像表达方法，其特征在于，包括：

获取输入图像的场景级别特征、对象级别特征和点级别特征三个部分的特征；所述场景级别特征是指综合考虑图像的整体信息后产生的能表达其全局抽象的特征，所述对象级别特征是指针对图像中的对象区域进行特征描述，所述场景级别特征获取步骤包括针对输入图像，获取其场景级别的抽象特征，利用深度学习和\或人工筛选特征描述所输入图像在全图级别的信息，所述对象级别特征获取步骤包括：生成所述输入图像的对象区域矩形框；获取每个所述对象区域矩形框的深度学习和/或人工筛选的特征；聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征；所述输入图像的点级别特征的获取步骤包括：获取所述输入图像的基于尺度空间极值点检测的特征；聚合所述基于尺度空间极值点检测的特征，得到固定维数的特征，作为所述输入图像的点级别特征；

将所述场景级别特征、对象级别特征和点级别特征进行等权值的融合，产生一个固定维数的融合特征，用该融合特征去同时表达三个部分的特征的信息，特征融合时，首先将三个部分的特征分别归一化，然后将三部分拼接起来：

f＝[f_s，f_o，f_p]

f_s为场景级别的特征，f_o为对象级别的特征，f_p为点级别特征，f为拼接后的特征，接着对f进行降维和白化，用主成分分析来降低f的维度，进一步进行白化:

f_whiten＝diag(1./sqrt(v₁，v₂，…，v_h))*U*f

其中，h为进行主成分分析后保留的特征维数，v_i为第i个奇异值，U为主成分分析的转换矩阵；

将所述融合特征作为所述输入图像的表达；

根据所述输入图像的表达，对所述输入图像进行处理；

所述图像的对象级别特征表达步骤包括：图像的对象级别特征是指针对图像中出现的对象进行描述，步骤如下所示：

(1)对象建议区域，使用对象建议方法检测图像中的对象建议区域；

(3)对象区域特征提取，将各个需要的候选区域输入卷积神经网络，提取其全连接层的特征；

(4)对象级别特征聚合，将各个需要的候选区域的特征聚合，获得相同维度的特征。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入图像的表达，对所述输入图像进行处理的步骤包括：

根据所述输入图像的特征空间，对所述输入图像进行检索。

3.根据权利要求1所述的方法，其特征在于，所述根据所述输入图像的表达，对所述输入图像进行处理的步骤包括：

对所述输入图像的表达进行后处理；

根据后处理的所述输入图像的表达，对所述输入图像进行处理。

4.根据权利要求3所述的方法，其特征在于，所述对所述输入图像的表达进行后处理的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征的步骤包括：

对聚合后的所述特征进行后处理，作为所述输入图像的对象级别特征。

6.一种基于多层次特征融合的图像表达装置，其特征在于，包括：

获取单元，获取输入图像的场景级别特征、对象级别特征和点级别特征三个部分的特征；所述场景级别特征是指综合考虑图像的整体信息后产生的能表达其全局抽象的特征，所述对象级别特征是指针对图像中的对象区域进行特征描述，所述场景级别特征获取步骤包括针对输入图像，获取其场景级别的抽象特征，利用深度学习和\或人工筛选特征描述所输入图像在全图级别的信息，所述对象级别特征获取步骤包括：生成所述输入图像的对象区域矩形框；获取每个所述对象区域矩形框的深度学习和/或人工筛选的特征；聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征；所述输入图像的点级别特征的获取步骤包括：获取所述输入图像的基于尺度空间极值点检测的特征；聚合所述基于尺度空间极值点检测的特征，得到固定维数的特征，作为所述输入图像的点级别特征；

聚合单元，将所述场景级别特征、对象级别特征和点级别特征进行等权值的融合，产生一个固定维数的融合特征，用该融合特征去同时表达三个部分的特征的信息，特征融合时，首先将三个部分的特征分别归一化，然后将三部分拼接起来：

f＝[f_s，f_o，f_p]

f_whiten＝diag(1./sqrt(v₁，v₂，…，v_h))*U*f

将所述融合特征作为所述输入图像的表达；

处理单元，根据所述输入图像的表达，对所述输入图像进行处理；