CN105760488B - 基于多层次特征融合的图像表达方法和装置 - Google Patents

基于多层次特征融合的图像表达方法和装置 Download PDF

Info

Publication number
CN105760488B
CN105760488B CN201610089958.1A CN201610089958A CN105760488B CN 105760488 B CN105760488 B CN 105760488B CN 201610089958 A CN201610089958 A CN 201610089958A CN 105760488 B CN105760488 B CN 105760488B
Authority
CN
China
Prior art keywords
features
level
input image
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610089958.1A
Other languages
English (en)
Other versions
CN105760488A (zh
Inventor
田永鸿
鄢科
梁大为
王耀威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201610089958.1A priority Critical patent/CN105760488B/zh
Publication of CN105760488A publication Critical patent/CN105760488A/zh
Application granted granted Critical
Publication of CN105760488B publication Critical patent/CN105760488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种基于多层次特征融合的图像表达方法和装置。所述基于多层次特征融合的图像表达方法,包括:获取输入图像的至少两个特征;所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合;将所述至少两个特征融合到所述输入图像的特征空间,作为所述输入图像的表达;根据所述输入图像的表达,对所述输入图像进行处理。本发明能够提高对图像的表达力。

Description

基于多层次特征融合的图像表达方法和装置
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于多层次特征融合的图像表达方法和装置。
背景技术
随着移动互联网的兴起和摄像头在终端的快速普及,人们记录图像越来越方便。图像数据呈现指数级的增长趋势。如何合理准确的表达图像中的信息是许多计算机视觉任务的关键,例如图像检索、图像分类等。近十年来,尺度不变特征变换(SIFT)广泛应用于计算机视觉的众多方向,其对旋转、尺度变化等具有较好的几何不变形。为了让SIFT更有效的表达图像的语义信息,人们提出了词袋模型(Bag-of-Word)、费舍尔向量(Fisher Vector)以及局部特征聚合描述符(VLAD)等表达方法。但这些方法并没有较好的解决“语义鸿沟”。
近年来,卷积神经网络(CNN)作为深度学习的代表,在图像分类,对象检测等诸多视觉任务中显著超越了传统方法,其能较好的表达图像的高层语义信息。当前大多数基于CNN的图像表达是将全图输入训练好的网络得到一个固定维数的特征向量,表达一张图像。尽管CNN的表达具有较为丰富的语义信息,但其对一些几何变换较为敏感,且其性能受训练数据的影响很大,故在缺少训练数据或训练数据较少的任务不能很好的发挥作用。
现有的特征描述主要是基于SIFT或CNN的表达,一般只描述图像全局的信息,即整张图像的特征分布。如果对象在图像中所占比例较小在特征中将很难描述该对象的信息。显然,这对对象检索及分类等相关应用的影响很大。
发明内容
本发明的实施例提供了一种基于多层次特征融合的图像表达方法和装置,能够提高对图像的表达力。
为了实现上述目的,本发明采取了如下技术方案。
一种基于多层次特征融合的图像表达方法,包括:
获取输入图像的至少两个特征;所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合;
将所述至少两个特征融合到所述输入图像的特征空间,作为所述输入图像的表达;
根据所述输入图像的表达,对所述输入图像进行处理。
一种基于多层次特征融合的图像表达装置,包括:
获取单元,获取输入图像的至少两个特征;所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合;
聚合单元,将所述至少两个特征融合到所述输入图像的特征空间,作为所述输入图像的表达;
处理单元,根据所述输入图像的表达,对所述输入图像进行处理。
本发明提出一种基于多层次特征融合的图像表达方法及装置,融合后的特征具有很强的表达力,其在较低维度下仍能保持稳定的性能。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于多层次特征融合的图像表达方法的的处理流程图;
图2是本发明另一实施例提供的基于多层次特征融合的图像表达方法的步骤图;
图3是本发明实施例中对象级别特征表达的图像表达方法的流程图;
图4是以一图像为例的基于多层次特征融合的图像表达方法的示意图。
图5是本发明的基于图像表达方法进行检索的流程图;
图6是本发明的基于图像表达方法进行分类的流程图;
图7是本发明实施例提供的一种基于多层次特征融合的图像表达装置的连接示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
如图1所示,一种基于多层次特征融合的图像表达方法的实施例,包括:
步骤11,获取输入图像的至少两个特征;所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合;
步骤12,将所述至少两个特征融合到所述输入图像的特征空间,作为所述输入图像的表达;
步骤13,根据所述输入图像的表达,对所述输入图像进行处理。其中,处理可以为根据输入图像的表达,进行具体的应用。
例如,步骤13包括:
根据所述输入图像的特征空间,对所述输入图像进行分类;或者
根据所述输入图像的特征空间,对所述输入图像进行检索。
或者,步骤13包括:
步骤131,对所述输入图像的表达进行后处理;
步骤132,根据后处理的所述输入图像的表达,对所述输入图像进行处理。
步骤131包括:
对所述输入图像的特征空间进行幂归一化处理、归一化处理、降维处理、或者白化处理。
其中,步骤12包括:
对所述至少两个特征进行等权值或不等权值融合,将所述至少两个特征融合到所述输入图像的特征空间。
其中,所述场景级别特征的获取步骤包括:
利用深度学习和/或人工筛选特征,获取所述输入图像在全图级别的信息,作为所述输入图像的场景级别特征。
所述对象级别特征的获取步骤包括:
生成所述输入图像的对象区域矩形框;
获取每个所述对象区域矩形框的深度学习和/或人工筛选的特征;
聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征。
所述聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征的步骤包括:
聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征;
对聚合后的所述特征进行后处理,作为所述输入图像的对象级别特征。其中,后处理可以为归一化处理或者降维处理;
其中,所述输入图像的点级别特征的获取步骤包括:
获取所述输入图像的基于尺度空间极值点检测的特征;
聚合所述基于尺度空间极值点检测的特征,得到固定维数的特征,作为所述输入图像的点级别特征。
本发明可以同时表达图像多个层次的特征,能很好的克服现有图像表达方法上的缺陷,同时描述图像场景、对象和点三个级别的信息,进一步产生精简描述,从而大幅提升基于图像表达相关任务的准确率。
以下具体描述本发明的另一实施例。
如图2所示,本方法包括以下步骤:
步骤1、场景级别特征表达,获得全图的抽象描述;
步骤2、对象级别特征表达,针对对象区域或其它重要区域,获得每个区域的特征描述,然后聚合各个区域的表达;
步骤3、点级别的特征表达,获得图像基于尺度空间极值点的描述;
步骤4、多层次特征融合方法,利用特征融合和后处理方法,将多个层次的特征融合到一个特征空间。
下面具体说明上述各个步骤:
步骤1、场景级别特征表达
图像的场景级别特征是指:综合考虑图像的整体信息后产生的能表达其全局抽象的特征。场景级别的特征与图像整体的语义相关,每张图像具有相同维数的场景级别特征。所述场景级别特征获取步骤包括针对输入图像,获取其场景级别的抽象特征,可利用深度学习和\或人工筛选特征描述所输入图像在全图级别的信息。
步骤2、对象级别特征表达
对象级别特征表达是指针对图像中的对象区域或其它重要区域进行特征描述。所述对象级别特征获取步骤包括针对输入图像,获取其所有对象区域或其它重要区域的特征。
如图3所示,其包括的步骤
a)区域选择,利用对象候选区域方法或人为选定一定数目的矩形区域,以此标记图像中的对象或重要区域;
b)区域特征提取,获取每个选定区域的深度学习和\或人工筛选特征;
c)区域特征聚合,聚合所有选定区域的特征;
d)区域特征后处理,对聚合的区域特征进行后处理。
步骤3、点级别特征表达
点级别特征表达是指对图像进行基于特征点的描述,从而让图像的表达具有较好的几何不变形,同时保持较为稳定的表达效力。所述点级别特征获取步骤包括针对输入图像,获取其基于尺度空间极值点的特征。具体包括以下步骤:
a)极值点特征描述,获取图像根据极值点检测的特征描述;
b)点级别特征聚合,聚合步骤a)中特征,得到固定维数的特征;
c)点级别特征后处理,对聚合的特征进行后处理。
步骤4、多层次特征融合方法
多层次特征融合方法是指将图像多个层次的特征融合到一个特征空间,使得每张图片可以用相同维度的特征去表达多个层次特征。多层次特征融合可针对任两种层次的特征或全部三个层次的特征进行融合。多层次特征融合步骤,所述多层次特征融合步骤包括利用特征融合和后处理方法,将多个层次的特征融合到一个特征空间。
特征融合过程中,不同层次之间的特征可进行等权值或不等权值的融合。融合后的特征可进行后处理,产生精简的图像表达。
图4为以一图像为例的基于多层次特征融合的图像表达的示意图。
本发明可应用于多个计算机视觉的任务。以下以基于多层次特征融合的图像检索实施例和基于多层次特征融合的图像分类的实施例进行说明。
以下实施例是基于多层次特征融合的图像检索。图5是本发明实施例的基于多层次特征融合的图像检索的流程图。本实施例包括以下步骤:
步骤51,场景级别特征表达步骤:本实例用卷积神经网络的全连接层来表达场景级别的信息。可用来提取场景级别特征的网络结构有GoogLeNet,Alexnet,VGGnet等。
步骤52,对象级别特征表达步骤:图像的对象级别特征是指针对图像中出现的对象进行描述。主要步骤如下所示:
(1)对象建议区域,使用对象建议方法检测图像中的对象建议区域,可用的对象建议方法有edgebox,selective search,Bing等。
(2)区域筛选,利用相关先验知识对候选区域进行筛选和排名,获得需要的候选区域;
(3)对象区域特征提取,将各个对象区域输入卷积神经网络,提取其全连接层的特征;
(4)对象级别特征聚合,将各个对象区域的特征聚合,获得相同维度的特征,可用的对象特征聚合方法有Sum(Average)聚合、Max聚合、VLAD聚合及其相关变形等,下面介绍这几种对象级别的特征聚合方法:
(a)Sum聚合是将所有对象同一维度的特征求和:
Figure BDA0000925200210000081
fo是聚合后的特征,指第n个对象区域的特征向量的第i维,N为对象区域的数 目,D为每个对象特征的维数。average聚合需将替换为
Figure BDA0000925200210000084
即可。
(b)Max聚合是在每个维度上取所有对象的最大值:
Figure BDA0000925200210000085
fo是聚合后的特征,
Figure BDA0000925200210000091
指第n个对象区域的特征向量的第i维,N为对象区域的数目,D为每个对象特征的维数。
(c)VLAD聚合是一种较为复杂的聚合方法,首先使用k-means算法获得c1,c2,…,ckk个聚类中心,每个对象特征寻找最近的聚类中心
Figure BDA0000925200210000092
然后保留其与对用聚类中心的残差,VLAD即为每个聚类中心保留的残差之和:
Figure BDA0000925200210000093
Figure BDA0000925200210000094
表示最近邻中心为ct的所有特征向量累加,因而使用VLAD来表达对象级别特征的维度为k*D,维度过高,故之后会对其进行归一化和降维处理得到fo
步骤53、点级别特征表达步骤。
本示例基于SIFT进行点级别特征表达。具体来说,首先提取图像的SIFT特征点的描述,然后将这些特征点聚合,获得一个固定维数的表达fp。可用的聚合方法有FisherVector、VLAD等,之后可使用PCA进行后处理,降低特征维度。
步骤54、特征融合步骤。
本实例的特征融合模块将全部三层特征进行等权值的融合,对每张图都能产生一个固定维数的特征去同时表达三个层次的信息。在进行特征融合前,三个表达的表达已有相同维度的表达。特征融合时,首先将三个部分的特征分别归一化,然后将三部分拼接起来:
f=[fs,fo,fp]
fs为场景级别的特征,fo为对象级别的特征,fp为点级别特征,f为拼接后的特征,接着对f进行降维和白化,可用主成分分析来降低f的维度,进一步进行白化:
fwhiten=diag(1./sqrt(v1,v2,…,vh))*U*f
其中,h为进行主成分分析后保留的特征维数,vi为第i个奇异值,U为主成分分析的转换矩阵。白化后要重新进行归一化得到最终的表达。这样最终获得的精简表达同时描述图像三个层次的信息。
步骤55,特征度量;使用欧式距离或其它距离度量方法计算图像间的距离,在数据库中寻找与检索图像相似的图像。
以下实施例是基于多层次特征融合的图像分类。
图6是本发明实施例二的基于多层次特征融合的图像分类的流程图。本实施例包括的场景级别特征表达步骤、对象级别特征表达步骤、点级别特征表步骤以及特征融合步骤与实施例一使用的方法相同,故本部分只介绍分类器步骤。
分类器步骤:图像分类任务需在训练集上训练得到分类器。对训练集上的图片,使用本发明的基于多层次特征融合的图像表达方法来描述图像,然后结合图像类别标签,使用合适的分类器(SVM,Logistic Regression等)训练得到分类器参数。对分类图像首先进行同样的特征表达,然后将特征输入到训练好的分类器中,得到分类结果。
如图7所示,为本发明所述的一种基于多层次特征融合的图像表达装置,包括:
获取单元71,获取输入图像的至少两个特征;所述至少两个特征为场景级别特征、对象级别特征、点级别特征的至少两个的组合。所述获取单元21包括场景级别特征处理单元、对象级别特征处理单元、点级别特征处理单元。
聚合单元72,将所述至少两个特征融合到所述输入图像的特征空间,作为所述输入图像的表达;
处理单元73,根据所述输入图像的表达,对所述输入图像进行处理。
以下描述本发明的装置的另一实施例。
一种基于多层次特征融合的图像表达装置,所述装置包括:
场景级别特征处理单元,所述场景级别特征处理单元用于针对输入图片,提取深度学习和/或人工筛选的特征;
对象级别特征处理单元,所述对象级别特征处理单元用于针对输入图片,生成对象区域矩形框,提取对象区域深度学习和\或人工筛选特征,并聚合所有对象区域特征;
点级别特征处理单元,所述点级别特征处理单元用于针对输入图片,提取其基于极值点的特征,并聚合到固定维数。
多层次特征融合单元,所述多层次特征融合单元将多个层次特征处理单元输入的特征融合到一个特征空间。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于多层次特征融合的图像表达方法,其特征在于,包括:
获取输入图像的场景级别特征、对象级别特征和点级别特征三个部分的特征;所述场景级别特征是指综合考虑图像的整体信息后产生的能表达其全局抽象的特征,所述对象级别特征是指针对图像中的对象区域进行特征描述,所述场景级别特征获取步骤包括针对输入图像,获取其场景级别的抽象特征,利用深度学习和\或人工筛选特征描述所输入图像在全图级别的信息,所述对象级别特征获取步骤包括:生成所述输入图像的对象区域矩形框;获取每个所述对象区域矩形框的深度学习和/或人工筛选的特征;聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征;所述输入图像的点级别特征的获取步骤包括:获取所述输入图像的基于尺度空间极值点检测的特征;聚合所述基于尺度空间极值点检测的特征,得到固定维数的特征,作为所述输入图像的点级别特征;
将所述场景级别特征、对象级别特征和点级别特征进行等权值的融合,产生一个固定维数的融合特征,用该融合特征去同时表达三个部分的特征的信息,特征融合时,首先将三个部分的特征分别归一化,然后将三部分拼接起来:
f=[fs,fo,fp]
fs为场景级别的特征,fo为对象级别的特征,fp为点级别特征,f为拼接后的特征,接着对f进行降维和白化,用主成分分析来降低f的维度,进一步进行白化:
fwhiten=diag(1./sqrt(v1,v2,…,vh))*U*f
其中,h为进行主成分分析后保留的特征维数,vi为第i个奇异值,U为主成分分析的转换矩阵;
将所述融合特征作为所述输入图像的表达;
根据所述输入图像的表达,对所述输入图像进行处理;
所述图像的对象级别特征表达步骤包括:图像的对象级别特征是指针对图像中出现的对象进行描述,步骤如下所示:
(1)对象建议区域,使用对象建议方法检测图像中的对象建议区域;
(2)区域筛选,利用相关先验知识对候选区域进行筛选和排名,获得需要的候选区域;
(3)对象区域特征提取,将各个需要的候选区域输入卷积神经网络,提取其全连接层的特征;
(4)对象级别特征聚合,将各个需要的候选区域的特征聚合,获得相同维度的特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述输入图像的表达,对所述输入图像进行处理的步骤包括:
根据所述输入图像的特征空间,对所述输入图像进行分类;或者
根据所述输入图像的特征空间,对所述输入图像进行检索。
3.根据权利要求1所述的方法,其特征在于,所述根据所述输入图像的表达,对所述输入图像进行处理的步骤包括:
对所述输入图像的表达进行后处理;
根据后处理的所述输入图像的表达,对所述输入图像进行处理。
4.根据权利要求3所述的方法,其特征在于,所述对所述输入图像的表达进行后处理的步骤包括:
对所述输入图像的特征空间进行幂归一化处理、归一化处理、降维处理、或者白化处理。
5.根据权利要求1所述的方法,其特征在于,所述聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征的步骤包括:
聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征;
对聚合后的所述特征进行后处理,作为所述输入图像的对象级别特征。
6.一种基于多层次特征融合的图像表达装置,其特征在于,包括:
获取单元,获取输入图像的场景级别特征、对象级别特征和点级别特征三个部分的特征;所述场景级别特征是指综合考虑图像的整体信息后产生的能表达其全局抽象的特征,所述对象级别特征是指针对图像中的对象区域进行特征描述,所述场景级别特征获取步骤包括针对输入图像,获取其场景级别的抽象特征,利用深度学习和\或人工筛选特征描述所输入图像在全图级别的信息,所述对象级别特征获取步骤包括:生成所述输入图像的对象区域矩形框;获取每个所述对象区域矩形框的深度学习和/或人工筛选的特征;聚合每个所述对象区域矩形框的深度学习和/或人工筛选的特征,作为所述输入图像的对象级别特征;所述输入图像的点级别特征的获取步骤包括:获取所述输入图像的基于尺度空间极值点检测的特征;聚合所述基于尺度空间极值点检测的特征,得到固定维数的特征,作为所述输入图像的点级别特征;
聚合单元,将所述场景级别特征、对象级别特征和点级别特征进行等权值的融合,产生一个固定维数的融合特征,用该融合特征去同时表达三个部分的特征的信息,特征融合时,首先将三个部分的特征分别归一化,然后将三部分拼接起来:
f=[fs,fo,fp]
fs为场景级别的特征,fo为对象级别的特征,fp为点级别特征,f为拼接后的特征,接着对f进行降维和白化,用主成分分析来降低f的维度,进一步进行白化:
fwhiten=diag(1./sqrt(v1,v2,…,vh))*U*f
其中,h为进行主成分分析后保留的特征维数,vi为第i个奇异值,U为主成分分析的转换矩阵;
将所述融合特征作为所述输入图像的表达;
处理单元,根据所述输入图像的表达,对所述输入图像进行处理;
所述图像的对象级别特征表达步骤包括:图像的对象级别特征是指针对图像中出现的对象进行描述,步骤如下所示:
(1)对象建议区域,使用对象建议方法检测图像中的对象建议区域;
(2)区域筛选,利用相关先验知识对候选区域进行筛选和排名,获得需要的候选区域;
(3)对象区域特征提取,将各个需要的候选区域输入卷积神经网络,提取其全连接层的特征;
(4)对象级别特征聚合,将各个需要的候选区域的特征聚合,获得相同维度的特征。
CN201610089958.1A 2016-02-17 2016-02-17 基于多层次特征融合的图像表达方法和装置 Active CN105760488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610089958.1A CN105760488B (zh) 2016-02-17 2016-02-17 基于多层次特征融合的图像表达方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610089958.1A CN105760488B (zh) 2016-02-17 2016-02-17 基于多层次特征融合的图像表达方法和装置

Publications (2)

Publication Number Publication Date
CN105760488A CN105760488A (zh) 2016-07-13
CN105760488B true CN105760488B (zh) 2020-06-16

Family

ID=56330947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610089958.1A Active CN105760488B (zh) 2016-02-17 2016-02-17 基于多层次特征融合的图像表达方法和装置

Country Status (1)

Country Link
CN (1) CN105760488B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446930B (zh) * 2016-06-28 2019-11-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法
CN107871106B (zh) * 2016-09-26 2021-07-06 北京眼神科技有限公司 人脸检测方法和装置
CN107122712B (zh) * 2017-03-27 2020-11-13 大连大学 基于cnn和双向vlad的掌纹图像识别方法
CN108875750B (zh) * 2017-08-25 2021-08-10 北京旷视科技有限公司 物体检测方法、装置和***及存储介质
CN108090203A (zh) * 2017-12-25 2018-05-29 上海七牛信息技术有限公司 视频分类方法、装置、存储介质及电子设备
CN108563767B (zh) * 2018-04-19 2020-11-27 深圳市商汤科技有限公司 图像检索方法及装置
CN108830330B (zh) * 2018-06-22 2021-11-02 西安电子科技大学 基于自适应特征融合残差网的多光谱图像分类方法
CN109446887B (zh) * 2018-09-10 2022-03-25 易诚高科(大连)科技有限公司 一种针对图像质量主观评测的图像场景描述生成方法
CN110135473B (zh) * 2019-04-25 2021-03-30 暗物智能科技(广州)有限公司 图像描述模型中奖赏及图像描述模型的构建方法
CN112016574B (zh) * 2020-10-22 2021-02-12 北京科技大学 一种基于特征融合的图像分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839063A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种基于加权金字塔结构的图像特征提取方法
CN104111960A (zh) * 2013-04-22 2014-10-22 阿里巴巴集团控股有限公司 一种页面的匹配方法和装置
CN103345645B (zh) * 2013-06-27 2016-09-28 复旦大学 面向网购平台的商品图像类别预测方法
JP6470503B2 (ja) * 2014-05-20 2019-02-13 キヤノン株式会社 画像照合装置、画像検索システム、画像照合方法、画像検索方法およびプログラム
CN104408479B (zh) * 2014-11-28 2018-04-06 电子科技大学 一种基于深度局部特征描述符的海量图像分类方法

Also Published As

Publication number Publication date
CN105760488A (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN105760488B (zh) 基于多层次特征融合的图像表达方法和装置
Sun et al. Facial expression recognition in the wild based on multimodal texture features
US9779354B2 (en) Learning method and recording medium
Kao et al. Visual aesthetic quality assessment with a regression model
Faraki et al. Fisher tensors for classifying human epithelial cells
US20160070976A1 (en) Image processing apparatus, image processing method, and recording medium
JP5214760B2 (ja) 学習装置、方法及びプログラム
Hamreras et al. Content based image retrieval by ensembles of deep learning object classifiers
CN104281572B (zh) 一种基于互信息的目标匹配方法及其***
Chen et al. Discriminative BoW framework for mobile landmark recognition
US9058748B2 (en) Classifying training method and apparatus using training samples selected at random and categories
Han et al. Biomedical imaging modality classification using combined visual features and textual terms
US20230410465A1 (en) Real time salient object detection in images and videos
CN111259701B (zh) 行人再识别方法、装置及电子设备
WO2012077818A1 (ja) ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
EP3166021A1 (en) Method and apparatus for image search using sparsifying analysis and synthesis operators
Rubio et al. Drawing a baseline in aesthetic quality assessment
CN112380369B (zh) 图像检索模型的训练方法、装置、设备和存储介质
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
Nguyen et al. Video instance search via spatial fusion of visual words and object proposals
Yoganand et al. Face detection approach from video with the aid of KPCM and improved neural network classifier
Mambou et al. novel human action recognition in RGB-D videos based on powerful view invariant features technique
Schumann et al. Person re-identification in uav videos using relevance feedback
Santoso et al. Learning-based human detection applied to RGB-D images
Zhang et al. Automatic preview frame selection for online videos

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant