CN107239793B - 多量化深度二值特征学习方法及装置 - Google Patents

多量化深度二值特征学习方法及装置 Download PDF

Info

Publication number
CN107239793B
CN107239793B CN201710349641.1A CN201710349641A CN107239793B CN 107239793 B CN107239793 B CN 107239793B CN 201710349641 A CN201710349641 A CN 201710349641A CN 107239793 B CN107239793 B CN 107239793B
Authority
CN
China
Prior art keywords
real
image
depth
feature
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710349641.1A
Other languages
English (en)
Other versions
CN107239793A (zh
Inventor
鲁继文
周杰
段岳圻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710349641.1A priority Critical patent/CN107239793B/zh
Publication of CN107239793A publication Critical patent/CN107239793A/zh
Priority to PCT/CN2017/115622 priority patent/WO2018209932A1/zh
Application granted granted Critical
Publication of CN107239793B publication Critical patent/CN107239793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种多量化深度二值特征学习方法及装置,其中,方法包括:提取图像的深度实值特征;通过K个自编码网络对图像的深度实值特征进行多量化,以得到量化结果;根据量化结果对图像的深度实值特征进行二值编码,以得到图像的二值特征。该方法可以有效解决二值化带来的量化误差问题,提高了学习的精确性,并且提高了学习效率,更加高效简单,更好地满足实际应用需求。

Description

多量化深度二值特征学习方法及装置
技术领域
本发明涉及计算机视觉与机器学习技术领域,特别涉及一种多量化深度二值特征学习方法及装置。
背景技术
视觉识别是计算机视觉领域的基本问题,能够广泛应用于多种视觉应用当中,例如人脸识别,物体识别,景物识别以及纹理识别等。作为一个经典的模式识别问题,视觉识别的主要步骤可以分为:特征提取和特征匹配。特征表示的目标是为每一张图片得到一个特征向量,使得同类图片的特征向量具有更强的相似性,而特征匹配则依据图片特征的相似性度量来识别图片的种类。由于自然环境下的物体光照、姿态、背景、视角和遮挡的差异较大,导致同一类物体之间的相似性小,不同物体之间的相似性可能较大,因此得到精确、高效的特征向量是视觉识别技术中最为关键的环节。
图像的特征提取主要分为两个方法:基于手工特征提取方法和基于特征学习方法。词袋模型是手工提取特征的代表性方法,主要有如下步骤:1)对图像提取关键点或关键区域;2)对关键点或关键区域提取局部特征描述符;3)为词袋模型建立字典;4)对局部特征描述符进行池化并提取直方图特征。其中,关键点或关键区域的提取以及提取特征描述符是视觉计算领域中的传统问题,由于局部不变特征对图像中的遮挡,尺度,光照等干扰因素具有较好的适应性,因此在近年来局部不变特征逐渐替代了全局特征而成为图像表征的主流方法,它们也成为了词袋模型中最为重要的两个环节。关键点或关键区域的提取能够找到图像中关键的稳定区域,这些局部区域随着图像的变化具有一定的稳定性和可重复性。而提取特征描述符则为找到的关键点或关键区域提供了具有高效鲁棒的描述。图像局部不变特征检测方法一般分为角点检测子、斑点检测子、区域检测子。基于特征学习的方法通过对训练集的学习,总结数据集蕴含的规律,学习视觉特征。
目前,深度学习的方法在视觉识别领域取得了极为出色的成果。随着互联网时代的快速发展,视觉感知领域已经进入了大数据时代,大数据一方面是数量上的大,另一方面是维度的大。深度学习方法能更好地利用视觉大数据学习出高效的视觉特征,因其不但关注了全局特征,更是利用了图像识别领域非常重要的局部特征,将局部特征抽取的算法融入到了神经网络中,从而有效完成视觉目标的特征表达。
虽然深度学习在视觉识别中取得了极佳的效果,但是目前深度学习的计算代价较大,在实际应用中存在瓶颈。二值特征学习技术具有计算、储存、匹配速度快的特点,深度二值特征学习在花费较低运算代价的同时获得较高的描述力,能够具备精确、高效的特点,满足实际应用需求。例如,DeepBit通过非监督的方式学习深度二值特征,在多个数据集上取得了出色的识别率。然而,现有的二值特征学习方法均使用符号函数进行二值化,从而会导致较大的量化损失。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种多量化深度二值特征学习方法,该方法可以提高学习的精确性,并且提高学习效率。
本发明的另一个目的在于提出一种多量化深度二值特征学习装置。
为达到上述目的,本发明一方面实施例提出了一种多量化深度二值特征学习方法,包括以下步骤:提取图像的深度实值特征;通过K个自编码网络对所述图像的深度实值特征进行多量化,以得到量化结果;根据所述量化结果对所述图像的深度实值特征进行二值编码,以得到图像的二值特征。
本发明实施例的多量化深度二值特征学习方法,通过使用多量化进行二值化,并且利用K自编码网络来实施基于多量化的二值化,有效解决二值化带来的量化误差问题,提高了学习的精确性,并且提高了学习效率,更加高效简单,更好地满足实际应用需求。
另外,根据本发明上述实施例的多量化深度二值特征学习方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取图像的深度实值特征,进一步包括:将原始的输入图像前传入深度卷积神经网络,以在网络的最后层全连接后得到每一张图像的深度实值特征;将所述每一张图像的深度实值特征传入降维的全连阶层,以得到低维实值特征。
进一步地,在本发明的一个实施例中,整体的损失函数为:
其中,J为待优化目标,X为所求实值特征,
Figure BDA0001297447120000022
为第n张图片的实值特征在第k个自动编码器的重构误差,
Figure BDA0001297447120000023
为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重。
进一步地,在本发明的一个实施例中,所述通过K个自编码网络对所述图像的深度实值特征进行多量化,进一步包括:通过K个自编码器对所述图像的深度实值特征分别进行重构,其中,令每个训练样本属于重构误差最小的编码器;根据第一项损失函数和第二项损失函数,对于每个自编码器,使用属于该自编码器的全部样本对其进行训练,以迭代多步后,对于每个样本使用重构误差最小的编码器的编号作为该样本的量化结果;利用第三项损失函数和所述第二项损失函数用所有样本预处理的全连接层,并且反复迭代训练,直到最大迭代次数。
进一步地,在本发明的一个实施例中,所述根据所述量化结果对所述图像的深度实值特征进行二值编码,进一步包括:对于所述深度实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号。
为达到上述目的,本发明另一方面实施例提出了一种多量化深度二值特征学习装置,包括:提取模块,用于提取图像的深度实值特征;多量化模块,用于通过K个自编码网络对所述图像的深度实值特征进行多量化,以得到量化结果;编码模块,用于根据所述量化结果对所述图像的深度实值特征进行二值编码,以得到图像的二值特征。
本发明实施例的多量化深度二值特征学习装置,通过使用多量化进行二值化,并且利用K自编码网络来实施基于多量化的二值化,有效解决二值化带来的量化误差问题,提高了学习的精确性,并且提高了学习效率,更加高效简单,更好地满足实际应用需求。
另外,根据本发明上述实施例的多量化深度二值特征学习装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取模块具体用于将原始的输入图像前传入深度卷积神经网络,以在网络的最后层全连接后得到每一张图像的深度实值特征,并且将所述每一张图像的深度实值特征传入降维的全连阶层,以得到低维实值特征。
进一步地,在本发明的一个实施例中,整体的损失函数为:
Figure BDA0001297447120000031
其中,J为待优化目标,X为所求实值特征,为第n张图片的实值特征在第k个自动编码器的重构误差,
Figure BDA0001297447120000033
为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重。
进一步地,在本发明的一个实施例中,所述多量化模块还用于通过K个自编码器对所述图像的深度实值特征分别进行重构,其中,令每个训练样本属于重构误差最小的编码器,并且根据第一项损失函数和第二项损失函数,对于每个自编码器,使用属于该自编码器的全部样本对其进行训练,以迭代多步后,对于每个样本使用重构误差最小的编码器的编号作为该样本的量化结果,以及利用第三项损失函数和所述第二项损失函数用所有样本预处理的全连接层,并且反复迭代训练,直到最大迭代次数。
进一步地,在本发明的一个实施例中,所述编码模块还用于对于所述深度实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的多量化深度二值特征学习方法的流程图;
图2为根据本发明一个实施例的多量化深度二值特征学习方法的流程图;
图3为根据本发明一个具体实施例的多量化深度二值特征学习方法的流程图;
图4为根据本发明实施例的多量化深度二值特征学习装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的多量化深度二值特征学习方法及装置,首先将参照附图描述根据本发明实施例提出的多量化深度二值特征学习方法。
图1是本发明实施例的多量化深度二值特征学习方法的流程图。
如图1所示,该多量化深度二值特征学习方法包括以下步骤:
在步骤S101中,提取图像的深度实值特征。
其中,在本发明的一个实施例中,提取图像的深度实值特征,进一步包括:将原始的输入图像前传入深度卷积神经网络,以在网络的最后层全连接后得到每一张图像的深度实值特征;将每一张图像的深度实值特征传入降维的全连阶层,以得到低维实值特征。
例如,将原始的输入图像前传入深度卷积神经网络,在网络的最后层全连接后得到每一张图像的4096维的深度实值特征,再将该4096维特征传入降维的全连接层,得到低维实值特征,作为图像预处理的结果。
需要说明的是,由于采用了VGG网络,所以得到4096维的深度实值特征,但本领域技术人员应当理解的是,任意的深度网络都可以通过类似方法提取二值特征,在此不作具体限制。
可以理解的是,如图2所示,首先,本发明实施例将预处理后的图像实值特征输入并联的K个自编码器,以用输入的每一个实值特征在优化损失函数的目标下训练使得整个特征重构误差最小的自编码器。
在步骤S102中,通过K个自编码网络对图像的深度实值特征进行多量化,以得到量化结果。
其中,在本发明的一个实施例中,整体的损失函数为:
Figure BDA0001297447120000051
其中,J为待优化目标,X为所求实值特征,
Figure BDA0001297447120000052
为第n张图片的实值特征在第k个自动编码器的重构误差,
Figure BDA0001297447120000053
为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重。
进一步地,在本发明的一个实施例中,通过K个自编码网络对图像的深度实值特征进行多量化,进一步包括:通过K个自编码器对图像的深度实值特征分别进行重构,其中,令每个训练样本属于重构误差最小的编码器;根据第一项损失函数和第二项损失函数,对于每个自编码器,使用属于该自编码器的全部样本对其进行训练,以迭代多步后,对于每个样本使用重构误差最小的编码器的编号作为该样本的量化结果;利用第三项损失函数和第二项损失函数用所有样本预处理的全连接层,并且反复迭代训练,直到最大迭代次数。
具体而言,如图3所示,由于本发明实施例是基于非监督学习的特征提取方法,所以引入损失函数来对网络进行训练。本发明实施例用K个自编码网络对于实值特征进行多量化,并以此作为二值化的依据。该多量化方法应具有如下性质:
1、重构误差最小
用自编码器对预处理的实值特征进行重构。自编码器最短的层提取的特征,是原始特征降维到子空间的结果。若通过自编码器最短层的特征重构预处理实值特征产生的误差越小,则在该子空间投影能保留原始数据越多的信息。
2、防止过拟合
由于样本的数量有限,需要避免让网络只学习到样本的局部特征,本发明引入防止网络过拟合的惩罚项,让系数保持稀疏,防止过拟合出现。
3、预处理实值特征方差最大
增大方差有助于提高数据所含信息量。本发明希望预处理过程中的降维能够尽可能多的保存原始高维数据中的信息量,所以引入约束使得预处理特征的方差最大。
综上所述,整体的损失函数为:
Figure BDA0001297447120000061
其中,J为待优化目标,X为所求实值特征,
Figure BDA0001297447120000062
为第n张图片的实值特征在第k个自动编码器的重构误差,
Figure BDA0001297447120000063
为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重。
进一步地,本发明实施例采用两步迭代的方式训练基于K自编码网络的多量化:
步骤1,用K个自编码器对预处理的实值特征分别进行重构,对于每一个训练样本,令其属于重构误差最小的自编码器;
步骤2,根据第1项和第2项损失函数,对于每一个自编码器,使用属于该自编码器的全部样本对其进行训练。迭代多步后,对于每个样本使用重构误差最小的自编码器的编号作为该样本的量化结果。因为每一个自编码器是该样本在其不同子空间的一个投影,对于重构误差最小的自编码器,样本在其投影的子空间具有最大信息。将其量化为该自编码器代表的这一类,能够最大限度地减小量化损失。
最后,再利用第3项和第2项损失函数用所有样本训练预处理的全连接层,尽可能减少预处理过程中原始信息的损失。反复迭代上述两阶段训练,直到达到最大迭代次数。
在步骤S103中,根据量化结果对图像的深度实值特征进行二值编码,以得到图像的二值特征。
其中,在本发明的一个实施例中,根据量化结果对图像的深度实值特征进行二值编码,进一步包括:对于深度实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号。
可以理解的是,如图1所示,网络训练完成后,对于输入的测试样本,将其实值特征的每一位编码为使得该位重构误差最小的自编码器二进制编号,最终得到图像的二值特征。即言,在得到量化结果后对预处理的实值特征进行二值编码,并且对于实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号,最终得到图像的二值特征。
在本发明的实施例中,为了避免传统二值特征提取技术中用符号函数对图像实值特征进行二值化带来的较大的量化误差,本发明实施例用K个自编码网络对图像实值特征在子空间的投影进行多量化,并用此多量化结果作为二值化的依据。
具体地,本发明实施例的关键点一,利用多量化技术进行精细的二值化,使用符号函数或手工定义阈值的方式对实值函数进行二值化,忽略了数据集的信息,导致量化损失较大;多量化通过将数据集进行聚类的方式,能够实现数据适应的精细二值化过程;关键点二,利用K自编码网络进行多量化;使用K个自编码网络进行多量化的方法,通过两步迭代的方式训练自编码器的参数,并得到最终的量化结果;关键点3,使用多量化深度二值特征提取的框架,使用深度网络进行实值特征学习并使用多量化网络进行二值化,实现多量化深度二值特征学习。
根据本发明实施例提出的多量化深度二值特征学习方法,首先对于图片使用深度网络提取实值特征,并且为了进行精细的二值化过程,采用了基于K自编码网络的多量化方法,对实值特征进行二值化,最小化该步骤带来的二值损失,以及为了得到更为精确的二值特征,使用统一的优化函数对整个网络的参数进行训练学习,最终对于每一张图片能够得到其精确、高效的多量化深度二值特征,其中,通过使用多量化进行二值化,并且利用K自编码网络来实施基于多量化的二值化,有效解决二值化带来的量化误差问题,提高了学习的精确性,并且提高了学习效率,更加高效简单,更好地满足实际应用需求。
其次参照附图描述根据本发明实施例提出的多量化深度二值特征学习装置。
图4是本发明实施例的多量化深度二值特征学习装置的结构示意图。
如图4所示,该多量化深度二值特征学习装置10包括:提取模块100、多量化模块200和编码模块300。
其中,提取模块100用于提取图像的深度实值特征。多量化模块200用于通过K个自编码网络对图像的深度实值特征进行多量化,以得到量化结果。编码模块300用于根据量化结果对图像的深度实值特征进行二值编码,以得到图像的二值特征。本发明实施例的装置10可以有效解决二值化带来的量化误差问题,提高了学习的精确性,并且提高了学习效率,更加高效简单,更好地满足实际应用需求。
进一步地,在本发明的一个实施例中,提取模块100具体用于将原始的输入图像前传入深度卷积神经网络,以在网络的最后层全连接后得到每一张图像的深度实值特征,并且将每一张图像的深度实值特征传入降维的全连阶层,以得到低维实值特征。
进一步地,在本发明的一个实施例中,整体的损失函数为:
Figure BDA0001297447120000071
其中,J为待优化目标,X为所求实值特征,
Figure BDA0001297447120000072
为第n张图片的实值特征在第k个自动编码器的重构误差,
Figure BDA0001297447120000073
为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重。
进一步地,在本发明的一个实施例中,多量化模块200还用于通过K个自编码器对图像的深度实值特征分别进行重构,其中,令每个训练样本属于重构误差最小的编码器,并且根据第一项损失函数和第二项损失函数,对于每个自编码器,使用属于该自编码器的全部样本对其进行训练,以迭代多步后,对于每个样本使用重构误差最小的编码器的编号作为该样本的量化结果,以及利用第三项损失函数和第二项损失函数用所有样本预处理的全连接层,并且反复迭代训练,直到最大迭代次数。
进一步地,在本发明的一个实施例中,编码模块300还用于对于深度实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号。
需要说明的是,前述对多量化深度二值特征学习方法实施例的解释说明也适用于该实施例的多量化深度二值特征学习装置,此处不再赘述。
根据本发明实施例提出的多量化深度二值特征学习装置,首先对于图片使用深度网络提取实值特征,并且为了进行精细的二值化过程,采用了基于K自编码网络的多量化方法,对实值特征进行二值化,最小化该步骤带来的二值损失,以及为了得到更为精确的二值特征,使用统一的优化函数对整个网络的参数进行训练学习,最终对于每一张图片能够得到其精确、高效的多量化深度二值特征,其中,通过使用多量化进行二值化,并且利用K自编码网络来实施基于多量化的二值化,有效解决二值化带来的量化误差问题,提高了学习的精确性,并且提高了学习效率,更加高效简单,更好地满足实际应用需求。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种多量化深度二值特征学习方法,其特征在于,包括以下步骤:
提取图像的深度实值特征;
通过K个自编码网络对所述图像的深度实值特征进行多量化,以得到量化结果,其中,整体的损失函数为:
Figure FDA0002202396060000011
其中,J为待优化目标,X为所求实值特征,为第n张图片的实值特征在第k个自动编码器的重构误差,为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重;以及
根据所述量化结果对所述图像的深度实值特征进行二值编码,以得到图像的二值特征。
2.根据权利要求1所述的多量化深度二值特征学习方法,其特征在于,所述提取图像的深度实值特征,进一步包括:
将原始的输入图像前传入深度卷积神经网络,以在网络的最后层全连接后得到每一张图像的深度实值特征;
将所述每一张图像的深度实值特征传入降维的全连阶层,以得到低维实值特征。
3.根据权利要求1所述的多量化深度二值特征学习方法,其特征在于,所述通过K个自编码网络对所述图像的深度实值特征进行多量化,进一步包括:
通过K个自编码器对所述图像的深度实值特征分别进行重构,其中,令每个训练样本属于重构误差最小的编码器;
根据第一项损失函数和第二项损失函数,对于每个自编码器,使用属于该自编码器的全部样本对其进行训练,以迭代多步后,对于每个样本使用重构误差最小的编码器的编号作为该样本的量化结果,其中,所述第一项损失函数为最小化K个自编码网络的重构误差,所述第二项损失函数为K个自编码网络参数正则化;
根据第二项损失函数和第三项损失函数,对于深度神经网络的全连接层,使用全部样本对其进行训练,直到最大迭代次数,其中,所述第三项损失函数为最大化特征每一维度方差。
4.根据权利要求3所述的多量化深度二值特征学习方法,其特征在于,所述根据所述量化结果对所述图像的深度实值特征进行二值编码,进一步包括:
对于所述深度实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号。
5.一种多量化深度二值特征学习装置,其特征在于,包括:
提取模块,用于提取图像的深度实值特征;
多量化模块,用于通过K个自编码网络对所述图像的深度实值特征进行多量化,以得到量化结果,其中,整体的损失函数为:
Figure FDA0002202396060000021
其中,J为待优化目标,X为所求实值特征,
Figure FDA0002202396060000022
为第n张图片的实值特征在第k个自动编码器的重构误差,
Figure FDA0002202396060000023
为第k个自动编码器的第l层的投影,U为所有实值特征的均值向量,λ1、λ2为不同项的权重;以及
编码模块,用于根据所述量化结果对所述图像的深度实值特征进行二值编码,以得到图像的二值特征。
6.根据权利要求5所述的多量化深度二值特征学习装置,其特征在于,所述提取模块具体用于将原始的输入图像前传入深度卷积神经网络,以在网络的最后层全连接后得到每一张图像的深度实值特征,并且将所述每一张图像的深度实值特征传入降维的全连阶层,以得到低维实值特征。
7.根据权利要求5所述的多量化深度二值特征学习装置,其特征在于,所述多量化模块还用于通过K个自编码器对所述图像的深度实值特征分别进行重构,其中,令每个训练样本属于重构误差最小的编码器,并且根据第一项损失函数和第二项损失函数,对于每个自编码器,使用属于该自编码器的全部样本对其进行训练,以迭代多步后,对于每个样本使用重构误差最小的编码器的编号作为该样本的量化结果,以及根据第二项损失函数和第三项损失函数,对于深度神经网络的全连接层,使用全部样本对其进行训练,直到最大迭代次数,其中,所述第一项损失函数为最小化K个自编码网络的重构误差,所述第二项损失函数为K个自编码网络参数正则化,所述第三项损失函数为最大化特征每一维度方差。
8.根据权利要求7所述的多量化深度二值特征学习装置,其特征在于,所述编码模块还用于对于所述深度实值特征的每一位,将该位赋值为使得该位重构误差最小的自编码器的二进制编号。
CN201710349641.1A 2017-05-17 2017-05-17 多量化深度二值特征学习方法及装置 Active CN107239793B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710349641.1A CN107239793B (zh) 2017-05-17 2017-05-17 多量化深度二值特征学习方法及装置
PCT/CN2017/115622 WO2018209932A1 (zh) 2017-05-17 2017-12-12 多量化深度二值特征学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710349641.1A CN107239793B (zh) 2017-05-17 2017-05-17 多量化深度二值特征学习方法及装置

Publications (2)

Publication Number Publication Date
CN107239793A CN107239793A (zh) 2017-10-10
CN107239793B true CN107239793B (zh) 2020-01-17

Family

ID=59984523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710349641.1A Active CN107239793B (zh) 2017-05-17 2017-05-17 多量化深度二值特征学习方法及装置

Country Status (2)

Country Link
CN (1) CN107239793B (zh)
WO (1) WO2018209932A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239793B (zh) * 2017-05-17 2020-01-17 清华大学 多量化深度二值特征学习方法及装置
CN107845116B (zh) * 2017-10-16 2021-05-25 北京京东尚科信息技术有限公司 生成平面图像的压缩编码的方法和装置
CN108182438B (zh) * 2018-01-17 2020-09-25 清华大学 基于深度强化学习的图二值特征学习方法及装置
CN110795975B (zh) * 2018-08-03 2023-07-21 浙江宇视科技有限公司 人脸误检优化方法及装置
CN109344893B (zh) * 2018-09-25 2021-01-01 华中师范大学 一种基于移动终端的图像分类方法
CN109584225B (zh) * 2018-11-23 2023-02-03 聚时科技(上海)有限公司 一种基于自编码器的无监督缺陷检测方法
CN109670057B (zh) * 2019-01-03 2021-06-29 电子科技大学 一种渐进式的端到端深度特征量化***及方法
CN109840941B (zh) * 2019-02-20 2023-01-24 尹大龙 一种内窥镜探测物体的表面重建方法及***
CN109887075B (zh) * 2019-02-20 2020-12-15 清华大学 用于三维模型构建的三维点云模型训练方法
CN110109060B (zh) * 2019-03-27 2022-11-22 西安电子科技大学 一种基于深度学习网络的雷达辐射源信号分选方法及***
CN110378362A (zh) * 2019-04-22 2019-10-25 浙江师范大学 基于概念稳定特征及其差异化网络的概念学习方法
CN110111289B (zh) * 2019-04-28 2021-09-28 深圳市商汤科技有限公司 一种图像处理方法及装置
CN110647891B (zh) * 2019-09-17 2023-01-24 上海仪电(集团)有限公司中央研究院 基于cnn和自编码器时序数据特征自动提取方法及***
CN110706210B (zh) * 2019-09-18 2023-03-17 五邑大学 一种基于深度学习的钢筋计数方法及装置
CN111028939B (zh) * 2019-11-15 2023-03-31 华南理工大学 一种基于深度学习的多组学智能诊断***
CN111291639B (zh) * 2020-01-20 2023-05-16 西北工业大学 基于分层变分自编码的跨源舰船特征融合学习与识别方法
CN111565156B (zh) * 2020-04-27 2023-07-07 南京烽火星空通信发展有限公司 一种对网络流量识别分类的方法
CN111461147B (zh) * 2020-04-30 2023-05-23 柳州智视科技有限公司 一种基于图像特征的二进制编码组织算法
CN112613577B (zh) * 2020-12-31 2024-06-11 上海商汤智能科技有限公司 神经网络的训练方法、装置、计算机设备及存储介质
CN113159301B (zh) * 2021-05-25 2022-10-28 电子科技大学 一种基于二值化量化模型的图像处理方法
CN113807396B (zh) * 2021-08-12 2023-07-18 华南理工大学 一种物联网高维数据异常检测方法、***、装置及介质
CN114708180B (zh) * 2022-04-15 2023-05-30 电子科技大学 具有动态范围保持的预失真图像比特深度量化和增强方法
CN114979407B (zh) * 2022-05-24 2023-08-22 浙江科技学院 基于码分多址和深度学习鬼成像的多图加密和解密方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205453A (zh) * 2015-08-28 2015-12-30 中国科学院自动化研究所 基于深度自编码器的人眼检测和定位方法
CN105913090A (zh) * 2016-04-14 2016-08-31 西安电子科技大学 基于sdae-svm的sar图像目标分类方法
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156464B (zh) * 2014-08-20 2018-04-27 中国科学院重庆绿色智能技术研究院 基于微视频特征数据库的微视频检索方法及装置
CN107239793B (zh) * 2017-05-17 2020-01-17 清华大学 多量化深度二值特征学习方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***
CN105205453A (zh) * 2015-08-28 2015-12-30 中国科学院自动化研究所 基于深度自编码器的人眼检测和定位方法
CN105913090A (zh) * 2016-04-14 2016-08-31 西安电子科技大学 基于sdae-svm的sar图像目标分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Binary Codes for Tagging X-ray Images via Deep De-Noising Autoencoders;Antonio Sze-To et al.;《2016 International Joint Conference on Neural Networks》;20160729;第2864-2871页 *
基于深度卷积神经网络和二进制哈希学习的图像检索方法;彭天强,栗芳;《电子与信息学报》;20160624;第38卷(第8期);摘要,第2069页右栏第2段,第2节 *
基于深度自学习的图像哈希检索方法;欧新宇 等;《计算机工程与科学》;20151231;第37卷(第12期);第3.3节 *

Also Published As

Publication number Publication date
WO2018209932A1 (zh) 2018-11-22
CN107239793A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN107239793B (zh) 多量化深度二值特征学习方法及装置
CN110232341B (zh) 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法
CN109783682B (zh) 一种基于点对相似度的深度非松弛哈希图像检索方法
Wang et al. Robust subspace clustering for multi-view data by exploiting correlation consensus
US9524449B2 (en) Generation of visual pattern classes for visual pattern recognition
US8233711B2 (en) Locality-constrained linear coding systems and methods for image classification
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN112765352A (zh) 基于具有自注意力机制的图卷积神经网络文本分类方法
US20170262478A1 (en) Method and apparatus for image retrieval with feature learning
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN111079683A (zh) 基于卷积神经网络的遥感图像云雪检测方法
Long et al. Hierarchical community structure preserving network embedding: A subspace approach
CN109348229B (zh) 基于异构特征子空间迁移的jpeg图像失配隐写分析方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN111125411A (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN109657704B (zh) 一种基于稀疏融合的核化场景特征提取方法
CN108182438B (zh) 基于深度强化学习的图二值特征学习方法及装置
Li et al. Fuzzy bag of words for social image description
Zhang et al. Image region annotation based on segmentation and semantic correlation analysis
CN108805280B (zh) 一种图像检索的方法和装置
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
Dan et al. PF‐ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition
van Spengler et al. Poincare resnet
Yang et al. Bag of shape descriptor using unsupervised deep learning for non-rigid shape recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant