CN104239897A - 一种基于自编码器词袋的视觉特征表示方法 - Google Patents

一种基于自编码器词袋的视觉特征表示方法 Download PDF

Info

Publication number
CN104239897A
CN104239897A CN201410448549.7A CN201410448549A CN104239897A CN 104239897 A CN104239897 A CN 104239897A CN 201410448549 A CN201410448549 A CN 201410448549A CN 104239897 A CN104239897 A CN 104239897A
Authority
CN
China
Prior art keywords
coding device
image block
visual
image
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410448549.7A
Other languages
English (en)
Other versions
CN104239897B (zh
Inventor
冀中
刘青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201410448549.7A priority Critical patent/CN104239897B/zh
Publication of CN104239897A publication Critical patent/CN104239897A/zh
Application granted granted Critical
Publication of CN104239897B publication Critical patent/CN104239897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于自编码器词袋的视觉特征表示方法:输入训练样本构成训练集;对训练集中的每个训练样本进行预处理,减小光照、噪声等对图像表示准确度的影响;生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;将图像的局部特征依据视觉字典量化为视觉单词;统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。本发明既利用自编码器自主学习特征表达的特点,又通过BoVW框架降低了对训练样本数量的要求。

Description

一种基于自编码器词袋的视觉特征表示方法
技术领域
本发明涉及一种多媒体分析、机器视觉等领域的视觉特征表示方法。特别是涉及一种基于自编码器词袋的视觉特征表示方法。
背景技术
视觉表示是多媒体分析、机器视觉等领域的重要问题之一,它深刻地影响着多媒体检索、图像分类、场景分析、目标识别等诸多现实应用问题。近年来,随着网络技术的飞速发展,越来越多的数字图像开始充斥人们的生活,如何准确地表示这些视觉数据(特别是在大数据环境下),已经成为一个迫切需要解决的问题。
词袋(Bag of Words,BoW)模型最初应用于文档检索和分类领域,其基本思想是:统计语料库(corpus)中的所有单词组成字典,对于每一篇文档依据字典统计其中单词出现的频次,用由这些单词频率组成的直方图来表示这篇文档。BoW模型因其简单而有效的优点得到了广泛的应用,计算机视觉领域的研究者们将同样的思想应用到多媒体分析、机器视觉等领域,建立了由文本分析技术向视觉分析领域的过渡,相应的方法称作视觉词袋(Bag of VisualWords,BoVW)。
BoVW主要包含局部特征提取,视觉字典建立,局部特征量化,图像表示等四个步骤。其中最关键的就是局部特征的提取和视觉字典的建立。比较经典的方法是使用SIFT(Scale-Invariant Feature Transform)描述子。SIFT是David Lowe于1999年提出的局部描述子,并于2004年进行了进一步的完善。在此之后,相关研究领域的研究者们针对SIFT算法提出了大量改进方法。虽然SIFT特征对平移、旋转等具有良好的不变性,然而,该算法及其改进方法所提取的局部特征都是手工设计的特征,并不是从数据中自主学习到的特征,因而难以挖掘数据本质结构,尤其在大数据环境下,手工设计的特征局限性比较大。
深度学习模型是近些年研究的热点,它通过构建多层神经网络以及利用大量的训练数据提升特征表达的能力。在深度学习领域中,堆叠自编码器(Stacked Autoencoder,SAE)是一个重要的模型。SAE是由自编码器(Autoencoder,AE)堆叠而成的深度模型。在训练SAE时,一般都以整个图像作为网络的输入,并且使用全连接,即第一个隐层的每个神经元都与输入图像的所有像素连接,因而图像的尺寸对整个网络参数的数量有很大的影响,若图像的尺寸较大,将导致参数非常多。由于深度架构的固有属性(含有较多的隐层)以及使用整个图像作为输入等原因,导致SAE仅适用于图像尺寸较小、训练样本较多的情况,而在图像尺寸比较大、样本个数比较少的情况下,深度网络(不仅仅是SAE)很容易过拟合,因而难以学习到有效的特征。
在基于深度网络的特征表示方法中,由于深度网络含有大量参数,在训练样本较少的情况下容易出现过拟合问题;在基于视觉词袋的特征表示方法中,一般使用SIFT等人工设计的特征,因而难以发现数据内在的结构。
发明内容
本发明所要解决的技术问题是,提供一种结合视觉词袋框架以及自编码器,以达到有效利用数据内在结构、提高特征表示能力的基于自编码器词袋的视觉特征表示方法。
本发明所采用的技术方案是:一种基于自编码器词袋的视觉特征表示方法,包括如下步骤:
1)输入训练样本构成训练集;
2)对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确度的影响;
3)生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;
4)使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;
5)将图像的局部特征依据视觉字典量化为视觉单词;
6)统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。
步骤2)所述的预处理是采用均值归一化或方差归一化进行的。
步骤3)所述的生成视觉字典具体过程包括:
(1)从预处理后的训练集中随机选取多个训练样本,再从所述的每个训练样本中随机采集图像块;
(2)将第(1)步采集的图像块作为自编码器的输入,训练自编码器;
(3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中,得到所述随机采集图像块的特征;
(4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典。
第(1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像,再从所述图像中随机采集一个p×p大小的图像块,重复Np次后可以得到一个p2×Np的矩阵,所述的矩阵用于自编码器的训练,其中p和N都是大于1的整数。
第(2)步所述的训练,是以Jsparse(W,b)为目标函数,使用反向传播算法求得Jsparse(W,b)对神经网络中每个参数的偏导数,再结合无约束优化算法,从而训练得到一个用以提取图像局部特征的自编码器,其中,
J sparse ( W , b ) = [ 1 N Σ i = 1 N J ( W , b ; x ( i ) ) ] + λ 2 Σ W ij 2 + β Σ j = 1 S 2 ρ log ρ ρ ^ j + ( 1 - ρ ) log 1 - ρ 1 - ρ ^ j
式中,N是随机图像块的总数,x(i)表示第i个随机图像块,W是自编码器的权重参数矩阵,Wij表示第i层第j个神经元的权重参数,b是自编码器的偏置参数向量,J(W,b;x(i))表示输入第i个随机图像块时自编码器的代价函数,λ和β分别是控制权重衰减项和稀疏惩罚项的权重系数,S2是隐藏层神经元的个数,表示隐藏层第j个神经元的平均激活度,ρ为稀疏性参数。
本发明的一种基于自编码器词袋的视觉特征表示方法,主要是针对现有的基于深度神经网络的特征表示方法参数多、需要大量样本等不足以及传统BoVW算法使用手工设计特征等不足,结合BoVW框架和无监督学习算法。其特点如下:
1、新颖性:首次把无监督学习中的自编码器引入到BoVW框架中。既利用自编码器自主学习特征表达的特点,又通过BoVW框架降低了对训练样本数量的要求。
2、有效性:大量实验证明了算法的有效性。本发明的方法特征表示能力有所提升,这是因为自编码器提取特征是由数据驱动而不是基于手工设计的。
3、适用性:本发明设计的基于自编码器词袋的特征表示算法具有更强的适用性,这是因为本方法使用自编码器提取的是图像的局部特征,即使在训练样本较少的情况下,只要采集足够多的随机图像块就能完成自编码器的训练。
4.实用性:简单可行,可以用于常见的多媒体分析、机器视觉等领域,如图像分类、人脸识别、目标识别等。
附图说明
图1是自编码器神经网络示意图;
其中X=[x1,x2,...,x6]表示输入;表示神经网络的输出,也就是对输入X的重建;“+1”表示神经元的偏置;hW,b(x)为***函数,layer L1表示第一层,layer L2表示第二层,layer L3表示第三层;
图2是本发明基于自编码器词袋的视觉特征表示方法的流程图;
图3是是视觉字典生成过程流程图;
图4是本发明的图像分类应用示意图。
具体实施方式
下面结合实施例和附图对本发明的一种基于自编码器词袋的视觉特征表示方法做出详细说明。
本发明的一种基于自编码器词袋的视觉特征表示方法,主要是在传统的基于视觉词袋的特征表示方法基础上,首次使用无监督学习中的自编码器来提取图像的局部特征,以替代手工设计的特征,本发明称基于自编码器词袋的视觉特征表示方法为Bag of Autoencoder Words(BOAEW)。BOAEW融合了视觉词袋框架和无监督特征学习方法,提高了特征表示能力。
在有监督学习中,训练样本是有类别标签的,相对的,在无监督学习中,训练集合没有类别信息。现在假设一个没有带类别标签的训练集合{x(1),x(2),x(3),...,x(N)},其中表示第i个样本,N为样本个数。自编码器是一种无监督学习算法,它尝试学习一个hW,b(x)≈x的函数,其中x为输入,W和b是自编码器的参数(权重和偏置),hW,b(x)为网络的输出。换句话说,它尝试逼近一个恒等函数,从而使得输出接近于x。图1是一个自编码器的示意图。具体来讲,对于单个样本x,其代价函数为:
J ( W , b ; x ) = 1 2 | | h W , b ( x ) - x | | 2
因此可以定义整体的代价函数:
J ( W , b ) = [ 1 N Σ i = 1 N J ( W , b ; x ( i ) ) ] + λ 2 Σ W ij 2
其中第一项是均方误差项;第二项是权重衰减项,其目的是减小权重幅度,防止过拟合。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响,所以上式权重衰减项只包含权重。
恒等函数虽然看上去不太有学习意义,但是为自编码器加入某些限制,就可以从输入数据中发现内在结构。如果当神经元的输出接近于1的时候认为被激活,而输出接近于0的时候认为被抑制,那么使得神经元大部分时间都是被抑制的限制被称为稀疏性限制。
使用来表示在给定输入为x的情况下,自编码器隐藏神经元j的激活度,进一步,令
ρ ^ j = 1 N Σ i = 1 N [ a j ( 2 ) ( x ( i ) ) ]
表示隐藏神经元j的平均激活度。为了实现稀疏性限制,在原来的代价函数中加入一个额外的惩罚因子:
Σ j = 1 S 2 ρ log ρ ρ ^ j + ( 1 - ρ ) log 1 - ρ 1 - ρ ^ j
其中ρ为稀疏性参数,通常是一个接近于0的较小的值,S2为隐藏层神经元的个数。最小化这一惩罚因子具有使得靠近ρ的效果。
加入稀疏性限制之后的自编码器的最终代价函数为:
J sparse ( W , b ) = [ 1 N Σ i = 1 N J ( W , b ; x ( i ) ) ] + λ 2 Σ W ij 2 + β Σ j = 1 S 2 ρ log ρ ρ ^ j + ( 1 - ρ ) log 1 - ρ 1 - ρ ^ j
其中β是控制稀疏惩罚项权重的系数。
本发明的一种基于自编码器词袋的视觉特征表示方法,如图2所示,包括如下步骤:
1)输入训练样本构成训练集;
2)对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确度的影响,所述的预处理是采用均值归一化或方差归一化进行的;
3)生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典。所述的生成视觉字典具体过程包括:
(1)从预处理后的训练集中随机选取多个训练样本,再从所述的每个训练样本中随机采集图像块;
所述的随机采集图像块,是每次从所有样本中随机选取一张图像,再从该图像中随机采集一个p×p大小的图像块,重复Np次后可以得到一个p2×Np的矩阵,该矩阵用于自编码器的训练,其中p和N都是大于1的整数。
(2)将第(1)步采集的图像块作为自编码器的输入,训练自编码器。使用上述p2×Np的矩阵作为自编码器的输入,结合BP算法和无约束优化算法(例如:BFGS算法)进行训练,当训练次数足够大时(例如:400次)便认为该网络训练完成。所述的训练具体是:
以Jsparse(W,b)为目标函数,使用反向传播算法求得Jsparse(W,b)对神经网络中每个参数的偏导数,再结合无约束优化算法,从而训练得到一个用以提取图像局部特征的自编码器,其中,
J sparse ( W , b ) = [ 1 N Σ i = 1 N J ( W , b ; x ( i ) ) ] + λ 2 Σ W ij 2 + β Σ j = 1 S 2 ρ log ρ ρ ^ j + ( 1 - ρ ) log 1 - ρ 1 - ρ ^ j
式中,N是随机图像块的总数,x(i)表示第i个随机图像块,W是自编码器的权重参数矩阵,Wij表示第i层第j个神经元的权重参数,b是自编码器的偏置参数向量,J(W,b;x(i))表示输入第i个随机图像块时自编码器的代价函数,λ和β分别是控制权重衰减项和稀疏惩罚项的权重系数,S2是隐藏层神经元的个数,表示隐藏层第j个神经元的平均激活度,ρ为稀疏性参数。
与传统的自编码器训练方式不同,本发明在训练神经网络时使用的是局部图像块而不是整个图像,因而极大地降低了对训练样本个数的要求。
(3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中,得到所述随机采集图像块的特征,即,当自编码器训练完成以后,把用以神经网络训练的图像块再次输入到网络中,输出就是图像块的特征。图像块的二次利用避免了采样工作的重复,提高了效率;
(4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典。使用聚类方法,将图像块的特征聚为K类,这K个视觉单词就构成了视觉字典。本发明使用Elkan K-means。
图3为视觉字典生成过程流程图。这时,因为不需要额外的图像块训练视觉字典,所以既节省了计算量,也节约了存储空间。
4)在得到视觉字典之后,使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;
5)将图像的局部特征依据视觉字典量化为视觉单词;
6)统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。
与传统的视觉词袋最大的不同在于,本发明的一种基于自编码器词袋的视觉特征表示方法,使用自编码器自主学习到图像的局部特征,因此特征表达能力更强。
下面结合图4给出具体例子,如图4所示是图像分类的例子:
假设有一个训练集 S = { ( x i ( j ) , y i ) | i = 1,2 , . . . , C ; j = 1,2 , . . . , N i ; Σ N i = N } , 其中表示第i类中的第j个样本,yi为相应的标签,C为类别个数,Ni为第i类样本个数,N为训练集中样本总数。利用BOAEW进行图像分类的步骤如下:
1)对S中的图像进行预处理;
2)从N个样本中每次随机选取一个图像,再从该图像中随机采集一个p×p大小的图像块,重复Np次后可以得到一个p2×Np的矩阵Mp
3)利用Mp训练自编码器;
4)自编码器训练完成以后,再次使用Mp作为网络的输入得到随机图像块的特征Fp
5)使用K-means等方法对Fp进行聚类,得到K个聚类中心o1,o2,…oK,这K个聚类中心就组成了视觉词袋O={o1,o2,...,oK};
6)利用3)中所得的自编码器对S中的所有样本提取局部特征。令表示第i类中的第j个样本的局部特征集合;
7)依据视觉词袋O,将中每个局部特征量化为某个视觉单词;
8)统计图像视觉单词的频次,得到即为第i类中的第j个样本的BOAEW特征。因而,新的训练集可以表示为 S ′ = { ( h i ( j ) , y i ) | i = 1,2 , . . . , C ; j = 1,2 , . . . , N i ; Σ N i = N } ;
9)使用S'训练一个线性SVM;
10)测试时,根据1)至8)步,提取BOAEW特征,再利用9)中训练所得的SVM进行分类。

Claims (5)

1.一种基于自编码器词袋的视觉特征表示方法,其特征在于,包括如下步骤:
1)输入训练样本构成训练集;
2)对训练集中的每个训练样本进行预处理,以减小光照、噪声等对图像表示准确度的影响;
3)生成视觉字典,是利用自编码器提取随机图像块特征,再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典;
4)使用滑窗的方式对训练集里的图像依次采集图像块,并将所采集的图像块作为自编码器的输入,自编码器的输出即为图像的局部特征;
5)将图像的局部特征依据视觉字典量化为视觉单词;
6)统计视觉单词的频率,生成视觉单词直方图,所述视觉单词直方图即为图像的全局视觉特征表示。
2.根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于,步骤2)所述的预处理是采用均值归一化或方差归一化进行的。
3.根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于,步骤3)所述的生成视觉字典具体过程包括:
(1)从预处理后的训练集中随机选取多个训练样本,再从所述的每个训练样本中随机采集图像块;
(2)将第(1)步采集的图像块作为自编码器的输入,训练自编码器;
(3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中,得到所述随机采集图像块的特征;
(4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词,所有视觉单词组成了视觉字典。
4.根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于,第(1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像,再从所述图像中随机采集一个p×p大小的图像块,重复Np次后可以得到一个p2×Np的矩阵,所述的矩阵用于自编码器的训练,其中p和N都是大于1的整数。
5.根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法,其特征在于,第(2)步所述的训练,是以Jsparse(W,b)为目标函数,使用反向传播算法求得Jsparse(W,b)对神经网络中每个参数的偏导数,再结合无约束优化算法,从而训练得到一个用以提取图像局部特征的自编码器,其中,
J sparse ( W , b ) = [ 1 N Σ i = 1 N J ( W , b ; x ( i ) ) ] + λ 2 Σ W ij 2 + β Σ j = 1 S 2 ρ log ρ ρ ^ j + ( 1 - ρ ) log 1 - ρ 1 - ρ ^ j
式中,N是随机图像块的总数,x(i)表示第i个随机图像块,W是自编码器的权重参数矩阵,Wij表示第i层第j个神经元的权重参数,b是自编码器的偏置参数向量,J(W,b;x(i))表示输入第i个随机图像块时自编码器的代价函数,λ和β分别是控制权重衰减项和稀疏惩罚项的权重系数,S2是隐藏层神经元的个数,表示隐藏层第j个神经元的平均激活度,ρ为稀疏性参数。
CN201410448549.7A 2014-09-04 2014-09-04 一种基于自编码器词袋的视觉特征表示方法 Active CN104239897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410448549.7A CN104239897B (zh) 2014-09-04 2014-09-04 一种基于自编码器词袋的视觉特征表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410448549.7A CN104239897B (zh) 2014-09-04 2014-09-04 一种基于自编码器词袋的视觉特征表示方法

Publications (2)

Publication Number Publication Date
CN104239897A true CN104239897A (zh) 2014-12-24
CN104239897B CN104239897B (zh) 2017-05-17

Family

ID=52227920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410448549.7A Active CN104239897B (zh) 2014-09-04 2014-09-04 一种基于自编码器词袋的视觉特征表示方法

Country Status (1)

Country Link
CN (1) CN104239897B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354542A (zh) * 2015-10-27 2016-02-24 杭州电子科技大学 一种拥挤场景下视频异常事件检测方法
CN105389588A (zh) * 2015-11-04 2016-03-09 上海交通大学 基于多语义码本图像特征表示方法
CN105701516A (zh) * 2016-01-20 2016-06-22 福州大学 一种基于属性判别的自动图像标注方法
CN106203354A (zh) * 2016-07-14 2016-12-07 南京信息工程大学 基于混合深度结构的场景识别方法
CN106203508A (zh) * 2016-07-11 2016-12-07 天津大学 一种基于Hadoop平台的图像分类方法
JP2016218513A (ja) * 2015-05-14 2016-12-22 国立研究開発法人情報通信研究機構 ニューラルネットワーク及びそのためのコンピュータプログラム
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***
CN106529583A (zh) * 2016-11-01 2017-03-22 哈尔滨工程大学 一种基于视觉词袋模型的室内场景认知方法
CN106649490A (zh) * 2016-10-08 2017-05-10 中国人民解放军理工大学 一种基于深度特征的图像检索方法及装置
CN106778921A (zh) * 2017-02-15 2017-05-31 张烜 基于深度学习编码模型的人员再识别方法
CN108509925A (zh) * 2018-04-08 2018-09-07 东北大学 一种基于视觉词袋模型的行人重识别方法
CN108604303A (zh) * 2016-02-09 2018-09-28 赫尔实验室有限公司 用于精准图像/视频场景分类的融合自下而上整体图像特征和自上而下实体分类的***和方法
CN109978013A (zh) * 2019-03-06 2019-07-05 华南理工大学 一种用于人物动作识别的深度聚类方法
CN110598776A (zh) * 2019-09-03 2019-12-20 成都信息工程大学 一种基于类内视觉模式分享的图像分类方法
CN111160397A (zh) * 2019-12-06 2020-05-15 北京联合大学 一种多尺度的视觉词字典生成方法及***
CN113902930A (zh) * 2021-09-16 2022-01-07 燕山大学 一种优化词袋模型的图像分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807256A (zh) * 2010-03-29 2010-08-18 天津大学 一种基于多分辨率框架的物体识别检测方法
CN102496034A (zh) * 2011-11-29 2012-06-13 南京师范大学 基于直线单词的高空间分辨率遥感图像词袋分类方法
CN103440508A (zh) * 2013-08-26 2013-12-11 河海大学 基于视觉词袋模型的遥感图像目标识别方法
US20130336538A1 (en) * 2012-06-19 2013-12-19 Xerox Corporation Occupancy detection for managed lane enforcement based on localization and classification of windshield images
CN103902569A (zh) * 2012-12-27 2014-07-02 重庆凯泽科技有限公司 基于Bag of Words的视频匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807256A (zh) * 2010-03-29 2010-08-18 天津大学 一种基于多分辨率框架的物体识别检测方法
CN102496034A (zh) * 2011-11-29 2012-06-13 南京师范大学 基于直线单词的高空间分辨率遥感图像词袋分类方法
US20130336538A1 (en) * 2012-06-19 2013-12-19 Xerox Corporation Occupancy detection for managed lane enforcement based on localization and classification of windshield images
CN103902569A (zh) * 2012-12-27 2014-07-02 重庆凯泽科技有限公司 基于Bag of Words的视频匹配方法
CN103440508A (zh) * 2013-08-26 2013-12-11 河海大学 基于视觉词袋模型的遥感图像目标识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
STANISLAS LAULY.ETL: "Learning MultilingualWord Representations using a Bag-of-Words Autoencoder", 《COMPUTER SCIENCE》 *
吴丽娜: "基于词袋模型的图像分类算法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
李伟生等: "一种基于优化"词袋"模型的物体识别方法", 《计算机应用研究》 *
秦胜君等: "稀疏自动编码器在文本分类中的应用研究", 《科学技术与工程》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218513A (ja) * 2015-05-14 2016-12-22 国立研究開発法人情報通信研究機構 ニューラルネットワーク及びそのためのコンピュータプログラム
CN106445939B (zh) * 2015-08-06 2019-12-13 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***
CN106445939A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 图像检索、获取图像信息及图像识别方法、装置及***
CN105354542B (zh) * 2015-10-27 2018-09-25 杭州电子科技大学 一种拥挤场景下视频异常事件检测方法
CN105354542A (zh) * 2015-10-27 2016-02-24 杭州电子科技大学 一种拥挤场景下视频异常事件检测方法
CN105389588A (zh) * 2015-11-04 2016-03-09 上海交通大学 基于多语义码本图像特征表示方法
CN105389588B (zh) * 2015-11-04 2019-02-22 上海交通大学 基于多语义码本图像特征表示方法
CN105701516A (zh) * 2016-01-20 2016-06-22 福州大学 一种基于属性判别的自动图像标注方法
CN105701516B (zh) * 2016-01-20 2019-01-22 福州大学 一种基于属性判别的自动图像标注方法
CN108604303A (zh) * 2016-02-09 2018-09-28 赫尔实验室有限公司 用于精准图像/视频场景分类的融合自下而上整体图像特征和自上而下实体分类的***和方法
CN108604303B (zh) * 2016-02-09 2022-09-30 赫尔实验室有限公司 用于场景分类的***、方法和计算机可读介质
CN106203508A (zh) * 2016-07-11 2016-12-07 天津大学 一种基于Hadoop平台的图像分类方法
CN106203354B (zh) * 2016-07-14 2019-04-12 南京信息工程大学 基于混合深度结构的场景识别方法
CN106203354A (zh) * 2016-07-14 2016-12-07 南京信息工程大学 基于混合深度结构的场景识别方法
CN106649490B (zh) * 2016-10-08 2020-06-16 中国人民解放军理工大学 一种基于深度特征的图像检索方法及装置
CN106649490A (zh) * 2016-10-08 2017-05-10 中国人民解放军理工大学 一种基于深度特征的图像检索方法及装置
CN106529583A (zh) * 2016-11-01 2017-03-22 哈尔滨工程大学 一种基于视觉词袋模型的室内场景认知方法
CN106778921A (zh) * 2017-02-15 2017-05-31 张烜 基于深度学习编码模型的人员再识别方法
CN108509925A (zh) * 2018-04-08 2018-09-07 东北大学 一种基于视觉词袋模型的行人重识别方法
CN108509925B (zh) * 2018-04-08 2020-04-14 东北大学 一种基于视觉词袋模型的行人重识别方法
CN109978013B (zh) * 2019-03-06 2021-01-19 华南理工大学 一种用于人物动作识别的深度聚类方法
CN109978013A (zh) * 2019-03-06 2019-07-05 华南理工大学 一种用于人物动作识别的深度聚类方法
CN110598776A (zh) * 2019-09-03 2019-12-20 成都信息工程大学 一种基于类内视觉模式分享的图像分类方法
CN111160397A (zh) * 2019-12-06 2020-05-15 北京联合大学 一种多尺度的视觉词字典生成方法及***
CN113902930A (zh) * 2021-09-16 2022-01-07 燕山大学 一种优化词袋模型的图像分类方法
CN113902930B (zh) * 2021-09-16 2023-10-27 燕山大学 一种优化词袋模型的图像分类方法

Also Published As

Publication number Publication date
CN104239897B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN104239897A (zh) 一种基于自编码器词袋的视觉特征表示方法
Kong et al. Hypernet: Towards accurate region proposal generation and joint object detection
Li et al. Multi-modal feature fusion for geographic image annotation
CN104008395B (zh) 一种基于人脸检索的不良视频智能检测方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN104573669A (zh) 图像物体检测方法
CN106778921A (zh) 基于深度学习编码模型的人员再识别方法
CN103955702A (zh) 基于深度rbf网络的sar图像地物分类方法
CN107403191A (zh) 一种具有深度结构的半监督超限学习机分类方法
CN104142995B (zh) 基于视觉属性的社会事件识别方法
CN106650694A (zh) 一种以卷积神经网络作为特征提取器的人脸识别方法
CN113688894B (zh) 一种融合多粒度特征的细粒度图像分类方法
CN103186776B (zh) 基于多特征和深度信息的人体检测方法
CN105574489A (zh) 基于层次级联的暴力群体行为检测方法
Yao et al. A review on image classification of remote sensing using deep learning
CN105913053A (zh) 一种基于稀疏融合的单演多特征的人脸表情识别方法
Zhao et al. Architectural style classification based on feature extraction module
CN109255381A (zh) 一种基于二阶vlad稀疏自适应深度网络的图像分类方法
CN104268507A (zh) 一种基于rgb-d图像的手语字母识别方法
CN105404865A (zh) 基于概率态受限玻尔兹曼机级联的人脸检测方法
CN110288028A (zh) 心电检测方法、***、设备及计算机可读存储介质
CN103136540A (zh) 一种基于隐结构推理的行为识别方法
CN105631478A (zh) 基于稀疏表示字典学习的植物分类方法
Liu et al. Image retrieval using CNN and low-level feature fusion for crime scene investigation image database
Shao et al. A Benchmark Dataset for Performance Evaluation of Multi-Label Remote Sensing Image Retrieval.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant