CN107194438A - 一种基于多重栈式自编码的深度特征表示方法 - Google Patents

一种基于多重栈式自编码的深度特征表示方法 Download PDF

Info

Publication number
CN107194438A
CN107194438A CN201710375648.0A CN201710375648A CN107194438A CN 107194438 A CN107194438 A CN 107194438A CN 201710375648 A CN201710375648 A CN 201710375648A CN 107194438 A CN107194438 A CN 107194438A
Authority
CN
China
Prior art keywords
mrow
msup
feature
msubsup
mtd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710375648.0A
Other languages
English (en)
Inventor
胡瑞敏
熊明福
陈军
沈厚明
梁超
陈金
徐东曙
郑淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710375648.0A priority Critical patent/CN107194438A/zh
Publication of CN107194438A publication Critical patent/CN107194438A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于多重栈式自编码的深度特征表示方法。通过构建不同结构的栈式自编码网络,用以获取目标对象不同层级结构的特征表达。首先建立浅层(隐藏层数较少)的神经网络结构,采用后向传播的方法训练网络参数,使其达到结构最优,并获取网络倒数第二层的输出,即为特征表达;其次分别建立较深层次的网络结构,按照类似的方式训练网络参数,以此获取相应层的输出(特征表达);再次根据特征组合及选择的方式,对上述所得到的特征进行融合和选择,以获取表征目标的层级特征表示。而进行相应的视觉任务(图像分类,识别,检测)。

Description

一种基于多重栈式自编码的深度特征表示方法
技术领域
本发明涉及一种深度特征表示方法,具体涉及一种基于多重栈式自编码的深度特征表示方法。
背景技术
在计算机视觉和多媒体应用中的一个关键性问题就是如何构造一个辨别力和鲁棒性都比较强的特征。在传统的视频分析及图像处理领域中已存在很多常用的底层视觉特征特征(诸如颜色、纹理、SIFT、HOG、LBP等),并且在一些视觉任务中也取得了较好的效果。当然,这些特征依然存在着一些限制:首先此类特征的提取过程都是人工设计,存在一定的算法复杂性,一般适用于较小型的数据集,然而当前所采用的视频图像几乎都是超十万级别的数据,因此,难以满足当前大数据中特征提取的需求。其次由于受到现实客观因素的影响,当前面临的数据类型复杂多变(灰度图、彩色图、光照、遮挡的视频数据等),传统的底层视觉特征不足以有效表达此类数据的特征信息。因此,设计新的算法提取视频图像中的辨别性特征以应对当前复杂多变的数据类型显得尤为必要。随着计算机视觉和机器学习算法的发展,深度学习技术(deep learning)作为一种新型的机器学习算法,其源于人工神经网络技术,从仿生学的原理模拟人脑对目标对象抽取层级特征的判别信息,其强大的信息判别能力得到了当前众多研究者的青睐。虽然这些算法在特征提取的采用分级处理的方法,也为复杂问题提供了有效的解决方案,但是对于特征提取过程的错综复杂的表示结果却很难直观地感受。除此之外,传统的深度体系结构只能提取单层的结构,这会导致失去一些有识别力的精准代表图片的信息。因此,本发明提出一种多重栈式自编码联合特征学习的技术,该方法通过多重自编码深度网络,从多个维度提取目标不同层级的特征信息,实现对目标的准确标准和判别。
发明内容
针对于对特征提取结果的复杂结果不能直观感受和深度体系结构只能提取单层结构的不足,本发明提出了一种可行的方法用于精确提取目标图片的特征,即试图模仿人类大脑的视觉皮质,结合图片表示的多层次特征来实现获取目标图片的特征。
为了实现上述目标,本发明采用的技术方案为一种基于多重栈式自编码的深度特征表示方法。
一种基于多重栈式自编码的深度特征表示方法,其特征在于,基于栈式自编码的基本原则。首先,说明一下,一个自编码需要一个输入x=Rd和第一个潜在表示的输入的映射h∈Rd′,用一个确定性的函数h=fθ=σ(Wx+b),参数θ={W,b}。然后利用这个方式通过反向映射重置输入:y=fθ′(h)=σ(W′h+b′),θ′={W′,b′}。两个参数通常以W′=WT的形式被限制,在编码输入和解码潜在表示yi时使用相同的权重。参数会通过训练集Dn={(x0,t0),...(xn,tn)}最小化一个适当的价值函数被最佳化,具体包括:
步骤1,建立多重多层次的自动编码,通过把不同层次的特征组合到一起实现由粗到精的过程。框架结合多个自编码器,它们每个都有不同的结构。拥有越少隐藏层的网络会得到目标低层次的信息,然后把这些特征组合到一起形成最终的表示,这样我们就可以得到由粗到精的目标特征表示。训练原始图片时,我们的框架会从不同的视角去获取它们的表示。通过这种方法,我们依靠新的推理体系确保每一层都会重置输入。这样得到的特征会更加的具有代表性和说服力。
步骤2,进行分层优化深度网络结构(栈式自编码网络结构)。
步骤3,对每个特征分配权重。为了得到一个更具鲁棒性的目标表示特征,对每个特征分配不同的权重。根据深度神经网络结构的特点,隐藏层层次越丰富对应的特征就越有判别力,因此我们对从更深层次的网络所提取的特征相应地设置更高的权重。这个进程通过下式表达:
其中F代表最终的综合特征,fi代表从i-th自编码器获得的特征,K代表深度自编码器的数量。
步骤4,进行分类。经过不同层次自动编码获得的不同特征会通过权重分配进行预处理。最后把经过处理的特征组合到一起形成最终的表示。之后,通过softmax分类器得到最终的分类结果。softmax分类器我们可以归纳为分类标签超过两个以上的分类问题,其是逻辑回归的一般形式。
在上述基于多重栈式自编码的深度特征表示方法,所述步骤2具体包括:
对栈式自编码网络的分层优化过程是通过反向传播算法来完成的,其主要思路如下:对栈式编码器给定一个样例(x,y),我们首先进行“前向传导”计算,计算出网络中所有节点的激活值ai,包括hw,b(x)的输出值(其中参数θ={W,b})。之后针对弟l层的每一个节点i,我们计算其“残差”该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为(第nl层表示输出层)。对于隐藏单元,我们将基于节点(第l+1层节点)残差的加权平均值计算这些节点以作为输入。具体来说,反向传播算法可以表示为以下几个步骤:
步骤2.1:进行前馈传导计算,利用前向传导公式,得到L2,L3,…直到输出层Lnl的激活值;
步骤2.2:对输出层(第nl层),计算残差:δ(nl)=-(y-a(nl))·f′(Z(nl));
步骤2.3:对于l=nl-1,nl-2,nl-3,…,2的各层,计算:δ(l)=((W(l))Tδ(l+1))·f′(Z(l));
步骤2.4:计算最终需要的偏导数值:
而在实际中应注意:以上的第2步和第3步中,我们需要为每一个i值计算其假设f(Z)是sigmoid函数,并且我们已经在前向传导运算中得到了那么使用我们早先推导出的f′(Z)表达式,就可以计算的得到 此过程为对一层栈式自编码网络进行优化与求导过程,因此,我们可以重复梯度下降法的迭代步骤来减小代价函数J(W,b)的值,进而求解整个栈式自编码网络结构。
3、根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤3具体包括:
通过前面已经了解到如何使用一个自编码器从无标注数据中学习特征。具体来说分为以下几个步骤:
步骤3.1:假定有一个无标注的训练数据集(下标μ代表“不带类标”)。利用训练得到的模型参数W(1),b(1),W(2),b(2),给定输入数据x(可能需要首先对这些数据做白化或其它适当的预处理),可以计算隐藏单元的激活量(activations)a。如前所述,相比原始输入x来说,a可能是一个更好的特征描述,即我们所谓的特征表示(去掉自编码网络最后一层的输出,为了和上述一直,此处特征用f表示);
步骤3.2:针对不同的栈式自编码结构,其隐藏层数是不一样的,在本发明中,我们采用隐藏层数分别为3,4,5,因此其中所获得的特征表示(去掉自编码网络的最后一层的数据输出)为f3,f4,f5。而根据深度神经网络的原理,一般来说,网络层数越深,最后将能够获得鲁棒性更强的特征。所以,在本发明中,三种特征的表征能力将以f5>f4>f3的方式排列。因此,三种特征对最终目标特征表示的表现力贡献程度也会不一样,所以在最后进行特征组合的时候,其权重系数也会不一样;
步骤3.3:通过上述步骤步骤3.2,我们获取了不同的特征表示,由于每种特征的表征能力不一样,在本步骤中,我们采取2:3:5的比例来分配相应的权重系数,而在权重系数分配中,必须满足(其中K代表自编码器的数量,λi表示每种特征的权重系数,因此通过此种方式可以分别求出每种特征的相应贡献程度。然后通过系数相加的方式获得最后的目标特征表示(如权利要求1中步骤3所示)。
在上述基于多重栈式自编码的深度特征表示方法,所述步骤4中,通过所获取的目标特征表示,利用softmax回归模型对目标特征进行分类,该模型是logistic回归模型在多类问题上的推广。其具体步骤包括:
步骤4.1:通过上述多层特征的权重系数求和相加的方式所获得目标特征后,对特征所表述的目标进行类别标记,用于softmax模型的进行分类,以检验多种深度层级特征的效果;
步骤4.2:由前一步骤中所获得的特征训练集假设由m个已标记的样本所组成,即{(x(1),y(1)),…,(x(m),y(m))},其中输入特征x(i)∈Rn+1,类别标记y可以取k个不同的值,因此,y(i)∈{1,2,…,k}。对于给定的测试输入x,我们想用假设函数针对每一个类别j估算出概率值。也就是说,我们估计x的每一种分类结果出现的概率。因此,我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值。具体地说,我们的假设函数hθ(x(i))形式如下:
其中θ1,θ2,...,θk∈Rn+1是模型参数,这一项是对概率分布进行归一化,使得所有概率和为1;
步骤4.3:softmax的代价函数如下所示(其中1{·}表示示性函数,取值规则为1{值为真的表达式}=1):
对于J(θ)的最小化问题,我们采用梯度下降法完成求导过程,其梯度公式如下:
有了上面的偏导数公式以后,我们就可以将它代入到梯度下降法等算法中,来最小化J(θ),从而求出每种类别的概率,实现最终分类过程。
本发明具有以下积极效果和优点:1、本发明通过以一种逐层的方式获取目标不同层次的信息最终得到目标的特征表示。2、试图从仿生学的角度模仿人类大脑视觉皮质。通过这种方式可以获得图片表示的强有力的特征。
附图说明
图1为本发明的流程图
具体实施方式
首先,说明一下栈式自编码的基本原则。一个自编码需要一个输入x=Rd和第一个潜在表示的输入的映射h∈Rd′,用一个确定性的函数h=fθ=σ(Wx+b),参数θ={W,b}。然后利用这个方式通过反向映射重置输入:y=fθ′(h)=σ(W′h+b′),θ′={W′,b′}。两个参数通常以W′=WT的形式被限制,在编码输入和解码潜在表示yi时使用相同的权重。参数会通过训练集Dn={(x0,t0),...(xn,tn)}最小化一个适当的价值函数被最佳化。
首先,建立多重多层次的自动编码。这个过程完全无人监督,模仿人类大脑的认知能力,通过把不同层次的特征组合到一起实现由粗到精的过程。框架结合多个自动编码,它们每个都有不同的结构。拥有越少隐藏层的网络会得到目标低层次的信息,例如边缘;而深层次的网络可以得到高层次的内容,例如目标的一部分或者是完整的一部分。然后把这些特征组合到一起形成最终的表示。这样我们就可以由粗到精的获得物体的特征。训练原始图片时我们的框架会从不同的视角去获取它们的表示。通过这种方法,我们依靠新的推理体系确保每一层都会重置输入。这样得到的特征会更加的具有代表性和说服力。
其次,进行分层优化和微调。
(1)传统的自编码把k-th层的表示作为(k+1)-th层的输入,k-th层也是在(k-1)-th训练之后得到的。这种方式的最大缺点就是在第一层之后图片的像素会被弃置了,因此更高层的模型会与输入产生更稀疏的联系。这会导致模型的学习很脆弱和不实际。我们则是通过组合不同层次的不同的特征来处理这个问题,这种方式可以互相弥补。
(2)微调的目的是获得最优化的神经网络参数。当有过多的参数的时候深度模型可能会过度拟合,所以在训练多层次结构时使用反向传播算法。计算一个关于一个模型的多层次的权重的目标函数的斜率的过程只不过是派生物的链式法则的一个实际应用。一旦派生物经过计算,它就直接关于每个模型权重的斜率。
再就是对每个特征分配权重。为了得到一个有代表性的表示,对每个特征分配不同的权重。根据深度神经网络的方式,层次越丰富对应的特征就越有判别力。因此我们对从更深层次的网络提取的特征相应地设置一个更高的权重。这个进程通过下式表达:
其中F代表最终的综合特征,fi代表从i-th自动编码获得的特征,K代表深度自动编码的数量。
最后是分类。经过不同层次自动编码获得的不同特征会通过权重分配进行预处理。最后把经过处理的特征组合到一起形成最终的代表。之后,通过softmax分类器得到综合性的特征。分类器会归纳分类标签依赖于超过两个可能的因素的分类问题的逻辑回归。
二、下面具体介绍本发明的具体方法:基于栈式自编码的基本原则。首先,说明一下,一个自编码需要一个输入x=Rd和第一个潜在表示的输入的映射h∈Rd′,用一个确定性的函数h=fθ=σ(Wx+b),参数θ={W,b}。然后利用这个方式通过反向映射重置输入:y=fθ′(h)=σ(W′h+b′),θ′={W′,b′}。两个参数通常以W′=WT的形式被限制,在编码输入和解码潜在表示yi时使用相同的权重。参数会通过训练集Dn={(x0,t0),...(xn,tn)}最小化一个适当的价值函数被最佳化,具体包括:
步骤1,建立多重多层次的自动编码,通过把不同层次的特征组合到一起实现由粗到精的过程。框架结合多个自编码器,它们每个都有不同的结构。拥有越少隐藏层的网络会得到目标低层次的信息,然后把这些特征组合到一起形成最终的表示,这样我们就可以得到由粗到精的目标特征表示。训练原始图片时,我们的框架会从不同的视角去获取它们的表示。通过这种方法,我们依靠新的推理体系确保每一层都会重置输入。这样得到的特征会更加的具有代表性和说服力。
步骤2,进行分层优化深度网络结构(栈式自编码网络结构)。
步骤3,对每个特征分配权重。为了得到一个更具鲁棒性的目标表示特征,对每个特征分配不同的权重。根据深度神经网络结构的特点,隐藏层层次越丰富对应的特征就越有判别力,因此我们对从更深层次的网络所提取的特征相应地设置更高的权重。这个进程通过下式表达:
其中F代表最终的综合特征,fi代表从i-th自编码器获得的特征,K代表深度自编码器的数量。
步骤4,进行分类。经过不同层次自动编码获得的不同特征会通过权重分配进行预处理。最后把经过处理的特征组合到一起形成最终的表示。之后,通过softmax分类器得到最终的分类结果。softmax分类器我们可以归纳为分类标签超过两个以上的分类问题,其是逻辑回归的一般形式。
2、根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤2具体包括:
对栈式自编码网络的分层优化过程是通过反向传播算法来完成的,其主要思路如下:对栈式编码器给定一个样例(x,y),我们首先进行“前向传导”计算,计算出网络中所有节点的激活值ai,包括hW,b(x)的输出值(其中参数θ={W,b})。之后针对弟l层的每一个节点i,我们计算其“残差”该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为(第nl层表示输出层)。对于隐藏单元,我们将基于节点(第l+1层节点)残差的加权平均值计算这些节点以作为输入。具体来说,反向传播算法可以表示为以下几个步骤:
步骤2.1:进行前馈传导计算,利用前向传导公式,得到L2,L3,…直到输出层Lnl的激活值;
步骤2.2:对输出层(第nl层),计算残差:δ(nl)=-(y-a(nl))·f′(Z(nl));
步骤2.3:对于l=nl-1,nl-2,nl-3,…,2的各层,计算:δ(l)=((W(l))Tδ(l+1))·f′(Z(l));
步骤2.4:计算最终需要的偏导数值:
而在实际中应注意:以上的第2步和第3步中,我们需要为每一个i值计算其假设f(Z)是sigmoid函数,并且我们已经在前向传导运算中得到了那么使用我们早先推导出的f′(Z)表达式,就可以计算的得到 此过程为对一层栈式自编码网络进行优化与求导过程,因此,我们可以重复梯度下降法的迭代步骤来减小代价函数J(W,b)的值,进而求解整个栈式自编码网络结构。
3、根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤3具体包括:
通过前面已经了解到如何使用一个自编码器从无标注数据中学习特征。具体来说分为以下几个步骤:
步骤3.1:假定有一个无标注的训练数据集(下标μ代表“不带类标”)。利用训练得到的模型参数W(1),b(1),W(2),b(2),给定输入数据x(可能需要首先对这些数据做白化或其它适当的预处理),可以计算隐藏单元的激活量(activations)a。如前所述,相比原始输入x来说,a可能是一个更好的特征描述,即我们所谓的特征表示(去掉自编码网络最后一层的输出,为了和上述一直,此处特征用f表示);
步骤3.2:针对不同的栈式自编码结构,其隐藏层数是不一样的,在本发明中,我们采用隐藏层数分别为3,4,5,因此其中所获得的特征表示(去掉自编码网络的最后一层的数据输出)为f3,f4,f5。而根据深度神经网络的原理,一般来说,网络层数越深,最后将能够获得鲁棒性更强的特征。所以,在本发明中,三种特征的表征能力将以f5>f4>f3的方式排列。因此,三种特征对最终目标特征表示的表现力贡献程度也会不一样,所以在最后进行特征组合的时候,其权重系数也会不一样;
步骤3.3:通过上述步骤步骤3.2,我们获取了不同的特征表示,由于每种特征的表征能力不一样,在本步骤中,我们采取2:3:5的比例来分配相应的权重系数,而在权重系数分配中,必须满足(其中K代表自编码器的数量,λi表示每种特征的权重系数,因此通过此种方式可以分别求出每种特征的相应贡献程度。然后通过系数相加的方式获得最后的目标特征表示(如权利要求1中步骤3所示)。
4、根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤4中,通过所获取的目标特征表示,利用softmax回归模型对目标特征进行分类,该模型是logistic回归模型在多类问题上的推广。其具体步骤包括:
步骤4.1:通过上述多层特征的权重系数求和相加的方式所获得目标特征后,对特征所表述的目标进行类别标记,用于softmax模型的进行分类,以检验多种深度层级特征的效果;
步骤4.2:由前一步骤中所获得的特征训练集假设由m个已标记的样本所组成,即{(x(1),y(1)),…,(x(m),y(m))},其中输入特征x(i)∈Rn+1,类别标记y可以取k个不同的值,因此,y(i)∈{1,2,…,k}。对于给定的测试输入x,我们想用假设函数针对每一个类别j估算出概率值。也就是说,我们估计x的每一种分类结果出现的概率。因此,我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值。具体地说,我们的假设函数hθ(x(i))形式如下:
其中θ1,θ2,...,θk∈Rn+1是模型参数,这一项是对概率分布进行归一化,使得所有概率和为1;
步骤4.3:softmax的代价函数如下所示(其中1{·}表示示性函数,取值规则为1{值为真的表达式}=1):
对于J(θ)的最小化问题,我们采用梯度下降法完成求导过程,其梯度公式如下:
有了上面的偏导数公式以后,我们就可以将它代入到梯度下降法等算法中,来最小化J(θ),从而求出每种类别的概率,实现最终分类过程。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种基于多重栈式自编码的深度特征表示方法,其特征在于,基于栈式自编码的基本原则;首先,说明一下,一个自编码需要一个输入x=Rd和第一个潜在表示的输入的映射h∈Rd′,用一个确定性的函数h=fθ=σ(Wx+b),参数θ={W,b};然后利用这个方式通过反向映射重置输入:y=fθ′(h)σ(W′h+b′),θ′={W′,b′};两个参数通常以W′=WT的形式被限制,在编码输入和解码潜在表示yi时使用相同的权重;参数会通过训练集Dn={(x0,t0),...(xn,tn)}最小化一个适当的价值函数被最佳化,具体包括:
步骤1,建立多重多层次的自动编码,通过把不同层次的特征组合到一起实现由粗到精的过程;框架结合多个自编码器,它们每个都有不同的结构;拥有越少隐藏层的网络会得到目标低层次的信息,然后把这些特征组合到一起形成最终的表示,这样我们就可以得到由粗到精的目标特征表示;训练原始图片时,我们的框架会从不同的视角去获取它们的表示;通过这种方法,我们依靠新的推理体系确保每一层都会重置输入;这样得到的特征会更加的具有代表性和说服力;
步骤2,进行分层优化深度网络结构(栈式自编码网络结构);
步骤3,对每个特征分配权重;为了得到一个更具鲁棒性的目标表示特征,对每个特征分配不同的权重;根据深度神经网络结构的特点,隐藏层层次越丰富对应的特征就越有判别力,因此我们对从更深层次的网络所提取的特征相应地设置更高的权重;这个进程通过下式表达:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>F</mi> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&amp;lambda;</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&amp;lambda;</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中F代表最终的综合特征,fi代表从i-th自编码器获得的特征,K代表深度自编码器的数量;
步骤4,进行分类;经过不同层次自动编码获得的不同特征会通过权重分配进行预处理;最后把经过处理的特征组合到一起形成最终的表示;之后,通过softmax分类器得到最终的分类结果;softmax分类器我们可以归纳为分类标签超过两个以上的分类问题,其是逻辑回归的一般形式。
2.根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤2具体包括:
对栈式自编码网络的分层优化过程是通过反向传播算法来完成的,其主要思路如下:对栈式编码器给定一个样例(x,y),我们首先进行“前向传导”计算,计算出网络中所有节点的激活值ai,包括hW,b(x)的输出值(其中参数θ={W,b});之后针对弟l层的每一个节点i,我们计算其“残差”该残差表明了该节点对最终输出值的残差产生了多少影响;对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为(第nl层表示输出层);对于隐藏单元,我们将基于节点(第l+1层节点)残差的加权平均值计算这些节点以作为输入;具体来说,反向传播算法可以表示为以下几个步骤:
步骤2.1:进行前馈传导计算,利用前向传导公式,得到L2,L3,…直到输出层Lnl的激活值;
步骤2.2:对输出层(第nl层),计算残差:δ(nl)=-(y-a(nl))·f′(Z(nl));
步骤2.3:对于l=nl-1,nl-2,nl-3,…,2的各层,计算:δ(l)=((W(l))Tδ(l+1))·f′(Z(l));
步骤2.4:计算最终需要的偏导数值:
<mrow> <msub> <mo>&amp;dtri;</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <msup> <mrow> <mo>(</mo> <msup> <mi>a</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>,</mo> </mrow>
<mrow> <msub> <mo>&amp;dtri;</mo> <msup> <mi>b</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>b</mi> <mo>;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> </mrow>
而在实际中应注意:以上的第2步和第3步中,我们需要为每一个i值计算其假设f(Z)是sigmoid函数,并且我们已经在前向传导运算中得到了那么使用我们早先推导出的f′(Z)表达式,就可以计算的得到 此过程为对一层栈式自编码网络进行优化与求导过程,因此,我们可以重复梯度下降法的迭代步骤来减小代价函数J(W,b)的值,进而求解整个栈式自编码网络结构。
3.根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤3具体包括:
通过前面已经了解到如何使用一个自编码器从无标注数据中学习特征;具体来说分为以下几个步骤:
步骤3.1:假定有一个无标注的训练数据集(下标μ代表“不带类标”);利用训练得到的模型参数W(1),b(1),W(2),b(2),给定输入数据x(可能需要首先对这些数据做白化或其它适当的预处理),可以计算隐藏单元的激活量(activations)a;如前所述,相比原始输入x来说,a可能是一个更好的特征描述,即我们所谓的特征表示(去掉自编码网络最后一层的输出,为了和上述一直,此处特征用f表示);
步骤3.2:针对不同的栈式自编码结构,其隐藏层数是不一样的,在本发明中,我们采用隐藏层数分别为3,4,5,因此其中所获得的特征表示(去掉自编码网络的最后一层的数据输出)为f3,f4,f5;而根据深度神经网络的原理,一般来说,网络层数越深,最后将能够获得鲁棒性更强的特征;所以,在本发明中,三种特征的表征能力将以f5>f4>f3的方式排列;因此,三种特征对最终目标特征表示的表现力贡献程度也会不一样,所以在最后进行特征组合的时候,其权重系数也会不一样;
步骤3.3:通过上述步骤步骤3.2,我们获取了不同的特征表示,由于每种特征的表征能力不一样,在本步骤中,我们采取2:3:5的比例来分配相应的权重系数,而在权重系数分配中,必须满足(其中K代表自编码器的数量,λi表示每种特征的权重系数,因此通过此种方式可以分别求出每种特征的相应贡献程度;然后通过系数相加的方式获得最后的目标特征表示(如权利要求1中步骤3所示)。
4.根据权利要求1所述基于多重栈式自编码的深度特征表示方法,其特征在于:所述步骤4中,通过所获取的目标特征表示,利用softmax回归模型对目标特征进行分类,该模型是logistic回归模型在多类问题上的推广;其具体步骤包括:
步骤4.1:通过上述多层特征的权重系数求和相加的方式所获得目标特征后,对特征所表述的目标进行类别标记,用于softmax模型的进行分类,以检验多种深度层级特征的效果;
步骤4.2:由前一步骤中所获得的特征训练集假设由m个已标记的样本所组成,即{(x(1),y(1)),…,(x(m),y(m))},其中输入特征x(i)∈Rn+1,类别标记y可以取k个不同的值,因此,y(i)∈{1,2,…,k};对于给定的测试输入x,我们想用假设函数针对每一个类别j估算出概率值;也就是说,我们估计x的每一种分类结果出现的概率;因此,我们的假设函数将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值;具体地说,我们的假设函数hθ(x(i))形式如下:
<mrow> <msub> <mi>h</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>2</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>...</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>k</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&amp;theta;</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&amp;theta;</mi> <mn>1</mn> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&amp;theta;</mi> <mn>2</mn> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <mn>...</mn> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&amp;theta;</mi> <mi>k</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中θ1,θ2,...,θk∈Rn+1是模型参数,这一项是对概率分布进行归一化,使得所有概率和为1;
步骤4.3:softmax的代价函数如下所示(其中1{·}表示示性函数,取值规则为1{值为真的表达式}=1):
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <mo>&amp;lsqb;</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mi>log</mi> <mfrac> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&amp;theta;</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msubsup> <mi>&amp;theta;</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mo>&amp;rsqb;</mo> </mrow>
对于J(θ)的最小化问题,我们采用梯度下降法完成求导过程,其梯度公式如下:
<mrow> <msub> <mo>&amp;dtri;</mo> <msub> <mi>&amp;theta;</mi> <mi>j</mi> </msub> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mo>&amp;lsqb;</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>j</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow>
有了上面的偏导数公式以后,我们就可以将它代入到梯度下降法等算法中,来最小化J(θ),从而求出每种类别的概率,实现最终分类过程。
CN201710375648.0A 2017-05-24 2017-05-24 一种基于多重栈式自编码的深度特征表示方法 Pending CN107194438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710375648.0A CN107194438A (zh) 2017-05-24 2017-05-24 一种基于多重栈式自编码的深度特征表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710375648.0A CN107194438A (zh) 2017-05-24 2017-05-24 一种基于多重栈式自编码的深度特征表示方法

Publications (1)

Publication Number Publication Date
CN107194438A true CN107194438A (zh) 2017-09-22

Family

ID=59874762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710375648.0A Pending CN107194438A (zh) 2017-05-24 2017-05-24 一种基于多重栈式自编码的深度特征表示方法

Country Status (1)

Country Link
CN (1) CN107194438A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325127A (zh) * 2018-11-28 2019-02-12 阿里巴巴集团控股有限公司 一种风险识别方法和装置
CN109508749A (zh) * 2018-11-30 2019-03-22 重庆大学 一种基于深度知识表达的聚类分析***及方法
CN109580215A (zh) * 2018-11-30 2019-04-05 湖南科技大学 一种基于深度生成对抗网络的风电传动***故障诊断方法
CN110163839A (zh) * 2019-04-02 2019-08-23 上海鹰瞳医疗科技有限公司 豹纹状眼底图像识别方法、模型训练方法及设备
CN111856578A (zh) * 2020-07-31 2020-10-30 电子科技大学 张量深度自编码网络的宽方位叠前地震反射模式分析方法
CN113628059A (zh) * 2021-07-14 2021-11-09 武汉大学 一种基于多层图注意力网络的关联用户识别方法及装置
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325127A (zh) * 2018-11-28 2019-02-12 阿里巴巴集团控股有限公司 一种风险识别方法和装置
CN109325127B (zh) * 2018-11-28 2021-11-19 创新先进技术有限公司 一种风险识别方法和装置
CN109508749A (zh) * 2018-11-30 2019-03-22 重庆大学 一种基于深度知识表达的聚类分析***及方法
CN109580215A (zh) * 2018-11-30 2019-04-05 湖南科技大学 一种基于深度生成对抗网络的风电传动***故障诊断方法
CN109580215B (zh) * 2018-11-30 2020-09-29 湖南科技大学 一种基于深度生成对抗网络的风电传动***故障诊断方法
CN110163839A (zh) * 2019-04-02 2019-08-23 上海鹰瞳医疗科技有限公司 豹纹状眼底图像识别方法、模型训练方法及设备
CN110163839B (zh) * 2019-04-02 2022-02-18 上海鹰瞳医疗科技有限公司 豹纹状眼底图像识别方法、模型训练方法及设备
CN111856578A (zh) * 2020-07-31 2020-10-30 电子科技大学 张量深度自编码网络的宽方位叠前地震反射模式分析方法
CN113628059A (zh) * 2021-07-14 2021-11-09 武汉大学 一种基于多层图注意力网络的关联用户识别方法及装置
CN113628059B (zh) * 2021-07-14 2023-09-15 武汉大学 一种基于多层图注意力网络的关联用户识别方法及装置
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法

Similar Documents

Publication Publication Date Title
CN107194438A (zh) 一种基于多重栈式自编码的深度特征表示方法
Gao et al. Deep leaf‐bootstrapping generative adversarial network for structural image data augmentation
Nirmala Sreedharan et al. Grey wolf optimisation‐based feature selection and classification for facial emotion recognition
Gheisari et al. Deep learning: Applications, architectures, models, tools, and frameworks: A comprehensive survey
CN106503654A (zh) 一种基于深度稀疏自编码网络的人脸情感识别方法
CN103996056B (zh) 一种基于深度学习的纹身图像分类方法
Tadeusiewicz et al. Exploring neural networks with C
CN108304826A (zh) 基于卷积神经网络的人脸表情识别方法
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及***
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN109376864A (zh) 一种基于堆叠神经网络的知识图谱关系推理算法
CN106951858A (zh) 一种基于深度卷积网络的人物亲缘关系识别方法与装置
CN110826638A (zh) 基于重复注意力网络的零样本图像分类模型及其方法
CN106709482A (zh) 基于自编码器的人物亲缘关系识别方法
CN107316294A (zh) 一种基于改进的深度玻尔兹曼机肺结节特征提取和良恶性分类方法
CN108805167A (zh) 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN107103308A (zh) 一种基于由粗到细深度尺度学习的行人重识别方法
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN105809201A (zh) 一种生物启发式自主提取图像语义概念的识别方法及装置
CN106980831A (zh) 基于自编码器的自亲缘关系识别方法
CN110298434A (zh) 一种基于模糊划分和模糊加权的集成深度信念网络
CN110188621A (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
CN105809200A (zh) 一种生物启发式自主抽取图像语义信息的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922