CN107798349A - 一种基于深度稀疏自编码机的迁移学习方法 - Google Patents

一种基于深度稀疏自编码机的迁移学习方法 Download PDF

Info

Publication number
CN107798349A
CN107798349A CN201711069171.XA CN201711069171A CN107798349A CN 107798349 A CN107798349 A CN 107798349A CN 201711069171 A CN201711069171 A CN 201711069171A CN 107798349 A CN107798349 A CN 107798349A
Authority
CN
China
Prior art keywords
mrow
msub
mtd
msup
mtr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711069171.XA
Other languages
English (en)
Other versions
CN107798349B (zh
Inventor
胡学钢
张玉红
朱毅
李培培
周鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201711069171.XA priority Critical patent/CN107798349B/zh
Publication of CN107798349A publication Critical patent/CN107798349A/zh
Application granted granted Critical
Publication of CN107798349B publication Critical patent/CN107798349B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度稀疏自编码机的迁移学习方法,包括:(1)数据集向量化的前期预处理。(2)模型设计和实现。(3)应用Stacked RICA算法得到的提取特征做半监督学习。(4)特征提取完后,用logistic回归分析模型(LR)在训练集上训练分类器。(5)用训练集上的分类器在测试集上做分类预测。(6)完成在测试集上的分类,得到最终的迁移学习结果。本发明提高了特征提取的效果,提升了迁移学习的精度,具有较高的鲁棒性和实用性。

Description

一种基于深度稀疏自编码机的迁移学习方法
技术领域
本发明涉及特征提取和迁移学习方法领域,具体是一种基于深度稀疏自编码机的迁移学习方法。
背景技术
传统的机器学习已经在很多领域取得了显著的成果。然而很多机器学习算法是基于“训练集和测试集是同源、独立同分布”的假设,当数据集分布改变的时候,大多数机器学习需要重新抓取数据,这就需要重新收集大量训练数据。在真实世界的应用中,环境是经常改变的,重新收集数据、为学习***每次遇到的新情景重新训练模型,成本非常高昂且是不现实的。我们希望学习***可以用很少的重训练数据和重训练时间,自动的适应环境的变化。在这种情况下,从前一种情景下获取并可以应用到新场景中的迁移知识,会帮助我们提速学习过程,减少收集新训练数据的成本,达到迁移学习的目标。迁移学习强调了跨域,跨任务和跨分布的知识转移,这些知识是相似但不是相同的。举例来说,学习认识苹果可能会帮助学习梨子,或者说学习弹奏电子琴可能会帮助学习钢琴。迁移学习的研究,实质上是出于人们总是把原有的知识应用到更快的解决新的问题上去。
近年来,深度学习(Deep Learning)应用在图像、文本、音频等领域中提取特征取得了很多进步和很好的效果。就人体的感知来说,人的视觉***的信息处理是分级的。从低级的V1区提取边缘特征,再到V2区的形状或者目标的部分等,再到更高层,整个目标、目标的行为等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。而抽象层面越高,存在的可能猜测就越少,就越利于分类。深度学习就是模仿这个过程提出的。所以深度学习的实质,是通过构建具有很多隐层的机器学习模型和训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度;2)通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。
稀疏自编码机是一种提取数据特征的方法。其优点是可以提取一组线性独立的过完备基(over-completed base)来重构样本。一般的提取特征基向量的模型只能保证基向量之间是线性不相关的,这种模型在一些应用中不能很好的应用。比如现在收集了一些音频,这些音频中有个人的声音,互相独立,我们想把每个人的音频分离出来,那么此时模型就失效了。我们采用RICA(Reconstruction Independent Component Analysis)算法,目标是学习一组相互独立的过完备基。
深度稀疏自编码机是基于深度学习的思想,将稀疏自编码机做为模型中的一层叠加起来,即将上一层稀疏自编码机的结果输出作为下一层的输入,从而形成了多层的深度学习结构,提取得到更有用的特征。然后再根据提取到的特征做半监督学习,从而提高迁移学习的精度和准确性。
有关特征提取和迁移学习方法的研究中,已有的方法都是使用自编码模型开展的研究,而使用稀疏编码模型的研究工作很少。稀疏编码是在图像、文本等领域中降维的有效手段之一,但是稀疏编码应用在领域适应上还存在着一些问题,常见问题有:(a)特征基向量之间线性不独立的问题;(b)源领域中标签的使用问题;(c)叠加后目标函数偏置项的问题。如果不能很好地解决这些问题,必然会对特征提取和迁移学习的准确性带来不利影响,本发明将针对上述问题提出解决方案。
发明内容
本发明的目的是提供一种基于深度稀疏自编码机的迁移学习方法,以解决现有技术特征提取和迁移学习方法存在的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种基于深度稀疏自编码机的迁移学习方法,其特征在于:依次包括以下步骤:
(1)、对图像数据库中的所有图像进行白化预处理,过程如下:
(1.1)、将输入数据集表示为{x(1),x(2),...,x(n)},计算出x的协方差矩阵再计算出协方差矩阵的特征向量,按列组成矩阵U如下公式所示:
矩阵U中,u1是主特征向量,其对应最大的特征值,u2是次特征向量,以此类推,并记λ12,...,λn为矩阵U中各向量相应的特征值;
(1.2)、用计算出的矩阵U表示输入数据如下公式所示:
其中下标rot指的是rotation,表示这是由原数据经过旋转处理后所得到的结果,为了使每个输入特征具有单位方差,使用作为缩放因子来缩放每个特征xrot,i,其中从而得到PCA白化后的数据表示如下公式所示:
(1.3)、设R是任意正交矩阵,即满足RRT=RTR=I,那么RxPCAwhite仍然具有单位协方差,为了对于所有可能的R进行白化处理后的输入数据尽可能的接近原始输入数据,令R=U,得到公式(1):
xZCAwhite=UxPCAwhite (1),
xZCAwhite即ZCA白化后得到的原始输入数据的处理数据;
(2)、构建深度稀疏自编码机模型提取图像高层次抽象特征,过程如下:
(2.1)、构建稀疏自编码机模型,包括以下步骤:
(2.1.1)、稀疏自编码机模型使用Reconstruction Independent ComponentAnalysis算法即RICA算法,用公式(1)获得的xZCAwhite为RICA算法的输入数据,并代入代价函数式(2):
代价函数式(2)中,x为输入数据即xZCAwhite,W为加权矩阵;
(2.1.2)、对代价函数式(2)求关于x的偏导,其中对代价函数式(2)的第一项求偏导时,采用作为偏导函数,得到的偏导函数如式(3)所示:
(2.1.3)、利用L-FBGS算法,迭代计算加权矩阵W,得到训练完成的稀疏自编码模型。
(2.2)、构建深度稀疏自编码机模型:
将步骤(2.1)得到的加权矩阵W代入代价函数式(2)中,得到的输出记为是单层RICA模型训练完成后得到的输出数据,将作为输入数据,重复步骤(2.1),得到的W(i)是训练叠加稀疏自编码机后得到的加权矩阵,其中i是迭代步骤(2.1)的次数;
(2.3)、根据训练完成的深度稀疏自编码机模型提取特征;
使用模型平方根的平方根做池化,将步骤(2.1)得到的加权矩阵W(i)代入公式(4)做卷积特征提取,公式(4)如下所示:
公式(4)中,表示卷积网络中第l层的输入,表示卷积网络中第k个特征的第l+1层的误差项,由公式(4)得到的输出记为xfea,是由原始输入数据提取的抽象特征;
(3)、半监督学习优化特征:
用步骤(2)得到的xfea为输入进行半监督学习得到公式(5),加入对源域分布和目标域分布的KL距离以及根据源域类标签做的多类回归偏置项,表示经过半监督学习后得到的输出,WSSL表示半监督学习中的权重矩阵,ξ(s)表示源域中隐藏层的输出,ξ(t)表示目标域中隐藏层的输出,公式(5)如下所示:
公式(5)中,表示从原数据到特征提取后重新表示的数据之间的重构误差;
表示源域分布和目标域分布的KL距离;
表示根据源域类标签做的多类回归偏置项;
表示特征参数矩阵WSSL的约束项;
(4)、训练分类器并对测试图像数据集分类,过程如下:
(4.1)、用测试图像数据集训练LR分类器;在LR分类中,记:
式(6)中,称为sigmoid函数,将步骤(3)完成的输出中的训练数据集的输出,和已知标签的y即训练图像数据集的标签代入式(6)训练分类器;
(4.2)、用训练完成的分类器对测试图像数据集分类;将步骤(3)完成的输出中的测试数据集的输出代入式(6)完成的LR分类器,获得所述测试图像数据集的分类结果Ttest如公式(7)所示:
Ttest=argmaxP(x) (7)。
本发明提出一种基于深度稀疏自编码机的迁移学习方法。该方法从深度学习的角度出发,将应用RICA算法的稀疏自编码机模型应用到数据集特征提取中,通过深度学习的多层叠加思想,通过Stacked RICA算法构建深度稀疏自编码机并训练提取线性独立的过完备特征基向量。并在特征基向量的基础上,应用半监督学习的方法添加源域类标签和多类回归的偏置项,进一步优化了提取的特征。最后根据提取的特征应用支持向量机模型训练分类器,实现对目标域的分类预测,完成迁移学习的目标。该方法能够提取数据集中更有用的特征,提高了在目标域中分类的精度,使得迁移学习的准确性和精度得到显著提高。
本发明解决特征提取和迁移学习这一重要实际问题,研究成果可以直接应用在图像分类、文本分类、情感迁移等应用中,并可以拓展应用到音频、网页、视频等多个领域,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
与已有技术相比,本发明的有益效果体现在:
1、本发明从独立成分分析模型层面研究实现提取数据的特征表示,与传统的特征提取算法(稀疏编码或自编码器)相比较,提高了表示特征的鲁棒性。
2、本发明通过深度学习中层次结构的方法,在对数据集的数据进行分析的基础上,研究提出了Stacked RICA的算法,并在多层结构中考虑源域标签和多类回归的目标函数,将源域标签的条件应用到目标函数的优化中,能够提取数据集中更有用的特征,提高了在目标域中分类的精度,从而提高了迁移学习的准确率。
3、本发明可以应用到图像、文本、音频、视频等多个领域,有着重要的应用价值。而且,基于Stacked RICA的研究成果,也可应用到诸如图像识别、情感分类、主题分类、语音识别和机器人***等很多涉及迁移学习的模式分类领域。
附图说明
图1为本发明提出的具体的特征提取和迁移学习的研究方案流程图。
图2为RICA模型层次结构示意图。
图3为本发明提出的Stacked RICA模型解析示意图。
具体实施方式
如图1所示,图1是本发明的方法流程图,在图1中具体的执行方式如下:
(1)为了训练更好的特征,将训练数据集和测试数据集拼接,进行向量化预处理,获得向量化的数据集。
(2)对于向量化后的文本数据集使用Stacked Reconstruction IndependentComponent Analysis(Stacked RICA)模型进行特征提取,具体的过程如下:
1)用ZCA的方法白化数据:
ZCA白化是一种数据预处理方法,它将数据从x映射到xZCAwhite,事实证明这也是一种生物眼睛(视网膜)处理图像的粗糙模型。举例来说,当你的眼睛感知图像时,由于一幅图像中相邻的部分在亮度上十分相关,大多数临近的“像素”在眼中被感知为相近的值。因此,如果人眼需要分别传输每个像素值(通过视觉神经)到大脑中,会非常不划算。取而代之的是,视网膜进行一个与ZCA中相似的去相关操作,由此得到对输入图像的更低冗余的表示,并将它传输到大脑。在特征提取中,由于数据集中相邻实例或表达之间具有很强的相关性,所以用于训练时输入是冗余的。白化的目的就是降低输入的冗余性,通过白化过程使得学习算法的输入具有如下性质:(i)特征之间相关性较低;(ii)所有特征具有相同的方差。ZCA白化的结果可以表示为:
2)基于Stacked RICA进行特征提取
具体如下:
①单层RICA提取特征
根据图2的思想设计重构独立成分分析(RICA)算法来提取特征。假设给定输入为x,本发明要得到线性独立的一组基(用W表示),目标函数可以表示为:
J(W)=||Wx||1
表达式中,Wx代表输入x的特征表示,在RICA中,为了保证得到相互线性独立的过完备基,本发明用求解如下的目标函数:
其中,λ是权重衰减系数,W是权重举证,x是输入数据。为了求解目标函数:
首先第一步要用求导数的方法来求解即求解
如图2所示,模型中的权重和激活函数如下所示:
设J(z(4))=F(x),则有J(z(4))=∑kJ(zk (4))。
将模型的输入设为F以后,问题转换为求尽管在模型中W出现了两次,但是可以证明,当神经网络中W出现了多次时,关于W的偏导是网络中关于每个W实例求偏导的和,关于W求偏导数如下所示:
如上所述,本发明先求关于每个W实例的偏导,
关于WT的:
关于W的:
最后得出关于W求偏导数的方法为:
第二步是通过用l-bfgs的方法进行迭代。本发明用如下的代价函数完成:
进行多次迭代后最终得到的W,就是一组线性独立的,原输入x的过完备基。通过这组基,我们可以得到原输入数据x的更有用的特征表示Wx。
②叠加RICA(Stacked RICA)计算特征表示
图3为本发明提出的将Stacked RICA的模型图,该图说明了Stacked RICA模型由输入层,两层隐层,和输出层组成。Stacked RICA模型是基于深度学习的思想,将RICA结构叠加起来,即将通过单层RICA结束后得到的更强特征表示z,做为下一层RICA算法的输入,然后再每层迭代优化参数,优化目标函数。通过多层叠加,最后得到原输入数据的特征表示
(3)通过Stacked RICA完成特征提取的工作后,使用得到的特征表示来代替原输入数据x,对进行半监督学习(Semi-Supervised Learning)并加入偏置项的考虑,偏置项包括对源域分布和目标域分布的KL距离以及根据源域类标签做的多类回归偏置项,将源域的标签信息应用到对特征表示的优化上。通过优化目标函数,得到用来分类的源域和目标域的特征表示。
目标函数可以表示为:
其中,表示从原数据到特征提取后重新表示的数据之间的重构误差。
表示源域分布和目标域分布的KL距离。
表示根据源域类标签做的多类回归偏置项。
表示特征参数矩阵W的约束项。
(4)所有特征抽取和选择的过程完成后,用得到的源域的特征表示,在源域中训练分类器,训练分类器的工具是支持向量机(SVM)、logistic回归分析模型(LR)或模块分类器。
(5)用源域训练得到的分类器,在目标域中进行分类预测,从而将源域中的分类器应用到目标域中。
(6)得到最终的迁移学习结果。

Claims (1)

1.一种基于深度稀疏自编码机的迁移学习方法,其特征在于:依次包括以下步骤:
(1)、对图像数据库中的所有图像进行白化预处理,过程如下:
(1.1)、将输入数据集表示为{x(1),x(2),...,x(n)},计算出x的协方差矩阵再计算出协方差矩阵的特征向量,按列组成矩阵U如下公式所示:
<mrow> <mi>U</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mo>|</mo> </mtd> <mtd> <mo>|</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>|</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>u</mi> <mn>1</mn> </msub> </mtd> <mtd> <msub> <mi>u</mi> <mn>2</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>u</mi> <mi>n</mi> </msub> </mtd> </mtr> <mtr> <mtd> <mo>|</mo> </mtd> <mtd> <mo>|</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>|</mo> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
矩阵U中,u1是主特征向量,其对应最大的特征值,u2是次特征向量,以此类推,并记λ12,...,λn为矩阵U中各向量相应的特征值;
(1.2)、用计算出的矩阵U表示输入数据如下公式所示:
<mrow> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>o</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>U</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msup> <msub> <mi>u</mi> <mn>1</mn> </msub> <mi>T</mi> </msup> <mi>x</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <msub> <mi>u</mi> <mn>2</mn> </msub> <mi>T</mi> </msup> <mi>x</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <msub> <mi>u</mi> <mi>n</mi> </msub> <mi>T</mi> </msup> <mi>x</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中下标rot指的是rotation,表示这是由原数据经过旋转处理后所得到的结果,为了使每个输入特征具有单位方差,使用作为缩放因子来缩放每个特征xrot,i,其中从而得到PCA白化后的数据表示如下公式所示:
<mrow> <msub> <mi>x</mi> <mrow> <mi>P</mi> <mi>C</mi> <mi>A</mi> <mi>w</mi> <mi>h</mi> <mi>i</mi> <mi>t</mi> <mi>e</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>x</mi> <mrow> <mi>r</mi> <mi>o</mi> <mi>t</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <msqrt> <msub> <mi>&amp;lambda;</mi> <mi>i</mi> </msub> </msqrt> </mfrac> <mo>;</mo> </mrow>
(1.3)、设R是任意正交矩阵,即满足RRT=RTR=I,那么RxPCAwhite仍然具有单位协方差,为了对于所有可能的R进行白化处理后的输入数据尽可能的接近原始输入数据,令R=U,得到公式(1):
xZCAwhite=UxPCAwhite (1),
xZCAwhite即ZCA白化后得到的原始输入数据的处理数据;
(2)、构建深度稀疏自编码机模型提取图像高层次抽象特征,过程如下:
(2.1)、构建稀疏自编码机模型,包括以下步骤:
(2.1.1)、稀疏自编码机模型使用Reconstruction Independent Component Analysis算法即RICA算法,用公式(1)获得的xZCAwhite为RICA算法的输入数据,并代入代价函数式(2):
<mrow> <mtable> <mtr> <mtd> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>W</mi> </munder> </mtd> <mtd> <mrow> <mi>&amp;lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mi>x</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>+</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> <mo>|</mo> <mo>|</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>W</mi> <mi>x</mi> <mo>-</mo> <mi>x</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
代价函数式(2)中,x为输入数据即xZCAwhite,W为加权矩阵;
(2.1.2)、对代价函数式(2)求关于x的偏导,其中对代价函数式(2)的第一项求偏导时,采用作为偏导函数,得到的偏导函数如式(3)所示:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mo>&amp;dtri;</mo> <mi>W</mi> </msub> <mi>F</mi> <mo>=</mo> <mi>&amp;lambda;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mi>x</mi> <mo>/</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <mi>W</mi> <mi>x</mi> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;epsiv;</mi> </mrow> </msqrt> <mo>)</mo> </mrow> <msup> <mi>x</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>2</mn> <mo>(</mo> <mrow> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>W</mi> <mi>x</mi> <mo>-</mo> <mi>x</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <msup> <mi>x</mi> <mi>T</mi> </msup> <mo>+</mo> <mn>2</mn> <mrow> <mo>(</mo> <mi>W</mi> <mi>x</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>T</mi> </msup> <mi>W</mi> <mi>x</mi> <mo>-</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
(2.1.3)、利用L-FBGS算法,迭代计算加权矩阵W,得到训练完成的稀疏自编码模型。
(2.2)、构建深度稀疏自编码机模型:
将步骤(2.1)得到的加权矩阵W代入代价函数式(2)中,得到的输出记为是单层RICA模型训练完成后得到的输出数据,将作为输入数据,重复步骤(2.1),得到的W(i)是训练叠加稀疏自编码机后得到的加权矩阵,其中i是迭代步骤(2.1)的次数;
(2.3)、根据训练完成的深度稀疏自编码机模型提取特征;
使用模型平方根的平方根做池化,将步骤(2.1)得到的加权矩阵W(i)代入公式(4)做卷积特征提取,公式(4)如下所示:
<mrow> <msub> <mo>&amp;dtri;</mo> <mi>W</mi> </msub> <mi>J</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>;</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>(</mo> <msubsup> <mi>a</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>*</mo> <mi>r</mi> <mi>o</mi> <mi>t</mi> <mn>90</mn> <mrow> <mo>(</mo> <msubsup> <mi>&amp;delta;</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
公式(4)中,表示卷积网络中第l层的输入,表示卷积网络中第k个特征的第l+1层的误差项,由公式(4)得到的输出记为xfea,是由原始输入数据提取的抽象特征;
(3)、半监督学习优化特征:
用步骤(2)得到的xfea为输入进行半监督学习得到公式(5),加入对源域分布和目标域分布的KL距离以及根据源域类标签做的多类回归偏置项,表示经过半监督学习后得到的输出,WSSL表示半监督学习中的权重矩阵,ξ(s)表示源域中隐藏层的输出,ξ(t)表示目标域中隐藏层的输出,公式(5)如下所示:
<mrow> <mo>,</mo> <mi>J</mi> <mo>=</mo> <msub> <mi>J</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>f</mi> <mi>e</mi> <mi>a</mi> </mrow> </msub> <mo>,</mo> <mover> <mi>x</mi> <mo>^</mo> </mover> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&amp;alpha;gJ</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msup> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&amp;beta;gJ</mi> <mn>3</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>S</mi> <mi>S</mi> <mi>L</mi> </mrow> </msub> <mo>,</mo> <msup> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&amp;gamma;gJ</mi> <mn>4</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>S</mi> <mi>S</mi> <mi>L</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
公式(5)中,表示从原数据到特征提取后重新表示的数据之间的重构误差;
<mrow> <msub> <mi>J</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msup> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>&amp;xi;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>D</mi> <mrow> <mi>K</mi> <mi>L</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>s</mi> </msub> <msub> <mi>PP</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>D</mi> <mrow> <mi>K</mi> <mi>L</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>t</mi> </msub> <msub> <mi>PP</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>P</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>P</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>P</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>P</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>P</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>P</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
表示源域分布和目标域分布的KL距离;
表示根据源域类标签做的多类回归偏置项;
表示特征参数矩阵WSSL的约束项;
(4)、训练分类器并对测试图像数据集分类,过程如下:
(4.1)、用测试图像数据集训练LR分类器;在LR分类中,记:
<mrow> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>=</mo> <mn>1</mn> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>h</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <msup> <mi>&amp;theta;</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>&amp;theta;</mi> <mi>T</mi> </msup> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>=</mo> <mn>0</mn> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>=</mo> <mn>1</mn> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
式(6)中,称为sigmoid函数,将步骤(3)完成的输出中的训练数据集的输出,和已知标签的y即训练图像数据集的标签代入式(6)训练分类器;
(4.2)、用训练完成的分类器对测试图像数据集分类;将步骤(3)完成的输出中的测试数据集的输出代入式(6)完成的LR分类器,获得所述测试图像数据集的分类结果Ttest如公式(7)所示:
Ttest=arg max P(x) (7)。
CN201711069171.XA 2017-11-03 2017-11-03 一种基于深度稀疏自编码机的迁移学习方法 Expired - Fee Related CN107798349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711069171.XA CN107798349B (zh) 2017-11-03 2017-11-03 一种基于深度稀疏自编码机的迁移学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711069171.XA CN107798349B (zh) 2017-11-03 2017-11-03 一种基于深度稀疏自编码机的迁移学习方法

Publications (2)

Publication Number Publication Date
CN107798349A true CN107798349A (zh) 2018-03-13
CN107798349B CN107798349B (zh) 2020-07-14

Family

ID=61549046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711069171.XA Expired - Fee Related CN107798349B (zh) 2017-11-03 2017-11-03 一种基于深度稀疏自编码机的迁移学习方法

Country Status (1)

Country Link
CN (1) CN107798349B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564121A (zh) * 2018-04-09 2018-09-21 南京邮电大学 一种基于自编码器的未知类别图像标签预测方法
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN108805160A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 迁移学习方法、装置、计算机设备和存储介质
CN109117793A (zh) * 2018-08-16 2019-01-01 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN109359557A (zh) * 2018-09-25 2019-02-19 东北大学 一种基于迁移学习的sar遥感图像舰船检测方法
CN109726742A (zh) * 2018-12-11 2019-05-07 中科恒运股份有限公司 分类模型快速训练方法和终端设备
CN109816002A (zh) * 2019-01-11 2019-05-28 广东工业大学 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109902861A (zh) * 2019-01-31 2019-06-18 南京航空航天大学 一种基于双层迁移学习的订单生产进度实时预测方法
CN111046824A (zh) * 2019-12-19 2020-04-21 上海交通大学 一种时间序列信号高效去噪和高精度重构建模方法及***
CN111753899A (zh) * 2020-06-23 2020-10-09 扬州大学 一种自适应的不平衡数据领域适应方法
CN111753898A (zh) * 2020-06-23 2020-10-09 扬州大学 一种基于叠加卷积稀疏自编码机的表示学习方法
CN111985161A (zh) * 2020-08-21 2020-11-24 广东电网有限责任公司清远供电局 一种变电站三维模型重构方法
CN112070236A (zh) * 2020-09-11 2020-12-11 福州大学 基于迁移学习解决在线复杂优化计算的稀疏特征学习方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及***
CN105844331A (zh) * 2015-01-15 2016-08-10 富士通株式会社 神经网络***及该神经网络***的训练方法
CN106096652A (zh) * 2016-06-12 2016-11-09 西安电子科技大学 基于稀疏编码和小波自编码器的极化sar图像分类方法
CN106203506A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法
CN106529428A (zh) * 2016-10-31 2017-03-22 西北工业大学 基于深度学习的水下目标识别方法
CN106599863A (zh) * 2016-12-21 2017-04-26 中国科学院光电技术研究所 一种基于迁移学习技术的深度人脸识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及***
CN105844331A (zh) * 2015-01-15 2016-08-10 富士通株式会社 神经网络***及该神经网络***的训练方法
CN106096652A (zh) * 2016-06-12 2016-11-09 西安电子科技大学 基于稀疏编码和小波自编码器的极化sar图像分类方法
CN106203506A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法
CN106529428A (zh) * 2016-10-31 2017-03-22 西北工业大学 基于深度学习的水下目标识别方法
CN106599863A (zh) * 2016-12-21 2017-04-26 中国科学院光电技术研究所 一种基于迁移学习技术的深度人脸识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIALE CUI ET AL.: "Text Classification Based on ReLU Activation Function of SAE Algorithm", 《INTERNATIONAL SYMPOSIUM ON NEURAL NETWORK》 *
梅灿华 等: "一种基于最大熵模型的加权归纳迁移学习方法", 《计算机研究与发展》 *
谢李鹏: "基于局部不变特征融合的图像检索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564121B (zh) * 2018-04-09 2022-05-03 南京邮电大学 一种基于自编码器的未知类别图像标签预测方法
CN108564121A (zh) * 2018-04-09 2018-09-21 南京邮电大学 一种基于自编码器的未知类别图像标签预测方法
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN108595568B (zh) * 2018-04-13 2022-05-17 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN108805160A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 迁移学习方法、装置、计算机设备和存储介质
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN109117793B (zh) * 2018-08-16 2021-10-29 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN109117793A (zh) * 2018-08-16 2019-01-01 厦门大学 基于深度迁移学习的直推式雷达高分辨距离像识别方法
CN109359557B (zh) * 2018-09-25 2021-11-09 东北大学 一种基于迁移学习的sar遥感图像舰船检测方法
CN109359557A (zh) * 2018-09-25 2019-02-19 东北大学 一种基于迁移学习的sar遥感图像舰船检测方法
CN109726742A (zh) * 2018-12-11 2019-05-07 中科恒运股份有限公司 分类模型快速训练方法和终端设备
CN109816002A (zh) * 2019-01-11 2019-05-28 广东工业大学 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109816002B (zh) * 2019-01-11 2022-09-06 广东工业大学 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109902861A (zh) * 2019-01-31 2019-06-18 南京航空航天大学 一种基于双层迁移学习的订单生产进度实时预测方法
CN111046824B (zh) * 2019-12-19 2023-04-28 上海交通大学 一种时间序列信号高效去噪和高精度重构建模方法及***
CN111046824A (zh) * 2019-12-19 2020-04-21 上海交通大学 一种时间序列信号高效去噪和高精度重构建模方法及***
CN111753899A (zh) * 2020-06-23 2020-10-09 扬州大学 一种自适应的不平衡数据领域适应方法
CN111753898A (zh) * 2020-06-23 2020-10-09 扬州大学 一种基于叠加卷积稀疏自编码机的表示学习方法
CN111753899B (zh) * 2020-06-23 2023-10-17 扬州大学 一种自适应的不平衡数据领域适应方法
CN111753898B (zh) * 2020-06-23 2023-09-22 扬州大学 一种基于叠加卷积稀疏自编码机的表示学习方法
CN111985161A (zh) * 2020-08-21 2020-11-24 广东电网有限责任公司清远供电局 一种变电站三维模型重构方法
CN112070236B (zh) * 2020-09-11 2022-08-16 福州大学 基于迁移学习解决在线复杂优化计算的稀疏特征学习方法
CN112070236A (zh) * 2020-09-11 2020-12-11 福州大学 基于迁移学习解决在线复杂优化计算的稀疏特征学习方法

Also Published As

Publication number Publication date
CN107798349B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN107798349A (zh) 一种基于深度稀疏自编码机的迁移学习方法
Santos et al. Artificial neural networks and deep learning in the visual arts: A review
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
Cheng et al. Facial expression recognition method based on improved VGG convolutional neural network
CN106548208B (zh) 一种照片图像快速智能风格化方法
CN109508375A (zh) 一种基于多模态融合的社交情感分类方法
CN107979764A (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN106503723A (zh) 一种视频分类方法及装置
US20150147728A1 (en) Self Organizing Maps (SOMS) for Organizing, Categorizing, Browsing and/or Grading Large Collections of Assignments for Massive Online Education Systems
CN107705806A (zh) 一种使用谱图和深卷积神经网络进行语音情感识别的方法
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
Halvardsson et al. Interpretation of swedish sign language using convolutional neural networks and transfer learning
CN106339718A (zh) 一种基于神经网络的分类方法及装置
CN114443899A (zh) 视频分类方法、装置、设备及介质
Sarigül et al. Comparison of different deep structures for fish classification
Yang et al. A comprehensive survey on image aesthetic quality assessment
CN109740012A (zh) 基于深度神经网络对图像语义进行理解和问答的方法
Al-Khazraji et al. Employing neural style transfer for generating deep dream images
Basiri et al. Dynamic iranian sign language recognition using an optimized deep neural network: an implementation via a robotic-based architecture
CN113657380A (zh) 融合多模态注意力机制的图像美学质量评价方法
Qiu et al. Data encoding visualization based cognitive emotion recognition with AC-GAN applied for denoising
Yu Analysis of task degree of English learning based on deep learning framework and image target recognition
Fayyaz et al. CNN and traditional classifiers performance for sign language recognition
CN108280511A (zh) 一种基于卷积网络进行网络访问数据进行处理的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200714

CF01 Termination of patent right due to non-payment of annual fee