CN105678340A - 一种基于增强型栈式自动编码器的自动图像标注方法 - Google Patents

一种基于增强型栈式自动编码器的自动图像标注方法 Download PDF

Info

Publication number
CN105678340A
CN105678340A CN201610035975.7A CN201610035975A CN105678340A CN 105678340 A CN105678340 A CN 105678340A CN 201610035975 A CN201610035975 A CN 201610035975A CN 105678340 A CN105678340 A CN 105678340A
Authority
CN
China
Prior art keywords
model
theta
training
centerdot
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610035975.7A
Other languages
English (en)
Other versions
CN105678340B (zh
Inventor
柯逍
周铭柯
杜明智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201610035975.7A priority Critical patent/CN105678340B/zh
Publication of CN105678340A publication Critical patent/CN105678340A/zh
Application granted granted Critical
Publication of CN105678340B publication Critical patent/CN105678340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Devices For Executing Special Programs (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于增强型栈式自动编码器的自动图像标注方法:针对深度学***衡栈式自动编码器,较好地改善低频标签的标注效果。然后针对单个B-SAE模型不稳定导致标注效果易随参数改变而发生较大变化的问题,提出一种针对图像标注任务的增强平衡栈式自动编码器,通过分组按序训练、加权累加各组最优B-SAE子模型,取得稳定的标注结果。该方法通过逐层预训练权值并用后向传播算法整体调优,改善了传统浅层模型泛化能力弱、难以收敛到最佳极值点等问题,并在训练过程中加强弱标签样本的训练,提升了整个模型的标注效果,该方法简单灵活,具有较强的实用性。

Description

一种基于增强型栈式自动编码器的自动图像标注方法
技术领域
本发明涉及模式识别与计算机视觉领域,特别是一种基于增强型栈式自动编码器的自动图像标注方法。
背景技术
随着多媒体影像技术快速发展,互联网上图像信息呈***性增长。这些数字图像的应用非常广泛,如商业、新闻媒体、医学、教育等方面。因此,如何帮助用户快速、准确地找到需要的图像成为近年来多媒体研究的热点课题之一。而解决这一课题最重要的技术就是图像检索和自动图像标注技术。
自动图像标注是指自动给图像添加若干关键词来表示图像的语义内容。自动图像标注可以利用已标注的图像集,自动学习语义概念空间与视觉特征空间的关系模型,并用此模型标注未知语义的图像。一方面,自动图像标注试图给高层语义特征和底层视觉特征之间建立一座桥梁,因此,它可以一定程度解决大多数基于内容图像检索方法存在的语义鸿沟问题,并且具有较好的客观性。另一方面,自动图像标注可以生成与图像内容相关的文字信息,具有更好的准确性。如果能实现自动图像标注,那么现有的图像检索问题实际上可以转化成较成熟的文本检索问题。因此,图像自动标注技术可以很方便地实现基于关键字的图像检索,符合人们的检索习惯。总的来说,自动图像标注涉及计算机视觉、机器学习、信息检索等多方而的内容,具有很强的研究价值和潜在的商业应用,如图像分类、图像检索、图像理解以及智能图像分析等。
根据现有自动图像标注方法的主要实现特点,可以分为两类:基于概率统计的标注方法和基于机器学习的标注方法。基于概率统计的方法虽然可以很方便的扩展到大数据集,但总体标注效果不够理想。基于机器学习的方法,一旦模型训练完毕,就可以进行快速标注,而当前多数分类、回归等学习方法为浅层结构算法,针对复杂分类问题其泛化能力受到一定制约。近年来,深度学习作为机器学习的革新算法,广泛用于目标识别、图像分类、语音识别及其它领域,但鲜有在图像标注问题上得到应用。由于深度学习可以训练深层、复杂的模型,在处理大数据问题上有很大优势。DBN和CNN这两个模型在标签较少、特征简单、特征完整的识别任务中可以取得较好效果,而图像标注问题标签众多、图像特征多样且复杂,且现实图像中还存在大量各类文本、网址、二维码以及图像水印等噪声问题,极大地影响了DBN和CNN的应用效果。而SAE网络,更加注重特征间的近似表达,容易调整模型将复杂的输入表达为理想的输出并应用于特定情形,因此,本专利选用SAE模型解决图像标注问题。
发明内容
本发明的目的在于提供一种基于增强型栈式自动编码器的自动图像标注方法,以克服现有技术中存在的缺陷,解决针对多对象多标签的自动图像标注问题。
为实现上述目的,本发明的技术方案是:一种基于增强型栈式自动编码器的自动图像标注方法,按照如下步骤实现:
步骤S1:构建栈式自动编码器模型,在所述栈式自动编码器模型上判别弱标签样本,并添加噪声以增加所述弱标签样本的训练次数,进而构建平衡栈式自动编码器模型;
步骤S2:通过所述平衡栈式自动编码器模型对训练图像分组训练子平衡栈式自动编码器模型,加权累加各组最优子模型得到增强平衡栈式自动编码器模型;
步骤S3:将未知图像输入到所述增强平衡栈式自动编码器模型并输出标注结果。
在本发明一实施例中,在所述步骤S1中,还包括如下步骤:
步骤S11:定义编码器fθ和解码器gθ';所述编码器fθ将输入图像x转换为隐层表达h,解码器gθ'将所述隐层表达h重构为与所述输入图像x维度一致的向量x';其中,fθ(x)=σ(W·x+b),θ={W,b},W为网络权重,满足W'=WT,b为偏置向量, σ ( x ) = 1 ( 1 + e ( - x ) ) 为激活函数;θ'={W',b'};
步骤S12:学习一个函数使输出x'=gθ'(fθ(x))和所述输入图像x近似,且定义损失函数为L(x,x')=(x-x')2,并通过最小化损失函数进行学习: θ * , θ ′ * = arg min θ , θ ′ 1 N Σ i = 1 N L ( x i , g θ ′ ( f θ ( x i ) ) ) ;
步骤S13:记用于图像标注的SAE模型有L层,并用序号l∈{1,...,L}表示;用hl表示第l层的输出向量,Wl和bl表示第l层的网络权重和偏置,通过自动编码器对{Wl,bl},l∈{1,...,L}逐层预训练;
步骤S14:执行前馈过程并用后向传播算法调优;所述栈式自动编码器模型的前馈操作表述为:hl+1=σ(Wl+1hl+bl+1),l∈{0,...,L-1};所述栈式自动编码器模型的后向传播算法调优表述为:其中,是多个自动编码器模型的合成函数,而θl为参数{Wl,bl},l∈{1,...,L},损失函数为L(x,y)=(x-y)2
步骤S15:定义约束变量,令向量C=(c1,c2,...,cM),表示关键词yi在训练集P中出现的次数,表示关键词的平均出现次数;向量C=(c1,c2,...,cM)表示第i幅图像xi的每个关键词Yi j,j∈{1,2,...,M}在训练集中出现的次数YC,i=C*Yi;从而得到在图像xi中出现次数最低的关键词为 Λ x i = arg m i n j ( Y C , i j ) ;
步骤S16:定义Φ(x)函数,所述栈式自动编码器模型在训练过程中对训练样本进行判断,若输入图像x包含低频标签的个数多于k个,则对该输入图像x添加适当的噪声;定义Γ(x)函数,对输入图像x增加训练强度,若该输入图像x所包含标签的出现次数低于预设阈值(一般取),则增加训练次数,其中,函数Γ(x)为:
&Gamma; ( x i ) = &alpha; &CenterDot; &Pi; &Lambda; x i = &alpha; &CenterDot; 1 M &Sigma; j = 1 M c j arg min j ( Y C , i j ) , &Lambda; x i < = &beta; &CenterDot; &Pi; 1 , O t h e r s ,
其中,α和β为常系数,β用于确定需要加重训练的样本,α用于控制需要加重训练的样本的训练强度;
函数Φ(x)为:
&Phi; ( x i ) = &chi; &CenterDot; ( 1 d &Sigma; j = 1 d x i j ) &CenterDot; R a n ( &CenterDot; ) , &Lambda; x i < = &beta; &CenterDot; &Pi; x i , O t h e r s ,
其中,χ为常系数,用于控制噪声添加的强度,d为图像xi特征的维度,表示图像xi第j个维度的值,Ran(·)为随机数函数;
步骤S17:调整优化等式得到平衡栈式自动编码器模型模型;将 &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N L ( x i , g &theta; &prime; ( f &theta; ( x i ) ) ) 调整为 &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N { 1 &Gamma; ( x i ) &Sigma; j = 1 &Gamma; ( x i ) L ( &Phi; ( x i ) , g &theta; &prime; ( f &theta; ( &Phi; ( x i ) ) ) ) } , &theta; * = arg m i n &theta; &Sigma; i = 1 N L ( F &theta; ( x i ) , Y i ) 调整为 &theta; * = arg m i n &theta; &Sigma; i = 1 N &Sigma; j = 1 &Gamma; ( x i ) L ( F &theta; ( &Phi; ( x i ) ) , Y i ) , 当模型训练好后,所述平衡栈式自动编码器模型的最后一层的输出即为预测图像的关键词的预测分布D。
在本发明一实施例中,在所述步骤S2中,还包括如下步骤:
步骤S21:分组训练子平衡栈式自动编码器模型模型,将平衡栈式自动编码器模型模型按不同的加噪方式划分不同的组,每一组内根据不同的隐层神经元个数划分子模型t表示平衡栈式自动编码器模型模型采用第t种加噪方式,k表示第k个子B-SAE模型设置的隐层神经元个数;
步骤S22:设置初始权值并计算子平衡栈式自动编码器模型模型模型分类误差率,对训练数据设置权值如下:
W=(w11,...,w1i,...,w1N), w 1 i = 1 N , i = 1 , 2 , ... , N ,
计算的分类误差率: e k t = &Sigma; i = 1 N w t i &CenterDot; S g n ( B - SAE k t ( x i ) &NotEqual; Y i ) , 其中, S g n ( x ) = 1 , x = t r u e 0 , x = f a l s e , B - SAE k t ( x i ) &NotEqual; Y i 表示:假设图像xi的真实标签集Yi包含c个关键词,并通过模型预测得到标签集Yi *的个数也为c个,如果Yi=Yi *,则为false,否则为true;
步骤S23:计算平衡栈式自动编码器模型模型权重,并更新训练数据权值;根据组内所有子模型的分类误差率,可以得到该组分类误差率最低的模型B-SAEt以及对应的分类误差率et,计算B-SAEt的权重:当第t组的模型训练完后,更新训练数据的权值,以获得下一组模型的权重,更新训练数据权值的方式如下:
Wt+1={wt+1,1,...,wt+1,i,...,wt+1,N}, w t + 1 , i = w t i &CenterDot; e ( - &alpha; t &CenterDot; Y i &CenterDot; B - SAE t ( x i ) ) &Sigma; i = 1 N w t i &CenterDot; e ( - &alpha; t &CenterDot; Y i &CenterDot; B - SAE t ( x i ) ) , i = 1 , 2 , ... , N ;
步骤S24:加权累加子平衡栈式自动编码器模型模型得到增强平衡栈式自动编码器模型,当所有组都训练完后,即得到关键词预测分布: D = &Sigma; t = 1 T &alpha; t &CenterDot; B - SAE t ( x ) .
相较于现有技术,本发明具有以下有益效果:本发明所提出的一种基于增强型栈式自动编码器的自动图像标注方法,利用SAE深度神经网络强大的特征表达能力,基于对自动图像标注、多标签分类和栈式自动编码器的认识,提出针对图像数据集标签不平衡、难以有效训练大图像数据等问题的增强型栈式自动编码器的自动图像标注方法,最后得到一种深层的、复杂的自动图像标注模型,特别是一种基于增强型栈式自动编码器的自动图像标注方法。该方法简单,实现灵活,实用性较强。
附图说明
图1为本发明中基于增强型栈式自动编码器的自动图像标注方法的流程图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出了一种基于增强型栈式自动编码器的自动图像标注方法,首先针对深度学***衡栈式自动编码器(BalanceStackedAuto-Encoder,B-SAE),较好地改善低频标签的标注效果。然后针对单个B-SAE模型不稳定(模型复杂、参数较多)导致标注效果易随参数改变而发生较大变化的问题,提出一种针对图像标注任务的增强平衡栈式自动编码器(EnhancedBalanceStackedAuto-Encoder,EB-SAE),通过分组按序训练、加权累加各组最优B-SAE子模型,取得稳定的标注结果。具体步骤如下:
S1:先构建SAE模型,接着在SAE模型上判别弱标签样本并添加噪声增加弱标签样本的训练次数,以此构建B-SAE模型;
S2:利用步骤S1得到B-SAE模型对训练图像分组训练子B-SAE模型,加权累加各组最优子模型得到EB-SAE模型,如图1所示;
S3:将未知图像输入到步骤S2得到的EB-SAE模型并输出标注结果。
进一步的,在本实施例中,在步骤S1中按照以下步骤实现构建B-SAE模型:
步骤S11:定义编码器fθ和解码器gθ',编码器fθ将输入图像x转换为隐层表达h,解码器gθ'将h重构为和x维度一致的向量x'。fθ(x)=σ(W·x+b),其中,θ={W,b},W为网络权重,满足W'=WT,b为偏置向量 为激活函数。其中,θ'={W',b'}。
步骤S12:学习一个函数使输出x'=gθ'(fθ(x))和x近似,定义损失函数为L(x,x')=(x-x')2,则该模型可通过最小化损失函数进行学习: &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N L ( x i , g &theta; &prime; ( f &theta; ( x i ) ) ) .
步骤S13:执行前馈过程并用后向传播算法调优,假设用于图像标注的SAE模型有L层,用序号l∈{1,...,L}表示。用hl表示第l层的输出向量(h0=x表示输入,hL表示输出)。Wl和bl表示第l层的网络权重和偏置。根据前面所述,{Wl,bl},l∈{1,...,L}使用AE逐层预训练。SAE的前馈操作可以表述为:hl+1=σ(Wl+1hl+bl+1),l∈{0,...,L-1},整个模型用后向传播算法调优: &theta; * = arg m i n &theta; &Sigma; i = 1 N L ( F &theta; ( x i ) , Y i ) , 其中, F &theta; ( x ) = &sigma; &theta; L ( ... ( &sigma; &theta; 1 ( x ) ) ) 是多个AE模型的合成函数,而θl为参数{Wl,bl},l∈{1,...,L},损失函数定义为L(x,y)=(x-y)2
步骤S14:定义约束变量,令向量C=(c1,c2,...,cM),表示关键词yi在训练集P中出现的次数,表示关键词的平均出现次数。这样,我们可以得到一个向量,表示第i幅图像xi的每个关键词Yi j,j∈{1,2,...,M}在训练集中出现的次数YC,i=C*Yi(*表示两个向量对应点相乘得到一个新向量)。从而得到在图像xi中出现次数最低的关键词为
步骤S15:定义Φ(x)函数,让模型在训练过程中对训练样本进行判断,若样本x,也即输入图像x,包含低频标签的个数多于k个,则对该样本添加适当的噪声。定义Γ(x)函数,对样本x增加训练强度,若该样本所包含标签的出现次数低于一定阈值,则增加它的训练次数,在本实施例中,该阈值一般取 &Pi; = 1 M &Sigma; j = 1 M c j .
&Gamma; ( x i ) = &alpha; &CenterDot; &Pi; &Lambda; x i = &alpha; &CenterDot; 1 M &Sigma; j = 1 M c j arg min j ( Y C , i j ) , &Lambda; x i < = &beta; &CenterDot; &Pi; 1 , O t h e r s ,
其中,α和β为常系数,β用于确定哪些样本需要加重训练,α用于控制需要加重训练的样本的训练强度。
&Phi; ( x i ) = &chi; &CenterDot; ( 1 d &Sigma; j = 1 d x i j ) &CenterDot; R a n ( &CenterDot; ) , &Lambda; x i < = &beta; &CenterDot; &Pi; x i , O t h e r s ,
其中,χ为常系数,用于控制噪声添加的强度,d为图像xi特征的维度,表示图像xi第j个维度的值,Ran(·)为随机数函数,比如,Ran(·)可取服从(0,1)高斯分布的随机函数或取值为0到1的均匀分布的随机函数。
步骤S16:调整优化等式得到B-SAE模型,调整为 &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N { 1 &Gamma; ( x i ) &Sigma; j = 1 &Gamma; ( x i ) L ( &Phi; ( x i ) , g &theta; &prime; ( f &theta; ( &Phi; ( x i ) ) ) ) } , &theta; * = arg m i n &theta; &Sigma; i = 1 N L ( F &theta; ( x i ) , Y i ) 调整为 &theta; * = arg m i n &theta; &Sigma; i = 1 N &Sigma; j = 1 &Gamma; ( x i ) L ( F &theta; ( &Phi; ( x i ) ) , Y i ) , 当模型训练好后,B-SAE的最后一层的输出即为预测图像的关键词的预测分布D。
进一步的,在本实施例中,步骤S2中按照以下步骤实现训练EB-SAE模型:
步骤S21:分组训练子B-SAE模型,B-SAE模型按不同的加噪方式划分不同的组,每一组内根据不同的隐层神经元个数划分子模型t表示模型B-SAE采用第t种加噪方式,k表示第k个子B-SAE模型设置的隐层神经元个数。
步骤S22:设置初始权值并计算子B-SAE模型分类误差率,对训练数据设置权值如下:
W=(w11,...,w1i,...,w1N), w 1 i = 1 N , i = 1 , 2 , ... , N ,
这样,的分类误差率可以这样计算: e k t = &Sigma; i = 1 N w t i &CenterDot; S g n ( B - SAE k t ( x i ) &NotEqual; Y i ) , 其中, S g n ( x ) = 1 , x = t r u e 0 , x = f a l s e , B - SAE k t ( x i ) &NotEqual; Y i 表示的意思为,假设图像xi的真实标签集Yi包含c个关键词,并通过模型预测得到标签集Yi *的个数也为c个,如果Yi=Yi *,则为false,否则为true。
步骤S23:计算B-SAE模型权重并更新训练数据权值,根据组内所有子模型的分类误差率,可以得到该组分类误差率最低的模型B-SAEt和对应的分类误差率et,B-SAEt的权重可这样计算:当第t组的模型训练完后,需要更新训练数据的权值,以便更好的获得下一组模型的权重,更新训练数据权值的方式如下:
Wt+1={wt+1,1,...,wt+1,i,...,wt+1,N}, w t + 1 , i = w t i &CenterDot; e ( - &alpha; t &CenterDot; Y i &CenterDot; B - SAE t ( x i ) ) &Sigma; i = 1 N w t i &CenterDot; e ( - &alpha; t &CenterDot; Y i &CenterDot; B - SAE t ( x i ) ) , i = 1 , 2 , ... , N ,
步骤S24:加权累加子B-SAE模型得到EB-SAE模型,当所有组都训练完后,就可以得到关键词预测分布:
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种基于增强型栈式自动编码器的自动图像标注方法,其特征在于,按照如下步骤实现:
步骤S1:构建栈式自动编码器模型,在所述栈式自动编码器模型上判别弱标签样本,并添加噪声以增加所述弱标签样本的训练次数,进而构建平衡栈式自动编码器模型;
步骤S2:通过所述平衡栈式自动编码器模型对训练图像分组训练子平衡栈式自动编码器模型,加权累加各组最优子模型得到增强平衡栈式自动编码器模型;
步骤S3:将未知图像输入到所述增强平衡栈式自动编码器模型并输出标注结果。
2.根据权利要求1所述的一种基于增强型栈式自动编码器的自动图像标注方法,其特征在于,在所述步骤S1中,还包括如下步骤:
步骤S11:定义编码器fθ和解码器gθ';所述编码器fθ将输入图像x转换为隐层表达h,解码器gθ'将所述隐层表达h重构为与所述输入图像x维度一致的向量x';其中,fθ(x)=σ(W·x+b),θ={W,b},W为网络权重,满足W'=WT,b为偏置向量, &sigma; ( x ) = 1 ( 1 + e ( - x ) ) 为激活函数;θ′={W′,b′};
步骤S12:学习一个函数使输出x'=gθ'(fθ(x))和所述输入图像x近似,且定义损失函数为L(x,x')=(x-x')2,并通过最小化损失函数进行学习: &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N L ( x i , g &theta; &prime; ( f &theta; ( x i ) ) ) ;
步骤S13:记用于图像标注的SAE模型有L层,并用序号l∈{1,...,L}表示;用hl表示第l层的输出向量,Wl和bl表示第l层的网络权重和偏置,通过自动编码器对{Wl,bl},l∈{1,...,L}逐层预训练;
步骤S14:执行前馈过程并用后向传播算法调优;所述栈式自动编码器模型的前馈操作表述为:hl+1=σ(Wl+1hl+bl+1),l∈{0,...,L-1};所述栈式自动编码器模型的后向传播算法调优表述为:其中,是多个自动编码器模型的合成函数,而θl为参数{Wl,bl},l∈{1,...,L},损失函数为L(x,y)=(x-y)2
步骤S15:定义约束变量,令向量C=(c1,c2,...,cM),表示关键词yi在训练集P中出现的次数,表示关键词的平均出现次数;向量C=(c1,c2,...,cM)表示第i幅图像xi的每个关键词Yi j,j∈{1,2,...,M}在训练集中出现的次数YC,i=C*Yi;从而得到在图像xi中出现次数最低的关键词为 &Lambda; x i = arg m i n j ( Y C , i j ) ;
步骤S16:定义Φ(x)函数,所述栈式自动编码器模型在训练过程中对训练样本进行判断,若输入图像x包含低频标签的个数多于k个,则对该输入图像x添加适当的噪声;定义Γ(x)函数,对输入图像x增加训练强度,若该输入图像x所包含标签的出现次数低于预设阈值,则增加训练次数,其中,函数Γ(x)为:
&Gamma; ( x i ) = &alpha; &CenterDot; &Pi; &Lambda; x i = &alpha; &CenterDot; 1 M &Sigma; j = 1 M c j arg min j ( Y C , i j ) , &Lambda; x i < = &beta; &CenterDot; &Pi; 1 , O t h e r s ,
其中,α和β为常系数,β用于确定需要加重训练的样本,α用于控制需要加重训练的样本的训练强度;
函数Φ(x)为:
&Phi; ( x i ) = &chi; &CenterDot; ( 1 d &Sigma; j = 1 d x i j ) &CenterDot; R a n ( &CenterDot; ) , &Lambda; x i < = &beta; &CenterDot; &Pi; x i , O t h e r s ,
其中,χ为常系数,用于控制噪声添加的强度,d为图像xi特征的维度,表示图像xi第j个维度的值,Ran(·)为随机数函数;
步骤S17:调整优化等式得到平衡栈式自动编码器模型模型;将 &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N L ( x i , g &theta; &prime; ( f &theta; ( x i ) ) ) 调整为 &theta; * , &theta; &prime; * = arg min &theta; , &theta; &prime; 1 N &Sigma; i = 1 N { 1 &Gamma; ( x i ) &Sigma; j = 1 &Gamma; ( x i ) L ( &Phi; ( x i ) , g &theta; &prime; ( f &theta; ( &Phi; ( x i ) ) ) ) } , &theta; * = arg m i n &theta; &Sigma; i = 1 N L ( F &theta; ( x i ) , Y i ) 调整为 &theta; * = arg min &theta; &Sigma; i = 1 N &Sigma; j = 1 &Gamma; ( x i ) L ( F &theta; ( &Phi; ( x i ) ) , Y i ) , 当模型训练好后,所述平衡栈式自动编码器模型的最后一层的输出即为预测图像的关键词的预测分布D。
3.根据权利要求1所述的一种基于增强型栈式自动编码器的自动图像标注方法,其特征在于,在所述步骤S2中,还包括如下步骤:
步骤S21:分组训练子平衡栈式自动编码器模型模型,将平衡栈式自动编码器模型模型按不同的加噪方式划分不同的组,每一组内根据不同的隐层神经元个数划分子模型t表示平衡栈式自动编码器模型模型采用第t种加噪方式,k表示第k个子B-SAE模型设置的隐层神经元个数;
步骤S22:设置初始权值并计算子平衡栈式自动编码器模型模型模型分类误差率,对训练数据设置权值如下:
W = ( w 11 , ... , w 1 i , ... , w 1 N ) , w 1 i = 1 N , i = 1 , 2 , ... , N ,
计算的分类误差率: e k t = &Sigma; i = 1 N w t i &CenterDot; S g n ( B - SAE k t ( x i ) &NotEqual; Y i ) , 其中, S g n ( x ) = 1 , x = t r u e 0 , x = f a l s e , 表示:假设图像xi的真实标签集Yi包含c个关键词,并通过模型预测得到标签集Yi *的个数也为c个,如果Yi=Yi *,则为false,否则为true;
步骤S23:计算平衡栈式自动编码器模型模型权重,并更新训练数据权值;根据组内所有子模型的分类误差率,可以得到该组分类误差率最低的模型B-SAEt以及对应的分类误差率et,计算B-SAEt的权重:当第t组的模型训练完后,更新训练数据的权值,以获得下一组模型的权重,更新训练数据权值的方式如下:
W t + 1 = { w t + 1 , 1 , ... , w t + 1 , i , ... , w t + 1 , N } , w t + 1 , i = w t i &CenterDot; e ( - &alpha; t &CenterDot; Y i &CenterDot; B - SAE t ( x i ) ) &Sigma; i = 1 N w t i &CenterDot; e ( - &alpha; t &CenterDot; Y i &CenterDot; B - SAE t ( x i ) ) , i = 1 , 2 , ... , N , ;
步骤S24:加权累加子平衡栈式自动编码器模型模型得到增强平衡栈式自动编码器模型,当所有组都训练完后,即得到关键词预测分布: D = &Sigma; t = 1 T &alpha; t &CenterDot; B _ SAE t ( x ) .
CN201610035975.7A 2016-01-20 2016-01-20 一种基于增强型栈式自动编码器的自动图像标注方法 Active CN105678340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610035975.7A CN105678340B (zh) 2016-01-20 2016-01-20 一种基于增强型栈式自动编码器的自动图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610035975.7A CN105678340B (zh) 2016-01-20 2016-01-20 一种基于增强型栈式自动编码器的自动图像标注方法

Publications (2)

Publication Number Publication Date
CN105678340A true CN105678340A (zh) 2016-06-15
CN105678340B CN105678340B (zh) 2018-12-25

Family

ID=56301673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610035975.7A Active CN105678340B (zh) 2016-01-20 2016-01-20 一种基于增强型栈式自动编码器的自动图像标注方法

Country Status (1)

Country Link
CN (1) CN105678340B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN109271539A (zh) * 2018-08-31 2019-01-25 华中科技大学 一种基于深度学习的图像自动标注方法及装置
CN111914617A (zh) * 2020-06-10 2020-11-10 华南理工大学 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158830A1 (en) * 2000-04-11 2003-08-21 Adam Kowalczyk Gradient based training method for a support vector machine
CN104156736A (zh) * 2014-09-05 2014-11-19 西安电子科技大学 基于sae和idl的极化sar图像分类方法
CN104166859A (zh) * 2014-08-13 2014-11-26 西安电子科技大学 基于ssae和fsals-svm极化sar图像分类
CN104679863A (zh) * 2015-02-28 2015-06-03 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和***
CN105184303A (zh) * 2015-04-23 2015-12-23 南京邮电大学 一种基于多模态深度学习的图像标注方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158830A1 (en) * 2000-04-11 2003-08-21 Adam Kowalczyk Gradient based training method for a support vector machine
CN104166859A (zh) * 2014-08-13 2014-11-26 西安电子科技大学 基于ssae和fsals-svm极化sar图像分类
CN104156736A (zh) * 2014-09-05 2014-11-19 西安电子科技大学 基于sae和idl的极化sar图像分类方法
CN104679863A (zh) * 2015-02-28 2015-06-03 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和***
CN105184303A (zh) * 2015-04-23 2015-12-23 南京邮电大学 一种基于多模态深度学习的图像标注方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN106250915B (zh) * 2016-07-22 2019-08-09 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN109271539A (zh) * 2018-08-31 2019-01-25 华中科技大学 一种基于深度学习的图像自动标注方法及装置
CN111914617A (zh) * 2020-06-10 2020-11-10 华南理工大学 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN111914617B (zh) * 2020-06-10 2024-05-07 华南理工大学 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法
CN114035098A (zh) * 2021-12-14 2022-02-11 北京航空航天大学 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法

Also Published As

Publication number Publication date
CN105678340B (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
US11868724B2 (en) Generating author vectors
CN111563143B (zh) 一种新词的确定方法及装置
CN105930411A (zh) 一种分类器训练方法、分类器和情感分类***
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN111460157B (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN103400144B (zh) 一种基于k近邻的支持向量机主动学习的方法
CN105678340A (zh) 一种基于增强型栈式自动编码器的自动图像标注方法
CN109783794A (zh) 文本分类方法及装置
CN109446420B (zh) 一种跨域协同过滤方法和***
CN106815310A (zh) 一种对海量文档集的层次聚类方法及***
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN107526805B (zh) 一种基于权重的ML-kNN多标签中文文本分类方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、***、终端及介质
CN105701516B (zh) 一种基于属性判别的自动图像标注方法
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
AbdulHussien Comparison of machine learning algorithms to classify web pages
Guan et al. Hierarchical neural network for online news popularity prediction
CN110309515B (zh) 实体识别方法及装置
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
Tian et al. Deep incremental hashing for semantic image retrieval with concept drift
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant