CN104021224A - 基于逐层标签融合深度网络的图像标注方法 - Google Patents

基于逐层标签融合深度网络的图像标注方法 Download PDF

Info

Publication number
CN104021224A
CN104021224A CN201410290316.9A CN201410290316A CN104021224A CN 104021224 A CN104021224 A CN 104021224A CN 201410290316 A CN201410290316 A CN 201410290316A CN 104021224 A CN104021224 A CN 104021224A
Authority
CN
China
Prior art keywords
layer
label
degree
depth network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410290316.9A
Other languages
English (en)
Inventor
徐常胜
袁召全
桑基韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410290316.9A priority Critical patent/CN104021224A/zh
Publication of CN104021224A publication Critical patent/CN104021224A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于逐层标签融合深度网络的图像标注方法,该方法包括以下步骤:对于训练集中的训练图像,提取其底层视觉特征;对于训练图像的标签进行层级化,构建标签的层级结构;对于训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到训练图像的层级特征表示;对于测试集中的测试图像,提取其底层视觉特征,然后通过深度网络学习得到其层级特征表示,最后根据测试图像的层级特征表示预测其标注信息本发明所述的图像标注方法属于一种层级的标注,比传统的标注方法更加精确。

Description

基于逐层标签融合深度网络的图像标注方法
技术领域
本发明涉及社交网络图像标注技术领域,尤其涉及一种基于逐层标签融合深度网络的图像标注方法。
背景技术
近年来,随着社交媒体的不断发展,社交平台上的图像数量呈***式增长,如何对海量的社交图像进行标注成为网络多媒体领域重要的研究内容。
目前主流的图像标注方法主要集中在基于视觉信息的方法,该类方法首先进行底层特征提取,然后利用机器学习模型来对基于特征表示的图像进行分类。该类方法在一定程度上取得了较好的效果,然而由于仅利用视觉信息而忽视了其上下文的文本信息,其效果仍不够理想。
图像标注的核心在于利用图像相关的信息(包括视觉,上下文文本标签信息等)进行图像内容的理解,融合图像的标签信息和视觉信息,得到更加有表达能力的图像特征,对图像标注,特别是社交图像有重要的促进作用。然而,视觉特征和文本标签信息的异构性,给两类信息的融合带来了挑战,本发明提出的基于逐层标签融合深度网络的图像标注方法逐层地融合两类信息,解决了异构信息融合的难题,对于社交图像标注有着重要的作用。
发明内容
为了解决现有技术中存在的上述问题,本发明提出了一种基于逐层标签融合深度网络的图像标注方法。
本发明提出的一种基于逐层标签融合深度网络的图像标注方法包括以下步骤:
步骤1、对于训练集中的训练图像,提取其底层视觉特征X;
步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构;
步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征表示;
步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。
互联网图像标注在很多重要的相关领域已经有了广泛的应用。由于视觉顶层信息与高层语义之间的语义鸿沟的存在,基于视觉的图像标注是一个具有挑战性的难题。本发明提出的上述基于逐层标签融合深度网络的图像标注的方法能够自动对社交图像进行标注,另外本发明层级的标注方法比传统的标注方法更加精确。
附图说明
图1是根据本发明一实施例的基于逐层标签融合深度网络的图像标注方法的流程图;
图2是标签层级示例图;
图3是根据本发明一实施例的逐层特征融合深度网络的模型结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所提出的方法所涉及的相关数据集包括:1)训练集,其中包括图像以及该图像所对应的社交标签;2)测试集,仅包括待标注的测试图像,而没有标签信息。
考虑到图像底层视觉信息和社交标签信息的异构性,本发明提出了一种基于逐层标签融合深度网络的图像标注方法。该方法的核心思想是在深度网络的框架下,逐层地进行标签信息和视觉信息的融合,从而学习图像的层级特征,为图像的标注提供特征表示。
图1示出了本发明提出的基于逐层标签融合深度网络的图像标注方法流程图,如图1所示,所述方法包括:
步骤1、对于训练集中的训练图像,提取其底层视觉特征;
步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构;
步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征表示;
步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。
下面详细介绍上述四个步骤的具体执行过程。
步骤1中,对象的底层视觉特征提取是得到对象的初始表示,对于图像信息,本发明优选采用尺度不变特征变换特征(SIFT)(比如1000维)作为图像的底层视觉特征,图像的底层视觉特征用X来表示。
步骤2中,利用一些可以用的工具,本发明优选WordNet,对于图像的社交标签构建层数为K的标签层级。比如:若某图像带有标签animal,plant,cat,dog,flower,则对应的标签层级如图2所示(此处层数为2)。
所述步骤3为对于训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征。
步骤3中,构建层数为L(L>K)的深度网络,并使标签层级结构的K层对应深度网络的最高层。设深度网络各层的变量表示为h={h(0),...,h(L)},其中,h(0)表示图像的底层视觉特征X;K层的标签层级结构对应的各个层的变量表示为y={y(L-K+1),...,y(L)}。
该步骤是本发明的重要部分,图3是根据本发明一实施例的逐层特征融合深度网络的模型结构图,参照图3,所述步骤3可以分为以下几个子步骤:
步骤3.1:通过构建自编码器(auto-encoder),基于重构误差对于深度网络中从h(0)层到h(L-K+1)层的参数进行初步调整;
所述步骤3.1进一步包括以下步骤:
步骤3.1.1:从h(0)层向上到h(L-K+1)层,在每相邻两层之间构建一个自编码器,通过所述自编码器可由下一层的表示得到上一层表示的映射;
比如,基于h(l-1)和h(l)层之间的自编码器,由h(l-1)层的表示可映射得到h(l)层的表示:
h ( 1 ) = s ( W h ( l - 1 ) h ( l - 1 ) + b ( l ) ) - - - ( 1 )
其中,表示h(l-1)和h(l)层之间的权重参数,b(l)表示h(l)层的偏置(bias)参数,s()表示logistic函数:
这样由h(l-1)层的表示通过映射就可得到h(l)层的表示。
步骤3.1.2:由上一层表示映射回来得到下一层的重构表示;
比如,由h(l)的表示映射回来可得到h(l-1)的重构表示z:
z = s ( W h ′ ( l - 1 ) h ( l ) + b ′ ) - - - ( 2 )
其中,的转置表示,b′表示h(l-1)的偏置(bias)参数。
步骤3.1.3:根据正确表示与重构表示之间的差错,对于所述深度网络的参数进行调整。
比如通过最小化z与h(l-1)层表示之间的重构差错就可实现对于所述深度网络参数的初步调整,在本发明一实施例中,优选使用最小化重构交叉熵来对上述参数进行初步调整:
其中,k表示z的分量的下标,D(l-1)表示z的维数。
如此进行下去,一直调整到h(L-K+1)层。
步骤3.2:对于所述深度网络中的h(L-K+1)层到最高h(L)层,结合深度网络中的某一层,比如h(l)层和标签层级结构中的相应层,比如u(l)层,进行特征融合以及所述深度网络中相应参数的调整;
该步骤又可以分为两个子步骤:(以h(l)为例)
步骤3.2.1:利用所述标签层级结构中的y(l)层标签调整所述深度网络中从h(0)到h(l)层的参数;
该步骤中,首先计算交叉熵损失:
Loss ( { W , b } ) = - Σ n = 1 N Σ k = 1 K t nk ln y nk - - - ( 4 )
其中,N表示样本的数目,K表示该层的标签的个数,ynt表示模型对第n个样本的预测的第k维的值,tnk表示训练样本中第n个样本的第k维的真实的值。
然后将该损失反过来对深度网络从h(0)到h(l)层进行参数调整,在本发明一实施例中,采用著名的后向传播算法进行全局参数调整。
步骤3.2.2:通过h(l)层和y(l)层表示合并学习得到h(l+1)层的特征表示;
该步骤中,将h(l)层和y(l)层的表示合并起来,与h(l+1)层的表示构成一个自编码器(auto-encoder):
h ( l + 1 ) = s ( W h ( l ) h ( l ) + W y ( l ) y ( l ) + b ( l + 1 ) ) - - - ( 5 )
同样,h(l),y(l)和h(l+1)之间的参数通过最小化重构交叉熵来优化。
如此进行下去,一直到h(L)层。
通过上述逐层的特征融合,就可以将图像的标签信息融合到视觉信息中,同时深度网络的参数也得到了优化。
步骤4中,利用参数已经优化的深度网络,对于测试集中的测试图像进行标注。
所述步骤4进一步分为以下几个子步骤:
步骤4.1:对于测试图像提取其底层视觉特征Xtest,该步骤与步骤1中对训练集中的训练图像提取底层视觉特征的方法类似;
步骤4.2:利用优化参数后的深度网络,得到所述测试图像底层视觉特征Xtest的层级特征表示{h(L-K+1),...,h(L)};
步骤4.3:利用该层级特征表示预测所述测试图像的标签信息{h(L-K+1),...,h(L)}:
y i ( l ) = exp ( W i T h i ( l ) ) Σ j exp ( W j T h j ( l ) ) - - - ( 6 )
其中,Wi表示标签与特征h(l)之间的权重。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于逐层标签融合深度网络的图像标注方法,其特征在于,该方法包括以下步骤:
步骤1、对于训练集中的训练图像,提取其底层视觉特征X;
步骤2、对于所述训练图像的标签进行层级化,构建标签的层级结构;
步骤3、对于所述训练图像,逐层融合其底层视觉特征信息和标签信息,并通过深度网络参数学习,得到所述训练图像的层级特征表示;
步骤4、对于测试集中的测试图像,提取其底层视觉特征,然后通过所述深度网络学习得到其层级特征表示,最后根据所述测试图像的层级特征表示预测其标注信息。
2.根据权利要求1所述的方法,其特征在于,所述训练图像的底层视觉特征为其尺度不变特征变换特征。
3.根据权利要求1所述的方法,其特征在于,所述深度网络的层数为L,标签层级结构的层数为K,其中,L>K,所述深度网络各层的变量表示为h={h(0),...,h(L)},其中,h(0)表示图像的底层视觉特征X;所述标签层级结构对应各层的变量表示为y={y(L-K+1),...,y(L)}。
4.根据权利要求3所述的方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1:通过构建自编码器,基于重构误差对于深度网络中从h(0)层到h(L-K+1)层的参数进行初步调整;
步骤3.2:对于所述深度网络中的h(L-K+1)层到最高h(L)层,结合深度网络中的某一层,比如h(l)层和标签层级结构中的相应层,比如y(l)层,进行特征融合以及所述深度网络中相应参数的调整。
5.根据权利要求4所述的方法,其特征在于,所述步骤3.1进一步包括以下步骤:
步骤3.1.1:从h(0)层向上到h(L-K+1)层,在每相邻两层之间构建一个自编码器,通过所述自编码器可由下一层的表示得到上一层表示的映射;
步骤3.1.2:由上一层表示映射回来得到下一层的重构表示;
步骤3.1.3:根据正确表示与重构表示之间的差错,对于所述深度网络的参数进行调整,直到h(L-K+1)层。
6.根据权利要求5所述的方法,其特征在于,所述步骤3.1.3中,使用最小化重构交叉熵来对所述深度网络的参数进行调整。
7.根据权利要求4所述的方法,其特征在于,所述步骤3.2进一步包括以下步骤:
步骤3.2.1:利用所述标签层级结构中的某一层y(l)标签调整所述深度网络中从h(0)到h(l)层的参数;
步骤3.2.2:通过h(l)层和y(l)层表示合并学习得到h(l+1)层的特征表示,并对所述深度网络的相应参数进行调整,直至h(L)层。
8.根据权利要求7所述的方法,其特征在于,所述步骤3.2.1和步骤3.2.2中,基于交叉熵损失,利用后向传播算法对于所述深度网络进行参数调整。
9.根据权利要求7所述的方法,其特征在于,所述步骤3.2.2中,将h(l)层和y(l)层的表示合并起来,与h(l+1)层的表示构成一个自编码器。
10.根据权利要求1所述的方法,其特征在于,所述步骤4进一步包括以下步骤:
步骤4.1:对于测试图像提取其底层视觉特征;
步骤4.2:利用所述深度网络,得到所述测试图像底层视觉特征的层级特征表示;
步骤4.3:利用所述测试图像的层级特征表示预测所述测试图像的标签信息。
CN201410290316.9A 2014-06-25 2014-06-25 基于逐层标签融合深度网络的图像标注方法 Pending CN104021224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410290316.9A CN104021224A (zh) 2014-06-25 2014-06-25 基于逐层标签融合深度网络的图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410290316.9A CN104021224A (zh) 2014-06-25 2014-06-25 基于逐层标签融合深度网络的图像标注方法

Publications (1)

Publication Number Publication Date
CN104021224A true CN104021224A (zh) 2014-09-03

Family

ID=51437978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410290316.9A Pending CN104021224A (zh) 2014-06-25 2014-06-25 基于逐层标签融合深度网络的图像标注方法

Country Status (1)

Country Link
CN (1) CN104021224A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572940A (zh) * 2014-12-30 2015-04-29 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法
CN105631479A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN106570910A (zh) * 2016-11-02 2017-04-19 南阳理工学院 基于自编码特征和近邻模型的图像自动标注方法
CN108595558A (zh) * 2018-04-12 2018-09-28 福建工程学院 一种数据均衡策略和多特征融合的图像标注方法
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、***及存储介质
CN109271539A (zh) * 2018-08-31 2019-01-25 华中科技大学 一种基于深度学习的图像自动标注方法及装置
WO2020073952A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的图像集的建立方法、装置、网络设备和存储介质
CN111583321A (zh) * 2019-02-19 2020-08-25 富士通株式会社 图像处理装置、方法及介质
CN112331314A (zh) * 2020-11-25 2021-02-05 中山大学附属第六医院 一种图像标注方法、装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233159A1 (en) * 2011-03-10 2012-09-13 International Business Machines Corporation Hierarchical ranking of facial attributes
CN103544392A (zh) * 2013-10-23 2014-01-29 电子科技大学 基于深度学习的医学气体识别方法
CN103593474A (zh) * 2013-11-28 2014-02-19 中国科学院自动化研究所 基于深度学习的图像检索排序方法
CN103823845A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于深度学习的遥感影像自动标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120233159A1 (en) * 2011-03-10 2012-09-13 International Business Machines Corporation Hierarchical ranking of facial attributes
CN103544392A (zh) * 2013-10-23 2014-01-29 电子科技大学 基于深度学习的医学气体识别方法
CN103593474A (zh) * 2013-11-28 2014-02-19 中国科学院自动化研究所 基于深度学习的图像检索排序方法
CN103823845A (zh) * 2014-01-28 2014-05-28 浙江大学 一种基于深度学习的遥感影像自动标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHAOQUAN YUAN ET AL: "tag-aware image classification via nested deep belief nets", 《IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572940B (zh) * 2014-12-30 2017-11-21 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法
CN104572940A (zh) * 2014-12-30 2015-04-29 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法
CN105631479A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN105631479B (zh) * 2015-12-30 2019-05-17 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN106570910A (zh) * 2016-11-02 2017-04-19 南阳理工学院 基于自编码特征和近邻模型的图像自动标注方法
CN106570910B (zh) * 2016-11-02 2019-08-20 南阳理工学院 基于自编码特征和近邻模型的图像自动标注方法
CN108595558B (zh) * 2018-04-12 2022-03-15 福建工程学院 一种数据均衡策略和多特征融合的图像标注方法
CN108595558A (zh) * 2018-04-12 2018-09-28 福建工程学院 一种数据均衡策略和多特征融合的图像标注方法
CN108875934A (zh) * 2018-05-28 2018-11-23 北京旷视科技有限公司 一种神经网络的训练方法、装置、***及存储介质
CN109271539A (zh) * 2018-08-31 2019-01-25 华中科技大学 一种基于深度学习的图像自动标注方法及装置
WO2020073952A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的图像集的建立方法、装置、网络设备和存储介质
US11853352B2 (en) 2018-10-10 2023-12-26 Tencent Technology (Shenzhen) Company Limited Method and apparatus for establishing image set for image recognition, network device, and storage medium
CN111583321A (zh) * 2019-02-19 2020-08-25 富士通株式会社 图像处理装置、方法及介质
CN112331314A (zh) * 2020-11-25 2021-02-05 中山大学附属第六医院 一种图像标注方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN104021224A (zh) 基于逐层标签融合深度网络的图像标注方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN103886046B (zh) 一种面向Web数据交换的自动语义抽取的方法
CN109493265A (zh) 一种基于深度学习的政策解读方法及政策解读***
CN101866337A (zh) 词性标注***、用于训练词性标注模型的装置及其方法
CN109359297A (zh) 一种关系抽取方法及***
CN105488522B (zh) 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
CN106708802A (zh) 一种信息推荐的方法及***
CN107679221A (zh) 面向减灾任务的时空数据获取与服务组合方案生成方法
CN108932322A (zh) 一种基于文本大数据的地理语义挖掘方法
CN110110092A (zh) 一种知识图谱构建方法及相关设备
CN104484347B (zh) 一种基于地理信息的层次化视觉特征提取方法
CN103942274B (zh) 一种基于lda的生物医疗图像的标注***及方法
CN107045532A (zh) 时空地理空间可视化的分析方法
CN116611131B (zh) 一种包装图形自动生成方法、装置、介质及设备
CN110515931A (zh) 一种基于随机森林算法的电容型设备缺陷预测方法
CN103440352A (zh) 基于深度学习的对象间的关联分析方法及其装置
CN102521227A (zh) 基于用户信息建模的图像标注增强方法
CN106156315A (zh) 一种基于分类模型判断的数据质量监控方法
CN109684977A (zh) 一种基于端到端深度学习的视图地标检索方法
CN113254652A (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN104008177A (zh) 面向图像语义标注的规则库结构优化与生成方法及***
Douglas et al. Companion encyclopedia of geography: From the local to the global
CN103218460A (zh) 基于最优线性稀疏重构的图像标签补全方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140903