CN104572940B

CN104572940B - 一种基于深度学习与典型相关分析的图像自动标注方法

Info

Publication number: CN104572940B
Application number: CN201410843484.6A
Authority: CN
Inventors: 张立民; 刘凯; 邓向阳; 孙永威; 张建廷
Original assignee: Naval Aeronautical Engineering Institute of PLA
Current assignee: Naval Aeronautical University
Priority date: 2014-12-30
Filing date: 2014-12-30
Publication date: 2017-11-21
Anticipated expiration: 2034-12-30
Also published as: CN104572940A

Abstract

本发明公开了一种基于深度学***均场估计生成图像标注词汇。该方法的深度玻尔兹曼机由I‑DBM和T‑DBM组成，分别用于提取图像与标注词汇的高层特征向量，两种模型由下自上依次包括可见层、第一隐单元层和第二隐单元层。该方法能够有效解决图像语义标注过程中的“语义鸿沟”问题，提高标注的准确率。

Description

一种基于深度学习与典型相关分析的图像自动标注方法

技术领域

本发明涉及图像自动标注与检索技术，特别涉及一种基于深度学习与典型相关分析的图像自动标注方法。

背景技术

随着图像数据呈现出几何级数的增长，如何对这些图像数据进行有效管理与检索成为了信息化建设中的研究热点。虽然目前基于内容的图像检索技术已经有了长足的发展，并且也有了多种民用的原型、技术和检索产品，但由于最主要问题—“语义鸿沟”没有根本突破，导致其检索效果和方式依然不够理想。为克服这些问题，最好的解决方案是向图像添加与图像内容相关的文本语义信息，即图像标注。鉴于人工标注存在着主观性强、标注效率低等问题，自动图像标注逐渐成为了图像标注领域的研究热点。

成熟的深度学习模型首先开始于2002年Hinton等人提出的深度信念网络，该模型通过多层特征提取机制实现了数据信息的抽象表达。作为强大的概率生成模型，深度学习模型不断发展，先后出现了深度波尔兹曼机、深度自动编码器等多种形式，而且成功应用于语音识别、网络态势感知以及高维时间序列建模等领域。在图像处理方面，Google的Google Brain使用深度神经网络在图像识别上取得巨大的成功，已经可以实现部分人脑功能的模拟；在大规模目标识别上，基于深度学习模型的5层卷积网络在2012年的ImageNet测评中得到了最高准确率；在图像标注和分类上，Srivastava等人通过构建多模态深度波尔兹曼机也同样取得了较好的成绩。作为2013年十大突破技术之首，深度学习模型在机器学习领域展示出了强大的生命力和巨大的能量。

目前，基于深度学习模型对图像生成标注词汇已经取得了较好的效果。多模态深度玻尔兹曼机较好地解决了图像与文本的多模态学习问题，并在图像检索和标注进行了应用。从实验结果来看，相较于其他深度学习模型，该模型效果较好，但是与经典的自动图像标注算法相比仍然存在差距，原因在于词汇模型和顶层特征融合机制不适合于自动图像标注任务。针对这两个问题，结合经典图像自动标注算法思路，提出基于深度玻尔兹曼机与典型相关分析的自动图像标注方法，采用能够较好处理图像特征和生成高层抽象语义概念的深度玻尔兹曼机模型，结合典型相关分析，设计图像自动标注模型，能够有效提高大规模图像的管理、检索效率，并加快图像信息的处理速度，具有很好的应用前景以及重要的实用、经济效益。

发明内容

针对现有技术的不足，本发明提供了一种能够克服图像语义标注的“语义鸿沟”问题，实现较为准确的语义标注的基于深度学习与典型相关分析的图像自动标注方法。

一种基于深度学习与典型相关分析的图像自动方法，包括：

(1)构建模型训练数据集；

(2)提取待标注图像的底层特征向量构建得到相应图像的视觉特征向量；

(3)将所述的视觉特征向量输入训练好的深度玻尔兹曼机模型I-DBM得到相应的图像高层特征向量；

(4)将所述的图像高层特征向量投影到建立好的典型变量空间内，查找与之相邻的模型标注数据集的图像，并生成标注词汇高层特征向量；

(5)将所述的标注词汇高层特征向量输入训练好的深度玻尔兹曼机模型T-DBM得到相应的标注词汇。

所述步骤(1)的模型训练数据集通过以下步骤得到：

(S11)创建包含若干个文本标注词汇的标注词典；

(S12)根据标注词典选择相应类别的已标注的图像作为模型训练数据集；

所述步骤(3)中训练好的深度玻尔兹曼机I-DBM通过以下步骤得到：

(S31)提取训练数据集中每幅图像的底层特征向量构成得到相应图像的视觉特征向量，并根据标注词典和标注词汇确定每幅图像的标注词汇特征向量；

(S32)构建深度玻尔兹曼机模型I-DBM，所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐单元层、第二隐单元层，各层中的任意两个节点无连接，相邻层之间的任意两个节点双向连接；

(S33)利用模型训练数据集中所有图像的视觉特征向量对所述的深度玻尔兹曼机模型进行训练，得到训练好的深度玻尔兹曼机模型。

所述步骤(4)中建立好的典型变量空间通过以下步骤得到：

(S41)提取训练数据集中所有图像的I-DBM高层特征向量；

(S42)提取训练集中所有图像对应的标注词的T-DBM高层特征向量；

(S43)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析，得到投影矩阵。

所述步骤(5)中训练好的深度玻尔兹曼机T-DBM通过以下步骤得到：

(S51)根据标注词典和标注词汇确定每幅图像的标注词汇特征向量；

(S52)构建深度玻尔兹曼机模型T-DBM，所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐单元层、第二隐单元层，各层中的任意两个节点无连接，相邻层之间的任意两个节点双向连接；

(S53)利用模型训练数据集中所有图像的标注词汇特征向量对所述的深度玻尔兹曼机模型进行训练，得到训练好的深度玻尔兹曼机模型。

本发明的基于深度学习与典型相关分析的图像自动标注方法中首先提取待标注图像的底层特征，并根据所有的底层特征构建得到图像的视觉特征向量，然后直接将视觉特征向量作为深度玻尔兹曼机模型 I-DBM的可见层输入，将I-DBM的第二隐单元层状态作为高层特征向量，将其投影到典型变量空间内，查找距离马氏距离最近的前N个图像，依据距离加权生成新的深度玻尔兹曼机T-DBM第二隐单元层状态，最后由T-DBM生成新的标注词汇向量作为图像的标注词汇。

在深度玻尔兹曼机模型中，高层语义由底层特征抽象得到，由于底层特征很难过渡到高层语义，因此会产生“语义鸿沟”。鉴于实际应用中隐单元层层数过多会导致训练速度过慢，因此，本发明所使用的深度玻尔兹曼机模型中包含两个隐单元层(分别为第一隐单元层和第二隐单元层)，设置两个隐单元层提高深度玻尔兹曼机的中间抽象能力，跨越图像语义标注过程中的“语义鸿沟”，提高标注准确率。

所述步骤(S51)中的文本特征向量为一个0-1向量(即向量中所有元素只能为0或1)，所述的文本特征向量根据以下步骤确定各个图像的标注词汇特征向量：

(S51-1)初始化一个全零向量，使每一维对应的一个标注词汇；

(S51-2)根据图像的标注词，将对应维数的元素赋值为1，即得到该图像的标注词汇向量。

所述步骤构建的深度玻尔兹曼机模型，各层中的任意两个节点无连接，相邻层之间的任意两个节点之双向连接。

所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，所述步骤(S33)(S53)中的深度玻尔兹曼机模型的训练过程如下：

(S53-1)以视觉特征向量或者标注词汇特征向量作为可见层；

(S53-2)将可见层和第一隐单元层作为受限玻尔兹曼机，以视觉特征向量作为可见层的输入，使用对比散度算法对该受限玻尔兹曼机进行训练得到可见层和第一隐单元层之间的连接权值以及第一隐单元层的最终状态；

(S53-3)将第一隐单元层和第二隐单元层作为受限玻尔兹曼机，以第一隐单元层的最终状态作为第一隐单元层的最终状态作为第一隐单元层的输入，使用对比散度算法对该受限玻尔兹曼机进行训练得到第一隐单元层和第二隐单元层之间的连接权值和第二隐单元层的最终状态。

所述步骤(S43)中的典型相关分析过程如下：

(S43-1)将所述的I-DBM高层特征向量与T-DBM高层特征向量标准化，计算协差阵；

(S43-2)计算协差阵的特征值和特征向量，进行排序并且判断是否相等；

(S43-3)将特征值按照从大到小的排序，并依照此顺序对特征向量进行排序；

(S43-4)将特征向量作为矩阵的行向量，得到典型相关分析结果。

所述I-DBM模型可见层节点个数与视觉特征向量的维数相同。

在识别和训练过程中，均以视觉特征向量作为I-DBM可见层的输入，因此I-DBM可见层的各个节点必须与视觉特征向量中每一维的元素相互对应，则I-DBM可见层的节点个数与视觉特征向量的维数相同。

所述T-DBM模型可见层节点个数与标注词典内词汇数目相同。

在识别和训练过程中，均以图像的标注词汇向量作为T-DBM可见层的输入，因此T-DBM可见层的各个节点必须与标注词典内词汇相互对应，则T-DBM可见层的节点个数与标注词典内词汇数目相同。

所述I-DBM的第一隐单元层与第二隐单元层节点个数依据经验设定，通常为400～500，在实际应用中可以根据实验效果进行调整。

所述的图像底层特征向量包括所述的底层特征向量包括颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。

所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，基于SIFT特征的视觉词袋向量通过以下步骤得到：

(a)计算得到所述模型训练数据集中所有图像的SIFT特征向量；

(b)对所有的SIFT特征向量进行聚类得到500个聚类中心；

(c)以各个聚类中心作为视觉单词，统计每幅图像的SIFT特征向量中各个视觉单词出现次数并形成基于SIFT的特征的视觉词袋向量。

具体实施方式

以下结合具体实例对本发明作进一步的详细说明。

一种基于深度学习与典型相关分析的图像自动标注方法，包括：

(1)提取待标注图像的底层特征向量构建得到相应图像的视觉特征向量；

本实施中底层特征向量包括颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。

基于SIFT特征的视觉词袋向量通过以下步骤提取得到：

(a)计算得到所述模型训练数据集中所有图像的SIFT特征向量；

(b)对所有的SIFT特征向量进行聚类得到500个聚类中心；

(c)以各个聚类中心作为视觉单词，统计每幅图像的SIFT特征向量中各个视觉单词的出现次数并形成相应图像的基于SIFT特征的视觉词袋向量，视觉词袋向量的维数等于500(等于聚类中心的个数)，视觉词袋向量中各个元素分别为相应图像的所有SIFT特征向量中不同视觉单词出现的次数。

(2)将待标注图像的视觉特征向量输入训练好的深度玻尔兹曼机模型I-DBM得到相应的图像高层特征向量；

本实例中步骤(2)中所使用的训练好的深度玻尔兹曼机模型通过以下步骤得到：

(S21)提取训练数据集中每幅图像的底层特征向量构成得到相应图像的视觉特征向量；

(S22)构建深度玻尔兹曼机模型I-DBM，所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐单元层、第二隐单元层，各层中的任意两个节点无连接，相邻层之间的任意两个节点双向连接；

(S23)利用模型训练数据集中所有图像的视觉特征向量对所述的深度玻尔兹曼机模型进行训练，得到训练好的深度玻尔兹曼机模型

(3)将所述的图像高层特征投影到建立好的典型变量空间内，查找与之相邻的模型标注数据集的图像，并生成标注词汇高层特征向量；

本实例中步骤(3)中所使用的典型相关空间通过以下步骤得到：

(S31)提取训练数据集中所有图像的I-DBM高层特征向量；

(S32)提取训练集中所有图像对应的标注词的T-DBM高层特征向量；

(S33)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析，得到投影矩阵。

(4)将所述的标注词汇高层特征向量输入训练好的深度玻尔兹曼机模型T-DBM得到相应的标注词汇。

本实例中步骤(4)中所使用的典型相关空间通过以下步骤得到：

(S41)提取训练数据集中所有图像的I-DBM高层特征向量；

本实例中步骤(S43)的典型相关分析通过以下步骤进行：

I-DBM可见层节点个数与视觉特征向量的维数相同，为990维。

T-DBM可见层节点个数与标注词典的词汇数目相同，为260维。

I-DBM第一隐单元层和第二隐单元层中的节点个数为400。

T-DBM第一隐单元层和第二隐单元层中节点个数为200。

步骤(S23)和(S42)得到训练好的深度玻尔兹曼机模型，具体训练过程如下：

(S2-1)以视觉特征向量或者标注词汇特征向量作为可见层；

(S2-2)将可见层和第一隐单元层作为受限玻尔兹曼机，以视觉特征向量作为可见层的输入，使用对比散度算法对该受限玻尔兹曼机进行训练得到可见层和第一隐单元层之间的连接权值以及第一隐单元层的最终状态；

(S2-3)将第一隐单元层和第二隐单元层作为受限玻尔兹曼机，以第一隐单元层的最终状态作为第一隐单元层的最终状态作为第一隐单元层的输入，使用对比散度算法对该受限玻尔兹曼机进行训练得到第一隐单元层和第二隐单元层之间的连接权值和第二隐单元层的最终状态。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习与典型相关分析的图像自动标注方法，其特征在于，包含：

(1)构建模型训练数据集；

(5)将所述的标注词汇高层特征向量输入训练好的深度玻尔兹曼机模型T-DBM得到相应的标注词汇；

所述步骤(1)的模型训练数据集通过以下步骤得到：

(S11)创建包含若干个文本标注词汇的标注词典；

(S12)根据标注词典选择相应类别的已标注的图像作为模型训练数据集；所述步骤(3)中训练好的深度玻尔兹曼机I-DBM通过以下步骤得到：

(S33)利用模型训练数据集中所有图像的视觉特征向量对所述的深度玻尔兹曼机模型进行训练，得到训练好的深度玻尔兹曼机模型；

所述步骤(4)中建立好的典型变量空间通过以下步骤得到：

(S41)提取训练数据集中所有图像的I-DBM高层特征向量；

(S43)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析，得到投影矩阵；

2.如权利要求1所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，所述步骤(S33)(S53)中的深度玻尔兹曼机模型的训练过程如下：

(S2-1)以视觉特征向量或者标注词汇特征向量作为可见层；

3.如权利要求2所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，所述I-DBM可见层的节点个数与视觉特征向量的维数相同。

4.如权利要求3所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，所述T-DBM可见层的节点个数与文本特征向量的维数相同。

5.如权利要求4所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，以及步骤(S43)中的典型相关分析过程如下：

(S5-1)将所述的I-DBM高层特征向量与T-DBM高层特征向量标准化，计算协差阵；

(S5-2)计算协差阵的特征值和特征向量，进行排序并且判断是否相等；

(S5-3)将特征值按照从大到小的排序，并依照此顺序对特征向量进行排序；

(S5-4)将特征向量作为矩阵的行向量，得到典型相关分析结果。

6.如权利要求1～5中任一权利要求所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，所述的底层特征向量包括颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。

7.如权利要求6所述的基于深度学习与典型相关分析的图像自动标注方法，其特征在于，基于SIFT特征的视觉词袋向量通过以下步骤得到：

(a)计算得到所述模型训练数据集中所有图像的SIFT特征向量；

(b)对所有的SIFT特征向量进行聚类得到500个聚类中心；