CN104572940B - 一种基于深度学习与典型相关分析的图像自动标注方法 - Google Patents
一种基于深度学习与典型相关分析的图像自动标注方法 Download PDFInfo
- Publication number
- CN104572940B CN104572940B CN201410843484.6A CN201410843484A CN104572940B CN 104572940 B CN104572940 B CN 104572940B CN 201410843484 A CN201410843484 A CN 201410843484A CN 104572940 B CN104572940 B CN 104572940B
- Authority
- CN
- China
- Prior art keywords
- image
- vector
- dbm
- boltzmann machine
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学***均场估计生成图像标注词汇。该方法的深度玻尔兹曼机由I‑DBM和T‑DBM组成,分别用于提取图像与标注词汇的高层特征向量,两种模型由下自上依次包括可见层、第一隐单元层和第二隐单元层。该方法能够有效解决图像语义标注过程中的“语义鸿沟”问题,提高标注的准确率。
Description
技术领域
本发明涉及图像自动标注与检索技术,特别涉及一种基于深度学习与典型相关分析的图像自动标注方 法。
背景技术
随着图像数据呈现出几何级数的增长,如何对这些图像数据进行有效管理与检索成为了信息化建设中 的研究热点。虽然目前基于内容的图像检索技术已经有了长足的发展,并且也有了多种民用的原型、技术 和检索产品,但由于最主要问题—“语义鸿沟”没有根本突破,导致其检索效果和方式依然不够理想。为 克服这些问题,最好的解决方案是向图像添加与图像内容相关的文本语义信息,即图像标注。鉴于人工标 注存在着主观性强、标注效率低等问题,自动图像标注逐渐成为了图像标注领域的研究热点。
成熟的深度学习模型首先开始于2002年Hinton等人提出的深度信念网络,该模型通过多层特征提取 机制实现了数据信息的抽象表达。作为强大的概率生成模型,深度学习模型不断发展,先后出现了深度波 尔兹曼机、深度自动编码器等多种形式,而且成功应用于语音识别、网络态势感知以及高维时间序列建模 等领域。在图像处理方面,Google的Google Brain使用深度神经网络在图像识别上取得巨大的成功,已经 可以实现部分人脑功能的模拟;在大规模目标识别上,基于深度学习模型的5层卷积网络在2012年的ImageNet测评中得到了最高准确率;在图像标注和分类上,Srivastava等人通过构建多模态深度波尔兹曼 机也同样取得了较好的成绩。作为2013年十大突破技术之首,深度学习模型在机器学习领域展示出了强 大的生命力和巨大的能量。
目前,基于深度学习模型对图像生成标注词汇已经取得了较好的效果。多模态深度玻尔兹曼机较好地 解决了图像与文本的多模态学习问题,并在图像检索和标注进行了应用。从实验结果来看,相较于其他深 度学习模型,该模型效果较好,但是与经典的自动图像标注算法相比仍然存在差距,原因在于词汇模型和 顶层特征融合机制不适合于自动图像标注任务。针对这两个问题,结合经典图像自动标注算法思路,提出 基于深度玻尔兹曼机与典型相关分析的自动图像标注方法,采用能够较好处理图像特征和生成高层抽象语义概念的深度玻尔兹曼机模型,结合典型相关分析,设计图像自动标注模型,能够有效提高大规模图像的 管理、检索效率,并加快图像信息的处理速度,具有很好的应用前景以及重要的实用、经济效益。
发明内容
针对现有技术的不足,本发明提供了一种能够克服图像语义标注的“语义鸿沟”问题,实现较为准确 的语义标注的基于深度学习与典型相关分析的图像自动标注方法。
一种基于深度学习与典型相关分析的图像自动方法,包括:
(1)构建模型训练数据集;
(2)提取待标注图像的底层特征向量构建得到相应图像的视觉特征向量;
(3)将所述的视觉特征向量输入训练好的深度玻尔兹曼机模型I-DBM得到相应的图像高层特征向量;
(4)将所述的图像高层特征向量投影到建立好的典型变量空间内,查找与之相邻的模型标注数据 集的图像,并生成标注词汇高层特征向量;
(5)将所述的标注词汇高层特征向量输入训练好的深度玻尔兹曼机模型T-DBM得到相应的标注词汇。
所述步骤(1)的模型训练数据集通过以下步骤得到:
(S11)创建包含若干个文本标注词汇的标注词典;
(S12)根据标注词典选择相应类别的已标注的图像作为模型训练数据集;
所述步骤(3)中训练好的深度玻尔兹曼机I-DBM通过以下步骤得到:
(S31)提取训练数据集中每幅图像的底层特征向量构成得到相应图像的视觉特征向量,并根据标注词 典和标注词汇确定每幅图像的标注词汇特征向量;
(S32)构建深度玻尔兹曼机模型I-DBM,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一 隐单元层、第二隐单元层,各层中的任意两个节点无连接,相邻层之间的任意两个节点双向连接;
(S33)利用模型训练数据集中所有图像的视觉特征向量对所述的深度玻尔兹曼机模型进行训练,得到 训练好的深度玻尔兹曼机模型。
所述步骤(4)中建立好的典型变量空间通过以下步骤得到:
(S41)提取训练数据集中所有图像的I-DBM高层特征向量;
(S42)提取训练集中所有图像对应的标注词的T-DBM高层特征向量;
(S43)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析,得到投影矩阵。
所述步骤(5)中训练好的深度玻尔兹曼机T-DBM通过以下步骤得到:
(S51)根据标注词典和标注词汇确定每幅图像的标注词汇特征向量;
(S52)构建深度玻尔兹曼机模型T-DBM,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一 隐单元层、第二隐单元层,各层中的任意两个节点无连接,相邻层之间的任意两个节点双向连接;
(S53)利用模型训练数据集中所有图像的标注词汇特征向量对所述的深度玻尔兹曼机模型进行训练, 得到训练好的深度玻尔兹曼机模型。
本发明的基于深度学习与典型相关分析的图像自动标注方法中首先提取待标注图像的底层特征,并根 据所有的底层特征构建得到图像的视觉特征向量,然后直接将视觉特征向量作为深度玻尔兹曼机模型 I-DBM的可见层输入,将I-DBM的第二隐单元层状态作为高层特征向量,将其投影到典型变量空间内, 查找距离马氏距离最近的前N个图像,依据距离加权生成新的深度玻尔兹曼机T-DBM第二隐单元层状态, 最后由T-DBM生成新的标注词汇向量作为图像的标注词汇。
在深度玻尔兹曼机模型中,高层语义由底层特征抽象得到,由于底层特征很难过渡到高层语义,因此 会产生“语义鸿沟”。鉴于实际应用中隐单元层层数过多会导致训练速度过慢,因此,本发明所使用的深 度玻尔兹曼机模型中包含两个隐单元层(分别为第一隐单元层和第二隐单元层),设置两个隐单元层提高 深度玻尔兹曼机的中间抽象能力,跨越图像语义标注过程中的“语义鸿沟”,提高标注准确率。
所述步骤(S51)中的文本特征向量为一个0-1向量(即向量中所有元素只能为0或1),所述的文本 特征向量根据以下步骤确定各个图像的标注词汇特征向量:
(S51-1)初始化一个全零向量,使每一维对应的一个标注词汇;
(S51-2)根据图像的标注词,将对应维数的元素赋值为1,即得到该图像的标注词汇向量。
所述步骤构建的深度玻尔兹曼机模型,各层中的任意两个节点无连接,相邻层之间的任意两个节点之 双向连接。
所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,所述步骤(S33)(S53)中 的深度玻尔兹曼机模型的训练过程如下:
(S53-1)以视觉特征向量或者标注词汇特征向量作为可见层;
(S53-2)将可见层和第一隐单元层作为受限玻尔兹曼机,以视觉特征向量作为可见层的输入,使用对 比散度算法对该受限玻尔兹曼机进行训练得到可见层和第一隐单元层之间的连接权值以及第一隐单元层 的最终状态;
(S53-3)将第一隐单元层和第二隐单元层作为受限玻尔兹曼机,以第一隐单元层的最终状态作为第一 隐单元层的最终状态作为第一隐单元层的输入,使用对比散度算法对该受限玻尔兹曼机进行训练得到第一 隐单元层和第二隐单元层之间的连接权值和第二隐单元层的最终状态。
所述步骤(S43)中的典型相关分析过程如下:
(S43-1)将所述的I-DBM高层特征向量与T-DBM高层特征向量标准化,计算协差阵;
(S43-2)计算协差阵的特征值和特征向量,进行排序并且判断是否相等;
(S43-3)将特征值按照从大到小的排序,并依照此顺序对特征向量进行排序;
(S43-4)将特征向量作为矩阵的行向量,得到典型相关分析结果。
所述I-DBM模型可见层节点个数与视觉特征向量的维数相同。
在识别和训练过程中,均以视觉特征向量作为I-DBM可见层的输入,因此I-DBM可见层的各个节点 必须与视觉特征向量中每一维的元素相互对应,则I-DBM可见层的节点个数与视觉特征向量的维数相同。
所述T-DBM模型可见层节点个数与标注词典内词汇数目相同。
在识别和训练过程中,均以图像的标注词汇向量作为T-DBM可见层的输入,因此T-DBM可见层的各 个节点必须与标注词典内词汇相互对应,则T-DBM可见层的节点个数与标注词典内词汇数目相同。
所述I-DBM的第一隐单元层与第二隐单元层节点个数依据经验设定,通常为400~500,在实际应用中 可以根据实验效果进行调整。
所述的图像底层特征向量包括所述的底层特征向量包括颜色布局描述向量、颜色结构描述向量、可 伸缩颜色描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。
所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,基于SIFT特征的视觉词袋 向量通过以下步骤得到:
(a)计算得到所述模型训练数据集中所有图像的SIFT特征向量;
(b)对所有的SIFT特征向量进行聚类得到500个聚类中心;
(c)以各个聚类中心作为视觉单词,统计每幅图像的SIFT特征向量中各个视觉单词出现次数并形成 基于SIFT的特征的视觉词袋向量。
具体实施方式
以下结合具体实例对本发明作进一步的详细说明。
一种基于深度学习与典型相关分析的图像自动标注方法,包括:
(1)提取待标注图像的底层特征向量构建得到相应图像的视觉特征向量;
本实施中底层特征向量包括颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、边缘直方 图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。
基于SIFT特征的视觉词袋向量通过以下步骤提取得到:
(a)计算得到所述模型训练数据集中所有图像的SIFT特征向量;
(b)对所有的SIFT特征向量进行聚类得到500个聚类中心;
(c)以各个聚类中心作为视觉单词,统计每幅图像的SIFT特征向量中各个视觉单词的出现次数并形 成相应图像的基于SIFT特征的视觉词袋向量,视觉词袋向量的维数等于500(等于聚类中心的个数),视 觉词袋向量中各个元素分别为相应图像的所有SIFT特征向量中不同视觉单词出现的次数。
(2)将待标注图像的视觉特征向量输入训练好的深度玻尔兹曼机模型I-DBM得到相应的图像高层特 征向量;
本实例中步骤(2)中所使用的训练好的深度玻尔兹曼机模型通过以下步骤得到:
(S21)提取训练数据集中每幅图像的底层特征向量构成得到相应图像的视觉特征向量;
(S22)构建深度玻尔兹曼机模型I-DBM,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第 一隐单元层、第二隐单元层,各层中的任意两个节点无连接,相邻层之间的任意两个节点双向连接;
(S23)利用模型训练数据集中所有图像的视觉特征向量对所述的深度玻尔兹曼机模型进行训练,得 到训练好的深度玻尔兹曼机模型
(3)将所述的图像高层特征投影到建立好的典型变量空间内,查找与之相邻的模型标注数据集的图 像,并生成标注词汇高层特征向量;
本实例中步骤(3)中所使用的典型相关空间通过以下步骤得到:
(S31)提取训练数据集中所有图像的I-DBM高层特征向量;
(S32)提取训练集中所有图像对应的标注词的T-DBM高层特征向量;
(S33)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析,得到投影矩阵。
(4)将所述的标注词汇高层特征向量输入训练好的深度玻尔兹曼机模型T-DBM得到相应的标注词汇。
本实例中步骤(4)中所使用的典型相关空间通过以下步骤得到:
(S41)提取训练数据集中所有图像的I-DBM高层特征向量;
(S42)提取训练集中所有图像对应的标注词的T-DBM高层特征向量;
(S43)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析,得到投影矩阵。
本实例中步骤(S43)的典型相关分析通过以下步骤进行:
(S43-1)将所述的I-DBM高层特征向量与T-DBM高层特征向量标准化,计算协差阵;
(S43-2)计算协差阵的特征值和特征向量,进行排序并且判断是否相等;
(S43-3)将特征值按照从大到小的排序,并依照此顺序对特征向量进行排序;
(S43-4)将特征向量作为矩阵的行向量,得到典型相关分析结果。
I-DBM可见层节点个数与视觉特征向量的维数相同,为990维。
T-DBM可见层节点个数与标注词典的词汇数目相同,为260维。
I-DBM第一隐单元层和第二隐单元层中的节点个数为400。
T-DBM第一隐单元层和第二隐单元层中节点个数为200。
步骤(S23)和(S42)得到训练好的深度玻尔兹曼机模型,具体训练过程如下:
(S2-1)以视觉特征向量或者标注词汇特征向量作为可见层;
(S2-2)将可见层和第一隐单元层作为受限玻尔兹曼机,以视觉特征向量作为可见层的输入,使用对 比散度算法对该受限玻尔兹曼机进行训练得到可见层和第一隐单元层之间的连接权值以及第一隐单元层 的最终状态;
(S2-3)将第一隐单元层和第二隐单元层作为受限玻尔兹曼机,以第一隐单元层的最终状态作为第一 隐单元层的最终状态作为第一隐单元层的输入,使用对比散度算法对该受限玻尔兹曼机进行训练得到第一 隐单元层和第二隐单元层之间的连接权值和第二隐单元层的最终状态。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的 技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于深度学习与典型相关分析的图像自动标注方法,其特征在于,包含:
(1)构建模型训练数据集;
(2)提取待标注图像的底层特征向量构建得到相应图像的视觉特征向量;
(3)将所述的视觉特征向量输入训练好的深度玻尔兹曼机模型I-DBM得到相应的图像高层特征向量;
(4)将所述的图像高层特征向量投影到建立好的典型变量空间内,查找与之相邻的模型标注数据集的图像,并生成标注词汇高层特征向量;
(5)将所述的标注词汇高层特征向量输入训练好的深度玻尔兹曼机模型T-DBM得到相应的标注词汇;
所述步骤(1)的模型训练数据集通过以下步骤得到:
(S11)创建包含若干个文本标注词汇的标注词典;
(S12)根据标注词典选择相应类别的已标注的图像作为模型训练数据集;所述步骤(3)中训练好的深度玻尔兹曼机I-DBM通过以下步骤得到:
(S31)提取训练数据集中每幅图像的底层特征向量构成得到相应图像的视觉特征向量,并根据标注词典和标注词汇确定每幅图像的标注词汇特征向量;
(S32)构建深度玻尔兹曼机模型I-DBM,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐单元层、第二隐单元层,各层中的任意两个节点无连接,相邻层之间的任意两个节点双向连接;
(S33)利用模型训练数据集中所有图像的视觉特征向量对所述的深度玻尔兹曼机模型进行训练,得到训练好的深度玻尔兹曼机模型;
所述步骤(4)中建立好的典型变量空间通过以下步骤得到:
(S41)提取训练数据集中所有图像的I-DBM高层特征向量;
(S42)提取训练集中所有图像对应的标注词的T-DBM高层特征向量;
(S43)将所述的I-DBM高层特征向量与T-DBM高层特征向量进行典型相关分析,得到投影矩阵;
所述步骤(5)中训练好的深度玻尔兹曼机T-DBM通过以下步骤得到:
(S51)根据标注词典和标注词汇确定每幅图像的标注词汇特征向量;
(S52)构建深度玻尔兹曼机模型T-DBM,所述的深度玻尔兹曼机模型从下至上依次包括可见层、第一隐单元层、第二隐单元层,各层中的任意两个节点无连接,相邻层之间的任意两个节点双向连接;
(S53)利用模型训练数据集中所有图像的标注词汇特征向量对所述的深度玻尔兹曼机模型进行训练,得到训练好的深度玻尔兹曼机模型。
2.如权利要求1所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,所述步骤(S33)(S53)中的深度玻尔兹曼机模型的训练过程如下:
(S2-1)以视觉特征向量或者标注词汇特征向量作为可见层;
(S2-2)将可见层和第一隐单元层作为受限玻尔兹曼机,以视觉特征向量作为可见层的输入,使用对比散度算法对该受限玻尔兹曼机进行训练得到可见层和第一隐单元层之间的连接权值以及第一隐单元层的最终状态;
(S2-3)将第一隐单元层和第二隐单元层作为受限玻尔兹曼机,以第一隐单元层的最终状态作为第一隐单元层的最终状态作为第一隐单元层的输入,使用对比散度算法对该受限玻尔兹曼机进行训练得到第一隐单元层和第二隐单元层之间的连接权值和第二隐单元层的最终状态。
3.如权利要求2所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,所述I-DBM可见层的节点个数与视觉特征向量的维数相同。
4.如权利要求3所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,所述T-DBM可见层的节点个数与文本特征向量的维数相同。
5.如权利要求4所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,以及步骤(S43)中的典型相关分析过程如下:
(S5-1)将所述的I-DBM高层特征向量与T-DBM高层特征向量标准化,计算协差阵;
(S5-2)计算协差阵的特征值和特征向量,进行排序并且判断是否相等;
(S5-3)将特征值按照从大到小的排序,并依照此顺序对特征向量进行排序;
(S5-4)将特征向量作为矩阵的行向量,得到典型相关分析结果。
6.如权利要求1~5中任一权利要求所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,所述的底层特征向量包括颜色布局描述向量、颜色结构描述向量、可伸缩颜色描述向量、边缘直方图描述向量、GIST特征向量和基于SIFT特征的视觉词袋向量。
7.如权利要求6所述的基于深度学习与典型相关分析的图像自动标注方法,其特征在于,基于SIFT特征的视觉词袋向量通过以下步骤得到:
(a)计算得到所述模型训练数据集中所有图像的SIFT特征向量;
(b)对所有的SIFT特征向量进行聚类得到500个聚类中心;
(c)以各个聚类中心作为视觉单词,统计每幅图像的SIFT特征向量中各个视觉单词出现次数并形成基于SIFT的特征的视觉词袋向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410843484.6A CN104572940B (zh) | 2014-12-30 | 2014-12-30 | 一种基于深度学习与典型相关分析的图像自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410843484.6A CN104572940B (zh) | 2014-12-30 | 2014-12-30 | 一种基于深度学习与典型相关分析的图像自动标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572940A CN104572940A (zh) | 2015-04-29 |
CN104572940B true CN104572940B (zh) | 2017-11-21 |
Family
ID=53089002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410843484.6A Active CN104572940B (zh) | 2014-12-30 | 2014-12-30 | 一种基于深度学习与典型相关分析的图像自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572940B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389326B (zh) * | 2015-09-16 | 2018-08-31 | 中国科学院计算技术研究所 | 基于弱匹配概率典型相关性模型的图像标注方法 |
CN105702250B (zh) * | 2016-01-06 | 2020-05-19 | 福建天晴数码有限公司 | 语音识别方法和装置 |
US9811765B2 (en) | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
GB2547068B (en) * | 2016-01-13 | 2019-06-19 | Adobe Inc | Semantic natural language vector space |
US9792534B2 (en) | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
CN105741832B (zh) * | 2016-01-27 | 2020-01-07 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和*** |
CN105808752B (zh) * | 2016-03-10 | 2018-04-10 | 大连理工大学 | 一种基于cca和2pknn的自动图像标注方法 |
CN107292322B (zh) * | 2016-03-31 | 2020-12-04 | 华为技术有限公司 | 一种图像分类方法、深度学习模型及计算机*** |
CN106250915B (zh) * | 2016-07-22 | 2019-08-09 | 福州大学 | 一种融合深度特征和语义邻域的自动图像标注方法 |
US10496699B2 (en) * | 2017-03-20 | 2019-12-03 | Adobe Inc. | Topic association and tagging for dense images |
CN107169051B (zh) * | 2017-04-26 | 2019-09-24 | 山东师范大学 | 基于本体间语义相关的三维模型检索方法及*** |
CN107194437B (zh) * | 2017-06-22 | 2020-04-07 | 重庆大学 | 基于Gist特征提取与概念机递归神经网络的图像分类方法 |
CN107357927B (zh) * | 2017-07-26 | 2020-06-12 | 深圳爱拼信息科技有限公司 | 一种文档建模方法 |
CN109833061B (zh) | 2017-11-24 | 2020-08-04 | 无锡祥生医疗科技股份有限公司 | 基于深度学习的优化超声成像***参数的方法 |
CN109493249B (zh) * | 2018-11-05 | 2021-11-12 | 北京邮电大学 | 一种用电数据在多时间尺度上的分析方法 |
CN110298386B (zh) * | 2019-06-10 | 2023-07-28 | 成都积微物联集团股份有限公司 | 一种基于图像内容的标签自动化定义方法 |
CN110377730B (zh) * | 2019-06-14 | 2023-10-10 | 平安科技(深圳)有限公司 | 案由分类方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823845A (zh) * | 2014-01-28 | 2014-05-28 | 浙江大学 | 一种基于深度学习的遥感影像自动标注方法 |
CN104021224A (zh) * | 2014-06-25 | 2014-09-03 | 中国科学院自动化研究所 | 基于逐层标签融合深度网络的图像标注方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150170B2 (en) * | 2008-05-30 | 2012-04-03 | Microsoft Corporation | Statistical approach to large-scale image annotation |
-
2014
- 2014-12-30 CN CN201410843484.6A patent/CN104572940B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823845A (zh) * | 2014-01-28 | 2014-05-28 | 浙江大学 | 一种基于深度学习的遥感影像自动标注方法 |
CN104021224A (zh) * | 2014-06-25 | 2014-09-03 | 中国科学院自动化研究所 | 基于逐层标签融合深度网络的图像标注方法 |
Non-Patent Citations (2)
Title |
---|
Multimodal Learning with Deep Boltzmann Machines;Nitish Srivastava et al.;《Journal of Machine Learning ?Research 15(2014)》;20140914;全文 * |
基于多特征的图像标注研究;李静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;第2013年卷(第S2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572940A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572940B (zh) | 一种基于深度学习与典型相关分析的图像自动标注方法 | |
Liu et al. | Learning to assemble neural module tree networks for visual grounding | |
Plummer et al. | Conditional image-text embedding networks | |
You et al. | Cross-modality attention with semantic graph embedding for multi-label classification | |
Cirik et al. | Using syntax to ground referring expressions in natural images | |
Newell et al. | Pixels to graphs by associative embedding | |
Ouyang et al. | Multi-source deep learning for human pose estimation | |
CN106446526B (zh) | 电子病历实体关系抽取方法及装置 | |
Li et al. | Visual question answering with question representation update (qru) | |
Socher et al. | Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora | |
CN109934261A (zh) | 一种知识驱动参数传播模型及其少样本学习方法 | |
CN107526834A (zh) | 联合词性与词序的相关因子训练的word2vec改进方法 | |
CN109344285A (zh) | 一种面向监控的视频图谱构建和挖掘方法、设备 | |
CN105389326B (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN108875076A (zh) | 一种基于Attention机制和卷积神经网络的快速商标图像检索方法 | |
Lin et al. | Deep structured scene parsing by learning with image descriptions | |
Zhang et al. | Hierarchical scene parsing by weakly supervised learning with image descriptions | |
Chen et al. | Efficient maximum appearance search for large-scale object detection | |
CN108470061A (zh) | 一种针对视角级文本的情感分类*** | |
Kindiroglu et al. | Temporal accumulative features for sign language recognition | |
CN104699695B (zh) | 一种基于多特征语义树核的关系抽取方法和信息检索方法 | |
Yao et al. | Integrating multihub driven attention mechanism and big data analytics for virtual representation of visual scenes | |
Bhattarai et al. | Deep learning-based face mask detection using automated GUI for COVID-19 | |
CN110196911A (zh) | 一种民生数据自动分类管理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200214 Address after: 264001 Research and Academic Department, 188 Erma Road, Zhifu District, Yantai City, Shandong Province Patentee after: Naval Aviation University of PLA Address before: 264001 Yantai City, Zhifu Province, No. two road, No. 188, Department of research, Patentee before: Naval Aeronautical Engineering Institute PLA |
|
TR01 | Transfer of patent right |