CN107346328A - 一种基于多粒度层级网络的跨模态关联学习方法 - Google Patents

一种基于多粒度层级网络的跨模态关联学习方法 Download PDF

Info

Publication number
CN107346328A
CN107346328A CN201710378513.XA CN201710378513A CN107346328A CN 107346328 A CN107346328 A CN 107346328A CN 201710378513 A CN201710378513 A CN 201710378513A CN 107346328 A CN107346328 A CN 107346328A
Authority
CN
China
Prior art keywords
mrow
msup
msubsup
data
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710378513.XA
Other languages
English (en)
Other versions
CN107346328B (zh
Inventor
彭宇新
綦金玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710378513.XA priority Critical patent/CN107346328B/zh
Publication of CN107346328A publication Critical patent/CN107346328A/zh
Application granted granted Critical
Publication of CN107346328B publication Critical patent/CN107346328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多粒度层级网络的跨模态关联学习方法,包括以下步骤:1.建立包含多种模态类型的跨模态数据库,并将该数据库中的数据分为训练集、验证集和测试集,对数据库中不同模态数据进行分块处理,提取所有模态原始数据以及分块后数据的特征向量。2.利用原始数据和分块后的数据训练多粒度层级网络结构,为不同模态数据学习统一表征。3.利用训练好的多粒度层级网络结构,得到不同模态数据的统一表征,进而计算不同模态数据的相似性。4.取测试集中的任意一种模态类型作为查询模态,以另一种模态类型作为目标模态,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。本发明能够提高跨模态检索的准确率。

Description

一种基于多粒度层级网络的跨模态关联学习方法
技术领域
本发明涉及多媒体检索领域,具体涉及一种基于多粒度层级网络的跨模态关联学习方法。
背景技术
近年来,随着计算机技术的迅速发展,信息的获取与处理已经从文字、图像、音频、视频等单一模态的形式转变为多种模态相互融合的形式。多模态检索已经成为信息检索领域的一个重要问题,在搜索引擎和大数据管理中均有广泛的应用。传统的检索方式主要为单一模态形式,即用户提交一种模态类型数据作为查询,检索***返回同种模态的检索结果,例如图像检索、文本检索等。这种检索方式无法直接度量不同模态数据之间的相似性,例如一幅图像与一个音频片段的相似性,因此限制了检索的灵活性。为解决上述问题,跨模态检索成为了一个新的研究热点,其可以根据用户上传的任意一种模态类型的数据作为查询,检索得到包含多种模态类型的相关结果。与传统单模态检索相比,跨模态检索能够提供更加灵活且实用的检索体验。
跨模态检索的关键问题在于如何学习不同模态之间的内在关联关系。由于不同模态数据的分布特性以及特征表示不一致,跨模态的相似性度量具有很大的挑战性。现有常见的跨模态检索方法主要是为不同模态数据学习统一空间,即将不同模态数据的特征表示从原始的单模态空间映射到跨模态统一空间,获得可以直接度量跨模态相似性的统一表征。现有方法可以主要分为两类,一是在传统框架下学习线性映射,包括基于典型相关分析(Canonical Correlation Analysis,简称CCA)的方法,其通过分析不同模态数据的成对关联关系,将不同模态的数据映射到同一维度的公共子空间中,并最大化成对数据之间的关联。此外,还有基于图规约的方法,例如Zhai等人在文献“Learning Cross-Media JointRepresentation with Sparse and Semi-Supervised Regularization”提出了基于稀疏和半监督规约的跨模态检索方法,为不同模态数据构建图模型,同时进行跨模态关联学习和高层语义抽象。
另外一类是基于深度神经网络的跨模态统一表征学***衡模态内和模态间的关联学习过程;此外,现有方法仅仅考虑了不同模态的原始数据,而忽略了其内部各个部分提供的丰富细粒度信息,无法充分挖掘跨模态的关联关系。
发明内容
针对现有技术的不足,本发明提出了一种基于多粒度层级网络的跨模态关联学***衡模态内语义类别约束以及模态间成对相似性约束学习过程。此外,通过建模不同模态数据的多粒度信息,提高了跨模态检索的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于多粒度层级网络的跨模态关联学习方法,用于对跨模态数据的多粒度信息以及模态内和模态间的关联信息进行全面建模,得到不同模态数据的统一表征,从而实现跨模态检索,包括以下步骤:
(1)建立包含多种模态类型的跨模态数据库,并将跨模态数据库中的数据分为训练集、验证集和测试集,对跨模态数据库中不同模态的数据进行分块处理,提取所有模态的原始数据以及分块后数据的特征向量;
(2)利用原始数据和分块后的数据训练多粒度层级网络结构,通过多粒度层级网络结构为不同模态数据学习统一表征;
(3)利用根据训练好的多粒度层级网络结构得到的不同模态数据的统一表征,计算不同模态数据的相似性;
(4)使用测试集中的任意一种模态类型作为查询模态,以另一种模态类型作为目标模态,将查询模态的每个数据作为查询样例,检索目标模态中的数据,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
进一步,上述一种基于多粒度层级网络的跨模态关联学习方法,所述步骤(1)跨模态数据库可以包含多种模态类型,例如图像、文本等。
进一步,上述一种基于多粒度层级网络的跨模态关联学习方法,所述步骤(1)中对数据库中不同模态数据进行分块处理过程,可以针对不同模态数据采用不同的分块处理方法将原始数据切分成多个部分。具体地,对于图像数据使用选择性搜索(SelectiveSearch)算法提取出包含视觉对象等丰富细粒度信息的多个候选区域;对于文本数据,则以句子为单位切分成多块。同时,可以支持其他的分块方法,如将图像切分成2×2或4×4的区域,将文本按照词组来切分等。
进一步,上述一种基于多粒度层级网络的跨模态关联学习方法,所述步骤(1)中的特征向量具体为:文本数据是提取词频特征向量;图像数据是提取卷积神经网络特征向量,并且能够支持其他种类的特征,如图像的词袋特征向量,文本的隐狄雷克雷分布特征向量等。
进一步,上述一种基于多粒度层级网络的跨模态关联学***衡模态内语义类别约束和模态间成对关联约束的学习过程,最终得到跨模态统一表征。
进一步,上述一种基于多粒度层级网络的跨模态关联学习方法,所述步骤(3)中的距离度量采用余弦距离,通过计算两种模态数据统一表征向量夹角的余弦值来度量两者的相似性。此外,本框架同样支持其他类型的距离度量,如欧式距离等。
进一步,上述一种基于多粒度层级网络的跨模态关联学习方法,所述步骤(4)的检索方式是,使用测试集中的一种模态类型作为查询模态,另外一种模态类型作为目标模态。对于测试集中查询模态的每个数据作为查询样例,按照步骤(3)计算得到相似性之后,与测试集中目标模态的所有数据计算相似性,然后按照相似性从大到小排序,得到相关结果列表。
本发明的效果在于:与现有方法相比,本方法能够充分挖掘不同模态数据的多粒度信息,并同时建模模态内和模态间的关联关系来学***衡模态内语义类别约束和模态间成对关联约束的学习过程,提高了跨模态检索的准确率。
本方法之所以具有上述发明效果,其原因在于:针对单模态分离特征表示学***衡模态内语义类别约束和模态间成对关联约束的学习过程,从而提高了跨模态检索的准确率。
附图说明
图1是本发明的一种基于多粒度层级网络的跨模态关联学习方法流程图。
图2是本发明的完整网络结构的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于多粒度层级网络的跨模态关联学习方法,其流程如图1所示,包含以下步骤:
(1)建立包含多种模态类型的跨模态数据库,并将所述数据库分为训练集、验证集和测试集,对数据库中不同模态的数据进行分块处理,提取所有模态原始数据以及分块后数据的特征向量。
本实施例中,所述跨模态数据库可以包含多种模态类型,并针对不同模态数据采用不同的分块处理方法将原始数据切分成多个部分。以图像和文本为例,对于图像数据使用选择性搜索(Selective Search)算法提取出包含视觉对象等丰富细粒度信息的多个候选区域;对于文本数据,则以句子为单位切分成多块。进一步,对这两种模态类型数据的特征向量提取方法如下:文本数据是提取词频特征向量;图像数据是提取深度卷积神经网络的特征向量。本方法框架同样支持其它模态类型数据,如音频、视频等,并且能够支持其它种类的特征,如图像的词袋特征向量,文本的隐狄雷克雷分布特征向量等。
用D表示跨模态数据集,D={D(i),D(t)},其中
对于媒体类型r,其中r=i,t(i表示图像,t表示文本),定义n(r)为其数据个数。训练集中的每个数据有且只有一个语义类别。
定义为媒体类型r中的第p个数据的特征向量,其表示结构为一个d(r)×1的向量,其中d(r)表示媒体类型r的特征向量维度。
定义的语义标签定为其表示结构为一个c×1的向量,其中c表示语义类别的总量。中有且只有一维为1,其余为0,表示该数据的语义类别为值是1的列所对应的标签。
(2)利用原始数据和分块后的数据训练多粒度层级网络结构,为不同模态数据学习统一表征。
该步骤的过程如图2所示,其中圆圈表示神经网络中的隐藏单元,虚线表示神经网络相邻两层的隐藏单元之间的连接。本实施例中,使用两路网络建模原始的图像和文本数据。首先使用两种深度信念网络(Deep Belief Network,简称DBN)分别建模图像和文本的特征分布,使用如下的条件概率分布公式:
其中h(1)和h(2)表示DBN中的两个隐藏层,vi表示图像数据,vt表示文本数据。由此可以得到包含模态内高层语义信息的特征表示Q(i)和Q(t)。然后利用共享编码层连接两路网络,同时建模图像和文本数据的模态内关联和模态间关联,通过最小化如下损失函数联合优化重建学习误差和关联学习误差:
其中表示每种模态的重建表示,Lr表示重建学习误差,Lc表示关联学习误差。因此可以得到包含模态内和模态间关联的粗粒度特征表示其中分别表示图像和文本两种媒体类型中第p个数据的粗粒度特征表示。
本实施例中,利用两路网络建模细粒度的图像和文本数据。具体地,使用两种深度信念网络DBN建模细粒度的图像和文本数据,并采用平均融合的策略得到包含模态内细粒度信息的特征表示U(i)和U(t),接着构建共享编码层连接两路网络,通过最小化如下损失函数同时建模图像和文本细粒度特征表示的模态内关联和模态间关联:
其中表示每种模态细粒度特征的重建表示,Lr表示重建学习误差,Lc表示关联学习误差。因此可以得到包含模态内和模态间关联的细粒度特征表示其中分别表示图像和文本两种媒体类型中第p个数据的细粒度特征表示。
本实施例中,使用联合限制玻尔兹曼机(Restricted Boltzmann Machines,简称RBM)来融合每种模态的粗粒度表示和细粒度表示()。具体地,定义如下联合分布:
其中,分别表示联合限制玻尔兹曼机中的两个隐藏层,h(2)表示其中的联合层;对于图像,v1表示图像的粗粒度特征表示v2表示图像的细粒度特征表示而对于文本同理,仍使用如上定义的联合分布,则其中v1表示文本的粗粒度特征表示v2表示文本的细粒度特征表示由此可以得到同时包含粗粒度和细粒度信息的单模态特征表示其中分别表示图像和文本两种媒体类型中第p个数据的单模态特征表示。
本实施例中,使用多任务学习框架来建模模态内的语义类别约束以及模态间的成对相似性约束。具体地,对于模态间的成对相似性约束,首先对所有图像和文本数据构建近邻图G=(V,E),其中V表示图像或文本数据,E表示图像和文本数据之间的相似性关系,定义如下:
其中代表图像和文本数据的标签。然后定义如下对比损失函数来建模成对的相似与不相似约束:
其中分别表示图像和文本的单模态特征表示(S(i)和S(t)),边界参数设为α。
然后对于模态内语义类别约束,构建一个n路的softmax层,这里n表示类别数目,并定义如下交叉熵损失函数:
其中表示预测的分布概率,pi表示目标分布概率。通过最小化上述损失函数,可以增强统一表征的语义辨识能力。
最后,通过上述多任务学***衡模态内语义类别约束和模态间成对关联约束的学习过程,最终得到更加精确的跨模态统一表征其中分别表示图像和文本两种媒体类型中第p个数据的跨模态统一表征。
(3)利用根据训练好的多粒度层级网络结构得到的不同模态数据的统一表征,进而计算不同模态数据的相似性。
当深度网络训练完毕之后,不同媒体的数据通过深度网络能够得到相同维度的统一表征,其相似性定义为不同模态数据的统一表征之间的距离度量。本实施例中,距离度量采用余弦距离,通过计算两种模态数据统一表征向量夹角的余弦值来度量两者的相似性。此外,本框架同样支持其他类型的距离度量,如欧式距离等。
(4)使用测试集中的任意一种模态类型作为查询模态,以另一种模态类型作为目标模态。将查询模态的每个数据作为查询样例,检索目标模态中的数据,按照步骤(3)中的方式,计算查询样例和查询目标的相似性,将相似性按照从大到小排序,得到目标模态数据的相关结果列表。
下面的实验结果表明,与现有方法相比,本发明基于多粒度层级网络的跨模态关联学习方法,可以取得更高的检索准确率。
本实施例采用了Wikipedia跨模态数据集进行实验,该数据集由文献“A NewApproach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy和N.Vasconcelos,发表在2010年的ACMinternational conference on Multimedia)提出,其中包括2866段文本和2866张图像,其中文本和图像是一一对应的,总共分为10个类别,其中2173段文本和2173张图像作为训练集,231段文本和231张图像作为验证集,492段文本和492张图像作为测试集。测试了以下3种方法作为实验对比:
现有方法一:文献“Learning Cross-Media Joint Representation with Sparseand Semi-Supervised Regularization”(作者X.Zhai,Y.Peng,and J.Xiao)中的联合表示学习(Joint Representation Learning,简称JRL)方法,为不同模态数据构建图模型,同时进行跨模态关联学习和高层语义抽象,并且引入稀疏和半监督规约。
现有方法二:文献“Multimodal Deep Learning”(作者J.Ngiam,A.Khosla,M.Kim,J.Nam,H.Lee,and A.Y.Ng)中的多模态自编码器(Bimodal AE)方法,以多种媒体类型作为输入,在中间层建模跨模态的关联信息得到统一表征,同时还需要网络能够从统一表征对原始特征输入进行重建,由此可以有效的学习不同媒体之间的关联信息,而且能够保留每种媒体各自内部的重建信息。
现有方法三:文献“Cross-modal Retrieval with CorrespondenceAutoencoder”(作者F.Feng,X.Wang,and R.Li)中的对应自编码器网络(CorrespondenceAutoencoder,简称Corr-AE)方法,构建了两路网络,并在中间层相连以同时建模关联信息与重建信息。
本发明:本实施例的方法。
实验采用信息检索领域常用的MAP(mean average precision)指标来评测跨模态检索的准确性,MAP是指每个查询样例检索准确性的平均值,MAP值越大,说明跨模态检索的结果就越好。
表1.本发明的实验结果展示
图像查询文本 文本查询图像 平均
现有方法一 0.453 0.400 0.427
现有方法二 0.314 0.290 0.302
现有方法三 0.402 0.395 0.399
本发明 0.504 0.457 0.481
从表1可以看出,本发明在图像查询文本、文本查询图像两个任务中都比现有方法取得了较大提高。现有方法一在传统框架下构建图模型将不同模态数据线性映射到统一空间,难以充分建模复杂的跨模态关联关系。现有方法二和现有方法三均采用深度网络结构,但仅仅利用不同模态类型的原始数据,并通过简单网络结构学***衡模态内语义类别约束和模态间成对关联约束的学习过程,得到跨模态统一表征,从而提高了跨模态检索的准确率。
在其它实施例中,本发明步骤(2)中的跨模态统一表征学习方法,使用深度信念网络(Deep Belief Network,简称DBN)建模原始的和细粒度的图像和文本数据,同样可以采用栈式自编码器(Stacked Autoencoders,简称SAE)作为替代。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于多粒度层级网络的跨模态关联学习方法,包括以下步骤:
(1)建立包含多种模态类型的跨模态数据库,并将跨模态数据库中的数据分为训练集、验证集和测试集,对跨模态数据库中不同模态的数据进行分块处理,提取所有模态原始数据以及分块后数据的特征向量;
(2)利用原始数据和分块后的数据训练多粒度层级网络结构,通过多粒度层级网络结构为不同模态数据学习统一表征;
(3)利用根据训练好的多粒度层级网络结构得到的不同模态数据的统一表征,计算不同模态数据的相似性;
(4)使用测试集中的任意一种模态类型作为查询模态,以另一种模态类型作为目标模态,将查询模态的每个数据作为查询样例,检索目标模态中的数据,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
2.如权利要求1所述的方法,其特征在于,所述跨模态数据库包含多种模态类型,包括图像、文本。
3.如权利要求1所述的方法,其特征在于,步骤(1)针对不同模态数据采用不同的分块处理方法将原始数据切分成多个部分,其中,对于图像数据使用选择性搜索算法提取出包含丰富细粒度信息的多个候选区域,或者将图像切分成2×2或4×4的区域;对于文本数据,则以句子为单位切分成多块,或者将文本按照词组来切分。
4.如权利要求1所述的方法,其特征在于,步骤(1)中提取的特征向量为:文本数据是提取词频特征向量或隐狄雷克雷分布特征向量;图像数据是提取卷积神经网络特征向量或词袋特征向量。
5.如权利要求1所述的方法,其特征在于,步骤(2)中的跨模态统一表征学习方法,使用两路网络建模原始的图像和文本数据,然后利用两路网络建模细粒度的图像和文本数据,然后使用联合限制玻尔兹曼机来融合每种模态的粗粒度表示和细粒度表示,然后使用多任务学习框架来建模模态内的语义类别约束以及模态间的成对相似性约束。
6.如权利要求5所述的方法,其特征在于,所述使用两路网络建模原始的图像和文本数据,首先使用两种深度信念网络分别建模图像和文本的特征分布,使用如下的条件概率分布公式:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>|</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>|</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中h(1)和h(2)表示DBN中的两个隐藏层,vi表示图像数据,vt表示文本数据;由此得到包含模态内高层语义信息的特征表示Q(i)和Q(t);然后利用共享编码层连接两路网络,同时建模图像和文本数据的模态内关联和模态间关联,通过最小化如下损失函数联合优化重建学习误差和关联学习误差:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msup> <mi>Q</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>Q</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>Q</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msubsup> <mi>Q</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>Q</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msubsup> <mi>Q</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>L</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>Q</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>Q</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中表示每种模态的重建表示,Lr表示重建学习误差,Lc表示关联学习误差;
从而得到包含模态内和模态间关联的粗粒度特征表示
7.如权利要求6所述的方法,其特征在于,所述利用两路网络建模细粒度的图像和文本数据,是使用两种深度信念网络DBN建模细粒度的图像和文本数据,并采用平均融合的策略得到包含模态内细粒度信息的特征表示U(i)和U(t),接着构建共享编码层连接两路网络,通过最小化如下损失函数同时建模图像和文本细粒度特征表示的模态内关联和模态间关联:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msubsup> <mi>U</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>L</mi> <mi>r</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msubsup> <mi>U</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>L</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中表示每种模态细粒度特征的重建表示,Lr表示重建学习误差,Lc表示关联学习误差,从而得到包含模态内和模态间关联的细粒度特征表示
8.如权利要求7所述的方法,其特征在于,所述使用联合限制玻尔兹曼机来融合每种模态的粗粒度表示和细粒度表示,定义如下联合分布:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>v</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msubsup> <mi>h</mi> <mn>1</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mn>1</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <munder> <mo>&amp;Sigma;</mo> <msubsup> <mi>h</mi> <mn>1</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mn>1</mn> </msub> <mo>|</mo> <msubsup> <mi>h</mi> <mn>1</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <munder> <mo>&amp;Sigma;</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mn>2</mn> </msub> <mo>|</mo> <msubsup> <mi>h</mi> <mn>2</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,对于图像,v1表示图像的粗粒度特征表示v2表示图像的细粒度特征表示而对于文本同理,仍使用如上定义的联合分布,则其中v1表示文本的粗粒度特征表示v2表示文本的细粒度特征表示由此得到同时包含粗粒度和细粒度信息的单模态特征表示S(i)和S(t)
9.如权利要求8所述的方法,其特征在于,所述使用多任务学习框架来建模模态内的语义类别约束以及模态间的成对相似性约束,对于模态间的成对相似性约束,首先对所有图像和文本数据构建近邻图G=(V,E),其中V表示图像或文本数据,E表示图像和文本数据之间的相似性关系,定义如下:
<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>:</mo> <msubsup> <mi>y</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msubsup> <mi>y</mi> <mi>q</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>:</mo> <msubsup> <mi>y</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;NotEqual;</mo> <msubsup> <mi>y</mi> <mi>q</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中代表图像和文本数据的标签;然后定义如下对比损失函数来建模成对的相似与不相似约束:
<mrow> <msub> <mi>L</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>p</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>q</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mrow> <mn>0</mn> <mo>,</mo> <mi>&amp;alpha;</mi> <mo>-</mo> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>p</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>q</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中分别表示图像和文本的单模态特征表示(S(i)和S(t)),边界参数设为α;
然后对于模态内语义类别约束,构建一个n路的softmax层,这里n表示类别数目,并定义如下交叉熵损失函数:
<mrow> <msub> <mi>L</mi> <mn>2</mn> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中表示预测的分布概率,pi表示目标分布概率;通过最小化上述损失函数,增强统一表征的语义辨识能力;最后,通过上述多任务学***衡模态内语义类别约束和模态间成对关联约束的学习过程,最终得到更加精确的跨模态统一表征M(i)和M(t)
10.如权利要求1中所述的方法,其特征在于,步骤(3)中的距离度量采用余弦距离,通过计算两种模态数据统一表征向量夹角的余弦值来度量两者的相似性;或者步骤(3)中的距离度量采用欧式距离。
CN201710378513.XA 2017-05-25 2017-05-25 一种基于多粒度层级网络的跨模态关联学习方法 Active CN107346328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710378513.XA CN107346328B (zh) 2017-05-25 2017-05-25 一种基于多粒度层级网络的跨模态关联学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710378513.XA CN107346328B (zh) 2017-05-25 2017-05-25 一种基于多粒度层级网络的跨模态关联学习方法

Publications (2)

Publication Number Publication Date
CN107346328A true CN107346328A (zh) 2017-11-14
CN107346328B CN107346328B (zh) 2020-09-08

Family

ID=60253337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710378513.XA Active CN107346328B (zh) 2017-05-25 2017-05-25 一种基于多粒度层级网络的跨模态关联学习方法

Country Status (1)

Country Link
CN (1) CN107346328B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN110781319A (zh) * 2019-09-17 2020-02-11 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110807465A (zh) * 2019-11-05 2020-02-18 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法
WO2020042597A1 (zh) * 2018-08-31 2020-03-05 深圳大学 一种跨模态检索方法及***
CN111275130A (zh) * 2020-02-18 2020-06-12 上海交通大学 基于多模态的深度学习预测方法、***、介质及设备
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111859635A (zh) * 2020-07-03 2020-10-30 中国人民解放军海军航空大学航空作战勤务学院 一种基于多粒度建模技术的仿真***及构建方法
CN112116095A (zh) * 2019-06-19 2020-12-22 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN112819052A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、***、设备和存储介质
CN112990048A (zh) * 2021-03-26 2021-06-18 中科视语(北京)科技有限公司 车纹识别方法及装置
CN113516286A (zh) * 2021-05-14 2021-10-19 山东建筑大学 基于多粒度任务联合建模的学生学业预警方法及***
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114219049A (zh) * 2022-02-22 2022-03-22 天津大学 一种基于层级约束的细粒度笔石图像分类方法和装置
CN116012679A (zh) * 2022-12-19 2023-04-25 中国科学院空天信息创新研究院 一种基于多层级跨模态交互的自监督遥感表示学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701227A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN105718532A (zh) * 2016-01-15 2016-06-29 北京大学 一种基于多深度网络结构的跨媒体排序方法
US20160283858A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283858A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning
CN105701227A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN105718532A (zh) * 2016-01-15 2016-06-29 北京大学 一种基于多深度网络结构的跨媒体排序方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020042597A1 (zh) * 2018-08-31 2020-03-05 深圳大学 一种跨模态检索方法及***
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109271486B (zh) * 2018-09-19 2021-11-26 九江学院 一种相似性保留跨模态哈希检索方法
CN112116095A (zh) * 2019-06-19 2020-12-22 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN112116095B (zh) * 2019-06-19 2024-05-24 北京搜狗科技发展有限公司 一种多任务学习模型训练的方法及相关装置
CN110457516A (zh) * 2019-08-12 2019-11-15 桂林电子科技大学 一种跨模态图文检索方法
CN110781319A (zh) * 2019-09-17 2020-02-11 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110781319B (zh) * 2019-09-17 2022-06-21 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110807465B (zh) * 2019-11-05 2020-06-30 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法
US11501518B2 (en) 2019-11-05 2022-11-15 Beijing University Of Posts And Telecommunications Fine-grained image recognition method, electronic device and storage medium
CN110807465A (zh) * 2019-11-05 2020-02-18 北京邮电大学 一种基于通道损失函数的细粒度图像识别方法
CN111275130A (zh) * 2020-02-18 2020-06-12 上海交通大学 基于多模态的深度学习预测方法、***、介质及设备
CN111275130B (zh) * 2020-02-18 2023-09-08 上海交通大学 基于多模态的深度学习预测方法、***、介质及设备
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111753549B (zh) * 2020-05-22 2023-07-21 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN111859635A (zh) * 2020-07-03 2020-10-30 中国人民解放军海军航空大学航空作战勤务学院 一种基于多粒度建模技术的仿真***及构建方法
CN112819052A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、***、设备和存储介质
CN112990048B (zh) * 2021-03-26 2021-11-23 中科视语(北京)科技有限公司 车纹识别方法及装置
CN112990048A (zh) * 2021-03-26 2021-06-18 中科视语(北京)科技有限公司 车纹识别方法及装置
CN113516286A (zh) * 2021-05-14 2021-10-19 山东建筑大学 基于多粒度任务联合建模的学生学业预警方法及***
CN113516286B (zh) * 2021-05-14 2024-05-10 山东建筑大学 基于多粒度任务联合建模的学生学业预警方法及***
CN114064967B (zh) * 2022-01-18 2022-05-06 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114064967A (zh) * 2022-01-18 2022-02-18 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114219049B (zh) * 2022-02-22 2022-05-10 天津大学 一种基于层级约束的细粒度笔石图像分类方法和装置
CN114219049A (zh) * 2022-02-22 2022-03-22 天津大学 一种基于层级约束的细粒度笔石图像分类方法和装置
CN116012679A (zh) * 2022-12-19 2023-04-25 中国科学院空天信息创新研究院 一种基于多层级跨模态交互的自监督遥感表示学习方法
CN116012679B (zh) * 2022-12-19 2023-06-16 中国科学院空天信息创新研究院 一种基于多层级跨模态交互的自监督遥感表示学习方法

Also Published As

Publication number Publication date
CN107346328B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN107346328A (zh) 一种基于多粒度层级网络的跨模态关联学习方法
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
Dong et al. Towards interpretable deep neural networks by leveraging adversarial examples
Fang et al. From captions to visual concepts and back
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN107766324A (zh) 一种基于深度神经网络的文本一致性分析方法
CN105718532B (zh) 一种基于多深度网络结构的跨媒体排序方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取***
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN110826638A (zh) 基于重复注意力网络的零样本图像分类模型及其方法
Wang et al. A vision-based active learning convolutional neural network model for concrete surface crack detection
CN109410184A (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
Huang et al. Qualitynet: Segmentation quality evaluation with deep convolutional networks
CN107609055B (zh) 基于深层主题模型的文本图像多模态检索方法
Salewski et al. Clevr-x: A visual reasoning dataset for natural language explanations
CN110147552B (zh) 基于自然语言处理的教育资源质量评价挖掘方法及***
CN105989336A (zh) 基于带权重的解卷积深度网络学习的场景识别方法
CN104881684A (zh) 一种立体图像质量客观评价方法
CN109584203A (zh) 基于深度学习与语义信息的重定位图像质量评价方法
CN106485272A (zh) 基于流形约束的跨模态嵌入的零样本分类方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant