CN111914156A - 自适应标签感知的图卷积网络跨模态检索方法、*** - Google Patents

自适应标签感知的图卷积网络跨模态检索方法、*** Download PDF

Info

Publication number
CN111914156A
CN111914156A CN202010819729.7A CN202010819729A CN111914156A CN 111914156 A CN111914156 A CN 111914156A CN 202010819729 A CN202010819729 A CN 202010819729A CN 111914156 A CN111914156 A CN 111914156A
Authority
CN
China
Prior art keywords
network
cross
modal
sub
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010819729.7A
Other languages
English (en)
Other versions
CN111914156B (zh
Inventor
徐常胜
钱胜胜
方全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010819729.7A priority Critical patent/CN111914156B/zh
Publication of CN111914156A publication Critical patent/CN111914156A/zh
Application granted granted Critical
Publication of CN111914156B publication Critical patent/CN111914156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于检索领域,具体涉及一种自适应标签感知的图卷积网络跨模态检索方法、***,旨在为了解决解决现有跨模态检索方法中因忽略标签的底层语义结构带来的检索精准度不高的问题。本发明方法包括:基于第一子网络,获取输入信息的跨模态表示;基于分类器,获得所述输入信息的预测分类;其中,所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。本发明可以更好地保留底层语义结构,缩小模态鸿沟,提高了跨模态检索的准确度。

Description

自适应标签感知的图卷积网络跨模态检索方法、***
技术领域
本发明属于检索领域,具体涉及一种自适应标签感知的图卷积网络跨模态检索方法、***。
背景技术
随着互联网和多媒体的快速发展,文本、图像、视频、音频等多模态数据***式增长,成为知识获取和信息传播的主要形式。单模态检索是用一种模态的数据(如文本)作为查询条件,检索出相同模态(还是文本)的语义相似数据。跨模态搜索是使用一种模态的数据(如文本)作为查询条件,检索出其他模态(如图像)的语义相似数据。跨模态检索具有广泛的应用前景,如多媒体数据管理和智能搜索引擎。
不同模态的数据具有异质性,弥补模态差异的常用方法是表示学习,它将来自不同模态的数据投影到一个共同的特征表示子空间中。跨模态检索的技术方法分为两类:(1)实值表示学习(2)二值表示学习。实值表示学习是将不同模态的数据用一种通用的实数表示方法来表示,通过距离度量(如余弦距离、欧氏距离等)进行相关度排序的方法。二值表示学习是将不同模态的数据投影到一个公共的汉明空间,得到二值哈希码表示,通过度量汉明距离进行相关度排序的方法。这两类方法中有线性的方法也有非线性的方法。深度神经网络是自动学习特征表示的新兴技术,基于深度神经网络的跨模态检索已经成为挖掘非线性关系的活跃研究课题,并取得了很大的性能改进,所以基于深度学习的跨模态检索方法越来越受欢迎。
跨模态检索的核心是如何将不同模态的数据投影到一个可以直接测量不同类型数据之间内容相似度的公共表示空间中。然而,现有的方法通常将每个标签视为独立的个体,而忽略了标签的底层语义结构。近年来,图卷积神经网络(Graph ConvolutionalNetworks,GCN)因其对由元素构成的数据及其依赖关系的出色建模能力而受到越来越多的关注,并在多标签分类任务中取得了优异的表现。受其激发,我们利用GCNs在挖掘关系方面的优势,并根据标签之间的语义相关性来学习分类器。我们通过在公共表示空间中设计实例表示学习分支和标签表示学习分支,提出了一种端到端的自适应标签感知图卷积网络(ALGCN),该网络可以获得跨模态检索的模态不变和可区分表示。
发明内容
为了解决现有技术中的上述问题,即为了解决现有跨模态检索方法中因忽略标签的底层语义结构带来的检索精准度不高的问题,本发明第一方面,提出了一种自适应标签感知的图卷积网络跨模态检索方法,包括以下步骤:
步骤S100,基于第一子网络,获取输入信息的跨模态表示;
步骤S200,基于分类器,获得所述输入信息的预测分类;
其中,
所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;
所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。
在一些优选实施例中,所述第一子网络、所述分类器通过联合训练的方式进行优化获得,其训练网络包括第一子网络、第二子网络;
基于第一子网络获取训练输入样本的跨模态表示,基于第二子网络生成的分类器获取预测结果,并基于预设损失函数进行训练,获得训练后的第一子网络、分类器。
在一些优选实施例中,所述预设损失函数通过最小化同类别公共表示的分类损失、最大化不同类别的公共表示的模态不变损失的方法构建。
在一些优选实施例中,所述预设损失函数为
Figure BDA00026340297100000314
其中,
Figure BDA00026340297100000315
为分类损失,
Figure BDA00026340297100000316
为模态不变损失,α为权重系数。
在一些优选实施例中,分类损失
Figure BDA00026340297100000318
Figure BDA0002634029710000031
其中,n为图像文本对数量,
Figure BDA0002634029710000032
为第i个图像文本对中图像样本的预测标签,
Figure BDA0002634029710000033
为第i个图像文本对中文本样本的预测标签,yi为第i个图像文本对的语义标签向量。
在一些优选实施例中,模态不变损失
Figure BDA00026340297100000317
Figure BDA0002634029710000034
Figure BDA0002634029710000035
其中,Γij表示图像模态vi与文本模态tj间余弦相似度,
Figure BDA0002634029710000036
Figure BDA0002634029710000037
表示图像与文本模态间点积相似度,
Figure BDA0002634029710000038
表示图像与图像模态内点积相似度,
Figure BDA0002634029710000039
表示文本与文本模态内点积相似度,
Figure BDA00026340297100000310
Φij表示文本模态内余弦相似度,
Figure BDA00026340297100000311
Θij表示图片模态内余弦相似度,
Figure BDA00026340297100000312
在一些优选实施例中,所述模态转换函数为
Figure BDA00026340297100000313
其中,vi为图像模态,ti为文本模态,d为统一空间的维数,Rd表示d维向量,
Figure BDA0002634029710000041
表示图像模态的转换函数,其中θv为可训练参数集合,
Figure BDA0002634029710000042
表示文本模态的转换函数,其中θt为可训练参数集合。。
在一些优选实施例中,所述自适应关联矩阵为
A=ReLU(C+γD)
其中,ReLU()为激活函数,D∈Rc×c,D为可训练的关联矩阵,Rc×c为表示c×c的矩阵,C为固定的关联矩阵,γ为权衡参数。
本发明的第二方面,提出了一种自适应标签感知的图卷积网络跨模态检索***,包括第一模块、第二模块;
所述第一模块,配置为基于第一子网络,获取输入信息的跨模态表示;
所述第二模块,配置为基于分类器,获得所述输入信息的预测分类;
其中,
所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;
所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。
本发明的有益效果:
本发明的跨模态检索的公共表示可以更好地保留底层语义结构,缩小模态鸿沟;本发明通过第一子网络、第二子网络构建的联合训练框架,能够保持实例间的跨模态语义关联,挖掘标签潜在的语义结构;本发明的自适应关联矩阵,以数据驱动的方式动态地挖掘标签之间丰富的语义关系,使之更具通用性,以适应跨模态数据。本发明解决了跨模态检索方法中因忽略标签的底层语义结构带来的检索精准度不高的问题,提高了跨模态检索的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的自适应标签感知的图卷积网络跨模态检索方法流程示意图;
图2是发明一种实施例中由第一子网络、第二子网络构成的联合训练框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明要解决的技术问题有以下几个方面:
(1)现有的方法通常将每个标签视为独立的个体,忽略了标签的潜在语义结构。
在跨模态数据集中,每个样本包含多个标签,其中多个标签之间的语义依赖对跨模态学习很重要。比如,我们可以看到“云”和“天空”一起出现,“海洋”很有可能与“海滩”相邻。在物理世界中,一些标签的组合几乎不可能出现。因此,需要利用标签相关性来获得跨模态协同检索的综合表示。我们通过在公共表示空间中设计实例表示学习分支和标签表示学习分支,提出了一种端到端的自适应标签感知图卷积网络,可以获得模态不变的、有区别的跨模检索表示。
(2)传统的表示学习方法是线性映射,很难捕捉相关性
深度神经网络(deep neural networks)作为一种新兴的自动学习特征表示的技术,越来越多地应用于跨模态检索任务中。基于深度神经网络(DNN)的跨模态检索已经成为利用非线性关系的一个活跃的研究课题,并取得了很大的性能改进。实例表示学习分支和标签表示学习分支采用深度神经网络,通过转换函数将特征映射到统一空间,来捕捉相关性。
(3)GCN网络中关联矩阵是固定的,我们采用自适应关联矩阵
我们引入了一个自适应关联矩阵,以数据驱动的方式动态地挖掘标签之间丰富的语义关系,这可以增加模型的图形构建灵活性,并带来更大的通用性,以适应跨模态数据。
为此,提出了本发明的一种自适应标签感知的图卷积网络跨模态检索方法,如图1所示,包括以下步骤:
步骤S100,基于第一子网络,获取输入信息的跨模态表示;
步骤S200,基于分类器,获得所述输入信息的预测分类;
其中,
所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;
所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。
为了更清晰地对本发明自适应标签感知的图卷积网络跨模态检索方法进行说明,下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。
在对本发明自适应标签感知的图卷积网络跨模态检索方法进行说明之前,对该方法所依托的网络结构进行说明将更有利于本发明技术方案的说明。
本发明的第一子网络和分类器是基于由第一子网络、第二子网络构成的联合训练框架(如图2所示),通过样本数据训练获取。
1、第一子网络
第一子网络为实例表示学习分支,其用于得到数据的跨模态表示。将图片和文本的特征,通过模态转换函数,映射到统一空间中,得到数据的跨模态表示。可以在公共表示空间中直接比较不同模态的样本的相似度来进行检索。本实施例中可以采用端到端的自适应标签感知图卷积网络(ALGCN)来学习跨模态检索的公共表示。
(1)样本数据的表示
样本数据(instance)包括图像(image)和文本(text)数据,通过图像文本(image-text)对的方式体现。例如输入信息可以为图2所示图像模态、文本模态。
n个image-text对表示为:
Figure BDA0002634029710000081
其中,
Figure BDA0002634029710000082
为第i个instance的image样本特征,
Figure BDA0002634029710000083
为第i个instance的text样本特征,dv、dt分别为图像、文本的特征维度,
Figure BDA0002634029710000084
表示dv维的向量、
Figure BDA0002634029710000085
表示dt维的向量。
每个图像文本对
Figure BDA0002634029710000086
分配的语义标签向量yi为:
yi=[yi1,yi2,…,yic]∈Rc
Figure BDA0002634029710000087
其中,c为类别数目,Rc表示c维向量。
(2)相似度度量
由于图像、文本的特征向量属于不同的模态,不能直接比较相似度,因此需通过不同模态的转换函数将图像和文本的特征向量映射到一个统一空间,在统一表示空间中直接比较这两个模态的样本的相似度,同一类别样本的相似度大于不同类别样本的相似度。
不同模态的转换函数如下:
Figure BDA0002634029710000088
其中,vi为图像模态,ti为文本模态,d为统一空间的维数,θv、θt可训练参数,Rd表示d维向量,
Figure BDA0002634029710000089
表示图像模态的转换函数,其中θv为参数集合,
Figure BDA00026340297100000810
表示文本模态的转换函数,其中θt为参数集合。
(3)实例表示学习分支的构成
本实施例中,实例表示学习分支包括两个子网络:图像跨模态表示获取网络(ImgNet)、文本跨模态表示获取网络(TxtNet)。
ImgNet用于图像模态的特征学习。骨干网络为VGGNet的图像卷积网络,输入是原始图像,从VGGNet的fc7层生成4096维特征向量作为图像的高级语义表示
Figure BDA0002634029710000091
然后应用几个全连接层将
Figure BDA0002634029710000092
映射到公共空间得到vi
Figure BDA0002634029710000093
其中,1≤i≤n,θv={θcnnfv},fc表示全连接层的下标,ffc()表示实现全连接层的函数,cnn表示提取图像特征的网络,fcnn()表示实现cnn的函数,θcnn为cnn网络参数集合,该参数集合是预训练参数,fv表示全连接层中图像相关参数的下标,θfv为全连接层图像相关参数集合,改参数集合是优化参数。
TxtNet用于文本模态的特征学习。骨干网络为多层全连接(Multi-LayerPerception)的文本多层感知机,输入是样本数据集提供的词袋特征,经过多层全连接生成高级语义表示
Figure BDA0002634029710000094
然后应用几个全连接层将
Figure BDA0002634029710000095
映射到统一空间得到ti
Figure BDA0002634029710000096
其中,1≤i≤n,θt={θmlpft},mlp为代表多层感知机的下标,mlp网络用来提取文本特征,fmlp()为实现mlp的函数,θmlp为mlp网络参数集合,该参数集合是预训练参数,θft为全连接层文本相关参数集合,该参数集合是优化参数。
2、第二子网络
第二子网络为标签表示学习分支,用于得到分类器。如图2所示,基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络(GCN)生成分类器
(1)生成分类器的过程描述
该分支中,将标签(label)构造成一个图G,节点V为标签,边E为标签间的关系:
Figure BDA0002634029710000104
图的每个节点都与一个特征向量相关联,根据图G得到图的特征矩阵Q如下,其中d(0)维特征矩阵代表所有顶点的特征
Figure BDA0002634029710000101
其中,qi为第i个节点的特征,d(0)为label-level wording embedding(标签级别词嵌入向量)的维度,
Figure BDA0002634029710000105
表示c×d(0)的矩阵。
本发明引入自适应关联矩阵A∈Rc×c(具体实现见下文),矩阵A为c×c的矩阵,其中每一项为Aij,代表GCN的权重矩阵,矩阵A和label embedding(标签嵌入向量)经过图卷积网络(GCN)生成分类器:
Figure BDA0002634029710000102
其中Z是c×d的矩阵。
(2)自适应关联矩阵
自适应关联矩阵A是基于统计信息结合动态自适应矩阵形成的。
首先,计算条件概率P(Lj|Li),P(Lj|Li)表示label LiLj共现的可能性:
Figure BDA0002634029710000103
其中:Mij为label对的共现频率,即label i和label j的共现频率,Nj为label j的出现频率。
然而Pij作为关联矩阵时有两个问题:(1)长尾分布造成了一些噪声信息;(2)容易出现过拟合,影响泛化能力。
所以本发明引入二值化过程,得到二值化关联矩阵Bij,阈值为τ:
Figure BDA0002634029710000111
同时,为了解决Bij导致的过度平滑,不同节点的特征难以区分的问题,本发明采用重新加权策略,得到了新的关联矩阵Cij
Figure BDA0002634029710000112
其中,p为决定节点本身及相邻节点的权重,选择合适的p,可以以适当的方式集成来自不同节点的传播信息,p→0时,邻近节点的信息被完全忽略。
但是重新加权策略不能准确地保持标签的语义结构,为了更好的动态更新、优化关联矩阵,本发明引入自适应机制(adaptive),
最终得到的关联矩阵A的形式如下:
A=ReLU(C+γD)
其中,ReLU()为激活函数,D∈Rc×c,D为关联矩阵,该矩阵可训练,以数据驱动的方式参数化、优化,Rc×c为表示c×c的矩阵,C为固定的关联矩阵,其中的项为Cij,γ为权衡参数。
关联矩阵A,可训练,以数据驱动的方式参数化、优化。
3、联合训练框架
基于由第一子网络、第二子网络构建联合训练框架,在训练过程中基于第一子网络得到的数据跨模态表示、和第二子网络得到的分类器共同作用进行预测。
实例表示学习与标签表示学习结合,将标签表示学习得到的分类器Z应用于实例表示学习分支得到的跨模态表示,得到预测分数,如下:
Figure BDA0002634029710000121
Figure BDA0002634029710000122
其中,
Figure BDA0002634029710000123
为第i个image属于第j类的预测分数,
Figure BDA0002634029710000124
为第i个text属于第j类的预测分数,zj为分类器
Figure BDA0002634029710000125
的第j列,代表第j类分类器向量,classifiers为分类器,predicted score为预测得分。
4、损失函数
本实施例的损失函数通过最小化同类别公共表示的分类损失、最大化不同类别的公共表示的模态不变损失的方法构建。
损失函数
Figure BDA00026340297100001219
可表示为
Figure BDA00026340297100001214
其中,
Figure BDA00026340297100001215
为分类损失,
Figure BDA00026340297100001216
为模态不变损失,α为权重系数。
分类损失
Figure BDA00026340297100001217
Figure BDA0002634029710000126
其中,n为图像文本对数量,
Figure BDA0002634029710000127
为第i个图像文本对中图像样本的预测标签,
Figure BDA0002634029710000128
为第i个图像文本对中文本样本的预测标签,yi为第i个图像文本对的语义标签向量。
模态不变损失=模态间损失+模态内损失。模态不变损失
Figure BDA00026340297100001218
Figure BDA0002634029710000129
Figure BDA00026340297100001210
其中,其中,Γij表示图像模态vi与文本模态tj间余弦相似度,
Figure BDA00026340297100001211
表示图像与文本模态间点积相似度,
Figure BDA00026340297100001212
表示图像与图像模态内点积相似度,
Figure BDA00026340297100001213
表示文本与文本模态内点积相似度,
Figure BDA0002634029710000131
Φij表示文本模态内余弦相似度,
Figure BDA0002634029710000132
Figure BDA0002634029710000133
Θij表示图片模态内余弦相似度,
Figure BDA0002634029710000134
模态不变损失中第一项可以写成
Figure BDA0002634029710000135
Figure BDA0002634029710000136
时,最小化这项相当于最小化Γij,Γij越大
Figure BDA0002634029710000138
中这项越重要。
基于上述的第一子网络、第二子网络、损失函数,通过训练样本数据进行训练获得训练后的第一子网络、分类器,并基于训练后的第一子网络、分类器构建跨模态检测网络,基于跨模态检测网络,本发明的自适应标签感知的图卷积网络跨模态检索方法包括:
步骤S100,基于第一子网络,获取输入信息的跨模态表示;
步骤S200,基于分类器,获得所述输入信息的预测分类;
步骤S300,选取各预测分类的概率值中最大的作为最终的分类结果。
为了评估本发明,本发明采用NUS_WIDE数据,NUS_WIDE数据库是计算机视觉领域常用的数据库,这是由新加坡国立大学的媒体搜索实验室创建的网络图像数据集。数据集中有269648个image-text对,有label信息的有190421对,共21种类别;Image是224*224的RGB数组;text是维度为1000的tag vector(标签向量)。
表1是本发明实施例的方法与其他方法的比较情况,实验时随机选取2000对作为测试集,其余的作为训练集。我们采用mAP(Mean Average Precision,平均精度均值)作为评价指标:
Figure BDA0002634029710000137
其中,R为检索结果的个数,N:查询的ground-truth(真实数据)相似实例的数量,P(r)为前r个查询实例的准确率,δ(r)=1表示第r个查询实例与查询条件相似,δ(r)=0表示第r个查询实例与查询条件不相似。
表1
Figure BDA0002634029710000141
其中,Image2Text为用图片搜索文本的任务,Text2Image为用文本搜索图片的任务,Average为计算的到均值;
CFA:Cross-modal Factor Analysis(跨模态因子分析);
CCA:Canonical Correlation Analysis(典型相关分析);
PLS-C2A:Partial Least Squares Canonical algorithm(偏最小二乘法);
JRL:Joint Representation Learning(联合表示学习);
Multimodal DBN:multimodal Deep Belief Network(多模态深度信念网络);
Corr-AE:correspondence autoencoder(对应自编码器);
DCCA:Deep Canonical Correlation Analysis(深度典型相关分析);
ml-CCA(Multi-Label Canonical Correlation Analysis,多标签典型相关分析)可以利用多标签信息,同时学习两种模态的共同语义空间,解决了CCA无法考虑高级的语义信息,比如数据的类标签的缺点;
ACMR(Adversarial cross-modal retrieval,对抗跨模态检索)将GAN在domainadaptation中的应用借鉴到了跨媒体检索中,让不同模态数据在语义层面(同模态内部、跨模态之间)融合的更好;
DSCMR(Deep Supervised Cross-modal Retrieval,深度监督跨模态检索)是找到一个共同的表示空间,在这个空间中可以直接比较来自不同模式的样本;
ALGCN(Adaptive Label-aware Graph Convolutional Networks for
Cross-Modal Retrieval,自适应标签感知的图卷积网络跨模态检索)是我们的模型,它由实例表示学习分支和标签表示学习分支构建的联合训练框架,它能够保持实例间的跨模态语义关联,挖掘标签潜在的语义结构;此外,还提出了一种自适应关联矩阵,以数据驱动的方式动态地挖掘标签之间丰富的语义关系,使之更具通用性,以适应跨模态数据。
从表1可以看出,相比于其他的方法,本方法ALGCN在跨模态检索中取得显著的效果,我们的方法用GCN了,结合充分利用标签的潜在语义结构,采用灵活的自适应关联矩阵,可以更好的实现跨模态检索。
本发明第二实施例的一种自适应标签感知的图卷积网络跨模态检索***,包括第一模块、第二模块;
所述第一模块,配置为基于第一子网络,获取输入信息的跨模态表示;
所述第二模块,配置为基于分类器,获得所述输入信息的预测分类;
其中,
所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;
所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的自适应标签感知的图卷积网络跨模态检索***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (11)

1.一种自适应标签感知的图卷积网络跨模态检索方法,其特征在于,包括以下步骤:
步骤S100,基于第一子网络,获取输入信息的跨模态表示;
步骤S200,基于分类器,获得所述输入信息的预测分类;
其中,
所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;
所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。
2.根据权利要求1所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,所述第一子网络、所述分类器通过联合训练的方式进行优化获得,其训练网络包括第一子网络、第二子网络;
基于第一子网络获取训练输入样本的跨模态表示,基于第二子网络生成的分类器获取预测结果,并基于预设损失函数进行训练,获得训练后的第一子网络、分类器。
3.根据权利要求2所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,所述预设损失函数通过最小化同类别公共表示的分类损失、最大化不同类别的公共表示的模态不变损失的方法构建。
4.根据权利要求3所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,所述预设损失函数为
Figure FDA0002634029700000021
其中,
Figure FDA0002634029700000022
为分类损失,
Figure FDA0002634029700000023
为模态不变损失,α为权重系数。
5.根据权利要求4所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,分类损失
Figure FDA0002634029700000024
Figure FDA0002634029700000025
其中,n为图像文本对数量,
Figure FDA0002634029700000026
为第i个图像文本对中图像样本的预测标签,
Figure FDA0002634029700000027
为第i个图像文本对中文本样本的预测标签,yi为第i个图像文本对的语义标签向量。
6.根据权利要求5所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,模态不变损失
Figure FDA0002634029700000028
Figure FDA0002634029700000029
其中,Γij表示图像模态vi与文本模态tj间余弦相似度,
Figure FDA00026340297000000210
Figure FDA00026340297000000211
Figure FDA00026340297000000212
表示图像与文本模态间点积相似度,
Figure FDA00026340297000000213
Figure FDA00026340297000000214
表示图像与图像模态内点积相似度,
Figure FDA00026340297000000215
Figure FDA00026340297000000216
表示文本与文本模态内点积相似度,
Figure FDA00026340297000000217
Φij表示文本模态内余弦相似度,
Figure FDA00026340297000000218
Figure FDA00026340297000000219
Θij表示图片模态内余弦相似度,
Figure FDA00026340297000000220
7.根据权利要求1-6中任一项所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,所述模态转换函数为
Figure FDA0002634029700000031
其中,vi为图像模态,ti为文本模态,d为统一空间的维数,Rd表示d维向量,
Figure FDA0002634029700000032
表示图像模态的转换函数,其中θv为可训练参数集合,
Figure FDA0002634029700000033
表示文本模态的转换函数,其中θt为可训练参数集合。
8.根据权利要求7所述的自适应标签感知的图卷积网络跨模态检索方法,其特征在于,所述自适应关联矩阵为
A=ReLU(C+γD)
其中,ReLU()为激活函数,D∈Rc×c,D为可训练的关联矩阵,Rc×c为表示c×c的矩阵,C为固定的关联矩阵,γ为权衡参数。
9.一种自适应标签感知的图卷积网络跨模态检索***,其特征在于,包括第一模块、第二模块;
所述第一模块,配置为基于第一子网络,获取输入信息的跨模态表示;
所述第二模块,配置为基于分类器,获得所述输入信息的预测分类;
其中,
所述第一子网络,配置为对输入信息进行特征提取,并通过模态转换函数,映射到统一空间中,得到输入信息的跨模态表示;
所述分类器,通过第二子网络生成;所述第二子网络,配置为基于标签与标签关系构造的图,获取该图的特征矩阵,并基于自适应关联矩阵,通过图卷积网络生成分类器。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的自适应标签感知的图卷积网络跨模态检索方法。
11.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的自适应标签感知的图卷积网络跨模态检索方法。
CN202010819729.7A 2020-08-14 2020-08-14 自适应标签感知的图卷积网络跨模态检索方法、*** Active CN111914156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010819729.7A CN111914156B (zh) 2020-08-14 2020-08-14 自适应标签感知的图卷积网络跨模态检索方法、***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010819729.7A CN111914156B (zh) 2020-08-14 2020-08-14 自适应标签感知的图卷积网络跨模态检索方法、***

Publications (2)

Publication Number Publication Date
CN111914156A true CN111914156A (zh) 2020-11-10
CN111914156B CN111914156B (zh) 2023-01-20

Family

ID=73284119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010819729.7A Active CN111914156B (zh) 2020-08-14 2020-08-14 自适应标签感知的图卷积网络跨模态检索方法、***

Country Status (1)

Country Link
CN (1) CN111914156B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381147A (zh) * 2020-11-16 2021-02-19 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
CN112836746A (zh) * 2021-02-02 2021-05-25 中国科学技术大学 基于一致性图建模的语义对应方法
CN113159007A (zh) * 2021-06-24 2021-07-23 之江实验室 一种基于自适应图卷积的步态情感识别方法
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113239214A (zh) * 2021-05-19 2021-08-10 中国科学院自动化研究所 基于有监督对比的跨模态检索方法、***及设备
CN113297575A (zh) * 2021-06-11 2021-08-24 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114004223A (zh) * 2021-10-12 2022-02-01 北京理工大学 一种基于行为基的事件知识表示方法
CN115098707A (zh) * 2022-06-24 2022-09-23 山东大学 基于零样本学习的跨模态哈希检索方法及***
CN115658955A (zh) * 2022-11-08 2023-01-31 苏州浪潮智能科技有限公司 跨媒体检索及模型训练方法、装置、设备、菜谱检索***
CN116796032A (zh) * 2023-04-11 2023-09-22 重庆师范大学 一种基于自适应图注意力哈希的多模态数据检索模型
CN117312592A (zh) * 2023-11-28 2023-12-29 云南联合视觉科技有限公司 基于模态不变特征学习的文本-行人图像检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和***
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李志义等: "基于表示学习的跨模态检索模型与特征抽取研究综述", 《情报学报》 *
綦金玮等: "面向跨媒体检索的层级循环注意力网络模型", 《中国图象图形学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381147A (zh) * 2020-11-16 2021-02-19 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
CN112381147B (zh) * 2020-11-16 2024-04-26 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
CN112836746A (zh) * 2021-02-02 2021-05-25 中国科学技术大学 基于一致性图建模的语义对应方法
CN112836746B (zh) * 2021-02-02 2022-09-09 中国科学技术大学 基于一致性图建模的语义对应方法
CN113204659A (zh) * 2021-03-26 2021-08-03 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113204659B (zh) * 2021-03-26 2024-01-19 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113239214A (zh) * 2021-05-19 2021-08-10 中国科学院自动化研究所 基于有监督对比的跨模态检索方法、***及设备
CN113297575B (zh) * 2021-06-11 2022-05-17 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
CN113297575A (zh) * 2021-06-11 2021-08-24 浙江工业大学 一种基于自编码器的多通道图垂直联邦模型防御方法
CN113159007A (zh) * 2021-06-24 2021-07-23 之江实验室 一种基于自适应图卷积的步态情感识别方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114004223A (zh) * 2021-10-12 2022-02-01 北京理工大学 一种基于行为基的事件知识表示方法
CN114004223B (zh) * 2021-10-12 2022-05-24 北京理工大学 一种基于行为基的事件知识表示方法
CN115098707A (zh) * 2022-06-24 2022-09-23 山东大学 基于零样本学习的跨模态哈希检索方法及***
CN115658955A (zh) * 2022-11-08 2023-01-31 苏州浪潮智能科技有限公司 跨媒体检索及模型训练方法、装置、设备、菜谱检索***
CN116796032A (zh) * 2023-04-11 2023-09-22 重庆师范大学 一种基于自适应图注意力哈希的多模态数据检索模型
CN117312592A (zh) * 2023-11-28 2023-12-29 云南联合视觉科技有限公司 基于模态不变特征学习的文本-行人图像检索方法
CN117312592B (zh) * 2023-11-28 2024-02-09 云南联合视觉科技有限公司 基于模态不变特征学习的文本-行人图像检索方法

Also Published As

Publication number Publication date
CN111914156B (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN111914156B (zh) 自适应标签感知的图卷积网络跨模态检索方法、***
CN114067160B (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
Li et al. Image retrieval from remote sensing big data: A survey
CN110222140B (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
Najafabadi et al. Deep learning applications and challenges in big data analytics
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113239214B (zh) 基于有监督对比的跨模态检索方法、***及设备
CN105210064B (zh) 使用深度网络将资源分类
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及***
CN112380435A (zh) 基于异构图神经网络的文献推荐方法及推荐***
CN111382283B (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN112100372A (zh) 头版新闻预测分类方法
CN111368176B (zh) 基于监督语义耦合一致的跨模态哈希检索方法及***
Furht et al. Deep learning techniques in big data analytics
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN112883216B (zh) 基于扰动一致性自集成的半监督图像检索方法及装置
Purwandari et al. Twitter-based classification for integrated source data of weather observations
CN113761291A (zh) 标签分类的处理方法和装置
CN116975743A (zh) 行业信息分类方法、装置、计算机设备和存储介质
Jin et al. Improving the Performance of Deep Learning Model‐Based Classification by the Analysis of Local Probability
CN111615178B (zh) 识别无线网络类型及模型训练的方法、装置及电子设备
Singh et al. Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers, Part II
CN115512176A (zh) 模型训练方法、图像理解方法、装置、介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant