CN112905822B - 一种基于注意力机制的深度监督跨模态对抗学习方法 - Google Patents
一种基于注意力机制的深度监督跨模态对抗学习方法 Download PDFInfo
- Publication number
- CN112905822B CN112905822B CN202110144443.8A CN202110144443A CN112905822B CN 112905822 B CN112905822 B CN 112905822B CN 202110144443 A CN202110144443 A CN 202110144443A CN 112905822 B CN112905822 B CN 112905822B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- feature
- attention mechanism
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000007246 mechanism Effects 0.000 title claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000005259 measurement Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力机制的深度监督跨模态对抗学习方法,针对每个模态构建深度学习网络获取深度特征,引入生成对抗网络,利用模态间的交叉判别借助注意力机制不断提炼模态特征网络的生成特征,在公共子空间进行异质性数据的度量的同时,利用标签信息在标签空间对模态数据进行深度监督学习。如此构建的网络,使得训练得到的基于注意力机制的跨模态深度监督对抗模型具有良好的图文互相检索性能;在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及余弦距离计算,从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者,实现跨模态检索。
Description
技术领域
本发明涉及多模态学习和信息检索技术领域,更具体地说,涉及一种基于注意力机制的深度监督跨模态对抗学习方法。
背景技术
图像、文本等不同模态数据广泛存在于互联网之中,然而,“异构鸿沟”问题导致不同模态的数据分布及表征不一致,难以实现语义关联,为用户在海量互联网不同模态间数据中检索有用信息带来不便。现有技术中,跨模态检索能够用于在不同模态的数据间(图像、文本、语音、视频等)进行检索,如通过图像检索文本、通过文本检索音频、通过音频检索视频等等,跨模态检索常用于搜索引擎和大数据管理中。
但是,多模态数据具有底层特征异构高层语义相关的特性,因此,现有技术的跨模态检索存在的不足是:在数据表征不一致的情况下,不同模态间的内在关联关系差,语义关联程度低;造成现有技术的跨模态的相似性度量面临很大挑战。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机制的深度监督跨模态对抗学习方法,能够有效提高跨模态检索的准确度。
本发明的技术方案如下:
一种基于注意力机制的深度监督跨模态对抗学习方法,包括训练过程和检索过程,具体如下:
训练过程:将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练,直至模型收敛,从而获得网络模型M;
检索过程:利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量,从而计算待查询的第一类型对象与候选库中第二类型对象的相似度,返回相似度最高的检索结果;
其中,第一类型对象为图像,第二类型对象为文本,或者,第一类型对象为文本,第二类型对象为图像。
作为优选,训练过程的步骤如下:
1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中,提取第一类型对象的特征;
1.2)将1.1)中提取的特征输入对应模态的判别器中,作为真样本;并将要检索的第二类型对象对应模态的特征网络作为生成器,生成的特征作为假样本,输入判别器中进行对抗学习;
1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中,根据模态间的共同语义信息特征图P,生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量,即图像特征I和文本特征T;
1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习,采用误差反向传播算法先优化在公共子空间和标签空间的损失,得到收敛的基于注意力机制的两个空间上的网络;然后更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
作为优选,步骤1.1)中,具体地,将不同类别的图像数据vi输入到图像特征提取网络中提取图像的图像特征,将对应的文本数据ti输入到文本特征提取网络中提取文本数据的文本特征。
作为优选,图像特征提取网络包括五个卷积层、池化层和三个全连接层,其中,最后一层全连接层隐藏单元数量为d,d表示提取得到的图像特征的维数。
作为优选,文本特征提取网络为三层全连接的多层感知机模型,整体为Q→8192→4096→N,其中,Q表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数。
作为优选,图像模态对应的图像判别器为分类器Dx,是参数为θDx的多层感知机模型;文本模态对应的文本判别器为分类器Dy,是参数为θDy的多层感知机模型;
步骤1.2)中,对抗损失Ladv具体如下:
其中,fi x表示是图像模态的第i个实例,fi y表示是文本模态的第i个实例,n表示图像文本对的数量。
作为优选,步骤1.3)中,对抗学习引导的跨模态联合注意力机制根据第一类型对象的特征表示与第二类型对象的特征表示之间的距离,对相应的特征项分配权重;在注意力机制中,共同语义特征图P为语义标签的嵌入矩阵,第一类型对象和第二类型对象具有相同的共同语义特征图P;
特征向量的长度各不相同,并且特征表示和共同语义特征图P之间的值范围不一致,则通过L2归一化对输出进行预处理,将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1,1];
其中,*∈{x,y},则fx表示第一类型对象的特征,fy表示第一类型对象的特征,fx、fy用于引导注意力机制中的共同语义特征图P的生成,C为类标签的数量;Mc是第c个类标签的嵌入特征,属于向量空间R1×d的行向量,d为特征表示维度;共同语义特征图P是mask的总和,则λ是控制mask特征效果的参数,σ为激活函数,为Mc的转置。
作为优选,步骤1.4)具体如下:
1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习;
使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间,第二个全连接层的隐含神经元个数为映射到公共空间的维数d,每个图像和文本表示为uic、vic,并在此层上设计基于余弦距离的三重损失,具体如下:
在公共子空间中还设计有公共空间判别性损失Lcdis,具体如下:
则公共空间的损失为:
Lcom=Ltri+Lcdis;
1.4.2)基于在公共子空间的理想判别模态间语义关系,图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签,然后映射到标签空间进行度量,此层的输出维度为C,与图像和文本的标签类别数相一致;在标签空间的目标函数表示为:
其中,U=[u1,u2,...,un],表示图像在公共空间的矩阵,V=[v1,v2,...,vn],表示文本在公共空间的矩阵,Y表示标签空间,则Y=[l1,l2,...,ln];||·||F表示Frobenius范数;
结合所述的三种损失可得到网络的整体损失:
L=Ladv+τLcom+γLlab;
其中,τ、γ为超参数。
1.4.3)采用误差反向传播算法先优化网络的整体损失L,更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,迭代不断进行对抗和损失优化直至模型收敛,形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
作为优选,检索过程的步骤如下:
2.1)利用训练过程得到的网络模型M,分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量;
2.3)返回相似度最高的检索结果。
作为优选,步骤2.3)中,将得到的相似度进行降序排序,然后返回相似度最高的检索结果;
本发明的有益效果如下:
本发明所述的基于注意力机制的深度监督跨模态对抗学习方法,针对每个模态构建深度学习网络获取深度特征,引入生成对抗网络,利用模态间的交叉判别借助注意力机制不断提炼模态特征网络的生成特征,在公共子空间进行异质性数据的度量的同时,利用标签信息在标签空间对模态数据进行深度监督学习。如此构建的网络,使得训练得到的基于注意力机制的跨模态深度监督对抗模型具有良好的图文互相检索性能;在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及余弦距离计算,从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者,实现跨模态检索。
本发明通过构建生成对抗网络进行对抗学习,同时将原始特征映射到公共空间和标签空间保留更多语义信息,极大提升了在图像-文本上的检索精度。
附图说明
图1是训练过程的流程框图;
图2是检索过程的流程框图。
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
本发明所述的基于注意力机制的深度监督跨模态对抗学习方法,如图1、图2所示,包括训练过程和检索过程,具体如下:
1)训练过程:将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练,直至模型收敛,从而获得网络模型M。其中,第一类型对象为图像,第二类型对象为文本,或者,第一类型对象为文本,第二类型对象为图像。
训练过程具体如下:
1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中,提取第一类型对象的特征;
1.2)将1.1)中提取的特征输入对应模态的判别器中,作为真样本;并将要检索的第二类型对象对应模态的特征网络作为生成器,生成的特征作为假样本,输入判别器中进行对抗学习;
1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中,根据模态间的共同语义信息特征图P,生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量,即图像特征I和文本特征T;
1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习,采用误差反向传播算法先优化在公共子空间和标签空间的损失,得到收敛的基于注意力机制的两个空间上的网络;然后更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
2)检索过程:利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量,从而计算待查询的第一类型对象与候选库中第二类型对象的相似度,返回相似度最高的检索结果。
检索过程具体如下:
2.1)利用训练过程得到的网络模型M,分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量;
2.3)将得到的相似度进行降序排序,并返回相似度最高的检索结果。
本实施例中,以第一类型对象为图像,第二类型对象为文本为例,则训练过程中,步骤1.1)中,具体地,将不同类别的图像数据vi输入到图像特征提取网络中提取图像的图像特征,将对应的文本数据ti输入到文本特征提取网络中提取文本数据的文本特征。
图像特征提取网络包括五个卷积层、池化层和三个全连接层,其中,最后一层全连接层隐藏单元数量为d,d表示提取得到的图像特征的维数。
文本特征提取网络为三层全连接的多层感知机模型,整体为Q→8192→4096→N,其中,Q表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数。
本实施例中,图像模态对应的图像判别器为分类器Dx,是参数为的多层感知机模型;文本模态对应的文本判别器为分类器Dy,是参数为的多层感知机模型。步骤1.2)中,在对抗学习的过程中,将图像特征提取网络得到的图像特征作为判别器的真图像特征IR,将从文本特征提取网络作为生成网络,生成的图像特征作为假图像特征IF,文本网络尝试生成能让图像判别器混淆判断的特征,图像判别器需要不断区分出真假图像特征,从而形成对抗学习。当第一类型对象为文本,第二类型对象为图像,即文本模态,其生成对抗同理。
步骤1.2)中,生成对抗的过程中,存在对抗损失,是分类图像和文本模态的交叉熵损失,对抗损失Ladv具体如下:
其中,fi x表示是图像模态的第i个实例,fi y表示是文本模态的第i个实例,n表示图像文本对的数量。
步骤1.3)中,对抗学习引导的跨模态联合注意力机制根据第一类型对象(本实施例中为图像)的特征表示与第二类型对象(本实施例中为文本)的特征表示之间的距离,对相应的特征项分配权重;在注意力机制中,共同语义特征图P为语义标签的嵌入矩阵,第一类型对象和第二类型对象具有相同的共同语义特征图P。
由于特征向量的长度各不相同,并且特征表示和共同语义特征图P之间的值范围不一致,为了解决这个问题,本实施例通过L2归一化对输出进行预处理,将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1,1]。
其中,*∈{x,y},则fx表示第一类型对象的特征,fy表示第一类型对象的特征,fx、fy用于引导注意力机制中的共同语义特征图P的生成,C为类标签的数量;Mc是第c个类标签的嵌入特征,属于向量空间R1×d的行向量,d为特征表示维度;共同语义特征图P是mask的总和,则λ是控制mask特征效果的参数,σ为激活函数,为Mc的转置。
步骤1.4)具体如下:
1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习;
使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间,第二个全连接层的隐含神经元个数为映射到公共空间的维数d,每个图像和文本表示为uic、vic,并在此层上设计基于余弦距离的三重损失,具体如下:
在公共子空间中还设计有公共空间判别性损失Lcdis,具体如下:
则公共空间的损失为:
Lcom=Ltri+Lcdis;
1.4.2)基于在公共子空间的理想判别模态间语义关系,图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签,然后映射到标签空间进行度量,此层的输出维度为C,与图像和文本的标签类别数相一致;在标签空间的目标函数表示为:
其中,U=[u1,u2,...,un],表示图像在公共空间的矩阵,V=[v1,v2,...,vn],表示文本在公共空间的矩阵,Y表示标签空间,则Y=[l1,l2,...,ln];||·||F表示Frobenius范数;
结合所述的三种损失可得到网络的整体损失:
L=Ladv+τLcom+γLlab;
其中,τ、γ为超参数。
1.4.3)采用误差反向传播算法先优化网络的整体损失L,更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,迭代不断进行对抗和损失优化直至模型收敛,形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。
Claims (8)
1.一种基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,包括训练过程和检索过程,具体如下:
训练过程:将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练,直至模型收敛,从而获得网络模型M;
检索过程:利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量,从而计算待查询的第一类型对象与候选库中第二类型对象的相似度,返回相似度最高的检索结果;
其中,第一类型对象为图像,第二类型对象为文本,或者,第一类型对象为文本,第二类型对象为图像;
训练过程的步骤如下:
1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中,提取第一类型对象的特征;
1.2)将1.1)中提取的特征输入对应模态的判别器中,作为真样本;并将要检索的第二类型对象对应模态的特征网络作为生成器,生成的特征作为假样本,输入判别器中进行对抗学习;
1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中,根据模态间的共同语义信息特征图P,生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量,即图像特征I和文本特征T;
1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习,采用误差反向传播算法先优化在公共子空间和标签空间的损失,得到收敛的基于注意力机制的两个空间上的网络;然后更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M;
步骤1.4)具体如下:
1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习;
使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间,第二个全连接层的隐含神经元个数为映射到公共空间的维数d1,每个图像和文本表示为ui、vi,并在此层上设计基于余弦距离的三重损失,具体如下:
在公共子空间中还设计有公共空间判别性损失Lcdis,具体如下:
则公共空间的损失为:
Lcom=Ltri+Lcdis;
1.4.2)基于在公共子空间的理想判别模态间语义关系,图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签,然后映射到标签空间进行度量,此层的输出维度为C,与图像和文本的标签类别数相一致;在标签空间的目标函数表示为:
其中,U=[u1,u2,…,un],表示图像在公共空间的矩阵,V=[v1,v2,…,vn],表示文本在公共空间的矩阵,Y表示标签空间,则Y=[l1,l2,…,ln];||·||F表示Frobenius范数;
结合所述的三种损失可得到网络的整体损失:
L=Ladv+τLcom+γLlab;
其中,τ、γ为超参数;
1.4.3)采用误差反向传播算法先优化网络的整体损失L,更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,迭代不断进行对抗和损失优化直至模型收敛,形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
2.根据权利要求1所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤1.1)中,具体地,将不同类别的图像数据vi输入到图像特征提取网络中提取图像的图像特征,将对应的文本数据ti输入到文本特征提取网络中提取文本数据的文本特征。
3.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,图像特征提取网络包括五个卷积层、池化层和三个全连接层,其中,最后一层全连接层隐藏单元数量为d,d表示提取得到的图像特征的维数。
4.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,文本特征提取网络为三层全连接的多层感知机模型,整体为Q→8192→4096→N,其中,Q表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数。
6.根据权利要求1所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤1.3)中,对抗学习引导的跨模态联合注意力机制根据第一类型对象的特征表示与第二类型对象的特征表示之间的距离,对相应的特征项分配权重;在注意力机制中,共同语义特征图P为语义标签的嵌入矩阵,第一类型对象和第二类型对象具有相同的共同语义特征图P;
特征向量的长度各不相同,并且特征表示和共同语义特征图P之间的值范围不一致,则通过L2归一化对输出进行预处理,将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1,1];
8.根据权利要求7所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤2.3)中,将得到的相似度进行降序排序,然后返回相似度最高的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144443.8A CN112905822B (zh) | 2021-02-02 | 2021-02-02 | 一种基于注意力机制的深度监督跨模态对抗学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110144443.8A CN112905822B (zh) | 2021-02-02 | 2021-02-02 | 一种基于注意力机制的深度监督跨模态对抗学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905822A CN112905822A (zh) | 2021-06-04 |
CN112905822B true CN112905822B (zh) | 2022-07-01 |
Family
ID=76121535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110144443.8A Active CN112905822B (zh) | 2021-02-02 | 2021-02-02 | 一种基于注意力机制的深度监督跨模态对抗学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905822B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628294B (zh) * | 2021-07-09 | 2023-06-20 | 南京邮电大学 | 一种面向跨模态通信***的图像重建方法及装置 |
CN113657450B (zh) * | 2021-07-16 | 2022-11-29 | 中国人民解放军陆军炮兵防空兵学院 | 基于注意机制的陆战场图像-文本跨模态检索方法及其*** |
CN113673349B (zh) * | 2021-07-20 | 2022-03-11 | 广东技术师范大学 | 基于反馈机制的图像生成中文文本方法、***及装置 |
CN113987119B (zh) * | 2021-09-30 | 2024-07-02 | 阿里巴巴(中国)有限公司 | 一种数据检索方法、跨模态数据匹配模型处理方法和装置 |
CN113946710B (zh) * | 2021-10-12 | 2024-06-11 | 浙江大学 | 一种基于多模态与自监督表征学习的视频检索方法 |
CN113779282B (zh) * | 2021-11-11 | 2022-01-28 | 南京码极客科技有限公司 | 基于自注意力和生成对抗网络的细粒度跨媒体检索方法 |
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114691986A (zh) * | 2022-03-21 | 2022-07-01 | 合肥工业大学 | 基于子空间适应性间距的跨模态检索方法及存储介质 |
CN114896429B (zh) * | 2022-07-12 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种图文互检方法、***、设备及计算机可读存储介质 |
CN115578680B (zh) * | 2022-09-09 | 2023-06-02 | 北京理工大学 | 一种视频理解方法 |
CN117274656B (zh) * | 2023-06-06 | 2024-04-05 | 天津大学 | 基于自适应深度监督模块的多模态模型对抗训练方法 |
CN117934978B (zh) * | 2024-03-22 | 2024-06-11 | 安徽大学 | 一种基于对抗学习的高光谱和激光雷达多层融合分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346440A (zh) * | 2014-10-10 | 2015-02-11 | 浙江大学 | 一种基于神经网络的跨媒体哈希索引方法 |
US10243781B1 (en) * | 2017-07-05 | 2019-03-26 | Juniper Networks, Inc. | Detecting link faults in network paths that include link aggregation groups (LAGs) |
CN109558890A (zh) * | 2018-09-30 | 2019-04-02 | 天津大学 | 基于自适应权重哈希循环对抗网络的零样本图像分类方法 |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
-
2021
- 2021-02-02 CN CN202110144443.8A patent/CN112905822B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346440A (zh) * | 2014-10-10 | 2015-02-11 | 浙江大学 | 一种基于神经网络的跨媒体哈希索引方法 |
US10243781B1 (en) * | 2017-07-05 | 2019-03-26 | Juniper Networks, Inc. | Detecting link faults in network paths that include link aggregation groups (LAGs) |
CN109558890A (zh) * | 2018-09-30 | 2019-04-02 | 天津大学 | 基于自适应权重哈希循环对抗网络的零样本图像分类方法 |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
Non-Patent Citations (3)
Title |
---|
Fang Zhao 等.Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval.《Computer Vision & Pattern Recognition》.2015, * |
张璐.基于对抗学习的跨模态检索方法研究进展.《现代计算机》.2019,第29-32页. * |
董震等.基于异构哈希网络的跨模态人脸检索方法.《计算机学报》.2019,第42卷(第1期),第73-84页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112905822A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905822B (zh) | 一种基于注意力机制的深度监督跨模态对抗学习方法 | |
CN106649715B (zh) | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及*** | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
Qu et al. | Joint hierarchical category structure learning and large-scale image classification | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
Gao et al. | Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework | |
CN110647904A (zh) | 一种基于无标记数据迁移的跨模态检索方法及*** | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
CN112100410A (zh) | 一种基于语义条件关联学习的跨模态检索方法及*** | |
Zhang et al. | Cross-media retrieval with collective deep semantic learning | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
Wang et al. | Norm-guided Adaptive Visual Embedding for Zero-Shot Sketch-Based Image Retrieval. | |
Xiong et al. | An interpretable fusion siamese network for multi-modality remote sensing ship image retrieval | |
CN112988970A (zh) | 一种服务于智能问答***的文本匹配算法 | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索***和方法 | |
CN117171413B (zh) | 用于数字藏品管理的数据处理***及其方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113536015A (zh) | 一种基于深度辨识度迁移的跨模态检索方法 | |
CN112613451A (zh) | 一种跨模态文本图片检索模型的建模方法 | |
Menon et al. | Improving ranking in document based search systems | |
Tilak et al. | Visual entity linking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |