CN111598214B - 一种基于图卷积神经网络的跨模态检索方法 - Google Patents
一种基于图卷积神经网络的跨模态检索方法 Download PDFInfo
- Publication number
- CN111598214B CN111598214B CN202010254505.6A CN202010254505A CN111598214B CN 111598214 B CN111598214 B CN 111598214B CN 202010254505 A CN202010254505 A CN 202010254505A CN 111598214 B CN111598214 B CN 111598214B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- cross
- model
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于图卷积神经网络的跨模态检索方法,包括网络构建、数据集预处理、网络训练和检索与精度测试四个过程。利用图卷积神经网络分别学习图像模态和文本模态中的语义表征,可以帮助处理各模态特征之间的潜在联系,其将第三模态的关联数据引入跨模态检索方法中,以缩小模态间的语义鸿沟,可以显著提高跨模态检索的精确度与稳定性,从而实现准确的跨模态检索。
Description
技术领域
本发明涉及多模态检索领域,特别涉及一种端到端的跨模态检索方法。
背景技术
跨模态检索是一种使用一种模态的数据进行查询并返回其他不同模态下检索结果的方法,广泛应用于图像和文本数据的匹配。例如,在传统的图像到文本的跨模态检索任务中,通过检索将最相似的文本作为输出。近年来,随着深度学习的快速发展,目前的跨模态检索方法大多通过神经网络使用多模态数据直接检索,而不依赖于标签,但其方法简单地将跨模态检索算法与深度神经网络相结合,如选择图像中的几个特征进行降维操作等,大多没有充分利用多模态数据中潜在的深度信息,其对每个模态下的数据学习到的表征粒度较粗,不能保证其检索的准确性。因此跨模态检索在具体应用中还存在许多问题。同时,以往的跨模态检索模型大多只使用两种模态的数据,这些数据没法很好的刻画现实世界中的信息关联,如何尽可能有效地利用各种相关的多模态数据也是一个有待解决的技术问题。
发明内容
为了克服现有跨模态检索方法对多模态数据利用不充分、对不同模态间的数据表征能力差、检索精度低等不足,本发明提供一种精度高、能充分利用多种模态的数据、表征能力强的基于图卷积神经网络的跨模态检索方法,采用了最新的先进的基于图学习的神经网络技术,不仅可以更有效地提取深度语义特征,还可以挖掘特征在模态中的潜在相关性。因此本方法在端到端的跨模态检索任务中,能够有效地跨越模态之间的语义鸿沟检索出想要的数据。
本发明解决其技术问题所采用的技术方案是:
一种基于图卷积神经网络的跨模态检索方法,所述方法包括以下步骤:
步骤一、网络构建,过程如下:
步骤1.1:该深度学习网络主要框架由一个图像图卷积模型、一个文本图卷积模型及一个典型关联分析模型组成;
步骤1.2:其中图像图卷积模型有图像特征提取模型与图卷积神经网络结合组成,文本图卷积模型由文本特征提取模型与图卷积神经网络结合组成,图像特征提取模型选用预训练的ResNet-101卷积神经网络,文本特征提取模型选用预训练的BERT模型;
步骤1.3:典型关联分析模型的两路输入部分各接一个空间金字塔池化层与一个全连接层,全连接层后面接ReLU激活函数;
步骤1.4:最后连接到典型关联分析范式层,包括典型关联分析函数与损失函数,选用的损失函数为Pairwise排序损失;
步骤二、数据集预处理,过程如下:
步骤2.1:将用于正式训练的多模态数据集包含成对的图像、文本、图像关联数据和文本关联数据三种模态的数据,将该数据集按照对分为训练集Q和测试集Q’两部分;
步骤2.2:对用于提取特征的两个图卷积模型使用多标签分类数据集进行预训练微调参数;
步骤2.3:将预训练好的图卷积模型参数读入跨模态检索模型的对应图卷积模型处;
步骤三、网络训练,过程如下:
步骤3.1:将Q中每个训练样本中的图像与文本作为两路输入送入跨模态检索模型;
步骤3.2:对图像使用卷积神经网络提取图像特征,对文本使用BERT提取文本特征;
步骤3.3:将提取的特征分别采用全局最大池化表征为特征向量,分别送入预训练好的图卷积神经网络进行上采样:
步骤3.4:将上一步骤输出的特征图以特征矩阵的形式表示,并分别送入空间金字塔池化层进行下采样;
步骤3.5:将得到的图像特征向量与训练样本中的图像关联数据进行特征融合,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合;
步骤3.6:将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析模块,进行最终跨模态匹配部分的训练;
步骤四、检索与精度测试,过程如下:
步骤4.1:将预处理好的测试数据集Q’送入训练得到的最优模型,采用文本到图像的检索进行跨模态检索测试;
步骤4.2:使用跨模态检索模型对输入的文本及其关联数据进行跨模态匹配,匹配到最优的top5段不同的图像及其关联数据,并使用支持向量机判断匹配的文本图像对所属类别,记录检索结果;
步骤4.3:比较问询文本的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致,根据数据检索中的评价指标计算所有问询文本的准确率;
经过上述步骤的操作,即可实现跨模态检索。
进一步,所述步骤1.2中,将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器,其预训练过程在多标签图像数据集MSCOCO上进行;将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器,其预训练过程在多标签的文本数据集Google News上进行,将预训练好的多标签分类器中的图卷积神经网络放入跨模态检索模型中进行下一步的训练。
所述步骤1.3中,典型关联分析模型的两路输入部分各接一个空间金字塔池化层和全连接层,空间金字塔池化层将输入矩阵共分为21个空间,对每一个空间采用全局最大池化方法。
所述步骤3.5中,将得到的图像特征向量与训练样本中的图像关联数据进行特征融合,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合,两路特征融合方法均为直接将空间金字塔输出的特征向量与关联数据向量进行连接。
本发明的有益效果主要体现在:本发明提出了一种新的跨模态检索方法,它利用图卷积神经网络分别学习图像模态和文本模态中的语义表征,可以帮助处理各模态特征之间的潜在联系,其将第三模态的关联数据引入跨模态检索方法中,以缩小模态间的语义鸿沟,可以显著提高跨模态检索的精确度与稳定性,从而实现准确的跨模态检索。
附图说明
图1为基于图卷积神经网络的跨模态检索模型的框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合具体实施例,并参照附图对本发明作更进一步的说明。
参照图1,一种基于图卷积神经网络的跨模态检索方法,包括网络构建、数据集预处理、网络训练和检索与精度测试四个过程。
本实施案例使用的多模态数据集共含有4500对多模态数据对,每一对多模态数据对包含一张图像、一组图像关联数据、一段文字以及一组文字关联数据。其中每一对都标有一个类别标签,该标签共有三类。
所述基于图卷积神经网络的跨模态检索方法,包括以下步骤:
步骤一、网络构建,过程如下:
步骤1.1:将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器,其预训练过程在多标签图像数据集MSCOCO上进行;
步骤1.2:将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器,其预训练过程在多标签的文本数据集Google News上进行;
步骤1.3:图像特征提取器Res-GCN和文本特征提取器BERT-GCN后各自连接一个空间金字塔池化层,空间金字塔池化层包括特征图池化部分和特征向量融合部分,特征图池化选用基于最大池化的空间金字塔池化方法;
步骤1.4:空间金字塔池化层后接一个全连接层,使用ReLU激活函数;
步骤1.5:最后连接到典型关联分析范式层,包括典型关联分析函数与损失函数,选用的损失函数为Pairwise类的排序损失,使用的典型关联分析函数为
其中sx是x模态下的输入数据集合,sy是y模态下的输入数据集合,wx与wy分别是每一模态下的权重因子,公式(1)代表了将两种不同模态数据映射到同一空间下的典型关联分析函数。
步骤二、数据集预处理,过程如下:
步骤2.1:将用于正式训练的多模态数据集共包含4500对的图像、文本、图像关联数据和文本关联数据三种模态的数据,将该数据集分为训练集Q(含3000对)和测试集Q’(含1500对)两部分;
步骤2.2:对用于提取特征的两个图卷积模型使用多标签分类数据集进行预训练微调参数;
步骤2.3:将预训练好的图卷积模型参数读入跨模态检索模型的对应图卷积模型处;
步骤三、网络训练,过程如下:
步骤3.1:设定学习率为0.00001,批大小设置为32,分别用随机权值初始化参数,100次迭代为一次完整训练,模型共进行10次完整训练,选取最终训练完成的模型作为最优模型;
步骤3.2:将每个训练样本中的图像与文本作为两路输入送入跨模态检索模型;
步骤3.3:对上支线的图像使用ResNet-101卷积神经网络提取图像特征,将提取的特征采用全局最大池化表征为特征向量,然后送入预训练好的图卷积神经网络进行上采样,输出一个基于语义项链的特征图:
步骤3.4:对下支线的文本使用BERT提取文本特征,将提取的特征采用全局最大池化表征为特征向量,然后送入预训练好的图卷积神经网络进行上采样,输出一个基于语义向量的特征图:
步骤3.5:将上一步骤输出的特征图以特征矩阵的形式表示,其维度为输出的图节点数量,为了解决维度不确定的问题,将两路特征矩阵各自送入空间金字塔池化层进行下采样,输出为21维的特征向量;
步骤3.6:对于两路空间金字塔池化得到的21维特征向量将得到的图像特征向量与训练样本中的图像关联数据进行特征融合得到28维的特征向量,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合得到24维的特征向量;
步骤3.7:将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析范式层,进行最终跨模态匹配部分的训练,其中包括典型关联分析函数与损失函数,训练的损失函数为Pairwise排序损失,表示为
其中,S(x,y)=cos(x,y),cos(·)是余弦函数,x代表x模态数据映射到子空间的样本,y代表与x相匹配的y模态样本,yk代表不匹配的y模态样本,k代表y模态中不匹配的样本个数,α为定义损失函数边缘的超参数,公式(2)代表了Pairwise排序损失损失函数。
步骤四、检索与精度测试,过程如下:
步骤4.1:将预处理好的测试数据集送入训练得到的最优模型进行检索测试,采用文本到图像的检索进行跨模态检索测试;
步骤4.2:使用跨模态检索模型,结合输入的测试数据集中的文本关联数据对文本进行跨模态匹配,匹配到最优的top5段图像及其关联数据,并使用支持向量机判断匹配的文本图像对所属类别,记录检索结果;
步骤4.3:比较问询图像的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致,根据数据检索中的评价指标计算所有问询文本的准确率;
经过上述步骤的操作,即可实现多模态数据间的跨模态检索。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述方法包括以下步骤:
步骤一、网络构建,过程如下:
步骤1.1:该深度学习网络主要框架由一个图像图卷积模型、一个文本图卷积模型及一个典型关联分析模型组成;
步骤1.2:其中图像图卷积模型有图像特征提取模型与图卷积神经网络结合组成,文本图卷积模型由文本特征提取模型与图卷积神经网络结合组成,图像特征提取模型选用预训练的ResNet-101卷积神经网络,文本特征提取模型选用预训练的BERT模型;
步骤1.3:典型关联分析模型的两路输入部分各接一个空间金字塔池化层与一个全连接层,全连接层后面接ReLU激活函数;
步骤1.4:最后连接到典型关联分析范式层,包括典型关联分析函数与损失函数,选用的损失函数为Pairwise排序损失;
步骤二、数据集预处理,过程如下:
步骤2.1:将用于正式训练的多模态数据集包含成对的图像、文本、图像关联数据和文本关联数据三种模态的数据,将该数据集按照对分为训练集Q和测试集Q’两部分;
步骤2.2:对用于提取特征的两个图卷积模型使用多标签分类数据集进行预训练微调参数;
步骤2.3:将预训练好的图卷积模型参数读入跨模态检索模型的对应图卷积模型处;
步骤三、网络训练,过程如下:
步骤3.1:将Q中每个训练样本中的图像与文本作为两路输入送入跨模态检索模型;
步骤3.2:对图像使用卷积神经网络提取图像特征,对文本使用BERT提取文本特征;
步骤3.3:将提取的特征分别采用全局最大池化表征为特征向量,分别送入预训练好的图卷积神经网络进行上采样:
步骤3.4:将上一步骤输出的特征图以特征矩阵的形式表示,并分别送入空间金字塔池化层进行下采样;
步骤3.5:将得到的图像特征向量与训练样本中的图像关联数据进行特征融合,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合;
步骤3.6:将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析模块,进行最终跨模态匹配部分的训练;
步骤四、检索与精度测试,过程如下:
步骤4.1:将预处理好的测试数据集Q’送入训练得到的最优模型,采用文本到图像的检索进行跨模态检索测试;
步骤4.2:使用跨模态检索模型对输入的文本及其关联数据进行跨模态匹配,匹配到最优的top5段不同的图像及其关联数据,并使用支持向量机判断匹配的文本图像对所属类别,记录检索结果;
步骤4.3:比较问询文本的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致,根据数据检索中的评价指标计算所有问询文本的准确率。
2.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤1.2中,将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器,其预训练过程在多标签图像数据集MSCOCO上进行。
3.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤1.2中,将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器,其预训练过程在多标签的文本数据集Google News上进行。
4.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤1.3中,典型关联分析模型的两路输入部分各接一个空间金字塔池化层和全连接层,空间金字塔池化层将输入矩阵共分为21个空间,对每一个空间采用全局最大池化方法。
5.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法,其特征在于,所述步骤3.5中,将得到的图像特征向量与训练样本中的图像关联数据进行特征融合,将得到的文本特征向量与训练样本中的文本关联数据进行特征融合,两路特征融合方法均为直接将空间金字塔输出的特征向量与关联数据向量进行连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254505.6A CN111598214B (zh) | 2020-04-02 | 2020-04-02 | 一种基于图卷积神经网络的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254505.6A CN111598214B (zh) | 2020-04-02 | 2020-04-02 | 一种基于图卷积神经网络的跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598214A CN111598214A (zh) | 2020-08-28 |
CN111598214B true CN111598214B (zh) | 2023-04-18 |
Family
ID=72188644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010254505.6A Active CN111598214B (zh) | 2020-04-02 | 2020-04-02 | 一种基于图卷积神经网络的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598214B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434718B (zh) * | 2020-09-02 | 2023-04-18 | 武汉大学 | 基于深度图的新冠肺炎多模态特征提取融合方法及*** |
CN112015923A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 一种多模态数据检索方法、***、终端及存储介质 |
CN112269892B (zh) * | 2020-10-11 | 2023-04-07 | 北京航空航天大学 | 一种基于多模态多层次统一交互的短语定位识别方法 |
CN112199536A (zh) * | 2020-10-15 | 2021-01-08 | 华中科技大学 | 一种基于跨模态的快速多标签图像分类方法和*** |
CN112650886B (zh) * | 2020-12-28 | 2022-08-02 | 电子科技大学 | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 |
CN112613451A (zh) * | 2020-12-29 | 2021-04-06 | 民生科技有限责任公司 | 一种跨模态文本图片检索模型的建模方法 |
CN112836746B (zh) * | 2021-02-02 | 2022-09-09 | 中国科学技术大学 | 基于一致性图建模的语义对应方法 |
CN113051927B (zh) * | 2021-03-11 | 2022-06-14 | 天津大学 | 基于多模态图卷积神经网络的社交网络突发事件检测方法 |
CN113094533B (zh) * | 2021-04-07 | 2022-07-08 | 北京航空航天大学 | 一种基于混合粒度匹配的图文跨模态检索方法 |
CN112925935B (zh) * | 2021-04-13 | 2022-05-06 | 电子科技大学 | 基于模态内及模态间混合融合的图像菜谱检索方法 |
CN113052159B (zh) * | 2021-04-14 | 2024-06-07 | ***通信集团陕西有限公司 | 一种图像识别方法、装置、设备及计算机存储介质 |
CN113159071B (zh) * | 2021-04-20 | 2022-06-21 | 复旦大学 | 一种跨模态图像-文本关联异常检测方法 |
CN113033581B (zh) * | 2021-05-07 | 2024-02-23 | 刘慧烨 | 髋关节图像中骨骼解剖关键点定位方法、电子设备及介质 |
CN113269279B (zh) * | 2021-07-16 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 一种多媒体内容分类方法和相关装置 |
CN114443904B (zh) * | 2022-01-20 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 视频查询方法、装置、计算机设备及计算机可读存储介质 |
CN115730878B (zh) * | 2022-12-15 | 2024-01-12 | 广东省电子口岸管理有限公司 | 基于数据识别的货物进出口查验管理方法 |
CN117251551B (zh) * | 2023-11-06 | 2024-05-07 | 联通(广东)产业互联网有限公司 | 一种基于大语言模型的自然语言处理***及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
CN110457516A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种跨模态图文检索方法 |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及*** |
-
2020
- 2020-04-02 CN CN202010254505.6A patent/CN111598214B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
CN110457516A (zh) * | 2019-08-12 | 2019-11-15 | 桂林电子科技大学 | 一种跨模态图文检索方法 |
CN110929029A (zh) * | 2019-11-04 | 2020-03-27 | 中国科学院信息工程研究所 | 一种基于图卷积神经网络的文本分类方法及*** |
Non-Patent Citations (2)
Title |
---|
Lu yuhang等.Fine-grained correlation learning with stacked co-attention networks for cross-modal information retrieval.Lecture Notes in Computer Science.2018,第213-225页. * |
李志义 ; 黄子风 ; 许晓绵 ; .基于表示学习的跨模态检索模型与特征抽取研究综述.情报学报.2018,(第04期),第422-435页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111598214A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598214B (zh) | 一种基于图卷积神经网络的跨模态检索方法 | |
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及*** | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其*** | |
CN114241273B (zh) | 基于Transformer网络和超球空间学习的多模态图像处理方法及*** | |
CN111680176A (zh) | 基于注意力与双向特征融合的遥感图像检索方法及*** | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN112199532A (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN115203442B (zh) | 基于联合注意力的跨模态深度哈希检索方法、***及介质 | |
CN113821670B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN114511710A (zh) | 一种基于卷积神经网络的图像目标检测方法 | |
CN111476301A (zh) | 一种基于机器学习的医学图像分类方法及*** | |
CN114821340A (zh) | 一种土地利用分类方法及*** | |
CN112232374A (zh) | 基于深度特征聚类和语义度量的不相关标签过滤方法 | |
CN115393606A (zh) | 图像识别的方法和*** | |
CN117217807B (zh) | 一种基于多模态高维特征的不良资产估值方法 | |
CN114626378B (zh) | 命名实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
Arulmozhi et al. | DSHPoolF: deep supervised hashing based on selective pool feature map for image retrieval | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及*** | |
CN109934248B (zh) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 | |
CN114972959B (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |