CN112861882A - 一种基于频率自适应的图像-文本匹配方法及*** - Google Patents

一种基于频率自适应的图像-文本匹配方法及*** Download PDF

Info

Publication number
CN112861882A
CN112861882A CN202110260146.XA CN202110260146A CN112861882A CN 112861882 A CN112861882 A CN 112861882A CN 202110260146 A CN202110260146 A CN 202110260146A CN 112861882 A CN112861882 A CN 112861882A
Authority
CN
China
Prior art keywords
image
text
global
frequency
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110260146.XA
Other languages
English (en)
Other versions
CN112861882B (zh
Inventor
赵晶
秦宥煊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202110260146.XA priority Critical patent/CN112861882B/zh
Publication of CN112861882A publication Critical patent/CN112861882A/zh
Application granted granted Critical
Publication of CN112861882B publication Critical patent/CN112861882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于频率自适应的图像‑文本匹配方法及***。该方法为图像区域增添上下文信息,在图卷积上自适应地聚合低频和高频信号,实现了显著物体区域之间的语义推理;然后,提出一个注意力交互方法,通过迭代机制生成全局特征,在单词和图像区域的聚合过程中逐步达到语义对齐的效果;最后,利用损失函数获得最终匹配效果。

Description

一种基于频率自适应的图像-文本匹配方法及***
技术领域
本发明属于图像-文本匹配领域,尤其涉及基于频率自适应的图像-文本匹配方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
1、匹配方法:以往的匹配方法用嵌入将图像和文本映射到共同空间中进行简单对比,通过学习不同模态的映射分析视觉-文本的层次结构,得到对应的匹配效果。随着互联网的快速发展,用户对匹配精度的要求也在不断提高。为此,目前注意力机制在模态匹配上使用很广泛。例如使用双重注意机制,汇集各个局部的相似点进行相似性度量,获得不同模态中相同的突出部分。在此基础上,有学者通过提升特征提取效果从而提升匹配能力。例如,加入图像中实体的相对位置信息提高图像表示的准确性。
2、注意力机制:为了精确关注图像或文本中的重要信息,过滤掉不起作用的信息,注意力机制在图像-文本匹配中起到关键作用。目前,贴近人类真实感受的自下而上的注意力机制作为图像的提取方法,显示出强大的效果。它能够获取图像的显著目标从而达到更好的匹配效果。
3、语义推理:推理的目的在于从已知的条件下,用机器学习分析知识图谱中目标潜在的关系,这也是热门的研究课题。早先的推理在外推的基础上表示符号间的关系,缺少可解释性。路径排序算法采用抽象的关系路径替代逻辑规则,从而将关系推理问题转化为图上的有监督学习问题,也是关系推理的一种方法。目前,不少学者提出在路径排序算法的基础上作出改进,在推理准确性和计算效率上都有了很大提高。近年来,基于深度学习的关系推理模型成为推理领域的研究热点。研究人员尝试将先前的推理方法与深度学习相结合,利用记忆推理能力为自然语言处理和视觉信息处理找到新的突破点。
发明人发现,目前提出的图像-文本匹配模型中缺少对于图像-文本不同模态间细粒度的语义关系,很难模拟真实世界中人的匹配行为。对于复杂语义的单独模态内部联系(如图像中实体和属性之间的联系)还有待提高。图像的特征表示上,以往的方法只关注目标特征,忽略多个目标之间的关联,不利于学习整幅图像的精确表示。目前采用的GCN学习到的参数大于0,更注重对低频信号的聚合,这在某些条件下会模糊节点的表示,用在图像处理时不能展现出理想效果。
发明内容
为了解决上述问题,本发明的第一个方面提供一种基于频率自适应的图像-文本匹配方法,其能够利用图卷积中节点的高低频信号,自适应的给图片内部区域增加上下文信息,同时,可以利用迭代机制将异构的图像和文本数据高效的语义对齐,生成全局的特征表达提高匹配速率。
为了实现上述目的,本发明采用如下技术方案:
一种基于频率自适应的图像-文本匹配方法,包括:
获取数据,所述数据包括图像以及与图像匹配的文本;
使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。
进一步地,所述图像的初始表征,具体计算步骤为:
通过卷积神经网络得到图像的每个区域特征;
对所述的每个区域特征进行线性变换;
对线性变换后的每个区域特征进行归一化处理,得到每个区域归一化处理后的区域特征,组成图像的初始表征。
进一步地,所述文本的初始表征,具体计算步骤为:
使用one-hot将文本中的每个单词编码;
计算每个单词的嵌入表示;
总结来自两个方向的上下文信息;
采用平均值的方式得到带有上下文信息增强的词特征,组成文本的初始表征。
进一步地,所述计算带有全局上下文增强语义关系的图像区域集合,具体步骤为:
对于图像构建一个无向图;
为无向图中的每个节点自适应的聚合所有关联节点的高低频信息,得到语义推理后的节点,组成带有全局上下文增强语义关系的图像区域集合。
进一步地,所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为:
选择图像和文本中的任一项作为查询模态,另一项作为另一模态;
使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征;
若图像为查询模态,则将查询模态的全局特征作为语义增强的图像全局特征,另一模态的全局特征作为语义增强的文本全局特征;若文本为查询模态,则将查询模态的全局特征作为语义增强的文本全局特征,另一模态的全局特征作为语义增强的图像全局特征。
进一步地,所述损失函数为三元组损失函数。
再进一步地,所述注意力交互函数在另一模态的引导下,对查询模态不同片段的关注度不同。
为了解决上述问题,本发明的第二个方面提供一种基于频率自适应的图像-文本匹配***,其能够利用图卷积中节点的高低频信号,自适应的给图片内部区域增加上下文信息,同时,可以利用迭代机制将异构的图像和文本数据高效的语义对齐,生成全局的特征表达提高匹配速率。
为了实现上述目的,本发明采用如下技术方案:
一种基于频率自适应的图像-文本匹配***,包括:
数据获取模块,其被配置为:获取数据,所述数据包括图像以及与图像匹配的文本;
模型训练模块,其被配置为:使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。
本发明的第三方面提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
本发明的第四方面提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
本发明的有益效果是:
本发明对于复杂的视觉信息处理,将图像区域作为节点进行连接,通过自适应的聚合节点高低频信息,使显著区域和它相关的容易忽略的部分建立联系。
本发明采用迭代的注意力网络动态的对齐片段信息,达到视觉和文本之间异构模态的互动,提高了匹配精度;利用迭代机制将异构的图像和文本数据高效的语义对齐,生成全局的特征表达提高匹配速率。
本发明根据生成的全局特征,采用三元组损失作为目标函数使图像-文本匹配实现端到端的优化。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的图像-文本匹配框架;
图2是本发明实施例的图像-文本匹配模型结构图;
图3是本发明实施例的在MS-COCO 1K数据集上图像匹配文本消融实验;
图4是本发明实施例的在MS-COCO 1K数据集上文本匹配图像的消融实验;
图5是本发明实施例的在MS-COCO 1K上随着迭代注意力交互模块中的迭代次数的变化召回值的变化趋势图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本实施例提供一种基于频率自适应的图像-文本匹配方法。
如图1-图2所示,一种基于频率自适应的图像-文本匹配方法,具体的,提取图像的区域级信息和文本的单词级信息作为初始化的特征表达;其中,图像提取使用贴近人类真实感受的自下而上的注意力,文本提取采用目前先进的双向循环的神经网络GRU实现编码过程;对于复杂的视觉信息处理,我们将图像区域作为节点进行连接,通过自适应的聚合节点高低频信息,使显著区域和它相关的容易忽略的部分建立联系;随后,采用迭代的注意力网络动态的对齐片段信息,达到视觉和文本之间异构模态的互动;本模型根据生成的全局特征,采用三元组损失作为目标函数使图像-文本匹配实现端到端的优化。具体步骤包括:
S1:获取数据集,并将数据集划分为训练集和测试集,训练集和测试集均包括图像以及与图像匹配的文本,将所述图像和文本中的任一项作为查询模态,另一项作为另一模态;例如,图像作为查询模态,则文本作为另一模态;文本作为查询模态,则图像作为另一模态;
S2:使用训练集训练基于频率自适应和迭代注意力交互的图像-文本匹配模型;
S3:将作为查询模态的数据输入到所述的图像-文本匹配模型中,匹配出查询模态的另一模态表示。
步骤S2中使用训练集训练基于频率自适应和迭代注意力交互的图像-文本匹配模型的步骤为:首先,选用最先进的特征表示的方法进行初始化;然后,将频率自适应引入到图像区域语义推理之中;还将提出一个迭代的注意力交互模块,在异构特征逐步对齐后生成全局语义表达;最后,通过设定的目标函数优化我们的模型进行训练;具体的:
S201、对训练集中的图像和文本进行初始特征表示,得到图像的初始表征V和文本的初始表征S:
所述图像的初始表征,具体计算步骤为:通过卷积神经网络得到图像I的每个区域特征;对所述的每个区域特征进行线性变换得到D维的区域特征;对线变换后的每个区域特征进行归一化处理,得到每个区域归一化处理后的区域特征vi,则图像I的初始表征为V={v1,v2,...,vn},vi∈RD,i=1,2,...,n。具体的:
图像提取使用贴近人类真实感受的Fast R-CNN,它是预先训练的,能够用区域vi表示图像中的显著内容,图像II表示为Vi的集合
Figure BDA0002969607150000081
Figure BDA0002969607150000082
对于图像I的集合表示V0,通过卷积神经网络,我们可以得到池化后的2048维度的向量fi,它表示图像I的每个区域特征;为了之后的运算,fi需要进行线性变换,如公式(1):
vi=WIfi+bI (1)
其中,WI和bI表示经过学习得到的参数,使fi变为一个D-dimensional的区域特征Vi;随后,对每个区域特征进行归一化处理,归一化后的集合V={v1,v2,...,vn},vi∈RD用来作为图像I的初始表征。
所述文本的初始表征,具体计算步骤为:使用one-hot将文本T中的每个单词编码;计算每个单词的嵌入表示;总结来自两个方向的上下文信息;采用平均值的方式得到带有上下文信息增强的词特征sj,则文本T的初始表征为S=[sj|j=1,..,m,sj∈RD]。具体的:
采用Encoder-Decoder架构得到句子序列表示:首先,用one-hot编码m个单词的句子T的每个单词wj,wj表示第j个单词的向量表示;随后,学习一个矩阵We,用向量tj=Wewj,j∈[1,m]作为单词wj的嵌入表示;为了获得词义增强的句子表示,使用带有forward GRU和backward GRU的bi-directional GRU总结来自两个方向的上下文信息:
Figure BDA0002969607150000083
Figure BDA0002969607150000084
其中,
Figure BDA0002969607150000085
Figure BDA0002969607150000086
表示两个不同方向的GRU,分别依次输入每个单词;此时,采用平均值的方式定义带有上下文信息增强的词特征
Figure BDA0002969607150000087
最终,采用增强的词特征sj表示每个单词wj,则S=[sj|j=1,..,m,sj∈RD]作为句子T的初始表征。
S202、基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合V′,具体步骤为:对于图像I构建一个无向图G=(V,E),其中,图像I的初始表征V={v1,v2,...,vn}表示所有图像区域组成的节点集合,E表示边的集合;为无向图中的每个节点vi自适应的聚合所有关联节点vj的高低频信息,得到语义推理后的节点v′i,则V′=[v′i|i=1,..,n,v′i∈RD]为带有全局上下文增强语义关系的图像区域集合;具体的:
把每个图像区域作为图的节点表示,构建一个无向图G=(V,E),其中V={v1,v2,...,vn},vi∈RD是由所有图像区域组成的节点集合,E表示边的集合;通过改进的GraphConvolutional Networks(GCN)学习一个频率自适应参数Wij(Wij∈[-1,1]),它能够代表相邻节点之间的高低频比例关系实际上,低频信号代表了节点特征与邻居特征的加和,高频信号代表了节点特征与邻居特征的差值,使用
Figure BDA0002969607150000091
Figure BDA0002969607150000092
表示节点i与邻居节点j的低频和高频系数;通过公式(3),我们能够学习到一个取值在[-1,1]之间的系数Wij
Wij=tanh(gT|vi||vj|) (3)
其中,||作为节点的拼接操作,采用gT可以看作是用来映射的一个共享的卷积核,vj表示节点vi的邻居节点,vi为所述归一化处理后的区域特征,,为了使Wij的值限制在[-1,1],使用双曲正切进行处理。至此,我们能够自适应的学习到用Wij表示的每个节点与它相邻节点的高低频比例;随后,为每个节点vi聚合与它相邻的各个节点的高低频信息,在这个过程中,节点vi通过加入所有关联节点的信息.推理出增强后的节点vi;这个过程是通过以下实现的:
Figure BDA0002969607150000093
Figure BDA0002969607150000101
这里的φ为激活函数,l(l∈[1,5])为图卷积的层数,表示节点聚合的次数,
Figure BDA0002969607150000102
表示节点vi在第l层的输出,v′i为节点vi在最后一层的输出;ε是一个范围在[0,1]的超参数,在我们的实验中,ε=0.3;为了防止处理内容过大,在聚合过程中加入n-1作为正则化处理;最后一层输出的
Figure BDA0002969607150000103
v′i∈RD为我们聚合高低频信息得到的语义推理后的节点,我们使用V′=[v′i|i=1,..,n,v′i∈RD]作为带有全局上下文增强语义关系的图像区域集合。
S203、将图像区域集合V′和文本的初始表征S输入迭代注意力交互层,得到经过迭代注意力交互层生成的语义增强的图像全局特征V*和经过迭代注意力交互层生成的语义增强的文本全局特征S*;具体步骤为:
将所述的图像区域集合V′作为图像的片段特征集合;将所述的文本的初始表征S作为文本的片段特征集合;
将所述图像和文本中的任一项作为查询模态X,另一项作为另一模态Y,令输入Q为查询模态的片段级特征集合,输入P为另一模态的片段特征集合;另p0等于Y,初始化迭代次数t;
以pt-1作为先验指导,使用注意力交互函数计算经过一次语义对齐后的Q的全局特征qt,其标准化定义为:
qt=A(Q,pt-1);
以qt作为先验指导,使用注意力交互函数计算经过一次语义对齐后的P的全局特征表示pt,其标准化定义为:
pt=A(P,qt);
生成qt和pt的过程作为一次迭代,共迭代T次,得到qT和pT;若图像为查询模态,则qT为经过迭代注意力交互层生成的语义增强的图像全局特征,pT为经过迭代注意力交互层生成的语义增强的文本全局特征;若文本为查询模态,则qT为经过迭代注意力交互层生成的语义增强的文本全局特征,pT为经过迭代注意力交互层生成的语义增强的图像全局特征;
所述注意力交互函数Z=A(X,Y)具体定义如下:
H=tanh(UXX+(UYY)1T+ba1T)
Figure BDA0002969607150000113
Figure BDA0002969607150000111
其中,UX,UY∈RD*k,ba,ua∈RD作为注意力交互函数A()科学系的参数;1代表所有元素都为1的特征向量;
Figure BDA0002969607150000114
表示在Y的引导下,对第k个片段的特征Xk的关注度;Z是利用Y经过一次语义对齐后的X的全局特征;X、Y表示两输入模态的片段级特征集合。
具体的:我们把为注意力交互模块定义为Z=A(X,Y),其中,输入X为查询模态的片段级特征集合X=[Xk|k=1,.,K,Xk∈RD],当X表示图像区域集合V′=[v′i|i=1,..,n,v′i∈RD]时,片段级特征数量K=n;当X表示文本词集合S=[sj|j=1,..,m,sj∈RD]时,K=m;输入Y为跨模态匹配中除了X之外的另一模态,它代表X的对立模态的全局表示,用Y来作为注意力交互模块的注意力指导,Y的初始化是通过平均池化实现的;例如,当X为图像区域集合的时候,Y为经过池化后的初始句子级的全局语义向量,输出Z是一次语义对齐后的X的全局语义表示;实际运用中,注意力交互函数A()的具体定义如下:
H=tanh(UXX+(UYY)1T+ba1T)
Figure BDA0002969607150000112
Figure BDA0002969607150000121
其中,UX,UY∈RD*k,ba,ua∈RD作为注意力交互函数A()科学系的参数,1代表所有元素都为1的特征向量,
Figure BDA0002969607150000122
是Z的注意力权重;当X表示图像区域集合时,
Figure BDA0002969607150000123
作为图像注意力权重可以被认为是在整个句子引导下,对第k个图像区域Xk的关注程度;Z是利用Y经过一次语义对齐后的X的全局语义表示;
当X表示图像区域集合时,我们首先对单词级特征初始化,通过平均池化生成句子级别的特征向量,作为Y的表示p0,p0等于Y;当X表示单词级特征Sj时,我们则把Y当成图像级别的特征向量;
实际上,文本-图像和图像-文本的匹配模型是对称的;以文本匹配图片为例,以p0作为先验指导,使用注意力加权V′生成图片全局级别的特征,表示为q1,q1∈RD;随后,以q1为先验指导,使用注意力加权S生成更新后的文本全局级别的特征p1,p1∈RD;生成q1和p1的过程作为一次迭代,共迭代T次;该过程的标准化定义如下所示:
gt=A(V;pt-1),
pt=A(S;gt) (7)
其中,t为第t次迭代,pt和qt分别是语义对齐后的文本和图像的全局语义表示,V′和S分别表示语义增强后的区域特征和词特征的集合;因此,迭代t次的图像全局语义表示(image-level)将更多地关注与句子描述相关的具体区域内容,文本全局语义表示(scentence-level)将更多的关注与图像描述相关的具体单词。
S204、计算损失函数,利用优化器对损失函数进行优化:
文本和图像在嵌入空间中分别以D维特征表示;我们采用三元组损失作为损失函数,不再像以往关注所有训练中的否定,而是在小批量样本中把负样本作为关注点,损失函数表示为:
Figure BDA0002969607150000131
其中,
Figure BDA0002969607150000132
作为损失的边距参数,[]+表示包含的值大于零的时候,取该值为损失,小于零的时候,损失为零,Q()是一个由内积实现的函数,计算语义相似度,V*表示经过迭代注意力交互模块生成的语义增强的图像全局特征(V*=qT),即共通过T次迭代后得到图像全局语义表示qT,将其作为V*;S*表示经过迭代注意力交互模块生成的语义增强的文本全局特征(S*=pT),即共通过T次迭代后得到文本全局语义表示pT,将其作为S*;
Figure BDA0002969607150000133
Figure BDA0002969607150000134
表示小批量中的负样本,计算损失时把小部分图像-文本对的数据作为小批量处理,成对的图像-文本是正样本,反之为负样本;为了使匹配模型能够在每次迭代实现细粒度的语义对齐,我们利用优化器对目标函数进行优化,让图像-文本匹配模型实现端到端的优化。
我们分别使用MSCOCO分割后的1000和5000张图片作为测试数据,比较我们的模型和目前最先进的模型之间的差距。结果表明,表明我们的模型相比于其他模型有很大的竞争力。经过消融实验可以看出(具体如图3-图4所示),分别加入频率自适应语义推理模块和迭代注意力交互模块的模型与基线模型相比有较大提升,直接说明本模型提出的两大模块能够明显提升匹配性能。
图3和图4,在MS-COCO 1K上进行消融实验,Baseline表示一个基线模型。Baseline+FA表示把图像区域的平均池化替换为频率自适应的区域语义推理模块。Baseline+IAM表示在基线模型上加入迭代注意力交互模块。FA-IATI是我们提出的完整跨模态匹配模型。该次试验包含图像匹配和文本匹配。图3和图4中R@K,K=1,5,10,是指召回率,是匹配模型的评价指标,表示在与查询最接近的K点中匹配到正确项目的查询所占的比例。
图5在MS-COCO 1K上对迭代注意力交互模块中的迭代次数进行分析。本次实验包含当Recall@1的时候图像查询和文本查询的测试结果,Recall@1表示在与查询最接近的1点中匹配到正确项目的查询所占的比例。
实施例2
本实施例提供一种基于频率自适应的图像-文本匹配***,包括:
数据获取模块,其被配置为:获取数据,所述数据包括图像以及与图像匹配的文本;
模型训练模块,其被配置为:使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。
实施例3
本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1所述方法的步骤。
实施例4
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1所述方法的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于频率自适应的图像-文本匹配方法,其特征在于,包括:
获取数据,所述数据包括图像以及与图像匹配的文本;
使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。
2.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述图像的初始表征,具体计算步骤为:
通过卷积神经网络得到图像的每个区域特征;
对所述的每个区域特征进行线性变换;
对线性变换后的每个区域特征进行归一化处理,得到每个区域归一化处理后的区域特征,组成图像的初始表征。
3.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述文本的初始表征,具体计算步骤为:
使用one-hot将文本中的每个单词编码;
计算每个单词的嵌入表示;
总结来自两个方向的上下文信息;
采用平均值的方式得到带有上下文信息增强的词特征,组成文本的初始表征。
4.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述计算带有全局上下文增强语义关系的图像区域集合,具体步骤为:
对于图像构建一个无向图;
为无向图中的每个节点自适应的聚合所有关联节点的高低频信息,得到语义推理后的节点,组成带有全局上下文增强语义关系的图像区域集合。
5.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述得到语义增强的图像全局特征和语义增强的文本全局特征的具体步骤为:
选择图像和文本中的任一项作为查询模态,另一项作为另一模态;
使用注意力交互函数迭代计算得到查询模态的全局特征和另一模态的全局特征;
若图像为查询模态,则将查询模态的全局特征作为语义增强的图像全局特征,另一模态的全局特征作为语义增强的文本全局特征;若文本为查询模态,则将查询模态的全局特征作为语义增强的文本全局特征,另一模态的全局特征作为语义增强的图像全局特征。
6.如权利要求1所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述损失函数为三元组损失函数。
7.如权利要求5所述的一种基于频率自适应的图像-文本匹配方法,其特征在于,所述注意力交互函数在另一模态的引导下,对查询模态不同片段的关注度不同。
8.一种基于频率自适应的图像-文本匹配***,其特征在于,包括:
数据获取模块,其被配置为:获取数据,所述数据包括图像以及与图像匹配的文本;
模型训练模块,其被配置为:使用获取的数据训练基于频率自适应和迭代注意力交互的图像-文本匹配模型,具体步骤包括:对所述数据中的图像和文本进行初始特征表示,得到图像的初始表征和文本的初始表征;基于频率自适应的区域语义推理方法,计算带有全局上下文增强语义关系的图像区域集合;将图像区域集合和文本的初始表征输入迭代注意力交互层,得到语义增强的图像全局特征和语义增强的文本全局特征;计算损失函数,利用优化器对损失函数进行优化。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项方法的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项方法的步骤。
CN202110260146.XA 2021-03-10 2021-03-10 一种基于频率自适应的图像-文本匹配方法及*** Active CN112861882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110260146.XA CN112861882B (zh) 2021-03-10 2021-03-10 一种基于频率自适应的图像-文本匹配方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260146.XA CN112861882B (zh) 2021-03-10 2021-03-10 一种基于频率自适应的图像-文本匹配方法及***

Publications (2)

Publication Number Publication Date
CN112861882A true CN112861882A (zh) 2021-05-28
CN112861882B CN112861882B (zh) 2023-05-09

Family

ID=75993861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260146.XA Active CN112861882B (zh) 2021-03-10 2021-03-10 一种基于频率自适应的图像-文本匹配方法及***

Country Status (1)

Country Link
CN (1) CN112861882B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419351A (zh) * 2022-01-28 2022-04-29 深圳市腾讯计算机***有限公司 图文预训练模型训练、图文预测模型训练方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN108960330A (zh) * 2018-07-09 2018-12-07 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN109933802A (zh) * 2019-03-25 2019-06-25 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111428801A (zh) * 2020-03-30 2020-07-17 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
CN108960330A (zh) * 2018-07-09 2018-12-07 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN109933802A (zh) * 2019-03-25 2019-06-25 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法
CN111428801A (zh) * 2020-03-30 2020-07-17 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEYU BO ET AL.: "beyond low-frequency information in graph convolutional networks", 《ARXIV:2101.00797V1 [CS.LG] 4 JAN 2021》 *
KUNPENG LI ET AL.: "Visual Semantic Reasoning for Image-Text Matching", 《ARXIV:1909.02701V1 [CS.CV] 6 SEP 2019》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419351A (zh) * 2022-01-28 2022-04-29 深圳市腾讯计算机***有限公司 图文预训练模型训练、图文预测模型训练方法和装置

Also Published As

Publication number Publication date
CN112861882B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
Zellinger et al. Robust unsupervised domain adaptation for neural networks via moment alignment
CN107679580B (zh) 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
US11748919B2 (en) Method of image reconstruction for cross-modal communication system and device thereof
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
Peng et al. Research on image feature extraction and retrieval algorithms based on convolutional neural network
CN111291212A (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
CN112861936B (zh) 一种基于图神经网络知识蒸馏的图节点分类方法及装置
CN111598183A (zh) 一种多特征融合图像描述方法
CN114817673A (zh) 一种基于模态关系学习的跨模态检索方法
Chen et al. Multi-SVM based Dempster–Shafer theory for gesture intention understanding using sparse coding feature
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN112818889A (zh) 基于动态注意力的超网络融合视觉问答答案准确性的方法
Li et al. A deep graph structured clustering network
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
Yong et al. A new emotion analysis fusion and complementary model based on online food reviews
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
CN112861882B (zh) 一种基于频率自适应的图像-文本匹配方法及***
CN113204640A (zh) 一种基于注意力机制的文本分类方法
CN110321565B (zh) 基于深度学习的实时文本情感分析方法、装置及设备
CN112100342A (zh) 一种基于知识表示学习技术的知识图谱问答方法
CN116680407A (zh) 一种知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant