CN114201621B - 基于图文协同注意力的跨模态检索模型构建及检索方法 - Google Patents

基于图文协同注意力的跨模态检索模型构建及检索方法 Download PDF

Info

Publication number
CN114201621B
CN114201621B CN202111406136.9A CN202111406136A CN114201621B CN 114201621 B CN114201621 B CN 114201621B CN 202111406136 A CN202111406136 A CN 202111406136A CN 114201621 B CN114201621 B CN 114201621B
Authority
CN
China
Prior art keywords
sample
text
image
cross
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111406136.9A
Other languages
English (en)
Other versions
CN114201621A (zh
Inventor
单丽莉
苏宇
孙承杰
林磊
刘秉权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Konami Sports Club Co Ltd
Original Assignee
Harbin Institute of Technology
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, People Co Ltd filed Critical Harbin Institute of Technology
Priority to CN202111406136.9A priority Critical patent/CN114201621B/zh
Publication of CN114201621A publication Critical patent/CN114201621A/zh
Application granted granted Critical
Publication of CN114201621B publication Critical patent/CN114201621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。

Description

基于图文协同注意力的跨模态检索模型构建及检索方法
技术领域
本发明涉及图像文本的跨模态检索技术领域,具体涉及一种基于图文协同注意力的跨模态检索模型构建及检索方法。
背景技术
随着互联网上文本、图像等不同模态的多媒体数据***式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生。跨模态检索是至少两种模态的数据之间互相检索,通常是以一种模态作为查询条件来检索另一种模态的相关数据。例如在电子商务网站上展示的销售商品通常包含商品类别、商品名称、商品属性、商品具体描述等文本描述以及商品图像,用户在网站上搜索自己感兴趣的内容时希望能检索返回与该商品相关的文本和图像等多种模态的数据,以获得该商品的更多数据。
然而,不同模态的数据之间表示形式不一致,因而不同模态的数据无法直接进行相似度的度量,导致现有的跨模态检索方法存在匹配准确率不高的问题。
发明内容
本发明解决的问题是不同模态的数据之间表示形式不一致,因而不同模态的数据无法直接进行相似度的度量,导致现有的跨模态检索方法存在匹配准确率不高。
本发明提出一种基于图文协同注意力的跨模态检索模型构建方法,包括:
获取训练图像和训练文本,其中,所述训练图像为带类别标签的图像样本,所述训练文本为带类别标签的文本样本;
提取所述图像样本的局部图像特征,以及提取所述文本样本的局部文本特征;
将所述图像样本所有的局部图像特征和所述文本样本所有的局部文本特征分别映射为特征向量,并将所述图像样本的特征向量和所述文本样本的特征向量分别表示成矩阵,再分别经过全连接层得到各自的Key矩阵、Query矩阵和Value矩阵;
基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的跨模态注意力分数,基于所述跨模态注意力分数分别生成所述图像样本和所述文本样本的跨模态注意力特征;
基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的模态内注意力分数,基于所述模态内注意力分数分别生成所述图像样本和所述文本样本的模态内注意力特征;
将所述跨模态注意力特征和所述模态内注意力特征进行融合,分别得到所述图像样本的全局特征表示和所述文本样本的全局特征表示;
基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型。
可选地,所述基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的跨模态注意力分数,基于所述跨模态注意力分数分别生成所述图像样本和所述文本样本的跨模态注意力特征包括:
对所述图像样本的Key矩阵与所述文本样本的Query矩阵、所述文本样本的Key矩阵与所述图像样本的Query矩阵分别做内积运算,并归一化,再通过softmax分别计算出所述图像样本对所述文本样本的权重矩阵,以及所述文本样本对所述图像样本的权重矩阵,其中,所述跨模态注意力分数包含所述文本样本对所述图像样本的权重矩阵和所述图像样本对所述文本样本的权重矩阵;
以所述文本样本对所述图像样本的权重矩阵作为得分,对所述图像样本的Value矩阵做加权求和运算,得到所述文本样本的跨模态注意力特征;
以所述图像样本对所述文本样本的权重矩阵作为得分,对所述文本样本的Value矩阵做加权求和运算,得到所述图像样本的跨模态注意力特征。
可选地,所述基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的模态内注意力分数,基于所述模态内注意力分数分别生成所述图像样本和所述文本样本的模态内注意力特征包括:
对所述图像样本的Key矩阵与Query矩阵、所述文本样本的Key矩阵与Query矩阵分别做内积运算,并归一化,再通过softmax分别计算出所述图像样本的权重矩阵和所述文本样本的权重矩阵,其中,所述模态内注意力分数包含所述图像样本的权重矩阵和所述文本样本的权重矩阵;
以所述图像样本的权重矩阵作为得分,对所述图像样本的Value矩阵做加权求和运算,得到所述图像样本的模态内注意力特征;
以所述文本样本的权重矩阵作为得分,对所述文本样本的Value矩阵做加权求和运算,得到所述文本样本的模态内注意力特征。
可选地,所述基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型包括标签预测训练任务,具体包括:
将所述图像样本的全局特征表示或所述文本样本的全局特征表示,输入到全连接层,并利用softmax输出每个标签的概率,将概率最大的类别标签作为输入到所述全连接层的所述图像样本或所述文本样本的预测标签;
基于所述预测标签与所述图像样本或所述文本样本带的真实类别标签,计算标签预测的损失函数。
可选地,所述基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型还包括度量学习训练任务,具体包括:
构建度量学习的训练样本集,所述训练样本集中的一条训练数据包含锚样本、第一预设数量所述锚样本跨模态的正样本以及第二预设数量所述锚样本跨模态的负样本,所述锚样本为所述图像样本或所述文本样本;
根据所述锚样本的全局特征表示、所述锚样本跨模态的正样本的全局特征表示以及所述锚样本跨模态的负样本的全局特征表示,分别计算所述锚样本与所有正样本、所有负样本的距离,基于所述距离计算度量学习的损失函数。
可选地,所述基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型还包括:
基于所述标签预测的损失函数和所述度量学习的损失函数,采用多任务学习的方式训练得到所述跨模态检索模型。
可选地,所述提取所述图像样本的局部图像特征包括:
将所述图像样本输入至预训练的FasterRCNN模型,提取所述图像样本的局部图像特征,其中,所述FasterRCNN模型包括特征提取网络、RPN网络以及兴趣区域池化网络,所述特征提取网络用于对所述图像样本进行特征提取,并将提取的特征图输入所述RPN网络,由所述RPN网络选择出预设个数感兴趣区域,并用矩形框标记出所述感兴趣区域,所述兴趣区域池化网络用于基于所述RPN网络标记的所述感兴趣区域提取所述感兴趣区域的特征,作为所述图像样本的局部图像特征。
可选地,所述提取所述文本样本的局部文本特征包括:
对所述文本样本进行分词;
使用Word2Vec获取分词后的每个词语的词向量;
将所述词向量输入到Bi-LSTM网络中,获取每个词语的特征向量表示,作为所述文本样本的局部文本特征。
本发明还提出一种基于图文协同注意力的跨模态检索方法,包括:
获取给定的检索条件要素,其中,所述检索条件要素为检索图像或检索文本;
将所述检索条件要素和预置的检索范围内的要素输入至如上任一项所述基于图文协同注意力的跨模态检索模型构建方法构建的跨模态检索模型,由所述跨模态检索模型将所述检索范围内与所述检索条件要素相似度最高的第三预设数量的要素作为检索结果输出,其中,所述检索范围内的要素包含图像和/或文本。
本发明还提出一种基于图文协同注意力的跨模态检索装置,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的基于图文协同注意力的跨模态检索模型构建方法,或者如上所述的基于图文协同注意力的跨模态检索方法。
本发明通过提取图像样本的局部图像特征及文本样本的局部文本特征,并映射为特征向量进行表示,利用跨模态注意力机制捕捉模态间数据的细粒度交互关系,利用模态内注意力机制捕捉图像区域之间的关联以及文本上下文的语义关联,最终融合跨模态注意力特征和模态内注意力特征,得到图像和文本的表示形式一致的全局特征表示,使得图像和文本这两种不同模态的数据可直接进行相似度度量,使得训练得到的跨模态检索模型可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。
附图说明
图1为本发明实施例基于图文协同注意力的跨模态检索模型构建方法流程一示意图;
图2为本发明实施例中文本样本的一示例示意图;
图3为本发明实施例基于图文协同注意力的跨模态检索模型构建方法的架构示意图;
图4为本发明实施例图文协同注意力机制的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
如图1,在本发明一实施例中,所述基于图文协同注意力的跨模态检索模型构建方法包括:
步骤S10,获取训练图像和训练文本,其中,所述训练图像为带类别标签的图像样本,所述训练文本为带类别标签的文本样本。
训练数据包含多个训练图像和训练文本,可为每个训练图像分配图像ID,为每个训练文本分配文本ID,用以区分不同训练图像和不同训练文本。训练图像和训练文本均带有类别标签,如图2,训练文本除了包含文本类别标签和文本描述外,还可包含该文本对应的图像ID,以便于后续构造度量学习训练任务中的正样本。
步骤S20,提取所述图像样本的局部图像特征,以及提取所述文本样本的局部文本特征。
此处图像样本的局部图像特征,指图像样本的区域特征,具体指图像样本的多个区域的特征。可通过R-CNN、FAST-RCNN或者FASTER-RCNN算法实现图像样本的局部图像特征的提取。
此处文本样本的局部文本特征,指文本样本的每个词语的特征表示。可通过Word2Vec及Bi-LSTM等算法实现文本样本的局部文本特征的提取。
步骤S30,将所述图像样本所有的局部图像特征和所述文本样本所有的局部文本特征分别映射为特征向量,并将所述图像样本的特征向量和所述文本样本的特征向量分别表示成矩阵,再分别经过全连接层得到各自的Key矩阵、Query矩阵和Value矩阵。
一个图像样本有一个或多个局部图像特征,一个文本样本有一个或多个局部文本特征,将一个图像样本的所有局部图像特征分别进行特征向量映射,具体可将局部图像特征输入一个全连接层,即可映射得到该局部图像特征对应的特征向量,将一个文本样本的所有局部文本特征分别进行特征向量映射,具体可将局部文本特征输入一个全连接层,即可映射得到该局部文本特征对应的特征向量。
可选地,所述图像样本的特征向量和所述文本样本的特征向量具有相同维度。
如图4,一个图像样本有k个局部图像特征,一个文本样本有j个局部文本特征,二者映射得到的特征向量维度为d,则将图像样本的局部图像特征映射后可得到k个d维特征向量,将文本样本的局部文本特征映射后可得到j个d维特征向量。
通过将图像样本的局部图像特征与文本样本的局部文本特征映射为同一维度的向量,便于实现后续图像样本与文本样本之间的数据交互,便于图像样本与文本样本之间的相似度计算。
如图4,将图像样本的k个d维特征向量表示成矩阵P,经过Linear全连接层得到矩阵P的Key矩阵、Query矩阵和Value矩阵,具体可表示为:
PK=Linear(P;θPK);PQ=Linear(P;θPQ);PV=Linear(P;θPV),
其中,PK指矩阵P的Key矩阵、PQ指矩阵P的Query矩阵,PV指矩阵P的Value矩阵、θPK、θPQ、θPV为全连接层的网络权重参数。
如图4,将文本样本的j个d维特征向量表示成矩阵T,经过Linear全连接层得到矩阵T的Key矩阵、Query矩阵和Value矩阵,具体可表示为:
TK=Linear(T;θTK);TQ=Linear(T;θTQ);TV=Linear(T;θTV),
其中,TK指矩阵T的Key矩阵、TQ指矩阵T的Query矩阵、TV指矩阵T的Value矩阵,θTK、θTQ、θTV为全连接层的网络权重参数。
步骤S40,基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的跨模态注意力分数,基于所述跨模态注意力分数分别生成所述图像样本和所述文本样本的跨模态注意力特征。
进一步地,所述步骤S40包括:
对所述图像样本的Key矩阵与所述文本样本的Query矩阵、所述文本样本的Key矩阵与所述图像样本的Query矩阵分别做内积运算,并归一化,再通过softmax分别计算出所述图像样本对所述文本样本的权重矩阵,以及所述文本样本对所述图像样本的权重矩阵,其中,所述跨模态注意力分数包含所述文本样本对所述图像样本的权重矩阵和所述图像样本对所述文本样本的权重矩阵。
其中,图像样本的Key矩阵与文本样本的Query矩阵做内积运算(公式表示为PKTo),并对获得的内积运算结果进行归一化(公式表示为),图像样本对文本样本的权重矩阵,可表示为:
文本样本的Key矩阵与图像样本的Query矩阵做内积运算(公式表示为TKPQ),并对获得的内积运算结果进行归一化(公式表示为),文本样本对图像样本的权重矩阵,可表示为:
其中,PK指图像样本的Key矩阵,TQ指文本样本的Query矩阵,TK指文本样本的Key矩阵,PQ指图像样本的Query矩阵,d指图像样本及文本样本的特征向量维度。
以所述图像样本对所述文本样本的权重矩阵作为得分,对所述文本样本的Value矩阵做加权求和运算,得到所述图像样本的跨模态注意力特征。其可表示为:
Pinter=WPT×TV
其中,Pinter指图像样本的跨模态注意力特征,WPT为图像样本对文本样本的权重矩阵,TV为文本样本的Value矩阵。
以所述文本样本对所述图像样本的权重矩阵作为得分,对所述图像样本的Value矩阵做加权求和运算,得到所述文本样本的跨模态注意力特征。其可表示为:
Tinter=WTP×PV
其中,Tinter指文本样本的跨模态注意力特征,WTP指文本样本对图像样本的权重矩阵,PV指图像样本的Value矩阵。
通过对图像样本的Key矩阵与文本样本的Query矩阵做内积运算,获得图像样本的各个局部图像特征与文本样本的每个局部文本特征之间的注意力参数,以决定需关注输入的哪些部分,分配有限的信息处理资源给重要的部分;通过对内积运算的结果进行归一化,使得最后获得的注意力分数不受特征向量维度d的影响。
步骤S50,基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的模态内注意力分数,基于所述模态内注意力分数分别生成所述图像样本和所述文本样本的模态内注意力特征。
进一步地,所述步骤S50包括:
对所述图像样本的Key矩阵与Query矩阵、所述文本样本的Key矩阵与Query矩阵分别做内积运算,并归一化,再通过softmax分别计算出所述图像样本的权重矩阵和所述文本样本的权重矩阵,其中,所述模态内注意力分数包含所述图像样本的权重矩阵和所述文本样本的权重矩阵。
图像样本的Key矩阵与Query矩阵做内积运算(公式可表示为PKPQ),对内积运算的结果进行归一化(公式可表示为),图像样本的权重矩阵可表示为:
其中,WPP指图像样本的权重矩阵,PK指图像样本的Key矩阵,PQ指图像样本的Query矩阵,d指图像样本的特征向量维度。
文本样本的Key矩阵与Query矩阵分别做内积运算(公式可表示为TKTo),对内积运算的结果进行归一化(公式可表示为),文本样本的权重矩阵可表示为:
其中,WTT指文本样本的权重矩阵,TQ指文本样本的Query矩阵,TK指文本样本的Key矩阵,d指文本样本的特征向量维度。
以所述图像样本的权重矩阵作为得分,对所述图像样本的Value矩阵做加权求和运算,得到所述图像样本的模态内注意力特征。其可表示为:
Pintra=WPP×PV
其中,Pintra为图像样本的模态内注意力特征,PV指图像样本的Value矩阵。
以所述文本样本的权重矩阵作为得分,对所述文本样本的Value矩阵做加权求和运算,得到所述文本样本的模态内注意力特征。其可表示为:
Tintra=WTT×TV
其中,Tintra为文本样本的模态内注意力特征,TV为文本样本的Value矩阵。
步骤S60,将所述跨模态注意力特征和所述模态内注意力特征进行融合,分别得到所述图像样本的全局特征表示和所述文本样本的全局特征表示。
具体地,将图像样本的模态内注意力特征和跨模态注意力特征融合,即将模态内注意力特征和跨模态注意力特征这两个向量拼接,再经过最大池化层,将图像样本的多个的局部特征降维为1个全局特征,例如,将k个d维的局部特征降维为1个d维的全局特征表示。将文本样本的模态内注意力特征和跨模态注意力特征融合,再经过最大池化层得到文本样本的全局特征表示,最大池化层与图像样本处的最大池化层作用一致,此处不赘述。其可表示为:
Pfinal=MaxPooling([Pinter,Pintra]),
Tfinal=MaxPooling([Tinter,Tintra]),
其中,Pfinal指图像样本的全局特征表示,Tfinal指文本样本的全局特征表示。如图4示出了由计算出的Pintra与/> 计算出的Pinter的融合示例。
步骤S70,基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型。
在得到图像样本和文本样本的全局特征表示后,利用标签预测任务和度量学习任务来训练跨得到模态检索模型。
通过提取图像样本的局部图像特征及文本样本的局部文本特征,并映射为特征向量进行表示,利用跨模态注意力机制捕捉模态间数据的细粒度交互关系,利用模态内注意力机制捕捉图像区域之间的关联以及文本上下文的语义关联,最终融合跨模态注意力特征和模态内注意力特征,得到图像和文本的表示形式一致的全局特征表示,使得图像和文本这两种不同模态的数据可直接进行相似度度量,使得训练得到的跨模态检索模型可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。
可选地,如图3,步骤S70包含标签预测训练任务,具体包括:
将所述图像样本的全局特征表示或所述文本样本的全局特征表示,输入到全连接层,并利用softmax输出每个标签的概率,将概率最大的类别标签作为输入到所述全连接层的所述图像样本或所述文本样本的预测标签;
基于所述预测标签与所述图像样本或所述文本样本带的真实类别标签,计算标签预测的损失函数。
利用交叉熵损失函数作为标签预测的损失函数,其可表示为:
其中,Llabel表示标签预测的损失函数,n表示一个batch中所有样本的个数,yi表示每一个样本的真实标签,pvi表示对于图像样本生成的预测标签,pti表示对于文本样本生成的预测标签。
通过利用标签预测任务来保证在模态内部,具有相同标签的样本具有相似的特征表示,具有不同标签的样本具有不同的特征表示。
可选地,如图3,步骤S70包含度量学习训练任务,具体包括:
构建度量学习的训练样本集,所述训练样本集中的一条训练数据包含锚样本、第一预设数量所述锚样本跨模态的正样本以及第二预设数量所述锚样本跨模态的负样本,所述锚样本为所述图像样本或所述文本样本;根据所述锚样本的全局特征表示、所述锚样本跨模态的正样本的全局特征表示以及所述锚样本跨模态的负样本的全局特征表示,分别计算所述锚样本与所有正样本、所有负样本的距离,基于所述距离计算度量学习的损失函数。
其中,当锚样本为图像样本时,其跨模态的正样本指文本形式的正样本,其跨模态的负样本指文本形式的负样本;当锚样本为文本样本时,其跨模态的正样本指图像形式的正样本,其跨模态的负样本指图像形式的负样本。
第一预设数量可大于或等于1,优选值为1。第二预设数量可大于或等于1,优选值为m-1,其中,m指类别标签的个数。因为,对于锚样本而言,在所有类别标签中,仅一个类别(即锚样本的类别标签)为其正样本,其他m-1个类别均为负样本,每一个类别选一个样本用于计算损失函数即可。
一实施方式中,对于一个batch的图像和文本数据,以图像样本为锚样本,随机采样一个与该图像样本的类别标签相同的文本样本作为正样本,假设共有m种不同的类别标签,对m个不同类别的语义标签下的数据,采样所有与该正样本不同类别的文本样本作为负样本,这样就得到了m-1个负样本。以文本样本为锚样本,随机采样一个与该文本样本的语义标签相同的图像样本作为正样本,采样所有与该锚样本不同类别的图像样本作为负样本,得到m-1个负样本。
基于锚样本与所有正样本、所有负样本的距离计算度量学习的损失函数,具体地,可以锚样本与所有正样本的距离减去锚样本与所有负样本的距离作为度量学习的损失函数,基于该度量学习的损失函数进行训练,可以缩小正样本对间的距离,拉大负样本对间的距离。可选地,样本之间的距离使用余弦相似度定义。
进一步地,度量学习的损失函数定义如下:
Lmetric=L(v)+L(t),
其中,L(v)是图像样本的度量学习损失函数,vT是选取的图像样本,t+是该图像样本对应的同类别的文本样本(正样本),M是类别数,ti是该图像样本对应的不同类别的本文样本(负样本)。L(t)是文本样本的度量学习损失函数,tT是选取的文本样本,v+是该文本样本对应的同类别的图像样本(正样本),vi是该文本样本对应的不同类别的图像样本(负样本)。Lmetric为度量学习总的损失函数。
通过度量学习任务来保证不同模态具有相似语义的样本具有相似的特征表示,而不同模态具有不同语义的样本具有不同的特征表示。
所述步骤S70还包括:基于所述标签预测的损失函数和所述度量学习的损失函数,采用多任务学习的方式训练得到所述跨模态检索模型。
具体地,该多任务学习的损失函数的定义如下:
L=αLlabel+βLmetric
其中,α和β是超参数,用于平衡以上两个任务损失函数的权重。
通过使用多任务学习的方式训练得到跨模态检索模型,可保证训练得到的跨模态检索模型在模态内部,具有相同标签的样本具有相似的特征表示,具有不同标签的样本具有不同的特征表示,同时在不同模态之间具有相似语义的样本具有相似的特征表示,而不同模态具有不同语义的样本具有不同的特征表示。
可选地,如图3,所述提取所述图像样本的局部图像特征包括:
将所述图像样本输入至预训练的Faster RCNN模型,提取所述图像样本的局部图像特征,其中,所述Faster RCNN模型包括特征提取网络、RPN网络以及兴趣区域池化网络,所述特征提取网络用于对所述图像样本进行特征提取,并将提取的特征图输入所述RPN网络,由所述RPN网络选择出预设个数感兴趣区域,并用矩形框标记出所述感兴趣区域,所述兴趣区域池化网络用于基于所述RPN网络标记的所述感兴趣区域提取所述感兴趣区域的特征,作为所述图像样本的局部图像特征。
其中,所述特征提取网络由一组卷积层+relu激活函数层+池化层组成。
提取的特征图输入RPN网络后,RPN网络分为两部分,第一部分通过二分类选择出k个感兴趣的区域,具体可通过softmax分类选择出k个感兴趣的区域;第二部分会利用矩形框标记出这些感兴趣的区域的大致位置。
兴趣区域池化网络,基于RPN网络标记出感兴趣的区域的位置,以及特征提取网络提取的特征图,提取出k个区域的特征,即图像样本的局部图像特征。
通过使用Faster RCNN模型提取图像样本的局部图像特征,可高效快速地从图像样本中提取局部图像特征。
可选地,如图3,所述提取所述文本样本的局部文本特征包括:
对所述文本样本进行分词。具体的分词方法可选择隐马尔可夫模型、jieba分词等算法,这些算法均为现有技术,此处不赘述。
使用Word2Vec获取分词后的每个词语的词向量,具体可通过Word2Vec中的Skip-Gram模型获取分词后的每个词语的词向量。相关内容为现有技术,此处不赘述。
将所述词向量输入到Bi-LSTM网络中,获取每个词语的特征向量表示,作为所述文本样本的局部文本特征。其中,Bi-LSTM是RNN网络的一种,适合用于对时序数据的建模,比如这里的文本数据的建模,其可以通过学习记忆哪些信息和遗忘哪些信息更好地捕捉较长距离的依赖关系,另外,通过组合前向LSTM和后向LSTM可以更好地捕捉双向的语义依赖。
本发明还提出一种基于图文协同注意力的跨模态检索方法,包括:
获取给定的检索条件要素,其中,所述检索条件要素为检索图像或检索文本;将所述检索条件要素和预置的检索范围内的要素输入至如上所述基于图文协同注意力的跨模态检索模型构建方法构建的跨模态检索模型,由所述跨模态检索模型将所述检索范围内与所述检索条件要素相似度最高的第三预设数量的要素作为检索结果输出,其中,所述检索范围内的要素包含图像和/或文本。
获取给定的检索条件要素后,将其输入到基于图文协同注意力的跨模态检索模型构建方法构建/训练好的跨模态检索模型,同时,预置的检索范围内的要素也输入该跨模态检索模型中,由该跨模态检索模型输出检索范围内与检索条件要素相似度最高的第三预设数量的要素。
其中,预置的检索范围可限定为仅包含图像要素,或者仅包含文本要素,或者既包含图像要素也包含文本要素。一实施方式中,给定的检索条件要素为图像,预置的检索范围为仅包含文本要素,则跨模态检索模型会输出检索范围内与检索条件要素相似度最高的预设数量的文本;另一实施方式中,给定的检索条件要素为文本,预置的检索范围为仅包含图像要素,则跨模态检索模型会输出检索范围内与检索条件要素相似度最高的图像。
通过将检索条件要素和预置的检索范围内的要素输入至基于图文协同注意力的跨模态检索模型构建方法构建的跨模态检索模型,通过该跨模态检索模型,使用跨模态注意力机制捕捉模态间数据的细粒度交互关系,利用模态内注意力机制捕捉图像区域之间的关联以及文本上下文的语义关联,最终融合跨模态注意力特征和模态内注意力特征,得到图像和文本的表示形式一致的全局特征表示,使得不同模态的图像和文本能够直接进行相似度度量,进而提高跨模态检索的准确性。
本发明一实施例中,基于图文协同注意力的跨模态检索装置包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的基于图文协同注意力的跨模态检索模型构建方法,或者如上所述的基于图文协同注意力的跨模态检索方法。本发明基于图文协同注意力的跨模态检索装置相对于现有技术所具有的有益效果与上述基于图文协同注意力的跨模态检索方法一致,此处不赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于图文协同注意力的跨模态检索模型构建方法,其特征在于,包括:
获取训练图像和训练文本,其中,所述训练图像为带类别标签的图像样本,所述训练文本为带类别标签的文本样本;
提取所述图像样本的局部图像特征,以及提取所述文本样本的局部文本特征;
将所述图像样本所有的局部图像特征和所述文本样本所有的局部文本特征分别映射为特征向量,并将所述图像样本的特征向量和所述文本样本的特征向量分别表示成矩阵,再分别经过全连接层得到各自的Key矩阵、Query矩阵和Value矩阵;
基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的跨模态注意力分数,基于所述跨模态注意力分数分别生成所述图像样本和所述文本样本的跨模态注意力特征;
基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的模态内注意力分数,基于所述模态内注意力分数分别生成所述图像样本和所述文本样本的模态内注意力特征;
将所述跨模态注意力特征和所述模态内注意力特征进行融合,分别得到所述图像样本的全局特征表示和所述文本样本的全局特征表示;
基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型。
2.如权利要求1所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的跨模态注意力分数,基于所述跨模态注意力分数分别生成所述图像样本和所述文本样本的跨模态注意力特征包括:
对所述图像样本的Key矩阵与所述文本样本的Query矩阵、所述文本样本的Key矩阵与所述图像样本的Query矩阵分别做内积运算,并归一化,再通过softmax分别计算出所述图像样本对所述文本样本的权重矩阵,以及所述文本样本对所述图像样本的权重矩阵,其中,所述跨模态注意力分数包含所述文本样本对所述图像样本的权重矩阵和所述图像样本对所述文本样本的权重矩阵;
以所述文本样本对所述图像样本的权重矩阵作为得分,对所述图像样本的Value矩阵做加权求和运算,得到所述文本样本的跨模态注意力特征;
以所述图像样本对所述文本样本的权重矩阵作为得分,对所述文本样本的Value矩阵做加权求和运算,得到所述图像样本的跨模态注意力特征。
3.如权利要求1所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述基于所述图像样本和所述文本样本各自的Key矩阵、Query矩阵和Value矩阵,计算所述图像样本和所述文本样本的模态内注意力分数,基于所述模态内注意力分数分别生成所述图像样本和所述文本样本的模态内注意力特征包括:
对所述图像样本的Key矩阵与Query矩阵、所述文本样本的Key矩阵与Query矩阵分别做内积运算,并归一化,再通过softmax分别计算出所述图像样本的权重矩阵和所述文本样本的权重矩阵,其中,所述模态内注意力分数包含所述图像样本的权重矩阵和所述文本样本的权重矩阵;
以所述图像样本的权重矩阵作为得分,对所述图像样本的Value矩阵做加权求和运算,得到所述图像样本的模态内注意力特征;
以所述文本样本的权重矩阵作为得分,对所述文本样本的Value矩阵做加权求和运算,得到所述文本样本的模态内注意力特征。
4.如权利要求1所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型包括标签预测训练任务,具体包括:
将所述图像样本的全局特征表示或所述文本样本的全局特征表示,输入到全连接层,并利用softmax输出每个标签的概率,将概率最大的类别标签作为输入到所述全连接层的所述图像样本或所述文本样本的预测标签;
基于所述预测标签与所述图像样本或所述文本样本带的真实类别标签,计算标签预测的损失函数。
5.如权利要求4所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型还包括度量学习训练任务,具体包括:
构建度量学习的训练样本集,所述训练样本集中的一条训练数据包含锚样本、第一预设数量所述锚样本跨模态的正样本以及第二预设数量所述锚样本跨模态的负样本,所述锚样本为所述图像样本或所述文本样本;
根据所述锚样本的全局特征表示、所述锚样本跨模态的正样本的全局特征表示以及所述锚样本跨模态的负样本的全局特征表示,分别计算所述锚样本与所有正样本、所有负样本的距离,基于所述距离计算度量学习的损失函数。
6.如权利要求5所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述基于所述图像样本的全局特征表示和所述文本样本的全局特征表示,训练得到跨模态检索模型还包括:
基于所述标签预测的损失函数和所述度量学习的损失函数,采用多任务学习的方式训练得到所述跨模态检索模型。
7.如权利要求1至6中任一项所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述提取所述图像样本的局部图像特征包括:
将所述图像样本输入至预训练的Faster RCNN模型,提取所述图像样本的局部图像特征,其中,所述Faster RCNN模型包括特征提取网络、RPN网络以及兴趣区域池化网络,所述特征提取网络用于对所述图像样本进行特征提取,并将提取的特征图输入所述RPN网络,由所述RPN网络选择出预设个数感兴趣区域,并用矩形框标记出所述感兴趣区域,所述兴趣区域池化网络用于基于所述RPN网络标记的所述感兴趣区域提取所述感兴趣区域的特征,作为所述图像样本的局部图像特征。
8.如权利要求1至6中任一项所述的基于图文协同注意力的跨模态检索模型构建方法,其特征在于,所述提取所述文本样本的局部文本特征包括:
对所述文本样本进行分词;
使用Word2Vec获取分词后的每个词语的词向量;
将所述词向量输入到Bi-LSTM网络中,获取每个词语的特征向量表示,作为所述文本样本的局部文本特征。
9.一种基于图文协同注意力的跨模态检索方法,其特征在于,包括:
获取给定的检索条件要素,其中,所述检索条件要素为检索图像或检索文本;
将所述检索条件要素和预置的检索范围内的要素输入至权利要求1至8任一项所述基于图文协同注意力的跨模态检索模型构建方法构建的跨模态检索模型,由所述跨模态检索模型将所述检索范围内与所述检索条件要素相似度最高的第三预设数量的要素作为检索结果输出,其中,所述检索范围内的要素包含图像和/或文本。
10.一种基于图文协同注意力的跨模态检索装置,其特征在于,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如权利要求1-8任一项所述的基于图文协同注意力的跨模态检索模型构建方法,或者如权利要求9所述的基于图文协同注意力的跨模态检索方法。
CN202111406136.9A 2021-11-24 2021-11-24 基于图文协同注意力的跨模态检索模型构建及检索方法 Active CN114201621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111406136.9A CN114201621B (zh) 2021-11-24 2021-11-24 基于图文协同注意力的跨模态检索模型构建及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111406136.9A CN114201621B (zh) 2021-11-24 2021-11-24 基于图文协同注意力的跨模态检索模型构建及检索方法

Publications (2)

Publication Number Publication Date
CN114201621A CN114201621A (zh) 2022-03-18
CN114201621B true CN114201621B (zh) 2024-04-02

Family

ID=80648805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111406136.9A Active CN114201621B (zh) 2021-11-24 2021-11-24 基于图文协同注意力的跨模态检索模型构建及检索方法

Country Status (1)

Country Link
CN (1) CN114201621B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114841243B (zh) * 2022-04-02 2023-04-07 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114969405B (zh) * 2022-04-30 2024-01-26 苏州浪潮智能科技有限公司 一种跨模态图文互检方法
CN114663737B (zh) * 2022-05-20 2022-12-02 浪潮电子信息产业股份有限公司 物体识别方法、装置、电子设备及计算机可读存储介质
CN114691907B (zh) * 2022-05-31 2022-09-16 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN114707007B (zh) * 2022-06-07 2022-08-30 苏州大学 一种图像文本检索方法、装置及计算机存储介质
CN115909317B (zh) * 2022-07-15 2024-07-05 广州珠江在线多媒体信息有限公司 一种三维模型-文本联合表达的学习方法及***
CN114973294B (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 基于图文匹配方法、装置、设备及存储介质
CN115017358B (zh) * 2022-08-09 2022-11-04 南京理工大学 一种多模态交互的跨模态检索方法及***
CN115238130B (zh) * 2022-09-21 2022-12-06 之江实验室 基于模态定制协同注意力交互的时序语言定位方法及装置
CN115658955B (zh) * 2022-11-08 2023-03-14 苏州浪潮智能科技有限公司 跨媒体检索及模型训练方法、装置、设备、菜谱检索***
CN115861995B (zh) * 2023-02-08 2023-05-23 山东海量信息技术研究院 一种视觉问答方法、装置及电子设备和存储介质
CN116433727B (zh) * 2023-06-13 2023-10-27 北京科技大学 一种基于阶段性持续学习的可伸缩单流追踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及***
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113239214A (zh) * 2021-05-19 2021-08-10 中国科学院自动化研究所 基于有监督对比的跨模态检索方法、***及设备
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526808B2 (en) * 2019-05-29 2022-12-13 The Board Of Trustees Of The Leland Stanford Junior University Machine learning based generation of ontology for structural and functional mapping

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及***
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及***
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113239214A (zh) * 2021-05-19 2021-08-10 中国科学院自动化研究所 基于有监督对比的跨模态检索方法、***及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
面向跨模态检索的协同注意力网络模型;邓一姣;张凤荔;陈学勤;艾擎;余苏喆;;计算机科学;20201231(04);60-65 *
面向跨模态检索的音频数据库内容匹配方法研究;张天;靳聪;帖云;李小兵;;信号处理;20201231(06);180-190 *

Also Published As

Publication number Publication date
CN114201621A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN114201621B (zh) 基于图文协同注意力的跨模态检索模型构建及检索方法
US11222055B2 (en) System, computer-implemented method and computer program product for information retrieval
US11301732B2 (en) Processing image-bearing electronic documents using a multimodal fusion framework
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
US11663280B2 (en) Search engine using joint learning for multi-label classification
CN114840705B (zh) 一种基于多模态预训练模型的组合商品检索方法及***
CN111291765A (zh) 用于确定相似图片的方法和装置
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
US20210248425A1 (en) Reinforced text representation learning
CN110580489B (zh) 一种数据对象的分类***、方法以及设备
CN112528053A (zh) 多媒体库分类检索管理***
CN112487199A (zh) 一种基于用户购买行为的用户特征预测方法
CN113806588A (zh) 搜索视频的方法和装置
Guadarrama et al. Understanding object descriptions in robotics by open-vocabulary object retrieval and detection
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
CN117453859A (zh) 一种农业病虫害图文检索方法、***及电子设备
CN115292530A (zh) 一种遥感影像统筹管理***
CN114969439A (zh) 一种模型训练、信息检索方法及装置
CN114781390A (zh) 一种方面级情感分析方法及装置
CN117938951B (zh) 信息推送方法、装置、计算机设备和存储介质
CN112417290A (zh) 书籍排序推送模型的训练方法、电子设备及存储介质
Bastida et al. Multimodal object recognition using deep learning representations extracted from images and smartphone sensors
CN115310547B (zh) 模型训练方法、物品识别方法及装置、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant