CN113742556A - 一种基于全局和局部对齐的多模态特征对齐方法 - Google Patents

一种基于全局和局部对齐的多模态特征对齐方法 Download PDF

Info

Publication number
CN113742556A
CN113742556A CN202111291575.XA CN202111291575A CN113742556A CN 113742556 A CN113742556 A CN 113742556A CN 202111291575 A CN202111291575 A CN 202111291575A CN 113742556 A CN113742556 A CN 113742556A
Authority
CN
China
Prior art keywords
global
feature
local
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111291575.XA
Other languages
English (en)
Other versions
CN113742556B (zh
Inventor
练智超
姜铸锴
李千目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111291575.XA priority Critical patent/CN113742556B/zh
Publication of CN113742556A publication Critical patent/CN113742556A/zh
Application granted granted Critical
Publication of CN113742556B publication Critical patent/CN113742556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于全局和局部对齐的多模态特征对齐方法,利用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。使用本发明的多模态特征对齐方法在常见多模态数据集上进行检索实验,该方法检索性能优于大部分同类方法。

Description

一种基于全局和局部对齐的多模态特征对齐方法
技术领域
本发明属于计算机多模态技术领域,具体涉及一种基于全局和局部对齐的多模态特征对齐方法。
背景技术
随着移动互联网使用的持续深化,以及即时通讯工具,社交网络,网络视频等互联网应用程序的普及,人们的上网自由度也得到很大的提升,越来越多的互联网用户随时随地接入互联网,并且上传大量的照片、语音和文字等不同模态的多媒体数据。如何在海量的不同模态的数据中快速准确地检索出自己所需要的信息具有很重要的现实意义。
一方面,由于多媒体数据的爆发式增长,如何高效且准确地检索内容相关的多模态数据逐渐成为一个极具挑战的问题。传统的信息检索方法,大多是以单一模态检索方法为基础的,如关键字检索,以图搜图等。现如今,传统的单一模态的检索已经不能满足人们的日常需要,多模态之间的检索正成为未来的热门方向。以图像和文本这两个模态为例,人们经常会输入一张图片来找到图片所描述的新闻信息,或者输入一段文字来找到最能描述这段文字的图片,这也就促进多模态特征对齐问题的研究。传统的特征对齐方法往往利用手工提取的特征,将图像和文本映射到共同表示空间中,在该空间中求相似度分数进行特征对齐。近年来,由于深度学习的快速发展,越来越多的方法开始使用神经网络提取图像和文本的高层特征,并加上一些注意力模块实现多模态对齐来解决不同模态间的“异构鸿沟”和“语义鸿沟”问题,这些方法均去取得了不错的效果。但是现有方法往往只考虑了多模态间的局部对齐或者全局对齐,只有少数同时进行了局部对齐和全局对齐,但是这些方法的全局特征提取的较为简单且对齐方式不够准确,只是简单的计算两个特征间的相似度值。
发明内容
本发明解决的技术问题:提供了一种利用经典网络在大型数据集上的预训练模型来提取出更好的全局特征和局部特征,并且通过计算相似度向量而不是简单的数值进行多模态对齐,基于全局和局部对齐的多模态特征对齐方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数;具体包括以下步骤:
步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征VF,使用初步全局特征VF构建视觉图卷积神经网络GF,最后经过图注意力模块的计算得到最终的图像全局特征表示
Figure 929318DEST_PATH_IMAGE001
步骤B:图像局部特征的提取:使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100};
步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t 1,…t L},再通过自注意力方法计算得到文本的全局特征表示
Figure 784141DEST_PATH_IMAGE002
步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征
Figure 829458DEST_PATH_IMAGE001
和文本全局特征
Figure 178662DEST_PATH_IMAGE002
间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L},最后求出A v 和T的相似度,得到L个局部相似度向量;
步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
进一步的,图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续视觉图卷积神经网络的构建,将M重塑为长度为64的特征集F={f 1, f 2,…f 64},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图卷积神经网络GF=(VF,EF),图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积;
步骤A03,对于步骤A02得到的全局视觉图卷积神经网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F,最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征
Figure 930717DEST_PATH_IMAGE001
进一步的,步骤A03中,图注意力模块的具体计算方法为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i v j ,系数e ij 的计算公式为:
Figure 143392DEST_PATH_IMAGE003
其中,W q W k 都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
Figure 613688DEST_PATH_IMAGE004
Figure 343747DEST_PATH_IMAGE005
其中,N i 表示顶点v i 的所有邻居。
进一步的,图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r 1, r 2,…r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
Figure 701041DEST_PATH_IMAGE006
Figure 835350DEST_PATH_IMAGE007
Figure 42209DEST_PATH_IMAGE008
其中,W fc1 W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
进一步的,文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
Figure 44801DEST_PATH_IMAGE009
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
步骤C02,对于步骤C01得到的文本局部特征T,使用L个单词的平均特征作为自注意力机制中的query,求出每个单词的注意力系数后进行加权求和,最终得到1024维文本全局特征
Figure 771448DEST_PATH_IMAGE010
进一步的,文本全局特征的计算方法如下:
取L个单词的平均值作为查询q
Figure 92970DEST_PATH_IMAGE011
然后计算q和所有局部特征T间的点积得到L个初步权重
Figure 272279DEST_PATH_IMAGE012
同样经过softmax函数后得到最终的注意力权重
Figure 999932DEST_PATH_IMAGE013
所以文本全局特征的计算公式为:
Figure 908982DEST_PATH_IMAGE014
进一步的,多模态间的全局和局部对齐具体包含以下步骤:
步骤D01:使用相似度表示函数计算图像全局特征
Figure 447411DEST_PATH_IMAGE001
和文本全局特征
Figure 56292DEST_PATH_IMAGE015
的相似度向量,得到256维的全局相似度向量sg;采用的相似度函数为:
Figure 338369DEST_PATH_IMAGE016
其中,xy是需要计算相似度的两个向量,W为网络学习的参数。
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数βij分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
Figure 101925DEST_PATH_IMAGE017
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
进一步的,步骤D02中,多模态注意力模块的计算方法如下:
对于第i个区域和第j个单词,余弦相似度为
Figure 326102DEST_PATH_IMAGE018
然后标准化得到
Figure 214424DEST_PATH_IMAGE019
,最后求出注意力权重:
Figure 988607DEST_PATH_IMAGE020
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
进一步的,计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
Figure 544353DEST_PATH_IMAGE021
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score= W fc3 *s,W fc3 fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
Figure 752481DEST_PATH_IMAGE022
有益效果:与现有技术相比,本发明具有以下优点:
本发明的基于全局和局部对齐的多模态特征对齐方法,利用了经典网络在大型数据集上的预训练模型以及相似度向量而不是简单的相似度值进行特征对齐。本发明图像全局特征的计算是在传统深度网络提取到的高层语义特征基础上增加了图注意力模块,这一模块通过像素间的语义关系来决定特征的权重,最终得到语义关系增强后的图像全局特征;此外图像局部特征的计算融合了局部的特征向量和局部的标签概率向量,得到了标签信息增强的图像局部特征;同样的在得到文本的局部特征表示后,使用了更优秀自注意力模块求出文本全局特征而不是简单的求均值。最后通过相似度向量进行多模态全局和局部对齐。通过实验对比,该方法性能优于其他同类方法。
附图说明
图1是基于全局和局部对齐的多模态特征对齐方法结构示意图;
图2是本发明试验所采用的MS-COCO的部分数据,包括图2A和图2B;
图3是本发明试验所采用的Flickr30K的部分数据,包括图3A和图3B。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
本申请的基于全局和局部对齐的多模态特征对齐方法,用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。
本发明的方法具体步骤包括:图像全局特征的提取,图像局部特征的提取;文本全局特征和局部特征的提取,多模态间的全局和局部对齐和计算最终图像文本匹配分数。下面分别对上述四个步骤进行详细描述:
A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,且去掉了最后一个全连接层。将ResNet152的输出高层特征M重塑为一组特征集F。然后将F经过一个全连接层得到初步全局特征VF,使用VF构建视觉图网络GF。最后经过图注意力模块的计算得到最终的图像全局特征表示
Figure 642945DEST_PATH_IMAGE001
,图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,本发明使用ResNet152在ImageNet上的预训练模型,且去掉了最后一个全连接层。图像经过ResNet网络得到一组高层特征M,为了后续图网络的构建,将一组高层特征重塑为长度为64的特征集F={f 1, f 2,…f 64}。再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图网络GF=(VF,EF)。图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积。比如对于顶点v i F v j F ,边的长度为
Figure 204508DEST_PATH_IMAGE023
T表示矩阵转置。
步骤A03,对于步骤A02得到的全局视觉图网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化。然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F。最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征
Figure 631072DEST_PATH_IMAGE001
图注意力模块的具体计算过程为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i v j ,系数e ij 的计算公式为:
Figure 10101DEST_PATH_IMAGE024
其中,W q W k 都为网络学习的参数,T表示矩阵转置,D是特征维度,在本发明中为1024。得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
Figure 138594DEST_PATH_IMAGE004
Figure 753115DEST_PATH_IMAGE005
其中,Ni表示顶点vi的所有邻居。
B:图像局部特征的提取;使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域。然后用ResNet101提取图像100个区域的特征向量R以及标签概率向量C。将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100},图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,就可以得到输入图像中100个关键区域的特征表示R={r 1, r 2, r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
Figure 752295DEST_PATH_IMAGE006
Figure 990640DEST_PATH_IMAGE007
,
即,R'=W fc1 R,
C'=W fc2 C
其中,W fc1 W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,即为文本的局部特征表示T={t 1, t 2,…t L}。再通过自注意力方法计算得到文本的全局特征表示
Figure 668746DEST_PATH_IMAGE025
。结合图1,文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
Figure 900007DEST_PATH_IMAGE009
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
步骤C02,对于步骤C01得到的文本局部特征T,使用L个单词的平均特征作为自注意力机制中的query,求出每个单词的注意力系数后进行加权求和,最终得到1024维文本全局特征
Figure 471803DEST_PATH_IMAGE025
文本全局特征的计算过程如下:
取L个单词的平均值作为查询q
Figure 864738DEST_PATH_IMAGE026
然后计算q和所有局部特征T间的点积得到L个初步权重
Figure 30140DEST_PATH_IMAGE012
同样经过softmax函数后得到最终的注意力权重:
Figure 550246DEST_PATH_IMAGE027
所以文本全局特征的计算公式为:
Figure 992860DEST_PATH_IMAGE028
D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征
Figure 805964DEST_PATH_IMAGE001
和文本全局特征
Figure 458662DEST_PATH_IMAGE025
间的相似度向量。使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L}。最后求出A v 和T的相似度,得到L个局部相似度向量。多模态间的全局和局部对齐具体包含以下步骤:
步骤D01:使用相似度表示函数计算图像全局特征
Figure 31726DEST_PATH_IMAGE001
和文本全局特征
Figure 813999DEST_PATH_IMAGE025
的相似度向量,得到256维的全局相似度向量sg,相似度函数为:
Figure 814316DEST_PATH_IMAGE029
其中,xy是需要计算相似度的两个向量,W为网络学习的参数。
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数β,ij分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
Figure 688731DEST_PATH_IMAGE030
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
多模态注意力模块的计算过程如下:
对于第i个区域和第j个单词,余弦相似度为
Figure 314754DEST_PATH_IMAGE031
然后标准化得到
Figure 466380DEST_PATH_IMAGE032
,最后求出注意力权重:
Figure 388331DEST_PATH_IMAGE033
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s。最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
Figure 750042DEST_PATH_IMAGE034
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score=Wfc3*s, Wfc3是fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
Figure 664909DEST_PATH_IMAGE035
采用以下方式对本发明的方法进行验证:
MS-COCO数据集: MS-COCO数据集是十分经典的多模态图文数据集,共包括123287张图片,其中每张图片都有人工生成的5个文本描述。我们使用了113287张图片和566435个文本作为训练集,5000张图片和25000个文本为验证集,5000张图片和25000个文本为测试集。如图2所示是本发明试验所采用的MS-COCO的部分数据,其中图2A的文本描述为:1、一个配有现代木桌椅的餐厅;2、一张带藤条圆形靠背椅的长餐桌;3、一张长桌,上面有一棵植物,周围环绕着木椅;4、一张长桌,中间插花,适合开会;5、一张桌子上装饰着蓝色调的木椅;其中图2B的文本描述为:1、一个男人在覆盖着糖霜的厨房里准备甜点;2、一位厨师正在准备和装饰许多小糕点;3、面包师准备各种类型的烘焙食品;4、一个人在盒子中抓取糕点的特写;5、一个接触各种糕点的手。
Flickr30K数据集:Flickr30K数据集也是十分经典的多模态图文数据集,共包括31783张图片,其中每张图片都有人工生成的5个文本描述。我们使用了93827张图片和469135个文本作为训练集,1000张图片和5000个文本为验证集,1000张图片和5000个文本为测试集。图3是本发明试验所采用的Flickr30K的部分数据,其中图3A的文本描述为:1、两个头发蓬乱的年轻人在院子里闲逛时看着自己的手;2、两个年轻的白人男性在许多灌木丛附近;3、两个穿绿色衬衫的男人站在院子里;4、一个穿着蓝色衬衫的男人站在花园里;5、两个朋友享受在一起度过的时光。其中图3B的文本描述为:1、几个戴着安全帽的人正在操作一个巨大的滑轮***;2、工人从上面俯视一件设备;3、两个戴着安全帽在机器上工作的男人;4、四个人站在一座高大的建筑物上;5、三个人在一个大钻机上。
实验结果
对于图像-文本检索任务,采用Recall at K(R@K)作为评价指标,R@K表示查询数据的真实返回在前K个返回数据中所占的比例。
实验结果如下表所示:
表1 本发明的方法在MS-COCO数据集和 Flickr30K数据集上的实验结果
Figure 920309DEST_PATH_IMAGE036
从实验结果可以看出,本发明提出的方法再两个数据集上均取得了很好的检索效果,由其当返回数目K为10时,召回率已经接近百分之百。同样也能发现MS-COCO数据集更大,所以该方法的性能也更好,即训练的样本越多,网络学习到的模型才更好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。
2.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于,具体包括以下步骤:
步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征VF,使用初步全局特征VF构建视觉图卷积神经网络GF,最后经过图注意力模块的计算得到最终的图像全局特征表示
Figure 398705DEST_PATH_IMAGE001
步骤B:图像局部特征的提取:使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100};
步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t 1,…t L},再通过自注意力方法计算得到文本的全局特征表示
Figure 670549DEST_PATH_IMAGE002
步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征
Figure 123527DEST_PATH_IMAGE001
和文本全局特征
Figure 374380DEST_PATH_IMAGE002
间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L},最后求出A v 和T的相似度,得到L个局部相似度向量;
步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
3.根据权利要求2所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续图卷积神经网络的构建,所以将M重塑为长度为64的特征集F={f 1, f 2,…f 64},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图卷积神经网络GF=(VF,EF),图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积;
步骤A03,对于步骤A02得到的全局视觉图卷积神经网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F,最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征
Figure 136668DEST_PATH_IMAGE001
4.根据权利要求3所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:步骤A03中,图注意力模块的具体计算方法为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i v j ,系数e ij 的计算公式为:
Figure 348338DEST_PATH_IMAGE003
其中,W q W k 都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
Figure 90160DEST_PATH_IMAGE004
Figure 133202DEST_PATH_IMAGE005
其中,N i 表示顶点v i 的所有邻居。
5.根据权利要求2所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r 1, r 2,…r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
Figure 879442DEST_PATH_IMAGE006
Figure 624413DEST_PATH_IMAGE007
Figure 622456DEST_PATH_IMAGE008
其中,W fc1 W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
6.根据权利要求2所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
Figure 270737DEST_PATH_IMAGE009
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
步骤C02,对于步骤C01得到的文本局部特征T,使用L个单词的平均特征作为自注意力机制中的query,求出每个单词的注意力系数后进行加权求和,最终得到1024维文本全局特征
Figure 187877DEST_PATH_IMAGE002
7.根据权利要求6所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:文本全局特征的计算方法如下:
取L个单词的平均值作为查询q
Figure 170877DEST_PATH_IMAGE010
然后计算q和所有局部特征T间的点积得到L个初步权重
Figure 18616DEST_PATH_IMAGE011
同样经过softmax函数后得到最终的注意力权重
Figure 708354DEST_PATH_IMAGE012
所以文本全局特征的计算公式为:
Figure 750391DEST_PATH_IMAGE013
8.根据权利要求2所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:多模态间的全局和局部对齐具体包含以下步骤:
步骤D01:使用相似度表示函数计算图像全局特征
Figure 283003DEST_PATH_IMAGE001
和文本全局特征
Figure 685166DEST_PATH_IMAGE002
的相似度向量,得到256维的全局相似度向量sg;采用的相似度函数为:
Figure 478678DEST_PATH_IMAGE014
其中,xy是需要计算相似度的两个向量,W为网络学习的参数;
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数βij分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
Figure 940884DEST_PATH_IMAGE015
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
9.根据权利要求8所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:步骤D02中,多模态注意力模块的计算方法如下:
对于第i个区域和第j个单词,余弦相似度为
Figure 960792DEST_PATH_IMAGE016
然后标准化得到
Figure 651799DEST_PATH_IMAGE017
,最后求出注意力权重:
Figure 316130DEST_PATH_IMAGE018
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
10.根据权利要求9所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
Figure 932925DEST_PATH_IMAGE019
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score=W fc3 * s,W fc3 fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
Figure 112233DEST_PATH_IMAGE020
CN202111291575.XA 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法 Active CN113742556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111291575.XA CN113742556B (zh) 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111291575.XA CN113742556B (zh) 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法

Publications (2)

Publication Number Publication Date
CN113742556A true CN113742556A (zh) 2021-12-03
CN113742556B CN113742556B (zh) 2022-02-08

Family

ID=78727289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111291575.XA Active CN113742556B (zh) 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法

Country Status (1)

Country Link
CN (1) CN113742556B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529456A (zh) * 2022-02-21 2022-05-24 深圳大学 一种视频的超分辨率处理方法、装置、设备及介质
CN115082704A (zh) * 2022-03-16 2022-09-20 西北工业大学 基于相关性滤波的文本行人重识别方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
US20170371982A1 (en) * 2016-06-27 2017-12-28 Faro Technologies, Inc. Global optimization of networks of locally fitted objects
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170371982A1 (en) * 2016-06-27 2017-12-28 Faro Technologies, Inc. Global optimization of networks of locally fitted objects
CN107330100A (zh) * 2017-07-06 2017-11-07 北京大学深圳研究生院 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529456A (zh) * 2022-02-21 2022-05-24 深圳大学 一种视频的超分辨率处理方法、装置、设备及介质
CN115082704A (zh) * 2022-03-16 2022-09-20 西北工业大学 基于相关性滤波的文本行人重识别方法
CN115082704B (zh) * 2022-03-16 2024-03-05 西北工业大学 基于相关性滤波的文本行人重识别方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Also Published As

Publication number Publication date
CN113742556B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN113742556B (zh) 一种基于全局和局部对齐的多模态特征对齐方法
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
CN103559196B (zh) 一种基于多核典型相关分析的视频检索方法
CN105426850B (zh) 一种基于人脸识别的关联信息推送设备及方法
CN100414548C (zh) 综合利用图像及文字信息的搜索***及搜索方法
Gallo et al. Image and encoded text fusion for multi-modal classification
US7684651B2 (en) Image-based face search
CN107862561A (zh) 一种基于图片属性提取建立用户兴趣库的方法及设备
CN109086405B (zh) 基于显著性和卷积神经网络的遥感图像检索方法及***
CN112395442B (zh) 移动互联网上的低俗图片自动识别与内容过滤方法
CN109213853B (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN107590491A (zh) 一种图像处理方法及装置
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN107862004A (zh) 智能排序方法及装置、存储介质、电子设备
CN111160130B (zh) 一种多平台虚拟身份账号的多维碰撞识别方法
KR20200141373A (ko) 외형인식모델 학습용 데이터셋 구축 방법, 장치 및 프로그램
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN112488292A (zh) 一种面向通用多模态学习的神经框架搜索方法
CN110555132A (zh) 一种基于注意力模型的降噪自编码器推荐方法
CN107273859B (zh) 一种照片自动标记方法及其***
CN108920448A (zh) 一种基于长短期记忆网络的比较关系抽取的方法
CN108628999B (zh) 一种基于显式和隐式信息的视频推荐方法
CN109446368B (zh) 一种基于类别信息的鸟类检索方法及***
CN102298746A (zh) 基于图像处理及图形学技术的戒指在线试戴***实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant