CN112101358A - 一种基于解耦和干预的图网络对齐短语和图片区域的方法 - Google Patents

一种基于解耦和干预的图网络对齐短语和图片区域的方法 Download PDF

Info

Publication number
CN112101358A
CN112101358A CN202011217929.1A CN202011217929A CN112101358A CN 112101358 A CN112101358 A CN 112101358A CN 202011217929 A CN202011217929 A CN 202011217929A CN 112101358 A CN112101358 A CN 112101358A
Authority
CN
China
Prior art keywords
decoupling
graph
visual
picture
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011217929.1A
Other languages
English (en)
Other versions
CN112101358B (zh
Inventor
庄越挺
汤斯亮
肖俊
慕宗燊
郁强
蒋忆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
CCI China Co Ltd
Original Assignee
Zhejiang University ZJU
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, CCI China Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202011217929.1A priority Critical patent/CN112101358B/zh
Publication of CN112101358A publication Critical patent/CN112101358A/zh
Application granted granted Critical
Publication of CN112101358B publication Critical patent/CN112101358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于解耦和干预的图网络对齐短语和图片区域的方法,属于图像数据处理领域。该方法先提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并利用视觉场景图和语法解析树分别得到视觉和文本语义图结构;然后将视觉和文本图结构通过基于解耦和干预的图神经网络后得到包含图结构中邻居关系的视觉候选区域和文本短语特征;最后通过跨模态的自注意力机制进行对齐映射,并根据对齐后的内积判断指定短语和视觉区域的对齐结果。本发明结合解耦和干预的图神经网络方法,能够学习到更加可解释和鲁棒的视觉和文本特征,从而利用包含图结构环境关系的特征实现跨模态对齐,完成短语到图片区域的定位。

Description

一种基于解耦和干预的图网络对齐短语和图片区域的方法
技术领域
本发明属于图像数据处理领域,尤其涉及计算机视觉中的一种对齐短语和图片区域的方法。
背景技术
视觉语言(Vision and Language)是一门计算机视觉与自然语言处理为一体的交叉学科。对齐图片描述中名词短语和图片区域(Phrase Grounding)是视觉语言中一项基本任务,给定一组图片和对应文本描述,将文本句子中的名词性短语定位到与之对应视觉图片的候选区域,完成跨模态对齐。该任务可以连接视觉和文本知识,能够服务于视觉问答、视觉导航、常识推理等诸多跨模态任务。
对于给定的一组图片和对应描述句子,文本句子一般不能够全面的反应图片中视觉信息,因此一种通用的解决方法是共同学习图片中视觉物体和它周围的环境信息,然后将集成了环境信息的视觉物体表征和文本短语特征进行匹配,完成对齐。传统的方法要么是每个短语单独地定位到对应图片区域,要么是利用文本中短语的顺序序列化地定位图片中视觉区域,这些方法忽略了视觉或文本中环境信息从而造成错误的结果。随着图神经网络在深度学习领域地成功实践,最近的方法建立文本的图结构(结点表示短语,边表示短语之间的潜在关系)或视觉的图结构(结点表示物体,边表示物体之间的潜在关系),利用图神经网络学习短语和图片区域的表征,最后计算它们之间的相似度完成对齐。
但是上述基于图神经网络的方法在建立文本和视觉图结构的时候采用的是全连接图结构,忽略了结点之间是否真实存在语义关系,保留的噪音关系对模型造成了错误信息的传递;此外在上述图神经网络方法中,对图中结点不同邻居关***一对待,最后自我结点学习到的表征是包含所有邻居结点关系信息的混合,这种包含混合关系的特征不能很好地提供跨模态对齐的解释;在大数据时代海量数据驱动神经网络的训练,数据中难免存在噪音和偏执,如果混合特征中某类关系经常出现,模型就忽视了不常见的关系模式,导致通用性和鲁棒性的下降。
发明内容
本发明的目的是为了实现跨模态的对齐,提出一种基于解耦和干预的图网络对齐短语和图片区域的方法,预期在给定一组图片和对应文本描述的条件下,将句子中名词性短语标的到视觉图片候选区域中。
为了实现上述发明目的,本发明具体采用如下技术方案:
一种基于解耦和干预的图网络对齐短语和图片区域的方法,其包括如下步骤:
S1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;
S2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;
S3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。
作为优选,所述S1的具体步骤如下:
S11:使用特征提取模型提取图片中候选区域的视觉特征;
S12:使用预训练的语言模型从图片的文本描述句子中提取名词性短语的文本特征;
S13:将图片候选区域输入场景图生成模型中得到视觉场景图,图中结点表示候选区域特征,结点之间的边表示候选区域间存在的视觉语义关系;
S14:将图片描述句子输入语法分析器中得到文本场景图,图中结点表示名词性短语特征,结点之间的边表示短语间存在的文本语法关系。
进一步的,所述特征提取模型为Faster R-CNN模型。
进一步的,所述语言模型为Bert模型。
更进一步的,所述S2的具体步骤如下:
S21:对于视觉场景图,利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份,再将K个子部份一一对应初始化映射到K个子空间,其中第k个子空间初始化后的视觉特征为:
Figure 67386DEST_PATH_IMAGE001
其中:k=1,…,KW k b k 分别表示映射到第k个子空间的权重和偏置,||•||2表示L2正则化,v i,k 表示第i个原始结点v i 映射到第k个子空间中的特征表示,σ(•)表示激活函数;
S22:将初始化映射到K个子空间中的视觉特征,分别在各自的空间下进行解耦图神经网络的聚合和更新操作,其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度,然后在每个子空间下按照重要程度聚合一度邻居结点的解耦分块特征,并将聚合特征作为包含邻居关系的环境信息更新到自我结点的解耦分块特征中并输出;
S23:堆叠解耦图神经网络的每一层输出,将第i个结点第k个子部分在每层网络中得到 的解耦分块特征相加,得到第i个结点第k个子部分包含邻居关系的解耦结点特征
Figure 804398DEST_PATH_IMAGE002
;再把 K个子部分的解耦结点特征拼接起来获得第i个结点包含K类邻居关系的解耦视觉特征
Figure 265467DEST_PATH_IMAGE003
Figure 695311DEST_PATH_IMAGE004
S24:对于文本场景图,利用与视觉场景图相同的方法通过解耦图神经网络得到解耦文 本特征
Figure 936936DEST_PATH_IMAGE005
其中,用于视觉场景图的解耦图神经网络在训练过程中加入干预机制,其训练样本中含有经过边干扰或者特征干扰的负例;而用于文本场景图的解耦图神经网络在训练过程中不加入干预机制。
更进一步的,所述的边干扰是将原始结点之间的边关系打乱,生成用于学习邻居关系的干扰负例。
更进一步的,所述的特征干扰是将不同原始结点的解耦分块特征进行相互对调,生成干扰负例。
更进一步的,所述S22中,所述解耦图神经网络为一层的解耦图神经网络,其在对 初始化映射到K个子空间中的视觉特征进行聚合时,第i个自我结点的第j个一度邻居结点 在K个子空间下的重要程度
Figure 651208DEST_PATH_IMAGE006
为:
Figure 294679DEST_PATH_IMAGE007
更新聚合特征后输出的自我结点的解耦分块特征
Figure 629845DEST_PATH_IMAGE008
为:
Figure 296450DEST_PATH_IMAGE009
其中W ek W nk 分别表示自我结点和邻居结点更新参数,
Figure 375264DEST_PATH_IMAGE010
为第i个自我节点的一度邻 居结点集合。
更进一步的,所述S3的具体步骤如下:
S31:将S2中解耦和干预后的视觉和文本特征送入跨模态的多头注意力机制中,使包含不同邻居关系的解耦视觉特征和解耦文本特征对齐至同一子空间;
S32:计算对齐后的解耦视觉特征和解耦文本特征的内积,得到候选区域和名词短语的相似度,用于表示描述中该名词性短语正确定位到对应图片区域的概率;
S33:针对图片描述句子中的待对齐的目标名词性短语,选择图片中所述概率最大的一个候选区域作为其最终定位区域。
更进一步的,所述K=1或2或4。
本发明从文本和视觉图结构的构建、图神经网络算法和模型鲁棒性三点出发,提出了一种基于解耦和干预的图神经网络对齐图片描述中名词短语和图片区域的方法。与现有技术相比,本发明的有益效果如下:
1)本发明采用基于解耦的图神经网络方法,与基于简单图神经网络的短语标的方法相比,具有更好的解释性,可以将表示不同邻居关系的环境信息聚合到不同的分块特征中,通过调整解耦特征分块的个数控制邻居关系的种类。
2)本发明采用基于干预的特征学习方式,与普通的基于大数据训练方法相比,提供了更鲁棒的特征。众所周知,人工标注的数据集存在偏差使模型学习到无关的规律偏置,而本发明通过在解耦图神经网络上的结点和边干预,能够使模型抗扰动和泛化能力提升。
附图说明
图1为基于解耦和干预的图网络对齐短语和图片区域的方法的整体流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述。
本发明用于视觉语言中一项基本任务,即对齐图片描述中名词短语和图片区域(Phrase Grounding)。在该任务中,当给定一组图片和对应文本描述后,需要将文本句子中的名词性短语按照其语义定位到与之对应视觉图片的候选区域,完成跨模态对齐。下面对本发明的具体实现过程进行详细阐述。
参见图1所示,在本发明的一个较佳实施例中,提供了一种基于解耦和干预的图网络对齐短语和图片区域的方法,其基本步骤如下:
S1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构。
S2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系(即周围的环境信息)的解耦视觉特征和解耦文本特征。
S3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。
在上述方法实现过程中,其核心是利用解耦的图神经网络,将表示不同邻居关系的环境信息聚合到不同的分块特征中,同时在用于视觉的解耦图神经网络训练过程中引入对结点和边的干预负例,以此来提高模型抗扰动和泛化的能力。上述S1~S3可以有多种具体实现形式,下面描述其在本实施例中的具体实现过程。
在本实施例中,实现S1的具体子步骤如下:
S11:一张图片中存在多个候选区域,因此先使用特征提取模型Faster R-CNN提取图片中候选区域的视觉特征,记为v
S12:使用预训练的Bert语言模型从图片的文本描述句子中提取名词性短语的文本特征,记为t
为了便于区分叙述,后续以V代表视觉类别,以T代表文本类别。
S13:将图片候选区域输入场景图生成模型中得到视觉场景图,视觉语义图结构表 示为
Figure 873242DEST_PATH_IMAGE011
,图中结点
Figure 316993DEST_PATH_IMAGE012
表示候选区域特征,结点之间的边
Figure 267631DEST_PATH_IMAGE013
表示候选区域间存在 的视觉语义关系。
S14:将图片描述句子输入语法分析器中得到文本场景图,文本语义图结构表示为
Figure 150136DEST_PATH_IMAGE014
,图中结点
Figure 705883DEST_PATH_IMAGE015
表示名词性短语特征,结点之间的边
Figure 648431DEST_PATH_IMAGE016
表示短语间存在的文本 语法关系。
由此,经过上述S11~S14步骤,获得了以图片候选区域特征为结点的视觉场景图和以句子中名词性短语文本特征为结点的文本场景图,两者可以用于后续的解耦图神经网络中进行进一步的信息抽取。
在本实施例中,实现S2的具体子步骤如下:
S21:对于视觉场景图
Figure 86366DEST_PATH_IMAGE017
,利用解耦图神经网络将每个候选区域视觉特征作为原始结 点先分块为K个子部份,再将K个子部份一一对应初始化映射到K个子空间。其中,第
Figure 943201DEST_PATH_IMAGE018
个子空 间初始化后的视觉特征为:
Figure 415770DEST_PATH_IMAGE001
其中:k=1,…,KW k b k 分别表示映射到第k个子空间的权重和偏置,||•||2表示L2正则化,v i,k 表示第i个原始结点v i 映射到第k个子空间中的特征表示(即尚未进行初始化的特征),σ(•)表示激活函数。
S22:将初始化映射到K个子空间中的视觉特征,分别在各自的空间下进行解耦图神经网络的聚合和更新操作,其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度,然后在每个子空间下按照重要程度聚合一度邻居结点的解耦分块特征,并将聚合特征作为包含邻居关系的环境信息更新到自我结点的解耦分块特征中并输出;
S23:堆叠解耦图神经网络的每一层输出,将第i个结点第k个子部分在每层网络中得到 的解耦分块特征相加,得到第i个结点第k个子部分包含邻居关系的解耦结点特征
Figure 529220DEST_PATH_IMAGE002
;再把 K个子部分的解耦结点特征拼接起来获得第i个结点包含K类邻居关系的解耦视觉特征
Figure 392134DEST_PATH_IMAGE003
Figure 616442DEST_PATH_IMAGE004
S24:对于文本场景图
Figure 677939DEST_PATH_IMAGE019
,利用与视觉场景图相同的方法,进行分块、初始化映射后,通 过解耦图神经网络得到解耦文本特征
Figure 962289DEST_PATH_IMAGE005
上述用于输入视觉场景图和文本场景图的解耦图神经网络结构是一致的,其区别仅在于输入数据和网络内部训练后的网络参数不同。S21~S24构成了本步骤的框架,该框架在实际使用前需要进行训练,训练过程中两个网络存在不同点,其中:用于视觉场景图的解耦图神经网络在训练过程中加入干预机制,其训练样本中需要含有经过边干扰或者特征干扰的负例;而用于文本场景图的解耦图神经网络在训练过程中不加入干预机制,直接采用正常的样本数据训练即可。其中边干扰是将原始结点之间的边关系打乱,生成用于学习邻居关系的干扰负例;而特征干扰是将不同原始结点的解耦分块特征进行相互对调,生成干扰负例。
向视觉的解耦图神经网络中加入干预机制训练的目的是为了解决数据集存在的偏置。由于人工标注的数据集存在偏差使模型学习到无关的规律偏置,模型对K类论据关系学习的时候只侧重某几类,导致学习到解耦不稳定和脆弱的特征,因此本发明在解耦图神经网络训练中加入干扰负例的机制,不同于从原始数据层面干扰的方法,本发明基于视觉和文本图结构进行解耦图神经网络训练的时候,将原始的边关系打乱进行邻居关系的学习(边干扰)和将原始解耦后分块特征加入随机扰动(特征干扰)得到两种干扰训练方式,通过两种干扰负例生成,模型得到更加鲁棒的视觉和文本特征。
边干预可以通过以下方法实现:
假设存在一个图结构,a的邻居结点为b、c,d的邻居结点为e、f。那么在一层解耦图神经网络的时候,a和d结点分别聚合自己的一度邻居结点b、c和e、f。采用边干预方法也就是打乱现有的图结构边关系,以上述例子作为说明,每次打乱自我结点周围的一个邻居结点,随机的将a结点的邻居结点交换为b、e,d结点的邻居结点交换为c、f,构建得到负样本(负例)进行学习。
特征干预可以通过以下方法实现:
同样以边干预中的例子作为说明,经过一层解耦图神经网络之后,a和d结点分别在K个子空间下学习到了K个分块特征,采用特征干预方法将a解耦后K个分块特征和d解耦后K个分块特征进行随机对调,每次随机选择a结点的K个分块特征中的一块加入d结点的K个分块特征中,构建为两个新的负样本(负例)进行学习。
另外,在对视觉场景图和文本场景图进行分块时,其具体的分块数K可以根据实际进行优化调整,通过调整解耦特征分块的个数进而控制邻居关系的种类。一般而言,分块数K=1或2或4。本实施例中,设置最优的分块数K=4。
需要注意的是,本发明中所用的解耦图神经网络可以是一层的解耦图神经网络,也可以是多层的解耦图神经网络。当采用多层的解耦图神经网络时,每一层均会输出相应的结果,最终需要将多层解耦图神经网络堆叠后,各层的解耦分块特征相加才能得到包含某类邻居关系的结点特征。
但在本实施例中,解耦图神经网络最终采用一层的解耦图神经网络,由此上述S22中的解耦图神经网络也可以表达如下:
在对初始化映射到K个子空间中的视觉特征进行聚合时,第i个自我结点(即邻居结点 的中心结点)的第j个一度邻居结点在K个子空间下的重要程度
Figure 312499DEST_PATH_IMAGE006
为:
Figure 340498DEST_PATH_IMAGE007
更新聚合特征后输出的自我结点的解耦分块特征
Figure 522081DEST_PATH_IMAGE008
为:
Figure 383858DEST_PATH_IMAGE009
其中W ek W nk 分别表示自我结点和邻居结点更新参数,
Figure 283680DEST_PATH_IMAGE010
为第i个自我节点的一度邻 居结点集合。
由此,经过上述S21~S24步骤,使得表示不同邻居关系的环境信息被聚合到不同的分块特征中,得到了经过解耦和干预后的视觉特征和文本特征。这些解耦视觉特征和解耦文本特征即可用于进行下一步的对齐。
在本实施例中,实现S3的具体子步骤如下:
S31:将S2中解耦和干预后的解耦视觉特征和解耦文本特征送入跨模态的多头注意力机制中,使包含不同邻居关系的解耦视觉特征和解耦文本特征对齐至同一子空间。多头注意力机制MultiHead的对齐过程可以表示为:
c V =MultiHead(W Q h V ,W K h T ,W V h T )
c T =MultiHead(W Q h T ,W K h V ,W V h V )
其中W Q W K W V 表示跨模态多头注意力机制中的Q、K、V三部分参数,c V c T 表示对齐后的解耦视觉特征和解耦文本特征。
S32:计算对齐后的解耦视觉特征和解耦文本特征的内积sim,以内积代表候选区域和名词短语的相似度,用于表示描述中该名词性短语正确定位到对应图片区域的概率,概率值越大该区域为正确定位区域的可能性越大。内积sim(t,v)的计算公式可以表示如下:
sim(t,v)= c V c T
S33:针对图片描述句子中的待对齐的目标名词性短语,选择图片中内积为代表的概率最大的一个候选区域作为其最终定位区域。
由此,上述S1~S3构成了一种基于解耦和干预的图网络对齐短语和图片区域的方 法框架。该框架真正用于进行对齐任务时,需要进行相应的训练优化,具体的优化目标可以 根据实际需要进行调整。在本实施例中,其优化目标包含两类,第一类希望解耦视觉特征的 各分块独立互不影响,因此视觉损失
Figure 849791DEST_PATH_IMAGE020
设置为:
Figure 151459DEST_PATH_IMAGE021
D表示方差,Cov表示协方差。
同样的,文本解耦特征的优化目标同视觉优化目标类似也希望个分块互不影响, 因此文本损失
Figure 216761DEST_PATH_IMAGE022
的形式与视觉损失相同:
Figure 603880DEST_PATH_IMAGE023
第二类是希望模型能够区分一组短语和候选区域是否对齐,对齐和未对齐的差距尽可能大,其损失为:
Figure 973681DEST_PATH_IMAGE024
上述式中:n表示训练的样本个数;
Figure 801960DEST_PATH_IMAGE025
表示温度参数,本实施例设置取值为0.2;M为负例 个数。
由此,本实施例训练过程中设置的总的优化目标如下:
Figure 599015DEST_PATH_IMAGE026
本实施例中,结合S1~S3给出的解耦和干预的图神经网络方法,能够学习到更加可解释和鲁棒的视觉和文本特征,从而利用包含图结构环境关系的特征实现跨模态对齐从而完成短语到图片区域的定位。为了进一步展示其技术效果,下面将其应用与两个具体数据集中,以便于本领域技术人员更好地理解。
本实施例使用Flickr30K和ReferIt数据集验证本发明的效果,使用准确度衡量句子中名词性短语对齐图片区域的实验结果。在众多样例中,给定一组图片和描述中名词性短语对齐两个模态,本发明提供了更好的解释和结果。下标为准确率的测试结果:
Flickr30K ReferIt
现有模型 76.74(LCMCG) 62.76(MultiGrounding)
本发明 78.73 65.15
其中参与对比的两种现有方法具体如下:
LCMCG 方法参见Liu, Y.; Wan, B.; Zhu, X.; and He, X. 2020. Learning Cross-Modal Context Graph for Visual Grounding. In AAAI, 11645–11652.
MultiGrounding 方法参见Akbari, H.; Karaman, S.; Bhargava, S.; Chen, B.;Vondrick, C.; and Chang, S.-F. 2019. Multi-level multimodal common semanticspace for image-phrase grounding. In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 12476–12486.
从表中可见,本发明的方法由于基于解耦和干预的图神经网络,其对齐准确率明显优于现有方法。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,包括如下步骤:
S1:提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征,并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构;
S2:将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络,得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征;
S3:通过跨模态的自注意力机制,将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐;针对目标名词性短语,计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积,以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。
2.根据权利要求1所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述S1的具体步骤如下:
S11:使用特征提取模型提取图片中候选区域的视觉特征;
S12:使用预训练的语言模型从图片的文本描述句子中提取名词性短语的文本特征;
S13:将图片候选区域输入场景图生成模型中得到视觉场景图,图中结点表示候选区域特征,结点之间的边表示候选区域间存在的视觉语义关系;
S14:将图片描述句子输入语法分析器中得到文本场景图,图中结点表示名词性短语特征,结点之间的边表示短语间存在的文本语法关系。
3.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述特征提取模型为Faster R-CNN模型。
4.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述语言模型为Bert模型。
5.根据权利要求2所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于所述S2的具体步骤如下:
S21:对于视觉场景图,利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份,再将K个子部份一一对应初始化映射到K个子空间,其中第k个子空间初始化后的视觉特征为:
Figure 849575DEST_PATH_IMAGE001
其中:k=1,…,KW k b k 分别表示映射到第k个子空间的权重和偏置,||•||2表示L2正则化,v i,k 表示第i个原始结点v i 映射到第k个子空间中的特征表示,σ(•)表示激活函数;
S22:将初始化映射到K个子空间中的视觉特征,分别在各自的空间下进行解耦图神经网络的聚合和更新操作,其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度,然后在每个子空间下按照重要程度聚合一度邻居结点的解耦分块特征,并将聚合特征作为包含邻居关系的环境信息更新到自我结点的解耦分块特征中并输出;
S23:堆叠解耦图神经网络的每一层输出,将第i个结点第k个子部分在每层网络中得到 的解耦分块特征相加,得到第i个结点第k个子部分包含邻居关系的解耦结点特征
Figure 766716DEST_PATH_IMAGE002
;再把 K个子部分的解耦结点特征拼接起来获得第i个结点包含K类邻居关系的解耦视觉特征
Figure 546453DEST_PATH_IMAGE003
Figure 879345DEST_PATH_IMAGE004
S24:对于文本场景图,利用与视觉场景图相同的方法通过解耦图神经网络得到解耦文 本特征
Figure 693717DEST_PATH_IMAGE005
其中,用于视觉场景图的解耦图神经网络在训练过程中加入干预机制,其训练样本中含有经过边干扰或者特征干扰的负例;而用于文本场景图的解耦图神经网络在训练过程中不加入干预机制。
6.根据权利要求5所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述的边干扰是将原始结点之间的边关系打乱,生成用于学习邻居关系的干扰负例。
7.根据权利要求5所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述的特征干扰是将不同原始结点的解耦分块特征进行相互对调,生成干扰负例。
8.根据权利要求5所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特 征在于,所述S22中,所述解耦图神经网络为一层的解耦图神经网络,其在对初始化映射到K 个子空间中的视觉特征进行聚合时,第i个自我结点的第j个一度邻居结点在K个子空间下 的重要程度
Figure 516180DEST_PATH_IMAGE006
为:
Figure 720896DEST_PATH_IMAGE007
更新聚合特征后输出的自我结点的解耦分块特征
Figure 919796DEST_PATH_IMAGE008
为:
Figure 588675DEST_PATH_IMAGE009
其中W ek W nk 分别表示自我结点和邻居结点更新参数,
Figure 18257DEST_PATH_IMAGE010
为第i个自我节点的一度邻 居结点集合。
9.根据权利要求8所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述S3的具体步骤如下:
S31:将S2中解耦和干预后的视觉和文本特征送入跨模态的多头注意力机制中,使包含不同邻居关系的解耦视觉特征和解耦文本特征对齐至同一子空间;
S32:计算对齐后的解耦视觉特征和解耦文本特征的内积,得到候选区域和名词短语的相似度,用于表示描述中该名词性短语正确定位到对应图片区域的概率;
S33:针对图片描述句子中的待对齐的目标名词性短语,选择图片中所述概率最大的一个候选区域作为其最终定位区域。
10.根据权利要求9所述的基于解耦和干预的图网络对齐短语和图片区域的方法,其特征在于,所述K=1或2或4。
CN202011217929.1A 2020-11-04 2020-11-04 一种基于解耦和干预的图网络对齐短语和图片区域的方法 Active CN112101358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011217929.1A CN112101358B (zh) 2020-11-04 2020-11-04 一种基于解耦和干预的图网络对齐短语和图片区域的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011217929.1A CN112101358B (zh) 2020-11-04 2020-11-04 一种基于解耦和干预的图网络对齐短语和图片区域的方法

Publications (2)

Publication Number Publication Date
CN112101358A true CN112101358A (zh) 2020-12-18
CN112101358B CN112101358B (zh) 2021-02-26

Family

ID=73784543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011217929.1A Active CN112101358B (zh) 2020-11-04 2020-11-04 一种基于解耦和干预的图网络对齐短语和图片区域的方法

Country Status (1)

Country Link
CN (1) CN112101358B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449741A (zh) * 2021-07-02 2021-09-28 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及***
CN113469197A (zh) * 2021-06-29 2021-10-01 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及***
WO2015031673A2 (en) * 2013-08-28 2015-03-05 Bioasis Technologies Inc. Cns-targeted conjugates having modified fc regions and methods of use thereof
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及***
WO2015031673A2 (en) * 2013-08-28 2015-03-05 Bioasis Technologies Inc. Cns-targeted conjugates having modified fc regions and methods of use thereof
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
喜欢打酱油的老鸟: "基于图神经网络的知识图谱研究进展", 《HTTPS://BLOG.CSDN.NET/WEIXIN_42137700/ARTICLE/DETAILS/108380482》 *
陈卓等: "基于视觉–文本关系对齐的跨模态视频片段检索", 《中国科学:信息科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469197A (zh) * 2021-06-29 2021-10-01 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质
CN113469197B (zh) * 2021-06-29 2024-03-22 北京达佳互联信息技术有限公司 图文匹配方法、装置、设备以及存储介质
CN113449741A (zh) * 2021-07-02 2021-09-28 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及***

Also Published As

Publication number Publication date
CN112101358B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
Min et al. Question answering through transfer learning from large fine-grained supervision data
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及***
CN113191357B (zh) 基于图注意力网络的多层次图像-文本匹配方法
US20210103706A1 (en) Knowledge graph and alignment with uncertainty embedding
CN112101358B (zh) 一种基于解耦和干预的图网络对齐短语和图片区域的方法
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
WO2023197613A1 (zh) 一种小样本微调方法、***及相关装置
CN114840688A (zh) 一种计算机构建的嵌入式对齐方法
WO2018083804A1 (ja) 分析プログラム、情報処理装置および分析方法
CN114969278A (zh) 一种基于知识增强图神经网络的文本问答模型
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及***
CN114969367B (zh) 基于多方面子任务交互的跨语言实体对齐方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和***
CN114818719A (zh) 一种基于复合网络与图注意力机制的社区话题分类方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN116187852A (zh) 一种基于社区关联和行为特征学习的在线课程推荐方法
Liao [Retracted] Construction of Knowledge Graph English Online Homework Evaluation System Based on Multimodal Neural Network Feature Extraction
CN115470333A (zh) 一种融合语义信息的知识推理问答方法
Wang et al. [Retracted] Construction of a Knowledge Map Based on Text CNN Algorithm for Maritime English Subjects
US11687608B2 (en) Team discovery for community-based question answering systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant