CN112488111A - 一种基于多层级表达引导注意力网络的指示表达理解方法 - Google Patents

一种基于多层级表达引导注意力网络的指示表达理解方法 Download PDF

Info

Publication number
CN112488111A
CN112488111A CN202011508271.XA CN202011508271A CN112488111A CN 112488111 A CN112488111 A CN 112488111A CN 202011508271 A CN202011508271 A CN 202011508271A CN 112488111 A CN112488111 A CN 112488111A
Authority
CN
China
Prior art keywords
expression
level
image
region
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011508271.XA
Other languages
English (en)
Other versions
CN112488111B (zh
Inventor
杨阳
彭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202011508271.XA priority Critical patent/CN112488111B/zh
Publication of CN112488111A publication Critical patent/CN112488111A/zh
Application granted granted Critical
Publication of CN112488111B publication Critical patent/CN112488111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层级表达引导注意力网络的指示表达理解方法,创新性地设计了一个新的多层级注意机制,即一个多层级表达引导注意网络(MEGA‑Net),其中,包含了一个三个层级注意网络。该多层级注意机制在不同层级的表达式表示的指导下(语句层级、单词层级和短语层级)能够生成具有区分度的图像区域表示,从而帮助准确地确定目标区域。此外,现有方法一般采用单级的方式来匹配区域,这种方式不能对相似的物体或目标进行很好地区分。针对这个问题,本发明设计了一种两级的结构,来比较这些相似的图像区域,找出它们之间的不同,从而去匹配最优的图像区域。本发明在三个流行的数据集上进行评估,实验结果显示其性能优于其他最高水平的模型。

Description

一种基于多层级表达引导注意力网络的指示表达理解方法
技术领域
本发明属于是指示表达理解(Referring Expression Comprehension,REC)技术领域,更为具体地讲,涉及一种基于多层级表达引导注意力网络的指示表达理解方法。
背景技术
指示表达理解(Referring Expression Comprehension,REC)的主要任务是在给定的图像中,根据自然语言表达式来识别其中相关的目标或者区域。这个任务的一个典型的方法是首先使用循环神经网络模型(RNN)处理表达式语句获取文本的表示,然后利用卷积神经网络(CNN)提取图像区域的表示;之后,这两种表示被映射到一个公共的语义空间中来确定最匹配的图像区域。
现有的一些方法应用自注意机制隐式地将表达式语句划分为不同的短语表示(主语,谓语和宾语)。它们利用这些短语表示来指导学习具有区分度的目标表示。为了增强模型的可解释性;另外一些方法将表达式语句转化成树结构,能够详细地提供了模型推理的步骤;还有一些方法使用共同注意机制,将视觉信息和文本信息紧密结合来增强模型的推理能力。
在指示表达理解中,从多个方面理解表达语句并且使其适应区域表示从而生成具有区分度的信息是非常重要的。现有方法通常使用自注意机制,将注意力集中在表达中重要的词汇或者短语上,用这样的方法可能导致无法将目标区域与其他区域区分开来,尤其是当区域非常相似时。此外,现有方法一般采用单级的方式来匹配区域,这种方式不能对相似的物体进行很好地区分。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多层级表达引导注意力网络的指示表达理解方法,以提高图像区域识别的准确率。
为实现上述发明目的,本发明基于多层级表达引导注意力网络的指示表达理解方法,其特征在于,包括以下步骤:
(1)、提取图像区域表示以及表达式语句特征
1.1)、提取图像中每个区域的图像区域表示,并记为
Figure BDA0002845558810000021
其中,ri为第i个区域的图像区域表示,N是图像中区域的数量,dr是图像区域表示的维度,
Figure BDA00028455588100000219
表示实数矩阵;
1.2)、首先使用双向的GRU网络(门控循环单元网络)对表达式语句中的单词进行编码,然后分别使用三个自注意的机制为每一个单词根据其在整个句子的重要性赋予一个权重(权重越大代表该词汇越为重要),得到表达式语句特征:
Figure BDA0002845558810000022
Figure BDA0002845558810000023
Figure BDA0002845558810000024
其中,T为语句的长度(即T个单词),de是每一个语句特征的维度,
Figure BDA0002845558810000025
分别为三个表达式语句特征的第t个单词的词汇表示;
(2)、构建多层级注意机制(包括三个层级注意网络)
2.1)、构建语句层级注意网络
首先,计算所有词汇表示
Figure BDA0002845558810000026
的加权和来获取语句层次的表达式表示:
Figure BDA0002845558810000027
然后,通过融合表达式语句的文本特征和区域视觉特征生成多模态的特征:
Figure BDA0002845558810000028
其中,
Figure BDA0002845558810000029
是学习参数,σ(·)是正切激活函数;
然后,使用softmax网络生成每一个图像区域的权重
Figure BDA00028455588100000210
Figure BDA00028455588100000211
其中,
Figure BDA00028455588100000212
是学习参数,
Figure BDA00028455588100000213
是第i个图像区域的权重;
再计算新的图像区域表示
Figure BDA00028455588100000214
其中,第i个区域的图像区域表示为:
Figure BDA00028455588100000215
2.2)、构建单词层级注意网络
对于第i个区域的图像区域表示ri,首先与每一个单词的词汇表示
Figure BDA00028455588100000216
融合,生成多模态特征
Figure BDA00028455588100000217
Figure BDA00028455588100000218
其中,
Figure BDA0002845558810000031
Figure BDA0002845558810000032
是学习参数;
然后,将多模态特征
Figure BDA0002845558810000033
输入softmax网络来生成每个单词的重要性:
Figure BDA0002845558810000034
最后通过计算所有多模态特征的加权和得到新的图像区域表示
Figure BDA0002845558810000035
Figure BDA0002845558810000036
Figure BDA0002845558810000037
其中,
Figure BDA0002845558810000038
是学习参数,
Figure BDA0002845558810000039
是第t个单词对第i个图像区域的权重;
2.3)、构建短语层级注意网络
每一个短语表示
Figure BDA00028455588100000310
都是将短语中的单词的词汇表示
Figure BDA00028455588100000311
相加并且通过一个自注意机制网络而得到,然后,将图像区域表示ri和每一个短语表示
Figure BDA00028455588100000312
融合,生成中间表征:
Figure BDA00028455588100000313
其中,
Figure BDA00028455588100000314
Figure BDA00028455588100000315
是学习参数;
然后将中间表征
Figure BDA00028455588100000316
输入softmax网络,计算每个短语在匹配中的重要性:
Figure BDA00028455588100000317
最后,得到新的图像区域表示
Figure BDA00028455588100000318
Figure BDA00028455588100000319
其中,
Figure BDA00028455588100000320
是学习参数,T′是表达式语句中短语的数量,
Figure BDA00028455588100000321
是第t个短语对第i个图像区域的权重;
2.4)、计算第i个图像区域与表达式语句之间的匹配值
Figure BDA00028455588100000322
Figure BDA00028455588100000323
其中,每个层级注意网络的匹配值为:
Figure BDA00028455588100000324
Figure BDA00028455588100000325
Figure BDA00028455588100000326
其中,
Figure BDA00028455588100000327
是学习参数,L2norm表示L2正则化,表示点乘;
N个图像区域与表达式语句之间的匹配值表示为:
Figure BDA00028455588100000328
(3)、构建目标对比注意机制
首先根据匹配值(匹配分数)
Figure BDA0002845558810000041
选取前k个图像区域作为候选区域,用
Figure BDA0002845558810000042
表示,其公式形式为:
Rc=topk(R,Sc) (13)
其中,topk是选择函数;
然后使用目标比较注意机制来学习候选区域之间的差异,从而选择最优的图像区域:
第i个候选区域和第j个候选区域之间的差异表示为:
Figure BDA0002845558810000043
其中,
Figure BDA0002845558810000044
Figure BDA0002845558810000045
是学习参数;
然后,将候选区域之间的差异表示
Figure BDA0002845558810000046
输入到softmax网络中,在表达式语句特征的指导下生成注意力图:
Figure BDA0002845558810000047
其中,
Figure BDA0002845558810000048
是第i个候选区域和第j个候选区域之间差异的权重,
Figure BDA0002845558810000049
Figure BDA00028455588100000410
是学习参数;
计算所有差异表示的加权和得到新的图像区域表示,其中,第i个候选区域的图像区域表示为:
Figure BDA00028455588100000411
最后,计算目标对比注意机制的匹配值
Figure BDA00028455588100000412
Figure BDA00028455588100000413
其中,
Figure BDA00028455588100000414
是学习参数;
(4)、计算最终的匹配值(匹配得分)
根据多层级注意机制和目标对比注意机制的匹配值结合,计算出N个图像区域最终的匹配得分
Figure BDA00028455588100000415
Figure BDA00028455588100000416
(5)、计算图像区域为目标区域的概率
对于第i个图像区域,其成为目标区域的概率pi为:
Figure BDA00028455588100000417
本发明的目的是这样实现的。
本发明基于多层级表达引导注意力网络的指示表达理解方法,创新性地设计了一个新的多层级注意机制,即一个多层级表达引导注意网络(MEGA-Net),其中,包含了一个三个层级注意网络。该多层级注意机制在不同层级的表达式表示的指导下(语句层级、单词层级和短语层级)能够生成具有区分度的图像区域表示,从而帮助准确地确定目标区域。此外,现有方法一般采用单级的方式来匹配区域,这种方式不能对相似的物体或目标进行很好地区分。针对这个问题,本发明设计了一种两级的结构,来比较这些相似的图像区域,找出它们之间的不同,从而去匹配最优的图像区域。本发明在三个流行的数据集上进行评估,实验结果显示其性能优于其他最高水平的模型。
附图说明
图1是本发明基于多层级表达引导注意力网络的指示表达理解方法一种具体实施方式流程图;
图2是本发明基于多层级表达引导注意力网络的指示表达理解方法一种具体实施方式的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于多层级表达引导注意力网络的指示表达理解方法一种具体实施方式流程图。
在本实施例中,如图1所示,基于多层级表达引导注意力网络的指示表达理解方法包括以下步骤:
步骤S1:提取图像区域表示以及表达式语句特征
步骤S1.1:在本实施例中,如图2所示,本发明使用Faster R-CNN+ResNet-152网络提取图像中每个区域的图像区域信息以及其中的属性信息,然后融合这两种信息作为图像区域表示,并记为
Figure BDA0002845558810000051
其中,ri为第i个区域的图像区域表示,N是图像中区域的数量,dr是图像区域表示的维度,
Figure BDA0002845558810000061
表示实数矩阵。
步骤S1.2:在本实施例中,如图2所示,在表达式语句处理方面,首先使用双向的GRU网络(门控循环单元网络)对表达式语句中的单词进行编码,然后分别使用三个自注意的机制为每一个单词根据其在整个句子的重要性赋予一个权重(权重越大代表该词汇越为重要),得到表达式语句特征:
Figure BDA0002845558810000062
Figure BDA0002845558810000063
Figure BDA0002845558810000064
其中,T为表达式语句的长度(即T个单词,有T个语句特征),de是每一个语句特征的维度,
Figure BDA0002845558810000065
分别为三个表达式语句特征的第t个单词的词汇表示;
步骤S2:构建多层级注意机制(包括三个层级注意网络)
为了匹配与表达式语句最相关的图像区域(目标区域),本发明提取三种不同层级的表达式表示来指导视觉注意机制,多层级注意机制(网络)能够在图像区域和表达式语句之间建立多层次的交互。
步骤S2.1:构建语句层级注意网络
给定一个带有图像区域集的图像和相应的表达式语句。一般来说,需要在全局层面理解表达式语句,才能确定最匹配的图像区域。与传统的方法相似,本发明使用语句层级的表达式表示来指导视觉注意。
首先,计算所有词汇表示
Figure BDA0002845558810000066
的加权和来获取语句层次的表达式表示:
Figure BDA0002845558810000067
然后,通过融合表达式语句的文本特征和区域视觉特征生成多模态的特征:
Figure BDA0002845558810000068
其中,
Figure BDA0002845558810000069
是学习参数,σ(·)是正切激活函数;
然后,使用softmax网络生成每一个图像区域的权重
Figure BDA00028455588100000610
Figure BDA00028455588100000611
其中,
Figure BDA00028455588100000612
是学习参数,
Figure BDA00028455588100000613
是第i个图像区域的权重;
再计算新的图像区域表示
Figure BDA00028455588100000614
其中,第i个区域的图像区域表示为:
Figure BDA0002845558810000071
步骤S2.2:构建单词层级注意网络
一般来说,表达式语句中的大部分单词都能在一定程度上提示***关注特定图像区域。例如,在表达式语句“tall man in black glasses touching cat”中目标单词“man”,“glasses”,“cat”和其他形容词“tall”,“black”都能帮助去锁定相关的图像区域。受此启发,本发明设计了一个单词层级注意网络来学习单词和图像区域之间精细的相互关系。
对于第i个区域的图像区域表示ri,首先与每一个单词的词汇表示
Figure BDA0002845558810000072
融合,生成多模态特征
Figure BDA0002845558810000073
Figure BDA0002845558810000074
其中,
Figure BDA0002845558810000075
Figure BDA0002845558810000076
是学习参数;
然后,将多模态特征
Figure BDA0002845558810000077
输入softmax网络来生成每个单词的重要性:
Figure BDA0002845558810000078
最后通过计算所有多模态特征的加权和得到新的图像区域表示
Figure BDA0002845558810000079
Figure BDA00028455588100000710
Figure BDA00028455588100000711
其中,
Figure BDA00028455588100000712
是学习参数,
Figure BDA00028455588100000713
是第t个单词对第i个图像区域的权重。
步骤S2.3:构建短语层级注意网络
与单词相比,短语包含更连贯的信息(例如,“tall man”和“black glasses”),可以更准确地识别相关区域。在指示表达理解任务中,本发明观察到其中的语句都是相对简单的描述目标或者区域。因此,本发明简单地根据关系词(通常是动词或者介词)将一个表达式语句分为几个短语。对于“tall man in black glasses touching cat”这句话,本发明将其分解为“tall man”,“in”,“black glasses”,“touching”和“cat”。
与单词层级注意网络相似,本发明获取了短语层级的短语表示来指导具有区分度的图像区域表示生成。
每一个短语表示
Figure BDA00028455588100000714
都是将短语中的单词的词汇表示
Figure BDA00028455588100000715
相加并且通过一个自注意机制网络而得到,然后,将图像区域表示ri和每一个短语表示
Figure BDA00028455588100000716
融合,生成中间表征:
Figure BDA0002845558810000081
其中,
Figure BDA0002845558810000082
Figure BDA0002845558810000083
是学习参数;
然后将中间表征
Figure BDA0002845558810000084
输入softmax网络,计算每个短语在匹配中的重要性:
Figure BDA0002845558810000085
最后,得到新的图像区域表示
Figure BDA0002845558810000086
Figure BDA0002845558810000087
其中,
Figure BDA0002845558810000088
是学习参数,T′是表达式语句中短语的数量,
Figure BDA0002845558810000089
是第t个短语对第i个图像区域的权重。
步骤S2.4:在得到三个新的图像区域表示后,计算第i个图像区域与表达式语句之间的匹配值
Figure BDA00028455588100000810
Figure BDA00028455588100000811
其中,每个层级注意网络的匹配值为:
Figure BDA00028455588100000812
Figure BDA00028455588100000813
Figure BDA00028455588100000814
其中,
Figure BDA00028455588100000815
是学习参数,L2norm表示L2正则化,表示点乘;
N个图像区域与表达式语句之间的匹配值表示为:
Figure BDA00028455588100000816
步骤S3:构建目标对比注意机制
多层级表达指导的视觉注意力网络用于生成具有区分度的图像区域表示。然而,这些图像区域表示在处理的时候是彼此孤立的,这可能导致目标区域无法与其他相似的图像区域区分开来。为了解决这个问题,本发明提出了一个新的两级的结构。
首先根据匹配值(匹配分数)
Figure BDA00028455588100000817
选取前k个图像区域作为候选区域,用
Figure BDA00028455588100000818
表示,其公式形式为:
Rc=topk(R,Sc) (13)
其中,topk是选择函数。
然后使用目标比较注意机制来学习候选区域之间的差异,从而选择最优的图像区域:
第i个候选区域和第j个候选区域之间的差异表示为:
Figure BDA0002845558810000091
其中,
Figure BDA0002845558810000092
Figure BDA0002845558810000093
是学习参数;
然后,将候选区域之间的差异表示
Figure BDA0002845558810000094
输入到softmax网络中,在表达式语句特征的指导下生成注意力图:
Figure BDA0002845558810000095
其中,
Figure BDA0002845558810000096
是第i个候选区域和第j个候选区域之间差异的权重,
Figure BDA0002845558810000097
Figure BDA0002845558810000098
是学习参数;
计算所有差异表示的加权和得到新的图像区域表示,其中,第i个候选区域的图像区域表示为:
Figure BDA0002845558810000099
k个候选区域的图像区域表示用
Figure BDA00028455588100000910
表示。
最后,计算目标对比注意机制的匹配值
Figure BDA00028455588100000911
Figure BDA00028455588100000912
其中,
Figure BDA00028455588100000913
是学习参数。
步骤S4:计算最终的匹配值(匹配得分)
根据多层级注意机制和目标对比注意机制的匹配值结合,计算出N个图像区域最终的匹配得分
Figure BDA00028455588100000914
Figure BDA00028455588100000915
步骤S5:计算图像区域为目标区域的概率
对于第i个图像区域,其成为目标区域的概率pi为:
Figure BDA00028455588100000916
此外,在训练学习参数时,本发明采用交叉熵损失函数作为目标函数:假定第g个图像区域是正确的,则损失函数L为:
Figure BDA00028455588100000917
实例
本发明在三个大型的基准数据集RefCOCO,RefCOCO+和RefCOCOg上进行测试,从实验的效果可以可知,本发明优于最高水平的方法,具体如表1所示。
Figure BDA0002845558810000101
表1
从表1中可以得出,本发明在绝大多数子任务中取得了最好的表现,在RefCOCO数据中的testA和testB测试集上分别取得了87.45%和86.93%的准确率;在RefCOCO+数据中的testA和testB测试集上分别取得了77.05%和69.65%的准确率;在RefCOCOg数据中的测试集上分别取得了80.29%的准确率。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于多层级表达引导注意力网络的指示表达理解方法,其特征在于,包括以下步骤:
(1)、提取图像区域表示以及表达式语句特征
1.1)、提取图像中每个区域的图像区域表示,并记为
Figure FDA0002845558800000011
其中,ri为第i个区域的图像区域表示,N是图像中区域的数量,dr是图像区域表示的维度,
Figure FDA00028455588000000116
表示实数矩阵;
1.2)、首先使用双向的GRU网络(门控循环单元网络)对表达式语句中的单词进行编码,然后分别使用三个自注意的机制为每一个单词根据其在整个句子的重要性赋予一个权重(权重越大代表该词汇越为重要),得到表达式语句特征:
Figure FDA0002845558800000012
Figure FDA0002845558800000013
Figure FDA0002845558800000014
其中,T为语句的长度(即T个单词),de是每一个语句特征的维度,
Figure FDA0002845558800000015
分别为三个表达式语句特征的第t个单词的词汇表示;
(2)、构建多层级注意机制(包括三个层级注意网络)
2.1)、构建语句层级注意网络
首先,计算所有词汇表示
Figure FDA0002845558800000016
的加权和来获取语句层次的表达式表示:
Figure FDA0002845558800000017
然后,通过融合表达式语句的文本特征和区域视觉特征生成多模态的特征:
Figure FDA0002845558800000018
其中,
Figure FDA0002845558800000019
是学习参数,σ(·)是正切激活函数;
然后,使用softmax网络生成每一个图像区域的权重
Figure FDA00028455588000000110
Figure FDA00028455588000000111
其中,
Figure FDA00028455588000000112
是学习参数,
Figure FDA00028455588000000113
是第i个图像区域的权重;
再计算新的图像区域表示
Figure FDA00028455588000000114
其中,第i个区域的图像区域表示为:
Figure FDA00028455588000000115
2.2)、构建单词层级注意网络
对于第i个区域的图像区域表示ri,首先与每一个单词的词汇表示
Figure FDA0002845558800000021
融合,生成多模态特征
Figure FDA0002845558800000022
Figure FDA0002845558800000023
其中,
Figure FDA0002845558800000024
Figure FDA0002845558800000025
是学习参数;
然后,将多模态特征
Figure FDA0002845558800000026
输入softmax网络来生成每个单词的重要性:
Figure FDA0002845558800000027
最后通过计算所有多模态特征的加权和得到新的图像区域表示
Figure FDA0002845558800000028
Figure FDA0002845558800000029
Figure FDA00028455588000000210
其中,
Figure FDA00028455588000000211
是学习参数,
Figure FDA00028455588000000212
是第t个单词对第i个图像区域的权重;
2.3)、构建短语层级注意网络
每一个短语表示
Figure FDA00028455588000000213
都是将短语中的单词的词汇表示
Figure FDA00028455588000000214
相加并且通过一个自注意机制网络而得到,然后,将图像区域表示ri和每一个短语表示
Figure FDA00028455588000000215
融合,生成中间表征:
Figure FDA00028455588000000216
其中,
Figure FDA00028455588000000217
Figure FDA00028455588000000218
是学习参数;
然后将中间表征
Figure FDA00028455588000000219
输入softmax网络,计算每个短语在匹配中的重要性:
Figure FDA00028455588000000220
最后,得到新的图像区域表示
Figure FDA00028455588000000221
Figure FDA00028455588000000222
其中,
Figure FDA00028455588000000223
是学习参数,T′是表达式语句中短语的数量,
Figure FDA00028455588000000224
是第t个短语对第i个图像区域的权重;
2.4)、计算第i个图像区域与表达式语句之间的匹配值
Figure FDA00028455588000000225
Figure FDA00028455588000000226
其中,每个层级注意网络的匹配值为:
Figure FDA00028455588000000227
Figure FDA00028455588000000228
Figure FDA00028455588000000229
其中,
Figure FDA0002845558800000031
是学习参数,L2norm表示L2正则化,表示点乘;
N个图像区域与表达式语句之间的匹配值表示为:
Figure FDA0002845558800000032
(3)、构建目标对比注意机制
首先根据匹配值(匹配分数)
Figure FDA0002845558800000033
选取前k个图像区域作为候选区域,用
Figure FDA0002845558800000034
表示,其公式形式为:
Rc=topk(R,Sc) (13)
其中,topk是选择函数;
然后使用目标比较注意机制来学习候选区域之间的差异,从而选择最优的图像区域:
第i个候选区域和第j个候选区域之间的差异表示为:
Figure FDA0002845558800000035
其中,
Figure FDA0002845558800000036
Figure FDA0002845558800000037
是学习参数;
然后,将候选区域之间的差异表示
Figure FDA0002845558800000038
输入到softmax网络中,在表达式语句特征的指导下生成注意力图:
Figure FDA0002845558800000039
其中,
Figure FDA00028455588000000310
是第i个候选区域和第j个候选区域之间差异的权重,
Figure FDA00028455588000000311
Figure FDA00028455588000000312
是学习参数;
计算所有差异表示的加权和得到新的图像区域表示,其中,第i个候选区域的图像区域表示为:
Figure FDA00028455588000000313
最后,计算目标对比注意机制的匹配值
Figure FDA00028455588000000314
Figure FDA00028455588000000315
其中,
Figure FDA00028455588000000316
是学习参数;
(4)、计算最终的匹配值(匹配得分)
根据多层级注意机制和目标对比注意机制的匹配值结合,计算出N个图像区域最终的匹配得分
Figure FDA00028455588000000317
Figure FDA00028455588000000318
(5)、计算图像区域为目标区域的概率
对于第i个图像区域,其成为目标区域的概率pi为:
Figure FDA0002845558800000041
2.根据权利要求1所述的基于多层级表达引导注意力网络的指示表达理解方法,其特征在于,在训练学习参数时,本发明采用交叉熵损失函数作为目标函数:假定第g个图像区域是正确的,则损失函数L为:
Figure FDA0002845558800000042
CN202011508271.XA 2020-12-18 2020-12-18 一种基于多层级表达引导注意力网络的指示表达理解方法 Active CN112488111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011508271.XA CN112488111B (zh) 2020-12-18 2020-12-18 一种基于多层级表达引导注意力网络的指示表达理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011508271.XA CN112488111B (zh) 2020-12-18 2020-12-18 一种基于多层级表达引导注意力网络的指示表达理解方法

Publications (2)

Publication Number Publication Date
CN112488111A true CN112488111A (zh) 2021-03-12
CN112488111B CN112488111B (zh) 2022-06-14

Family

ID=74914225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011508271.XA Active CN112488111B (zh) 2020-12-18 2020-12-18 一种基于多层级表达引导注意力网络的指示表达理解方法

Country Status (1)

Country Link
CN (1) CN112488111B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254694A (zh) * 2021-05-21 2021-08-13 中国科学技术大学 一种文本转图像方法和装置
CN114663737A (zh) * 2022-05-20 2022-06-24 浪潮电子信息产业股份有限公司 物体识别方法、装置、电子设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108780522A (zh) * 2016-03-11 2018-11-09 高通股份有限公司 用于视频理解的使用基于运动的注意力的递归网络
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及***
CN110717431A (zh) * 2019-09-27 2020-01-21 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108780522A (zh) * 2016-03-11 2018-11-09 高通股份有限公司 用于视频理解的使用基于运动的注意力的递归网络
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
US20200175053A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110472642A (zh) * 2019-08-19 2019-11-19 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及***
CN110717431A (zh) * 2019-09-27 2020-01-21 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIANG PENG,YANG YANG: ""Word-ro-region attention network for visual question answering"", 《MULTIMEDIA TOOLS AND APPLICATIONS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254694A (zh) * 2021-05-21 2021-08-13 中国科学技术大学 一种文本转图像方法和装置
CN113254694B (zh) * 2021-05-21 2022-07-15 中国科学技术大学 一种文本转图像方法和装置
CN114663737A (zh) * 2022-05-20 2022-06-24 浪潮电子信息产业股份有限公司 物体识别方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112488111B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
Daelemans et al. Generalization performance of backpropagation learning on a syllabification task
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN113987209A (zh) 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109947931B (zh) 基于无监督学习的文本自动摘要方法、***、设备及介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110427619B (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN114528827A (zh) 一种面向文本的对抗样本生成方法、***、设备及终端
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及***
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN111144410A (zh) 一种跨模态的图像语义提取方法、***、设备及介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114742069A (zh) 一种代码相似度检测方法及装置
EP4060526A1 (en) Text processing method and device
Deng et al. A position-aware transformer for image captioning
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
US20240104353A1 (en) Sequence-to sequence neural network systems using look ahead tree search
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant