CN112488111A - 一种基于多层级表达引导注意力网络的指示表达理解方法 - Google Patents
一种基于多层级表达引导注意力网络的指示表达理解方法 Download PDFInfo
- Publication number
- CN112488111A CN112488111A CN202011508271.XA CN202011508271A CN112488111A CN 112488111 A CN112488111 A CN 112488111A CN 202011508271 A CN202011508271 A CN 202011508271A CN 112488111 A CN112488111 A CN 112488111A
- Authority
- CN
- China
- Prior art keywords
- expression
- level
- image
- region
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层级表达引导注意力网络的指示表达理解方法,创新性地设计了一个新的多层级注意机制,即一个多层级表达引导注意网络(MEGA‑Net),其中,包含了一个三个层级注意网络。该多层级注意机制在不同层级的表达式表示的指导下(语句层级、单词层级和短语层级)能够生成具有区分度的图像区域表示,从而帮助准确地确定目标区域。此外,现有方法一般采用单级的方式来匹配区域,这种方式不能对相似的物体或目标进行很好地区分。针对这个问题,本发明设计了一种两级的结构,来比较这些相似的图像区域,找出它们之间的不同,从而去匹配最优的图像区域。本发明在三个流行的数据集上进行评估,实验结果显示其性能优于其他最高水平的模型。
Description
技术领域
本发明属于是指示表达理解(Referring Expression Comprehension,REC)技术领域,更为具体地讲,涉及一种基于多层级表达引导注意力网络的指示表达理解方法。
背景技术
指示表达理解(Referring Expression Comprehension,REC)的主要任务是在给定的图像中,根据自然语言表达式来识别其中相关的目标或者区域。这个任务的一个典型的方法是首先使用循环神经网络模型(RNN)处理表达式语句获取文本的表示,然后利用卷积神经网络(CNN)提取图像区域的表示;之后,这两种表示被映射到一个公共的语义空间中来确定最匹配的图像区域。
现有的一些方法应用自注意机制隐式地将表达式语句划分为不同的短语表示(主语,谓语和宾语)。它们利用这些短语表示来指导学习具有区分度的目标表示。为了增强模型的可解释性;另外一些方法将表达式语句转化成树结构,能够详细地提供了模型推理的步骤;还有一些方法使用共同注意机制,将视觉信息和文本信息紧密结合来增强模型的推理能力。
在指示表达理解中,从多个方面理解表达语句并且使其适应区域表示从而生成具有区分度的信息是非常重要的。现有方法通常使用自注意机制,将注意力集中在表达中重要的词汇或者短语上,用这样的方法可能导致无法将目标区域与其他区域区分开来,尤其是当区域非常相似时。此外,现有方法一般采用单级的方式来匹配区域,这种方式不能对相似的物体进行很好地区分。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多层级表达引导注意力网络的指示表达理解方法,以提高图像区域识别的准确率。
为实现上述发明目的,本发明基于多层级表达引导注意力网络的指示表达理解方法,其特征在于,包括以下步骤:
(1)、提取图像区域表示以及表达式语句特征
1.2)、首先使用双向的GRU网络(门控循环单元网络)对表达式语句中的单词进行编码,然后分别使用三个自注意的机制为每一个单词根据其在整个句子的重要性赋予一个权重(权重越大代表该词汇越为重要),得到表达式语句特征:
(2)、构建多层级注意机制(包括三个层级注意网络)
2.1)、构建语句层级注意网络
然后,通过融合表达式语句的文本特征和区域视觉特征生成多模态的特征:
2.2)、构建单词层级注意网络
2.3)、构建短语层级注意网络
其中,每个层级注意网络的匹配值为:
N个图像区域与表达式语句之间的匹配值表示为:
(3)、构建目标对比注意机制
Rc=topk(R,Sc) (13)
其中,topk是选择函数;
然后使用目标比较注意机制来学习候选区域之间的差异,从而选择最优的图像区域:
第i个候选区域和第j个候选区域之间的差异表示为:
计算所有差异表示的加权和得到新的图像区域表示,其中,第i个候选区域的图像区域表示为:
(4)、计算最终的匹配值(匹配得分)
(5)、计算图像区域为目标区域的概率
对于第i个图像区域,其成为目标区域的概率pi为:
本发明的目的是这样实现的。
本发明基于多层级表达引导注意力网络的指示表达理解方法,创新性地设计了一个新的多层级注意机制,即一个多层级表达引导注意网络(MEGA-Net),其中,包含了一个三个层级注意网络。该多层级注意机制在不同层级的表达式表示的指导下(语句层级、单词层级和短语层级)能够生成具有区分度的图像区域表示,从而帮助准确地确定目标区域。此外,现有方法一般采用单级的方式来匹配区域,这种方式不能对相似的物体或目标进行很好地区分。针对这个问题,本发明设计了一种两级的结构,来比较这些相似的图像区域,找出它们之间的不同,从而去匹配最优的图像区域。本发明在三个流行的数据集上进行评估,实验结果显示其性能优于其他最高水平的模型。
附图说明
图1是本发明基于多层级表达引导注意力网络的指示表达理解方法一种具体实施方式流程图;
图2是本发明基于多层级表达引导注意力网络的指示表达理解方法一种具体实施方式的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于多层级表达引导注意力网络的指示表达理解方法一种具体实施方式流程图。
在本实施例中,如图1所示,基于多层级表达引导注意力网络的指示表达理解方法包括以下步骤:
步骤S1:提取图像区域表示以及表达式语句特征
步骤S1.1:在本实施例中,如图2所示,本发明使用Faster R-CNN+ResNet-152网络提取图像中每个区域的图像区域信息以及其中的属性信息,然后融合这两种信息作为图像区域表示,并记为其中,ri为第i个区域的图像区域表示,N是图像中区域的数量,dr是图像区域表示的维度,表示实数矩阵。
步骤S1.2:在本实施例中,如图2所示,在表达式语句处理方面,首先使用双向的GRU网络(门控循环单元网络)对表达式语句中的单词进行编码,然后分别使用三个自注意的机制为每一个单词根据其在整个句子的重要性赋予一个权重(权重越大代表该词汇越为重要),得到表达式语句特征:
步骤S2:构建多层级注意机制(包括三个层级注意网络)
为了匹配与表达式语句最相关的图像区域(目标区域),本发明提取三种不同层级的表达式表示来指导视觉注意机制,多层级注意机制(网络)能够在图像区域和表达式语句之间建立多层次的交互。
步骤S2.1:构建语句层级注意网络
给定一个带有图像区域集的图像和相应的表达式语句。一般来说,需要在全局层面理解表达式语句,才能确定最匹配的图像区域。与传统的方法相似,本发明使用语句层级的表达式表示来指导视觉注意。
然后,通过融合表达式语句的文本特征和区域视觉特征生成多模态的特征:
步骤S2.2:构建单词层级注意网络
一般来说,表达式语句中的大部分单词都能在一定程度上提示***关注特定图像区域。例如,在表达式语句“tall man in black glasses touching cat”中目标单词“man”,“glasses”,“cat”和其他形容词“tall”,“black”都能帮助去锁定相关的图像区域。受此启发,本发明设计了一个单词层级注意网络来学习单词和图像区域之间精细的相互关系。
步骤S2.3:构建短语层级注意网络
与单词相比,短语包含更连贯的信息(例如,“tall man”和“black glasses”),可以更准确地识别相关区域。在指示表达理解任务中,本发明观察到其中的语句都是相对简单的描述目标或者区域。因此,本发明简单地根据关系词(通常是动词或者介词)将一个表达式语句分为几个短语。对于“tall man in black glasses touching cat”这句话,本发明将其分解为“tall man”,“in”,“black glasses”,“touching”和“cat”。
与单词层级注意网络相似,本发明获取了短语层级的短语表示来指导具有区分度的图像区域表示生成。
其中,每个层级注意网络的匹配值为:
N个图像区域与表达式语句之间的匹配值表示为:
步骤S3:构建目标对比注意机制
多层级表达指导的视觉注意力网络用于生成具有区分度的图像区域表示。然而,这些图像区域表示在处理的时候是彼此孤立的,这可能导致目标区域无法与其他相似的图像区域区分开来。为了解决这个问题,本发明提出了一个新的两级的结构。
Rc=topk(R,Sc) (13)
其中,topk是选择函数。
然后使用目标比较注意机制来学习候选区域之间的差异,从而选择最优的图像区域:
第i个候选区域和第j个候选区域之间的差异表示为:
计算所有差异表示的加权和得到新的图像区域表示,其中,第i个候选区域的图像区域表示为:
步骤S4:计算最终的匹配值(匹配得分)
步骤S5:计算图像区域为目标区域的概率
对于第i个图像区域,其成为目标区域的概率pi为:
此外,在训练学习参数时,本发明采用交叉熵损失函数作为目标函数:假定第g个图像区域是正确的,则损失函数L为:
实例
本发明在三个大型的基准数据集RefCOCO,RefCOCO+和RefCOCOg上进行测试,从实验的效果可以可知,本发明优于最高水平的方法,具体如表1所示。
表1
从表1中可以得出,本发明在绝大多数子任务中取得了最好的表现,在RefCOCO数据中的testA和testB测试集上分别取得了87.45%和86.93%的准确率;在RefCOCO+数据中的testA和testB测试集上分别取得了77.05%和69.65%的准确率;在RefCOCOg数据中的测试集上分别取得了80.29%的准确率。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于多层级表达引导注意力网络的指示表达理解方法,其特征在于,包括以下步骤:
(1)、提取图像区域表示以及表达式语句特征
1.2)、首先使用双向的GRU网络(门控循环单元网络)对表达式语句中的单词进行编码,然后分别使用三个自注意的机制为每一个单词根据其在整个句子的重要性赋予一个权重(权重越大代表该词汇越为重要),得到表达式语句特征:
(2)、构建多层级注意机制(包括三个层级注意网络)
2.1)、构建语句层级注意网络
然后,通过融合表达式语句的文本特征和区域视觉特征生成多模态的特征:
2.2)、构建单词层级注意网络
2.3)、构建短语层级注意网络
其中,每个层级注意网络的匹配值为:
N个图像区域与表达式语句之间的匹配值表示为:
(3)、构建目标对比注意机制
Rc=topk(R,Sc) (13)
其中,topk是选择函数;
然后使用目标比较注意机制来学习候选区域之间的差异,从而选择最优的图像区域:
第i个候选区域和第j个候选区域之间的差异表示为:
计算所有差异表示的加权和得到新的图像区域表示,其中,第i个候选区域的图像区域表示为:
(4)、计算最终的匹配值(匹配得分)
(5)、计算图像区域为目标区域的概率
对于第i个图像区域,其成为目标区域的概率pi为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011508271.XA CN112488111B (zh) | 2020-12-18 | 2020-12-18 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011508271.XA CN112488111B (zh) | 2020-12-18 | 2020-12-18 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488111A true CN112488111A (zh) | 2021-03-12 |
CN112488111B CN112488111B (zh) | 2022-06-14 |
Family
ID=74914225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011508271.XA Active CN112488111B (zh) | 2020-12-18 | 2020-12-18 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488111B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254694A (zh) * | 2021-05-21 | 2021-08-13 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN114663737A (zh) * | 2022-05-20 | 2022-06-24 | 浪潮电子信息产业股份有限公司 | 物体识别方法、装置、电子设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108780522A (zh) * | 2016-03-11 | 2018-11-09 | 高通股份有限公司 | 用于视频理解的使用基于运动的注意力的递归网络 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及*** |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
US20200175053A1 (en) * | 2018-11-30 | 2020-06-04 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
-
2020
- 2020-12-18 CN CN202011508271.XA patent/CN112488111B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108780522A (zh) * | 2016-03-11 | 2018-11-09 | 高通股份有限公司 | 用于视频理解的使用基于运动的注意力的递归网络 |
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
US20200175053A1 (en) * | 2018-11-30 | 2020-06-04 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及*** |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Non-Patent Citations (1)
Title |
---|
LIANG PENG,YANG YANG: ""Word-ro-region attention network for visual question answering"", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254694A (zh) * | 2021-05-21 | 2021-08-13 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN113254694B (zh) * | 2021-05-21 | 2022-07-15 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN114663737A (zh) * | 2022-05-20 | 2022-06-24 | 浪潮电子信息产业股份有限公司 | 物体识别方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112488111B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daelemans et al. | Generalization performance of backpropagation learning on a syllabification task | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN113987209A (zh) | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN109947931B (zh) | 基于无监督学习的文本自动摘要方法、***、设备及介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN110427619B (zh) | 一种基于多通道融合与重排序的中文文本自动校对方法 | |
CN112488111B (zh) | 一种基于多层级表达引导注意力网络的指示表达理解方法 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN113672731B (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN114528827A (zh) | 一种面向文本的对抗样本生成方法、***、设备及终端 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及*** | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN111144410A (zh) | 一种跨模态的图像语义提取方法、***、设备及介质 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
EP4060526A1 (en) | Text processing method and device | |
Deng et al. | A position-aware transformer for image captioning | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
US20240104353A1 (en) | Sequence-to sequence neural network systems using look ahead tree search | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |