CN114359741A - 基于区域特征的图像描述模型注意力机制评价方法与*** - Google Patents

基于区域特征的图像描述模型注意力机制评价方法与*** Download PDF

Info

Publication number
CN114359741A
CN114359741A CN202210273007.5A CN202210273007A CN114359741A CN 114359741 A CN114359741 A CN 114359741A CN 202210273007 A CN202210273007 A CN 202210273007A CN 114359741 A CN114359741 A CN 114359741A
Authority
CN
China
Prior art keywords
attention
nouns
image
sentence
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210273007.5A
Other languages
English (en)
Other versions
CN114359741B (zh
Inventor
姜文晖
朱旻炜
方玉明
赵小伟
刘扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Finance and Economics
Original Assignee
Jiangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Finance and Economics filed Critical Jiangxi University of Finance and Economics
Priority to CN202210273007.5A priority Critical patent/CN114359741B/zh
Publication of CN114359741A publication Critical patent/CN114359741A/zh
Application granted granted Critical
Publication of CN114359741B publication Critical patent/CN114359741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于区域特征的图像描述模型注意力机制评价方法与***,该方法包括:通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;将区域空间特征输入至图像描述模型中以生成单词序列,将语义特征与单词序列输入至注意力模块得到生成句子;将生成句子与真值句子进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,得到局部注意力评价结果,进而得到全局注意力评价结果。本发明不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。

Description

基于区域特征的图像描述模型注意力机制评价方法与***
技术领域
本发明涉及计算机信息技术领域,特别涉及一种基于区域特征的图像描述模型注意力机制评价方法与***。
背景技术
在计算机图像处理领域中,图像描述生成是一个融合计算机视觉与自然语言处理的综合问题。具体的,其要求对于任意的输入图像,能输出通顺且人类可理解的句子以完整描述图像内容。
当前主流的图像描述模型依赖于基于区域特征的注意力机制。具体的,区域特征以图像中关键区域的候选框为表示,描述该区域的语义特征。注意力机制专注于图像中关键的视觉内容,从区域特征中提取更具辨别力的视觉信息来指导句子生成。注意力机制极大程度地提高了图像描述模型的准确性。
然而,通过可视化分析发现注意力机制普遍存在“不聚焦”的问题。具体地,在生成描述的单词时,注意力机制有时会关注在物体不重要的区域,例如人的身体,从而错误预测人的性别;有时则关注于物体的背景,导致“幻想”出与目标相关但未实际出现的物体;有时则忽略了图像中的重要目标,导致描述中缺少重要信息。
如上所述,基于区域特征的注意力机制仍缺少可靠的量化分析方法,导致对图像描述模型性能的诊断变得十分困难。基于此,有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与***,以解决上述技术问题。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于区域特征的图像描述模型注意力机制评价方法与***,以解决上述技术问题。
本发明实施例提供了一种基于区域特征的图像描述模型注意力机制评价方法,其中,所述方法包括如下步骤:
步骤一、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
步骤五、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;然后将区域空间特征输入至图像描述模型中以生成单词序列,再将语义特征与单词序列输入至注意力模块,通过注意力模块得到生成句子;进而将生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,进而得到局部注意力评价结果,最后根据局部注意力评价结果计算得到全局注意力评价结果。本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤一中,所述区域空间特征表示为:
Figure 45402DEST_PATH_IMAGE001
其中,
Figure 624151DEST_PATH_IMAGE002
表示所述区域空间特征,
Figure 730647DEST_PATH_IMAGE003
表示单个特定区域的特征向量,
Figure 66951DEST_PATH_IMAGE004
表示特征的总数,
Figure 589199DEST_PATH_IMAGE005
表示特征的序号。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤二中,在时间步骤
Figure 22454DEST_PATH_IMAGE006
处对应生成的边界框的注意力权重
Figure 971956DEST_PATH_IMAGE007
的计算公式表示为:
Figure 362267DEST_PATH_IMAGE008
Figure 16102DEST_PATH_IMAGE009
其中,
Figure 179230DEST_PATH_IMAGE010
表示用于将区域特征映射到统一映射空间的第一参数矩阵,
Figure 424266DEST_PATH_IMAGE011
表示用于将区域特征映射到统一映射空间的第二参数矩阵,
Figure 735162DEST_PATH_IMAGE012
表示映射空间的维度,
Figure 927109DEST_PATH_IMAGE013
表示未归一化的权重,
Figure 741481DEST_PATH_IMAGE014
表示矩阵转置操作,
Figure 298365DEST_PATH_IMAGE015
表示归一化操作。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,在所述步骤四中,所述局部注意力评价结果的计算方法为:
通过判断匹配名词的局部注意准确率是否大于预设阈值;
当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述局部注意力准确率的计算方法包括如下步骤:
获取时间步骤
Figure 660338DEST_PATH_IMAGE016
中边界框的注意力权重
Figure 328080DEST_PATH_IMAGE007
,以及边界框
Figure 324855DEST_PATH_IMAGE017
的位置;
初始化空白图像
Figure 52639DEST_PATH_IMAGE018
,将边界框的注意力权重
Figure 400444DEST_PATH_IMAGE007
映射到空白图像
Figure 606297DEST_PATH_IMAGE018
内边界框
Figure 723158DEST_PATH_IMAGE017
内的对应位置,并通过累积以更新所述空白图像
Figure 621844DEST_PATH_IMAGE018
以得到映射图,其中所述映射图对应有多个映射图像素权重;
将映射图上人工标注的边界框
Figure 893163DEST_PATH_IMAGE019
中所包含的所有映射图像素权重进行累加以得到匹配名词的局部注意力准确率。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述映射图像素权重表示为:
Figure 27341DEST_PATH_IMAGE020
Figure 139653DEST_PATH_IMAGE021
其中,
Figure 68295DEST_PATH_IMAGE022
表示所述映射图像素权重,
Figure 266058DEST_PATH_IMAGE023
表示归一化项,
Figure 938348DEST_PATH_IMAGE024
表示未归一化的像素权重值,
Figure 905167DEST_PATH_IMAGE025
表示示性函数,
Figure 506175DEST_PATH_IMAGE026
表示时间步骤
Figure 191234DEST_PATH_IMAGE016
中第
Figure 667215DEST_PATH_IMAGE027
个区域的权重值,
Figure 488540DEST_PATH_IMAGE027
表示区域的序号,
Figure 24564DEST_PATH_IMAGE028
表示像素坐标,
Figure 931340DEST_PATH_IMAGE029
表示区域的总数;
Figure 945432DEST_PATH_IMAGE030
其中,
Figure 886844DEST_PATH_IMAGE031
表示第
Figure 844303DEST_PATH_IMAGE027
个区域在图像中的位置。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,匹配名词
Figure 238375DEST_PATH_IMAGE032
的局部注意力准确率表示为:
Figure 56158DEST_PATH_IMAGE033
其中,
Figure 648813DEST_PATH_IMAGE034
表示匹配名词
Figure 402006DEST_PATH_IMAGE032
的局部注意力准确率。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:
当忽略生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;
根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率;
当考虑生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;
根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率;
其中,所述第一全局注意力准确率以及所述第二全局注意力准确率即为所述全局注意力评价结果。
所述基于区域特征的图像描述模型注意力机制评价方法,其中,所述第一全局注意力准确率
Figure 408008DEST_PATH_IMAGE035
表示为:
Figure 967165DEST_PATH_IMAGE036
所述第二全局注意力准确率
Figure 414327DEST_PATH_IMAGE037
表示为:
Figure 167782DEST_PATH_IMAGE038
其中,
Figure 333184DEST_PATH_IMAGE039
Figure 696032DEST_PATH_IMAGE040
Figure 997700DEST_PATH_IMAGE041
Figure 92695DEST_PATH_IMAGE042
Figure 73290DEST_PATH_IMAGE043
表示所述被认定为正确匹配名词的数量,
Figure 646353DEST_PATH_IMAGE044
表示生成句子中的名词数量,
Figure 396004DEST_PATH_IMAGE045
表示真值句子中的名词数量,
Figure 661900DEST_PATH_IMAGE046
表示生成句子与真值句子匹配的名词数量,
Figure 100002_DEST_PATH_IMAGE047
表示真值句子与生成句子匹配的名词数量。
本发明还提出一种基于区域特征的图像描述模型注意力机制评价***,其中,所述***包括:
特征提取模块,用于获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
句子生成模块,用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
查找确定模块,用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
局部评价模块,用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
全局评价模块,用于根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于区域特征的图像描述模型注意力机制评价方法的流程图;
图2为本发明提出的基于区域特征的图像描述模型注意力机制评价***的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中,基于区域特征的注意力机制仍缺少可靠的量化分析方法,导致对图像描述模型性能的诊断变得十分困难。基于此,有必要提出一种基于区域特征的图像描述模型注意力机制评价方法与***,以解决上述技术问题。
请参阅图1,本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,其中,所述方法包括如下步骤:
S101、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征。
在步骤S101中,区域空间特征表示为:
Figure 831588DEST_PATH_IMAGE001
其中,
Figure 598556DEST_PATH_IMAGE002
表示所述区域空间特征,
Figure 78078DEST_PATH_IMAGE003
表示单个特定区域的特征向量,
Figure 639510DEST_PATH_IMAGE004
表示特征的总数,
Figure 204483DEST_PATH_IMAGE005
表示特征的序号。
作为补充说明的是,上述的目标检测网络是经过Visual Genome所预先训练得到的,所提取得到的区域空间特征富含语义信息。
S102、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重。
在步骤S102中,在时间步骤
Figure 243984DEST_PATH_IMAGE006
处对应生成的边界框的注意力权重
Figure 843592DEST_PATH_IMAGE007
的计算公式表示为:
Figure 77390DEST_PATH_IMAGE008
Figure 129659DEST_PATH_IMAGE009
其中,
Figure 707271DEST_PATH_IMAGE010
表示用于将区域特征映射到统一映射空间的第一参数矩阵,
Figure 426965DEST_PATH_IMAGE011
表示用于将区域特征映射到统一映射空间的第二参数矩阵,
Figure 64620DEST_PATH_IMAGE012
表示映射空间的维度,
Figure 604186DEST_PATH_IMAGE013
表示未归一化的权重,
Figure 251068DEST_PATH_IMAGE014
表示矩阵转置操作,
Figure 559689DEST_PATH_IMAGE015
表示归一化操作。
S103、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤。
S104、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量。
在步骤S104中,局部注意力评价结果的计算方法包括如下步骤:
S1041,通过判断匹配名词的局部注意准确率是否大于预设阈值。
其中,局部注意力准确率的计算方法包括如下步骤:
S1041a,获取时间步骤
Figure 138219DEST_PATH_IMAGE016
中边界框的注意力权重
Figure 899502DEST_PATH_IMAGE007
,以及边界框
Figure 350075DEST_PATH_IMAGE017
的位置。
S1041b,初始化空白图像
Figure 513203DEST_PATH_IMAGE018
,将边界框的注意力权重
Figure 758239DEST_PATH_IMAGE007
映射到空白图像
Figure 272397DEST_PATH_IMAGE018
内边界框
Figure 261082DEST_PATH_IMAGE017
内的对应位置,并通过累积以更新所述空白图像
Figure 278717DEST_PATH_IMAGE018
以得到映射图,其中所述映射图对应有多个映射图像素权重。
所述映射图像素权重表示为:
Figure 461698DEST_PATH_IMAGE020
Figure 994311DEST_PATH_IMAGE021
其中,
Figure 396473DEST_PATH_IMAGE022
表示所述映射图像素权重,
Figure 658827DEST_PATH_IMAGE023
表示归一化项,
Figure 386612DEST_PATH_IMAGE024
表示未归一化的像素权重值,
Figure 468838DEST_PATH_IMAGE025
表示示性函数,
Figure 940270DEST_PATH_IMAGE026
表示时间步骤
Figure 57131DEST_PATH_IMAGE016
中第
Figure 690237DEST_PATH_IMAGE027
个区域的权重值,
Figure 23873DEST_PATH_IMAGE027
表示区域的序号,
Figure 33418DEST_PATH_IMAGE028
表示像素坐标,
Figure 4785DEST_PATH_IMAGE029
表示区域的总数;
Figure 74372DEST_PATH_IMAGE030
其中,
Figure 865610DEST_PATH_IMAGE031
表示第
Figure 678846DEST_PATH_IMAGE027
个区域在图像中的位置。
S1041c,将映射图上人工标注的边界框
Figure 35878DEST_PATH_IMAGE019
中所包含的所有映射图像素权重进行累加以得到匹配名词的局部注意力准确率。
匹配名词
Figure 10787DEST_PATH_IMAGE032
的局部注意力准确率表示为:
Figure 56366DEST_PATH_IMAGE033
其中,
Figure 407712DEST_PATH_IMAGE034
表示匹配名词
Figure 353672DEST_PATH_IMAGE032
的局部注意力准确率。
S1042,当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
在本步骤中,当匹配名词的局部注意力准确性大于预设阈值时,则判定图像描述模型在生成该匹配名词时的注意力是正确的。反之,当匹配名词的局部注意力准确性小于预设阈值时,则判定图像描述模型在生成该匹配名词时的注意力不正确。
进一步的,如上所述,当判定图像描述模型在生成该匹配名词时的注意力是正确时,则对应进行计数,以得到被认定为正确匹配名词的数量,用于后续计算得到全局注意力评价结果。
S105、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
在本步骤中,根据图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:
当忽略生成句子的语言误差时,包括如下步骤:
S1051a、根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;
S1051b、根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率。
其中,第一全局注意力准确率
Figure 499482DEST_PATH_IMAGE035
表示为:
Figure 530892DEST_PATH_IMAGE036
当考虑生成句子的语言误差时,包括如下步骤:
S1052a、根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;
S1052b、根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率。
其中,第二全局注意力准确率
Figure 685930DEST_PATH_IMAGE037
表示为:
Figure 486396DEST_PATH_IMAGE038
其中,
Figure 68687DEST_PATH_IMAGE039
Figure 80069DEST_PATH_IMAGE040
Figure 773218DEST_PATH_IMAGE041
Figure 693770DEST_PATH_IMAGE042
Figure 446962DEST_PATH_IMAGE043
表示所述被认定为正确匹配名词的数量,
Figure 187385DEST_PATH_IMAGE044
表示生成句子中的名词数量,
Figure 684225DEST_PATH_IMAGE045
表示真值句子中的名词数量,
Figure 459283DEST_PATH_IMAGE046
表示生成句子与真值句子匹配的名词数量,
Figure 648956DEST_PATH_IMAGE047
表示真值句子与生成句子匹配的名词数量。
需要说明的是,上述的第一全局注意力准确率以及第二全局注意力准确率即为所得到的全局注意力评价结果。
本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,通过深度神经网络,利用感兴趣区域池化在潜在目标区域中提取得到对应的区域空间特征;然后将区域空间特征输入至图像描述模型中以生成单词序列,再将语义特征与单词序列输入至注意力模块,通过注意力模块得到生成句子;进而将生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以确定得到匹配名词;再将生成匹配名词时潜在目标区域对应的语义特征的权重加载到图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,进而得到局部注意力评价结果,最后根据局部注意力评价结果计算得到全局注意力评价结果。本发明提出一种基于区域特征的图像描述模型注意力机制评价方法,不仅能够针对基于区域特征的图像描述模型进行评价,并且与图像描述的性能指标具有更高一致性。
请参阅图2,本发明还提出一种基于区域特征的图像描述模型注意力机制评价***,其中,所述***包括:
特征提取模块,用于获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
句子生成模块,用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
查找确定模块,用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
局部评价模块,用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
全局评价模块,用于根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述方法包括如下步骤:
步骤一、获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
步骤二、将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
步骤三、将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
步骤四、将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
步骤五、根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
2.根据权利要求1所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤一中,所述区域空间特征表示为:
Figure 223629DEST_PATH_IMAGE001
其中,
Figure 671928DEST_PATH_IMAGE002
表示所述区域空间特征,
Figure 982824DEST_PATH_IMAGE003
表示单个特定区域的特征向量,
Figure 909191DEST_PATH_IMAGE004
表示特征的总数,
Figure 254722DEST_PATH_IMAGE005
表示特征的序号。
3.根据权利要求2所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤二中,在时间步骤
Figure 342764DEST_PATH_IMAGE006
处对应生成的边界框的注意力权重
Figure 908000DEST_PATH_IMAGE007
的计算公式表示为:
Figure 638058DEST_PATH_IMAGE008
Figure 838095DEST_PATH_IMAGE009
其中,
Figure 97038DEST_PATH_IMAGE010
表示用于将区域特征映射到统一映射空间的第一参数矩阵,
Figure 648105DEST_PATH_IMAGE011
表示用于将区域特征映射到统一映射空间的第二参数矩阵,
Figure 916276DEST_PATH_IMAGE012
表示映射空间的维度,
Figure 970819DEST_PATH_IMAGE013
表示未归一化的权重,
Figure 931822DEST_PATH_IMAGE014
表示矩阵转置操作,
Figure 209001DEST_PATH_IMAGE015
表示归一化操作。
4.根据权利要求3所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,在所述步骤四中,所述局部注意力评价结果的计算方法为:
通过判断匹配名词的局部注意准确率是否大于预设阈值;
当判断到所述匹配名词的局部注意准确率大于预设阈值,则判定图像描述模型在生成所述匹配名词时的注意力是正确的,以确定得到所述局部注意力评价结果。
5.根据权利要求4所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述局部注意力准确率的计算方法包括如下步骤:
获取时间步骤
Figure 15283DEST_PATH_IMAGE006
中边界框的注意力权重
Figure 189912DEST_PATH_IMAGE007
,以及边界框
Figure 56237DEST_PATH_IMAGE016
的位置;
初始化空白图像
Figure 316317DEST_PATH_IMAGE017
,将边界框的注意力权重
Figure 926290DEST_PATH_IMAGE007
映射到空白图像
Figure 955426DEST_PATH_IMAGE017
内边界框
Figure 992652DEST_PATH_IMAGE016
内的对应位置,并通过累积以更新所述空白图像
Figure 241493DEST_PATH_IMAGE017
以得到映射图,其中所述映射图对应有多个映射图像素权重;
将映射图上人工标注的边界框
Figure 655157DEST_PATH_IMAGE018
中所包含的所有映射图像素权重进行累加以得到匹配名词的局部注意力准确率。
6.根据权利要求5所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,所述映射图像素权重表示为:
Figure 538799DEST_PATH_IMAGE019
Figure 12506DEST_PATH_IMAGE020
其中,
Figure 981599DEST_PATH_IMAGE021
表示所述映射图像素权重,
Figure 933374DEST_PATH_IMAGE022
表示归一化项,
Figure 937102DEST_PATH_IMAGE023
表示未归一化的像素权重值,
Figure 581710DEST_PATH_IMAGE024
表示示性函数,
Figure 536635DEST_PATH_IMAGE025
表示时间步骤
Figure 292101DEST_PATH_IMAGE026
中第
Figure 884756DEST_PATH_IMAGE027
个区域的权重值,
Figure 700266DEST_PATH_IMAGE027
表示区域的序号,
Figure 643951DEST_PATH_IMAGE028
表示像素坐标,
Figure 203108DEST_PATH_IMAGE029
表示区域的总数;
Figure 915849DEST_PATH_IMAGE030
其中,
Figure 636680DEST_PATH_IMAGE031
表示第
Figure 569127DEST_PATH_IMAGE027
个区域在图像中的位置。
7.根据权利要求6所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,匹配名词
Figure 666396DEST_PATH_IMAGE032
的局部注意力准确率表示为:
Figure 499222DEST_PATH_IMAGE033
其中,
Figure 390955DEST_PATH_IMAGE034
表示匹配名词
Figure 309233DEST_PATH_IMAGE032
的局部注意力准确率。
8.根据权利要求7所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果的方法包括如下步骤:
当忽略生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子与真值句子匹配的名词数量、真值句子与生成句子匹配的名词数量计算得到第一准确率以及第一召回率;
根据所述第一准确率以及所述第一召回率计算得到第一全局注意力准确率;
当考虑生成句子的语言误差时:
根据所述被认定为正确匹配名词的数量,生成句子中的名词数量、真值句子中的名词数量计算得到第二准确率以及第二召回率;
根据所述第二准确率以及所述第二召回率计算得到第二全局注意力准确率;
其中,所述第一全局注意力准确率以及所述第二全局注意力准确率即为所述全局注意力评价结果。
9.根据权利要求8所述的基于区域特征的图像描述模型注意力机制评价方法,其特征在于,
所述第一全局注意力准确率
Figure 210192DEST_PATH_IMAGE035
表示为:
Figure 631947DEST_PATH_IMAGE036
所述第二全局注意力准确率
Figure 960160DEST_PATH_IMAGE037
表示为:
Figure 303416DEST_PATH_IMAGE038
其中,
Figure 297481DEST_PATH_IMAGE039
Figure 839320DEST_PATH_IMAGE040
Figure 338435DEST_PATH_IMAGE041
Figure 168988DEST_PATH_IMAGE042
Figure 411750DEST_PATH_IMAGE043
表示所述被认定为正确匹配名词的数量,
Figure 604834DEST_PATH_IMAGE044
表示生成句子中的名词数量,
Figure 274850DEST_PATH_IMAGE045
表示真值句子中的名词数量,
Figure 592699DEST_PATH_IMAGE046
表示生成句子与真值句子匹配的名词数量,
Figure DEST_PATH_IMAGE047
表示真值句子与生成句子匹配的名词数量。
10.一种基于区域特征的图像描述模型注意力机制评价***,其特征在于,所述***包括:
特征提取模块,用于获取自然场景下的图像,通过目标检测网络确定所述图像中的潜在目标区域,并通过深度神经网络,利用感兴趣区域池化在所述潜在目标区域中提取得到对应的区域空间特征,其中所述区域空间特征包括多个语义特征;
句子生成模块,用于将提取出的所述区域空间特征输入至图像描述模型以生成单词序列,将所述多个语义特征以及所述单词序列输入至注意力模块,通过所述注意力模块以得到生成句子,其中所述生成句子中包含各所述语义特征的权重,所述语义特征的权重为在时间步骤处对应生成的边界框的注意力权重;
查找确定模块,用于将所述生成句子中每一时间步骤的名词与真值句子中有位置标注的名词进行匹配,以查找出所述生成句子中对应的匹配名词,并同时记录所述匹配名词在所述生成句子中对应的时间步骤;
局部评价模块,用于将生成各所述匹配名词时潜在目标区域对应的所述语义特征的权重加载到所述图像中对应的每个像素点上,然后计算人工标注的边界框内的像素点权重累加和,以得到局部注意力评价结果,其中所述局部注意力评价结果包括被认定为正确匹配名词的数量;
全局评价模块,用于根据所述图像的所述局部注意力评价结果,综合计算得到全局注意力评价结果。
CN202210273007.5A 2022-03-19 2022-03-19 基于区域特征的图像描述模型注意力机制评价方法与*** Active CN114359741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210273007.5A CN114359741B (zh) 2022-03-19 2022-03-19 基于区域特征的图像描述模型注意力机制评价方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210273007.5A CN114359741B (zh) 2022-03-19 2022-03-19 基于区域特征的图像描述模型注意力机制评价方法与***

Publications (2)

Publication Number Publication Date
CN114359741A true CN114359741A (zh) 2022-04-15
CN114359741B CN114359741B (zh) 2022-06-17

Family

ID=81094681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210273007.5A Active CN114359741B (zh) 2022-03-19 2022-03-19 基于区域特征的图像描述模型注意力机制评价方法与***

Country Status (1)

Country Link
CN (1) CN114359741B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型
CN110473267A (zh) * 2019-07-12 2019-11-19 北京邮电大学 基于注意力特征提取网络的社交网络图像描述生成方法
WO2020101777A1 (en) * 2018-11-16 2020-05-22 Google Llc Segmenting objects by refining shape priors
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN112836709A (zh) * 2021-02-07 2021-05-25 方玉明 一种基于空间注意力增强机制的自动图像描述方法
US20210232850A1 (en) * 2020-01-23 2021-07-29 Adobe Inc. Generating Descriptions of Image Relationships
CN114022687A (zh) * 2021-09-24 2022-02-08 之江实验室 一种基于增强学习的图像描述对抗生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型
WO2020101777A1 (en) * 2018-11-16 2020-05-22 Google Llc Segmenting objects by refining shape priors
CN110473267A (zh) * 2019-07-12 2019-11-19 北京邮电大学 基于注意力特征提取网络的社交网络图像描述生成方法
US20210232850A1 (en) * 2020-01-23 2021-07-29 Adobe Inc. Generating Descriptions of Image Relationships
CN111340907A (zh) * 2020-03-03 2020-06-26 曲阜师范大学 一种自适应属性和实例掩码嵌入图的文本到图像生成方法
CN111444968A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种基于注意力融合的图像描述生成方法
CN112836709A (zh) * 2021-02-07 2021-05-25 方玉明 一种基于空间注意力增强机制的自动图像描述方法
CN114022687A (zh) * 2021-09-24 2022-02-08 之江实验室 一种基于增强学习的图像描述对抗生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHIORI HORI 等: "Attention-Based Multimodal Fusion for Video Description", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 25 December 2017 (2017-12-25) *
YUMING FANG 等: "Visual attention prediction for Autism Spectrum Disorder with hierarchical semantic fusion", 《SIGNAL PROCESSING: IMAGE COMMUNICATION》, vol. 93, 30 April 2021 (2021-04-30) *
赵宏 等: "图像特征注意力与自适应注意力融合的图像内容中文描述", 《计算机应用》, vol. 41, no. 9, 10 September 2021 (2021-09-10) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与***
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与***

Also Published As

Publication number Publication date
CN114359741B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
JP3856778B2 (ja) 複数言語を対象とした文書分類装置及び文書分類方法
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其***
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN111860235A (zh) 高低层特征融合的注意力遥感图像描述的生成方法及***
CN114582470B (zh) 一种模型的训练方法、训练装置及医学影像报告标注方法
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
CN113221882B (zh) 一种面向课程领域的图像文本聚合方法及***
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、***、设备及存储介质
JP7155625B2 (ja) 検査装置、検査方法、プログラム及び学習装置
CN113239227A (zh) 图像数据结构化方法、装置、电子设备及计算机可读介质
CN114359741B (zh) 基于区域特征的图像描述模型注意力机制评价方法与***
CN114693790B (zh) 基于混合注意力机制的自动图像描述方法与***
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN117012373B (zh) 一种***辅助检查模型的训练方法、应用方法及***
CN114298314A (zh) 一种基于电子病历的多粒度因果关系推理方法
Aristoteles et al. Identification of human sperm based on morphology using the you only look once version 4 algorithm
US20240028828A1 (en) Machine learning model architecture and user interface to indicate impact of text ngrams
CN112836709A (zh) 一种基于空间注意力增强机制的自动图像描述方法
CN111599444A (zh) 智能舌诊检测方法、装置、智能终端和存储介质
Lee et al. Enhancement for automatic extraction of RoIs for bone age assessment based on deep neural networks
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN113836297B (zh) 文本情感分析模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant