CN113515951B - 基于知识增强注意力网络和组级语义的故事描述生成方法 - Google Patents

基于知识增强注意力网络和组级语义的故事描述生成方法 Download PDF

Info

Publication number
CN113515951B
CN113515951B CN202110812701.5A CN202110812701A CN113515951B CN 113515951 B CN113515951 B CN 113515951B CN 202110812701 A CN202110812701 A CN 202110812701A CN 113515951 B CN113515951 B CN 113515951B
Authority
CN
China
Prior art keywords
features
knowledge
attention
visual
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110812701.5A
Other languages
English (en)
Other versions
CN113515951A (zh
Inventor
王瀚漓
李腾鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110812701.5A priority Critical patent/CN113515951B/zh
Publication of CN113515951A publication Critical patent/CN113515951A/zh
Application granted granted Critical
Publication of CN113515951B publication Critical patent/CN113515951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法,包括以下步骤:1)提取图像的视觉特征和文本特征;2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比,本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。

Description

基于知识增强注意力网络和组级语义的故事描述生成方法
技术领域
本发明涉及图像处理领域,尤其是涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法。
背景技术
用一段话对图像或者视频进行描述对人类来说是一件繁琐的事情,同时对机器来说,用一段流畅自然的语言对现实场景中发生的事情进行描述又是一项充满挑战的任务,故事描述任务的目的旨在对一组图像序列生成一段具有连贯性、准确性和想象力的描述语句,该项任务已经在近几年的计算机视觉和多媒体计算领域逐渐兴起并取得了长足发展。此外,故事描述任务还可以在现实世界中被广泛应用,例如帮助盲人理解社交媒体中图像内容,测试人工智能设备的各项尖端性能。
故事描述任务需要解决两大技术难点:
(1)在单张图中产生被提取区域特征的丰富信息表达;
(2)为图像序列提供发生事件的准确故事情节。
针对难点(1),许多研究者提出的故事描述方法专注于提取图像的区域检测特征或者高层卷积特征,然而上述提取的区域视觉特征仅能捕捉到图像固有和浅显的信息,无法挖掘到超出图像本身的那些具有多样性、创造性的隐含知识。近期一些工作使用基于场景图或常识图的图谱结构获取具有想象力的外部知识,取得了不错的结果,然而这些工作还是无法有效建立异质信息间的跨模态交互,造成故事描述模型的次优性能。
针对难点(2),许多统一的端到端故事描述模型旨在解决图像序列中全局一致性信息缺失的问题,其中循环卷积生成网络(RNN)和时序卷积网络(TCN)常被用来解决上述难题。然而,RNN和TCN都会因在长范围特征序列上的记忆消退问题导致模型优化困难,无法产生图像序列的主题一致性信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于知识增强注意力网络和组级语义的故事描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于知识增强注意力网络和组级语义的故事描述生成方法,该方法通过构建并训练端到端模型生成一组图像的故事描述,包括以下步骤:
1)提取图像的视觉特征和文本特征,所述的视觉特征包括区域检测视觉特征和组级高层语义特征,所述的区域检测视觉特征包括区域特征和语义标签,所述的文本特征为外部知识增强信息;
2)基于知识增强注意力网络KAN对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;
3)基于构建组级语义模块GSM对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;
4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络MSD中生成具备可推理和连贯性的故事描述。
所述的步骤1)中,视觉特征的提取方法具体为:
基于回归框和分类的大规模物体检测网络提取高置信度区域物体特征作为区域检测视觉特征,基于预训练的大规模视觉分类网络提取高层语义特征;
外部知识增强信息的提取方法具体为:
基于提取到的语义标签,通过大规模常识知识推理网络进行推理获取高置信度的常识推理知识作为文本特征。
所述的步骤2)中,在知识增强注意力网络KAN中,以文本特征和区域特征作为由自注意力单元和交叉注意力单元构成的级联跨模态注意力模块CCA的输入,得到区域注意力增强的文本信息和视觉特征,包括注意力区域视觉特征和增强文本知识。
所述的步骤3)中,在组级语义模块GSM中,组级高层语义特征分别由多个二阶池化算法模块降维转化为多个特征张量,每个特征张量进行统一连接得到初始化的组级语义特征,在经过二阶池化算法模块进行长范围语义关联后得到全局视觉语义聚合特征。
所述的步骤4)具体包括以下步骤:
41)通过展平函数将注意力区域视觉特征和增强文本知识转换为区域视觉引导向量和知识引导向量;
42)通过由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块进行多模态推理;
43)根据得到的上下文向量产生当前单词编码,并转换为单词,构成故事描述。
该方法还包括以下步骤:
5)基于自动评价指标和人工评价指标的模型综合性能评估。
所述的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr,所述的人工评价指标从相关性、表达性和具体性三个方面评估。
所述的端到端模型具体包括:
特征编码模块:用以提取图像的视觉特征和文本特征;
知识增强注意力网络:用以生成区域注意力增强的文本信息和视觉特征
组级语义模块:用以挖掘全局语义聚合特征;
多模态特征解码模块:用以输出多语句组成的故事描述。
该方法对端到端模型进行端到端的训练和优化,训练损失函数L(θ)表示为:
Figure BDA0003169021960000031
其中,θ为训练过程中的优化参数,
Figure BDA0003169021960000032
为参考的子故事gn中的第t个单词编码向量,N为序列图像的数量,T为生成的一句话中的单词数量,
Figure BDA0003169021960000033
为第n张图像生成语句的似然估计。
与现有技术相比,本发明具有以下优点:
一、本发明提出了一种基于知识增强注意力网络和组级语义的故事描述生成方法,能够结合外部文本知识、区域视觉特征和全局语义信息,生成具有连贯性、准确性和想象力的一段故事描述。
二、本发明提取图像的视觉和文本特征,视觉特征包括区域检测特征和高层语义特征,文本特征包括外部知识增强信息,通过不同模态的特征从不同视角挖掘图像的全局和局部语义信息,以获得更丰富的推理表达。
三、本发明基于知识增强注意力网络,对提取的区域视觉特征和外部增强知识送入设计的级联跨模态注意力模块挖掘异质特征的内在和外在关联,获得区域注意力增强的文本信息和视觉特征。
四、本发明将提取的组图高层语义特征送入设计的组级语义模块探索序列卷积特征的二阶关联,获取一组图像具有概括性的故事情节。
五、本发明采用自动评测指标和人工评测指标进行模型性能的综合评估,该综合评估方法相较于单一的自动评测方法更加合理和全面,提升了故事描述评测结果的可信度。
附图说明
图1为本发明的主要步骤流程示意图。
图2为基于知识增强注意力网络和组级语义的故事描述框架。
图3为自注意力和交叉注意力单元。
图4为二阶池化算法的框架。
图5为多模态故事解码网络的框架。
图6为模型生成的故事描述示例。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于知识增强注意力网络和组级语义的故事描述生成方法(KAGS),该方法提取图像的区域视觉文本特征和图像全局序列特征,通过知识增强注意力网络和组级语义模块构成的端到端模型生成一组图像的故事描述,该端到端模型分别包括特征编码模块、知识增强注意力网络、组级语义模块和多模态特征解码模块,特征编码模块用于提取视觉和文本特征,知识增强注意力网络用于生成区域注意力增强的文本信息和视觉特征,组级语义模块用于挖掘全局语义聚合特征,多模态特征解码模块用于输出多语句组成的故事描述。
如图1所示,该方法可分为以下步骤进行描述:
S1、提取图像的视觉特征。
本实例中,提取图像的视觉特征,包括区域检测特征和高层语义特征,具体的,给定一组包含N张相关图片
Figure BDA0003169021960000051
作为输入,对于区域检测特征,选择基于大规模图像语义理解数据集Visual Genome预训练的物体检测网络Faster-RCNN,根据检测得到的区域物体回归框的置信度得分,选择每张图像中前36个被检测物体的区域特征
Figure BDA0003169021960000052
和语义标签
Figure BDA0003169021960000053
对于高层语义特征,选择基于大规模图像分类数据集ImageNet预训练的物体分类网络ResNet101,根据在不同层得到的不同尺度的卷积特征,选择最后一个2048维度的卷积层作为高层语义特征
Figure BDA0003169021960000054
S2、提取外部文本知识和构建新字典。
本实例中,提取的文本知识为大规模常识推理知识。对于外部文本知识,选择大规模常识知识推理网络Concept Net作为知识提取器,根据每张图像的语义标签Ln,选择前20个高置信度得分的常识推理知识作为文本特征Kn,构成一组文本知识
Figure BDA0003169021960000055
对于包含9,837个单词的VIST单词表,经过常识推理知识的扩充,现有单词表的大小被扩展为12,322,构建的新字典被故事描述模型用来训练和测试。
S3、构建知识增强注意力网络(KAN)。KAN基于设计的级联跨模态注意力模块(CCA)构建文本知识和视觉信息间的交互,进而在文本知识和视觉信息的重要特征维度上赋予更高的注意力权重,获得经过注意力增强的文本知识和视觉信息,图2中的(b)展示了KAN的具体流程。
本实施例中,CCA模块中的自注意力单元(SA)和交叉注意力单元(CA)如图3所示。具体步骤包括:
31)对于给定的query矩阵
Figure BDA0003169021960000056
key矩阵
Figure BDA0003169021960000057
和value矩阵
Figure BDA0003169021960000058
通过将Mv中的所有值和对应的Mq以及Mk中的权重相加得到注意力特征
Figure BDA0003169021960000059
以上过程定义为:
Figure BDA00031690219600000510
其中,
Figure BDA00031690219600000511
m和d分别代表尺度因子、向量个数和特征维度。
32)然后又使用了包含h个平行子空间的多头注意力机制,注意力特征F被定义为:
F=Multihead(Mq,Mk,Mv)=[head1,head2,...,headh]Wo
Figure BDA0003169021960000061
其中,
Figure BDA0003169021960000062
Figure BDA0003169021960000063
是第i个头的可学习投影矩阵,同时
Figure BDA0003169021960000064
33)引入的多头注意力机制随后被用在设计的自注意力单元和交叉注意力单元中,紧接着定义包含点乘操作、Linear层和BatchNorm层的函数LS(·)。在图3中,给定每张图像的视觉特征Fv或者文本特征Ft,自注意力单元输出的自注意力特征表示为:
SA(Fv)=LS(Multihead(Fv,Fv,Fv))
SA(Ft)=LS(Multihead(Ft,Ft,Ft))
类似的,视觉特征Fv和文本特征Ft可以被同时送入交叉注意力单元,输出的交叉注意力特征表示为:
CA(Ft,Fv)=LS(Multihead(Ft,Fv,Fv))
34)此时,图2中(b)中设计的CCA模块可以通过级联P-1个层得到,表示为:
Figure BDA0003169021960000065
其中,
Figure BDA0003169021960000066
Figure BDA0003169021960000067
分别代表第p层中的输入文本知识、输入区域视觉特征、输出文本知识和输出区域视觉特征。对于
Figure BDA0003169021960000068
初始输入特征设置为
Figure BDA0003169021960000069
Figure BDA00031690219600000610
最终,CCA的输出
Figure BDA00031690219600000611
作为增强文本知识和注意力区域视觉特征。
S4、构建组级语义模块(GSM)。GSM由若干个二阶池化算法(SOP)构成,获得全局一致性语义指导,具体步骤如下:
41)如图4所示,对于给定的卷积特征张量
Figure BDA00031690219600000612
其中h、w和d分别代表特征张量的长、宽和通道维度。SOP首先通过1×1的卷积将通道维度从d降到c,然后SOP将h×w×c的特征张量转化为c×c的协方差矩阵。最后,一个row-wise的卷积层和一个1×1的卷积层将c×c协方差矩阵转为1×1×d的特征张量以突出具有高价值的特征通道。SOP被定义为:
Figure BDA00031690219600000613
其中
Figure BDA00031690219600000614
*代表矩阵相乘,
Figure BDA00031690219600000615
代表将特征张量从大小h×w×c拉伸到(hw)×c的重构操作,f1×1和frow分别代表1×1的卷积和row-wise卷积。
42)如图2中的(c)所示,GSM首先将每一个特征表示
Figure BDA00031690219600000616
送入SOP,然后SOP输出被处理的特征张量
Figure BDA0003169021960000071
接着所有被处理的特征张量被统一连接为
Figure BDA0003169021960000072
以产生初始化的组级语义特征。同样的,GSM再次将A送入SOP以获得通道维度的长范围语义关联,产生全局视觉语义聚合
Figure BDA0003169021960000073
该步骤被定义为:
Figure BDA0003169021960000074
最终,SOP增强了整体特征的非线性表达能力,GSM获得了组级卷积特征的全局一致性表示。
S5、构建多模态故事解码网络(MSD),旨在充分利用S3和S4中生成的增强文本知识、注意力区域视觉特征和全局视觉语义聚合,最终生成具备可推理的和连贯性的故事描述。多模态故事解码网络的过程如图5所示,具体步骤如下:
51)为了生成故事的第n个语句,对于给定的注意力区域视觉特征
Figure BDA0003169021960000075
增强文本知识
Figure BDA0003169021960000076
全局视觉语义聚合
Figure BDA0003169021960000077
解码网络首先利用2个Linear层,1个Softmax层组成的展平函数,将
Figure BDA0003169021960000078
转换为
Figure BDA0003169021960000079
Figure BDA00031690219600000710
转换为
Figure BDA00031690219600000711
得到区域视觉引导向量
Figure BDA00031690219600000712
和知识引导向量
Figure BDA00031690219600000713
其中M、K和d分别表示检测区域框、关系图和特征通道的数量。
52)为了进一步挖掘视觉特征,增强文本信息和单词编码特征的紧密联系,设计了由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块完成多模态推理。具体的,对于在第t个时间步的第n张图像的区域视觉信息推理(图5左),解码器将先前区域隐藏状态
Figure BDA00031690219600000714
知识引导向量
Figure BDA00031690219600000715
先前单词编码
Figure BDA00031690219600000716
和区域视觉引导特征
Figure BDA00031690219600000717
送入LSTM,输出当前区域隐藏状态
Figure BDA00031690219600000718
然后,解码器将
Figure BDA00031690219600000719
认定为交叉注意力单元的query值,将
Figure BDA00031690219600000720
设置为交叉注意力单元的key值或value值。最后,为了增强
Figure BDA00031690219600000721
Figure BDA00031690219600000722
之间的联系,带一个编码层的交叉注意力单元的输出可以获得带注意力区域特征表示
Figure BDA00031690219600000723
该步骤被定义为:
Figure BDA00031690219600000724
Figure BDA00031690219600000725
其中,Embed(□)代表全连接层,
Figure BDA00031690219600000726
代表连接操作。类似的,给定先前全局隐藏状态
Figure BDA00031690219600000727
知识引导向量
Figure BDA00031690219600000728
先前单词编码
Figure BDA00031690219600000729
和全局视觉语义聚合
Figure BDA00031690219600000730
全局视觉信息推理(图5右)可以产生当前全局隐藏状态
Figure BDA00031690219600000731
和带注意力全局特征表示
Figure BDA00031690219600000732
该步骤被定义为:
Figure BDA0003169021960000081
Figure BDA0003169021960000082
53)接下来,通过连接
Figure BDA0003169021960000083
Figure BDA0003169021960000084
得到上下文向量
Figure BDA0003169021960000085
紧随着一个GLU层和一个Linear层,最终上下文向量
Figure BDA0003169021960000086
送入Softmax层产生当前单词编码
Figure BDA0003169021960000087
该步骤产生的单词概率分布被定义为:
Figure BDA0003169021960000088
其中,预测p代表的是在Visual Storytelling(VIST)数据集的词汇表
Figure BDA0003169021960000089
上的概率分布。最终单词编码
Figure BDA00031690219600000810
被转换为单词
Figure BDA00031690219600000811
获得故事集S的子故事
Figure BDA00031690219600000812
其中T表示子故事Sn的长度。
本发明(KAGS)生成的故事描述示例如图6所示。
S6、对上述故事描述方法进行基于自动评价指标和人工评价指标的模型综合性能评估。
本实施例中,采用的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr。采用的人工评价指标主要从相关性、表达性和具体性三个方面来评估。具体如下:
61)对于自动评价指标,BLEU是一种经典的机器翻译评价指标,旨在通过相似度度量方法得到预测句子和参考句子中n元组同时出现的概率。METEOR旨在基于召回率标准的测量获得和人工评价高度相关的结果。ROUGE_L是通过最长公共子序列计算得到预测语句和参考语句的相关性得分。CIDEr是通过计算向量间的余弦相似度测量获得预测语句和参考语句的相似度得分。
62)对于人工评价指标,相关性要求能准确描述一组图像序列中发生事件的主题;表达性要求能产生具有语法的、想象的、连贯的和丰富的语句;具体性要求能提供图像内容中叙述的和详细的描述。
为了验证本申请方法的性能,设计了以下实验。
本实施例和另外12种先进的故事描述模型进行对比,其具体细节如下:
(1)seq2seq,一个基于RNN结构的初始故事描述模型;(2)BARNN,基于GRU模块的关系注意力模型;(3)h-attn-rank,一个分层次的注意力循环网络;(4)XE-ss,一个基于LSTM的编码解码模型;(5)AERL,一个对抗的奖励优化框架;(6)HPSR,一个分层次的图像编码解码模型;(7)HSRL,一个分层次的强化学习框架;(8)VSCMR,一个语义感知挖掘网络;(9)ReCO-RL,一个相关性文本强化学习方法;(10)INet,一个想象力内容推理网络;(11)SGVST,一个场景图知识增强模型;(12)IRW,一个多图知识推理框架。
具体实验结果如表1和表2所示。
表1本发明和其他故事描述模型在VIST数据集上的性能对比(%)。
Figure BDA0003169021960000091
表2本发明和其他故事描述模型的人工评测结果,其中Tie表示测试者无法判别哪个方法更优。
Figure BDA0003169021960000092
Figure BDA0003169021960000101
由表1和表2可知,本发明方法相较于其他故事描述模型,获得了更优的结果。
以上详细说明了本发明优异的具体实施例。应当理解,本领域的研究人员无需额外的创造性劳动就能够依据本发明的思路做出诸多改进。因此,凡本技术领域中技术人员依据本发明的思路在现有技术的基础上通过对模型的逻辑推理、结构改造或者实验分析可以得到的技术方案,皆应落入本发明保护范围之内。

Claims (9)

1.一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,该方法通过构建并训练端到端模型生成一组图像的故事描述,包括以下步骤:
1)提取图像的视觉特征和文本特征,所述的视觉特征包括区域检测视觉特征和组级高层语义特征,所述的区域检测视觉特征包括区域特征和语义标签,所述的文本特征为外部知识增强信息;
2)基于知识增强注意力网络KAN对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;
3)基于构建组级语义模块GSM对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;
4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络MSD中生成具备可推理和连贯性的故事描述。
2.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的步骤1)中,视觉特征的提取方法具体为:
基于回归框和分类的大规模物体检测网络提取高置信度区域物体特征作为区域检测视觉特征,基于预训练的大规模视觉分类网络提取高层语义特征;
外部知识增强信息的提取方法具体为:
基于提取到的语义标签,通过大规模常识知识推理网络进行推理获取高置信度的常识推理知识作为文本特征。
3.根据权利要求2所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的步骤2)中,在知识增强注意力网络KAN中,以文本特征和区域特征作为由自注意力单元和交叉注意力单元构成的级联跨模态注意力模块CCA的输入,得到区域注意力增强的文本信息和视觉特征,包括注意力区域视觉特征和增强文本知识。
4.根据权利要求3所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,所述的步骤3)中,在组级语义模块GSM中,组级高层语义特征分别由多个二阶池化算法模块降维转化为多个特征张量,每个特征张量进行统一连接得到初始化的组级语义特征,在经过二阶池化算法模块进行长范围语义关联后得到全局视觉语义聚合特征。
5.根据权利要求4所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的步骤4)具体包括以下步骤:
41)通过展平函数将注意力区域视觉特征和增强文本知识转换为区域视觉引导向量和知识引导向量;
42)通过由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块进行多模态推理;
43)根据得到的上下文向量产生当前单词编码,并转换为单词,构成故事描述。
6.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,该方法还包括以下步骤:
5)基于自动评价指标和人工评价指标的模型综合性能评估。
7.根据权利要求6所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr,所述的人工评价指标从相关性、表达性和具体性三个方面评估。
8.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的端到端模型具体包括:
特征编码模块:用以提取图像的视觉特征和文本特征;
知识增强注意力网络:用以生成区域注意力增强的文本信息和视觉特征
组级语义模块:用以挖掘全局语义聚合特征;
多模态特征解码模块:用以输出多语句组成的故事描述。
9.根据权利要求8所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,该方法对端到端模型进行端到端的训练和优化,训练损失函数L(θ)表示为:
Figure FDA0003169021950000021
其中,θ为训练过程中的优化参数,
Figure FDA0003169021950000022
为参考的子故事gn中的第t个单词编码向量,N为序列图像的数量,T为生成的一句话中的单词数量,
Figure FDA0003169021950000031
为第n张图像生成语句的似然估计。
CN202110812701.5A 2021-07-19 2021-07-19 基于知识增强注意力网络和组级语义的故事描述生成方法 Active CN113515951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110812701.5A CN113515951B (zh) 2021-07-19 2021-07-19 基于知识增强注意力网络和组级语义的故事描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110812701.5A CN113515951B (zh) 2021-07-19 2021-07-19 基于知识增强注意力网络和组级语义的故事描述生成方法

Publications (2)

Publication Number Publication Date
CN113515951A CN113515951A (zh) 2021-10-19
CN113515951B true CN113515951B (zh) 2022-07-05

Family

ID=78067499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110812701.5A Active CN113515951B (zh) 2021-07-19 2021-07-19 基于知识增强注意力网络和组级语义的故事描述生成方法

Country Status (1)

Country Link
CN (1) CN113515951B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782702A (zh) * 2022-03-23 2022-07-22 成都瑞数猛兽科技有限公司 一种基于三层lstm推敲网络的图像语义理解算法
US20230376687A1 (en) * 2022-05-17 2023-11-23 Adobe Inc. Multimodal extraction across multiple granularities
CN114677580B (zh) * 2022-05-27 2022-09-30 中国科学技术大学 一种基于自适应增强自注意力网络的图像描述方法
CN115062174A (zh) * 2022-06-16 2022-09-16 电子科技大学 基于语义原型树的端到端图像字幕生成方法
CN115757464B (zh) * 2022-11-18 2023-07-25 中国科学院软件研究所 一种基于深度强化学习的智能物化视图查询方法
CN116484318B (zh) * 2023-06-20 2024-02-06 新励成教育科技股份有限公司 一种演讲训练反馈方法、装置及存储介质
CN117593639B (zh) * 2023-11-21 2024-05-28 北京天鼎殊同科技有限公司 公路及其附属物的提取方法、装置、设备及介质
CN117787224B (zh) * 2023-12-27 2024-06-14 江南大学 一种基于多源异构特征融合的可控故事生成方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及***
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN110717498A (zh) * 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111241326A (zh) * 2019-12-26 2020-06-05 同济大学 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN111243060A (zh) * 2020-01-07 2020-06-05 复旦大学 一种基于手绘图的故事性文本生成方法
CN111414736A (zh) * 2020-03-23 2020-07-14 腾讯科技(深圳)有限公司 故事生成模型训练方法、装置、设备及存储介质
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN112685582A (zh) * 2019-10-18 2021-04-20 微软技术许可有限责任公司 自动生成故事板

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及***
CN108052512A (zh) * 2017-11-03 2018-05-18 同济大学 一种基于深度注意力机制的图像描述生成方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN110717498A (zh) * 2019-09-16 2020-01-21 腾讯科技(深圳)有限公司 图像描述生成方法、装置及电子设备
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN112685582A (zh) * 2019-10-18 2021-04-20 微软技术许可有限责任公司 自动生成故事板
CN111241326A (zh) * 2019-12-26 2020-06-05 同济大学 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN111243060A (zh) * 2020-01-07 2020-06-05 复旦大学 一种基于手绘图的故事性文本生成方法
CN111414736A (zh) * 2020-03-23 2020-07-14 腾讯科技(深圳)有限公司 故事生成模型训练方法、装置、设备及存储介质
CN111708904A (zh) * 2020-08-24 2020-09-25 浙江大学 一种基于主题适应与原型编码的少样本视觉故事叙述方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Creative storytelling with Language Models and Knowledge Graphs;Xinran Yang,Ilaria Tiddi;《CIKM 2020》;20201020;全文 *
Knowledge-Enriched Visual Storytelling;Chao Chun Hsu et al.;《Association for the Advancement of Artificial Intelligence》;20191203;全文 *
Visual Genome Connecting Language and Vision Using Crowdsourced Dense Image Annotations;Ranjay Krishna et al.;《International Journal of Computer Vision》;20160223;全文 *

Also Published As

Publication number Publication date
CN113515951A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN113515951B (zh) 基于知识增强注意力网络和组级语义的故事描述生成方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及***
CN111488739A (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
WO2023217163A1 (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN111368870A (zh) 一种基于模态内间协同多线性池化的视频时序定位方法
CN113111836B (zh) 基于跨模态哈希学习的视频解析方法
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
US20230368500A1 (en) Time-series image description method for dam defects based on local self-attention
CN113392265A (zh) 多媒体处理方法、装置及设备
Wu et al. Tdv2: A novel tree-structured decoder for offline mathematical expression recognition
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、***、设备及介质
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及***
Wu et al. Hierarchical memory decoder for visual narrating
CN112651225B (zh) 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
CN113554040A (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN113051904A (zh) 一种面向小规模知识图谱的链接预测方法
Ma et al. Target-Embedding Autoencoder With Knowledge Distillation for Multi-Label Classification
CN113505207B (zh) 一种金融舆情研报的机器阅读理解方法及***
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN114896969A (zh) 一种基于深度学习的方面词提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant