CN112527993A - 一种跨媒体层次化深度视频问答推理框架 - Google Patents

一种跨媒体层次化深度视频问答推理框架 Download PDF

Info

Publication number
CN112527993A
CN112527993A CN202011499931.2A CN202011499931A CN112527993A CN 112527993 A CN112527993 A CN 112527993A CN 202011499931 A CN202011499931 A CN 202011499931A CN 112527993 A CN112527993 A CN 112527993A
Authority
CN
China
Prior art keywords
memory
video
answer
reasoning
shallow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011499931.2A
Other languages
English (en)
Other versions
CN112527993B (zh
Inventor
余婷
来炳
钱璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University Of Finance & Economics Dongfang College
Original Assignee
Zhejiang University Of Finance & Economics Dongfang College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University Of Finance & Economics Dongfang College filed Critical Zhejiang University Of Finance & Economics Dongfang College
Priority to CN202011499931.2A priority Critical patent/CN112527993B/zh
Publication of CN112527993A publication Critical patent/CN112527993A/zh
Application granted granted Critical
Publication of CN112527993B publication Critical patent/CN112527993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨媒体层次化深度视频问答推理框架。本发明步骤:1、利用记忆组件保存视频的全局语义信息,通过多轮记忆更新迭代得到浅层推理机。2、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆。3、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理。4、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。本发明推理框架能够在视频问答数据集上取得显著的效果。

Description

一种跨媒体层次化深度视频问答推理框架
技术领域
本发明涉及一种针对视频问答的深度神经网络,尤其涉及一种基于跨媒体统一表达的层次化深度推理框架。
背景技术
跨媒体技术旨在打通不同媒体(如视频媒体、文本媒体)之间的“语义鸿沟”,形成统一的跨媒体语义表达。但由于多媒体数据本身语义的复杂性,在深度学习出现之前,该问题一直没有得到很好地解决。近年来,深度学习在各个研究领域上都取得了惊人的成绩,它借助复杂的神经网络模型对需要解决的任务进行端到端建模,学习跨媒体数据的深度统一表达。由于深度模型强大的语义表达能力,深度跨媒体统一表达模型成为目前的主流方法。
在深度跨媒体统一表达的理论基础上,衍生出一些目前热门的分支方向,如跨媒体检索、视觉描述以及视觉问答等。跨媒体检索旨在给定一种媒体数据从海量数据库中找到最匹配的另一种媒体的相关数据;视觉描述的目标是给一张图像使用一句或几句自然语言对其内容进行有效概述;视觉问答的目标在于使用自然语言描述的问题和一个视觉数据对象作为输入,算法在充分理解自然语言描述和视觉内容后,进行深度推理,最终输出一个自然语言描述的答案。这些任务中,视觉问答相对来说更有挑战性,它涉及视觉内容和自然语言的细粒度理解,同时还需要进行深度知识推理。因此,视觉问答成为近年来学界的研究热点。
视频数据作为一种主流的视觉数据对象,大规模存在于各种社交网站中,它的数据量几乎超过其他媒体数据的总和。相比于图像,视频数据更为复杂。视频不是图像序列数量上简单的堆叠,它包含有视觉、文本、语音等多个模态的数据信息。视频中的视觉对象会随着时间的变化呈现不同视角的视觉特征,且不同时刻的空间视觉信息相互关联。另外,基于视频数据的视觉问答涉及更为复杂的问题。用户可以根据视频内容提出高自由度的多样性问题。视频问答任务下的问题除了颜色、数量、位置等静态空间信息相关的问题外,通常还包括动作类别、动作时序关系推理等复杂的问题。另外,给定一个视频数据对象,模型对于不同的问题给出正确的回答所依赖的视觉信息量是不同的。有的问题只依赖一帧信息就能给出有效回答,有的则需要理解完整视频的语义才能正确预测出答案。
综上所述,视频问答的难点在于如何在正确有效地理解视频内容以及充分准确地理解问题意图的基础上,构建高效的跨媒体问答推理框架,从而提升答案预测的准确性。
发明内容
本发明提供了一种针对复杂长时视频问答的深度分层推理框架,该架构主要包含:1、构建浅层推理机:执行无关信息过滤功能,从复杂长时视频所有可能的长序列信息中识别出与问题描述相关的重要视觉内容,过滤掉无关的视觉信息,避免深层记忆网络信息及噪声的超载;2、构建深层推理机:在浅层推理机的引导下,利用来自视觉和自然语言更深层的语义证据进行更精细的推理,学习更为细粒度的注意力,以提高跨模态任务推理的质量。在视频问答方面,利用本发明的深度推理框架改善推理质量,取得了比传统视觉问答模型更好的效果。3、记忆动态融合模块:用于动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。
本发明解决其技术问题所采用的技术方案如下:
步骤(1)、利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息。
步骤(2)、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆。
步骤(3)、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理,以提高问答的质量。
步骤(4)、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。
进一步的,步骤(1)所述的利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代,推理出与问题描述的全局语义特征最相关的视觉信息,具体如下:
1-1.为了将视频特征
Figure BDA0002843298600000031
和问题描述特征hT输入到记忆组件中,首先将输入特征转化为记忆网络的内在向量特征,如公式(1)(2)所示:
Xe=tanh(WxX+bx) (公式1)
Figure BDA0002843298600000032
其中,Xe
Figure BDA0002843298600000033
分别指代视频特征和问题描述特征转化后的视频特征和问题描述特征;
Figure BDA0002843298600000034
是映射矩阵,
Figure BDA0002843298600000035
Figure BDA0002843298600000036
是偏置,dz是记忆网络的内在空间维度。
1-2.使用硬注意力机制进行特征选择。计算问题描述特征
Figure BDA0002843298600000037
与视频特征Xe之间的相似度,根据相似度的分数对视频特征进行排序,挑选出相似度最高的前n个与问题最相关的视频特征去更新浅层推理机中的记忆单元,从而得到最近邻的n个键值对,key={k1,k2,...,kn},value={v1,v2,...,vn},更新后的视频特征序列集,如公式(3)所示:
Figure BDA0002843298600000038
Γ(y1,...,yn)={j1,...jn},当yj1≥yj2≥…≥yjn (公式4)
其中fs表示相似性测度,Γ是排序操作。
1-3.基于更新后的视频特征序列集,浅层推理机学习问题描述特征在每个记忆单元上的概率分布ρ。通过加权和操作获得浅层推理机的输出z,结合原始输入的问题描述特征作为下一轮推理的问题。公式(5)(6)中的Gx和Gq分别表示两个前馈全连接神经网络。
Figure BDA0002843298600000041
Figure BDA0002843298600000042
其中vi为第i个记忆单元的存储内容。
步骤(2)所述的基于引导型浅层推理机,构建深层多模态记忆网络,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆模块,形成空间记忆和时序记忆,具体如下:
通过一个1×1的卷积神经网络将视频中的对象特征
Figure BDA0002843298600000049
Figure BDA0002843298600000048
转化为空间记忆模块的内在向量特征,使用另一个1×1的卷积神经网络将视频中的动作特征
Figure BDA00028432986000000410
嵌入到时序记忆模块。其中do为对象特征的维度,k为对象的数量,da为动作特征的维度,l为动作的数量。
所述的多模态子成分包括对象特征和动作特征;
所述的不同模态的记忆模块包括空间记忆模块和时序记忆模块;步骤(3)构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理,具体如下:
3-1.对于第λ轮推理,给定动作特征ai,问题的描述特征h′l和上一时刻的动作记忆
Figure BDA0002843298600000043
通过P(·)和D(·)这两个组合相似度的计算获得动作特征的相似度分布
Figure BDA0002843298600000044
如公式(7)所示。同样的给出对象特征oi,得到对象特征上的相似度分布
Figure BDA0002843298600000045
如公式(8)所示。
Figure BDA0002843298600000046
Figure BDA0002843298600000047
其中,P(·)和D(·)是两个相似度计算函数。
3-2.考虑到对象特征和动作特征对于高质量的推理问答都起着非常重要的作用,多模态记忆协同推理框架作为一个可交互的推理机,允许动作记忆和对象记忆动态交互,当更新某一模态的记忆时,另一模态的记忆会为注意力的学习提供有用的线索,具体地:
计算某一模态记忆内容的更新门控信号时,除了考虑模态本身之外,还需要考虑另一模态的影响。以动作模态为例,动作记忆的更新门控信号
Figure BDA0002843298600000051
可以由公式(10)得到,随后采用基于GRU的注意力机制来提取上下文特征
Figure BDA0002843298600000052
并用它来更新本轮的动作记忆
Figure BDA0002843298600000053
如公式(11)所示。
Figure BDA0002843298600000054
Figure BDA0002843298600000055
Figure BDA0002843298600000056
其中,
Figure BDA0002843298600000057
为一组映射矩阵,
Figure BDA0002843298600000058
为对应的偏置。
同理得到本轮的对象记忆
Figure BDA0002843298600000059
如公式(14)所示。
Figure BDA00028432986000000510
Figure BDA00028432986000000511
Figure BDA00028432986000000512
其中,
Figure BDA00028432986000000513
为一组映射矩阵,
Figure BDA00028432986000000514
为对应的偏置。
步骤(4)进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案,其具体过程如下:
4-1.由于问题描述的复杂性和多样性,不同的视觉子模态对于问答模型的贡献大小是动态变化的。记忆动态融合模块利用浅层推理机的输出u′作为监视哨,结合问题描述的原始嵌入特征qe,引导深层推理机不同模态记忆内容的权重分配,动态融合不同模态的记忆,融合后的记忆
Figure BDA00028432986000000517
可由公式(15)计算得到:
Figure BDA00028432986000000515
其中,其中
Figure BDA00028432986000000516
是可学习的参数,α是密度向量,αa和αo是密度向量α的两个元素。
4-2.记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。具体地将
Figure BDA0002843298600000061
和问题特征qe做融合,再通过权重矩阵Wp的映射得到特征向量ν,如公式(16)所示。
Figure BDA0002843298600000062
将得到的特征向量ν输入到一个回答模块(多分类器)中去预测问题的答案。
本发明有益效果:
本发明对复杂的长时网络视频问答问题,提出了一种新的由粗到细的层次深度推理框架,首先通过构建浅层推理机从一个长视频序列中过滤无效信息并且识别出重要视觉内容,学习粗粒度的视频全局的注意力,然后构建深层推理机分别从帧间和帧内两个方向进行深度优化推理。通过多轮推理迭代,我们的推理框架能够模拟人类的视频问答推理过程,先从长时视频中定位与问题相关的关键时刻,再收集相关的证据来预测答案。我们发明的推理框架能够在视频问答数据集上取得显著的效果。
附图说明
图1是本发明方法的总体框架示意图。
图2是本发明方法中构造的引导型浅层推理机。
图3是本发明方法中构造的优化型深层推理机。
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1所示,本发明提供一种针对复杂视频问答的层次化深度问答推理框架。
步骤(1)所述的利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息,如图2所示,具体如下:
1-1.提取视频特征
Figure BDA0002843298600000071
和问题描述特征hT,将其输入到记忆组件中,并将输入转化为记忆网络的内在向量特征。
对于全局视频数据特征的提取,使用大规模预训练的神经网络VGG和3D-CNN去抽取中间特征,这些特征再输入双向GRU网络得到全局感知的语义特征
Figure BDA0002843298600000072
其中
Figure BDA0002843298600000073
dx=2048是特征的维度。对于问题描述特征的提取,首先采用浅层词嵌入模型Glove对每个词进行编码来捕捉单词的语义,之后将生成的词向量依次输入含有dq=256隐含单元的双向LSTM网络,学习问题描述的上下文信息,最后拼接每个时刻前后向的隐藏状态来表示问题描述的全局语义
Figure BDA0002843298600000074
接着,将视频特征和问题描述特征输入到记忆组件中,将输入转化为记忆网络的内在向量,其中
Figure BDA0002843298600000075
Figure BDA0002843298600000076
是映射矩阵和偏置,dz=256是记忆网络的内在空间维度。
1-2.使用硬注意力机制进行特征选择。计算问题描述特征与视频特征之间的相似度,根据相似性分数对视频特征进行排序,挑选出相似度最高的前20个与问题最相关的视频特征去更新记忆网络的存储单元,从而得到最近邻的20个键值对,key={k1,k2,...,kn},value={v1,v2,...,vn},形成更新后的视频特征序列。
1-3.基于更新后的记忆内容,学习问题描述在每个记忆单元上的概率分布ρ。通过加权和操作获得该层网络的输出z,结合问题描述的原始特征作为下一轮推理的更新后的问题。
步骤(2)所述的在浅层推理机的基础上,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆,具体如下:
利用现有的Faster-RCNN模型抽取视频对象的特征,基于浅层推理机,利用Faster-RCNN模型在20个重要的视频单元内依次检测出36个目标,对每个目标的物体提取4096维的对象特征。接着,通过一个1×1的卷积神经网络将视频中的对象特征,转化为空间记忆模块的内在向量,形成空间记忆。
借助一个外部预训练的视频时序候选生成网络来预测视频中最具有潜在动作的前l=30个时序段,对这30个时序段按照步骤(1)提取视频的特征作为视频动作特征。使用另一个1×1的卷积神经网络将视频中的动作特征
Figure BDA0002843298600000081
嵌入到时序记忆模块,形成时序记忆。
步骤(3)所述的构建多模态记忆协同推理,利用来自对象和动作的多模态证据执行更为精细的推理,如图3所示,具体如下:
3-1.利用来自对象和动作的多模态证据执行更为精细的推理,对于第λ轮推理,给定动作特征,问题的特征和上一时刻的动作记忆
Figure BDA0002843298600000082
我们通过元素点乘相似度函数和元素绝对值相似度函数的计算获得动作特征的相似度分布。同理可以得到对象特征上的相似度分布。
3-2.计算记忆更新门控信号。在计算动作记忆的更新门控
Figure BDA0002843298600000083
时,除了考虑动作模态本身之外,还需要考虑对象模态的影响。同理,在计算对象记忆的更新门控
Figure BDA0002843298600000084
时,除了考虑对象模态,还需要动作模态来提供有利的线索。随后采用基于GRU的注意力机制来提取上下文特征,并用它来更新本轮的动作记忆
Figure BDA0002843298600000085
步骤(4)进行多模态记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案,如图3所示,具体如下:
4-1.记忆动态融合模块利用浅层推理机的输出作为监视哨,引导深层不同模态记忆内容的权重分配,动态融合不同模态的记忆。该模块首先将256维的浅层推理机的记忆u′和300维的问题特征qe进行拼接,再经过一个2×556的矩阵变换后通过softmax的二分类器,得到深层推理机的不同子模态的权重,最后使用加权和运算得出融合后的记忆
Figure BDA0002843298600000091
4-2.记忆动态融合模块的输出作为回答模块的输入去预测最佳答案。具体地,将动态融合模块的融合记忆
Figure BDA0002843298600000092
和问题特征qe做元素点乘操作,得到一个300维的特征向量,再通过一个1000×300的权重矩阵Wp,映射得到一个1000维的特征向量ν,接着我们将得到的特征向量ν输入到一个1000路的softmax分类器中获取答案字典的概率分布,模型采用端到端的方式进行训练,使用softmax交叉熵作为损失函数来优化模型,直至网络收敛。

Claims (5)

1.一种跨媒体层次化深度视频问答推理框架,其特征在于包括如下步骤:
步骤(1)、利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息;
步骤(2)、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆;
步骤(3)、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理,以提高问答的质量;
步骤(4)、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。
2.根据权利要求1所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(1)具体如下:
1-1.为了将视频特征
Figure FDA0002843298590000011
和问题描述特征hT输入到记忆组件中,首先将输入特征转化为记忆网络的内在向量特征,如公式(1)(2)所示:
Xe=tanh(WxX+bx) (公式1)
Figure FDA0002843298590000012
其中,Xe
Figure FDA0002843298590000013
分别指代视频特征和问题描述特征转化后的视频特征和问题描述特征;
Figure FDA0002843298590000014
是映射矩阵,
Figure FDA0002843298590000015
Figure FDA0002843298590000016
是偏置,dz是记忆网络的内在空间维度;
1-2.使用硬注意力机制进行特征选择,计算问题描述特征
Figure FDA0002843298590000017
与视频特征Xe之间的相似度,根据相似度的分数对视频特征进行排序,挑选出相似度最高的前n个与问题最相关的视频特征去更新浅层推理机中的记忆单元,从而得到最近邻的n个键值对,key={k1,k2,...,kn},value={v1,v2,...,vn},更新后的视频特征序列集,如公式(3)所示:
Figure FDA0002843298590000021
Γ(y1,...,yn)={j1,...jn},当yj1≥yj2≥…≥yjn (公式4)
其中fs表示相似性测度,Γ是排序操作;
1-3.基于更新后的视频特征序列集,浅层推理机学习问题描述特征在每个记忆单元上的概率分布ρ;通过加权和操作获得浅层推理机的输出z,结合原始输入的问题描述特征作为下一轮推理的问题;公式(5)(6)中的Gx和Gq分别表示两个前馈全连接神经网络;
Figure FDA0002843298590000022
Figure FDA0002843298590000023
其中vi为第i个记忆单元的存储内容。
3.根据权利要求2所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(2)具体如下:
通过一个1×1的卷积神经网络将视频中的对象特征
Figure FDA0002843298590000024
Figure FDA0002843298590000025
转化为空间记忆模块的内在向量特征,使用另一个1×1的卷积神经网络将视频中的动作特征
Figure FDA0002843298590000026
嵌入到时序记忆模块;其中do为对象特征的维度,k为对象的数量,da为动作特征的维度,l为动作的数量;
所述的多模态子成分包括对象特征和动作特征。
4.根据权利要求3所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(3)具体如下:
3-1.利用来自对象和动作的多模态证据执行更为精细的推理,对于第λ轮推理,给定动作ai,问题的动词特征h′l和上一时刻的动作记忆
Figure FDA0002843298590000027
通过P(·)和D(·)这两个组合相似度的计算获得动作特征的相似度分布
Figure FDA0002843298590000028
如公式(7)所示;同样得到对象特征上的相似度分布
Figure FDA0002843298590000029
如公式(8)所示;
Figure FDA00028432985900000210
Figure FDA00028432985900000211
3-2.多模态记忆协同推理模块作为一个可交互的推理机,允许动作记忆和对象记忆动态交互,当更新某一模态的记忆时,另一模态的记忆会为注意力的学习提供有用的线索;当动作模态更新时,动作记忆的更新门控
Figure FDA0002843298590000031
由公式(10)得到,随后采用基于GRU的注意力机制来提取上下文特征
Figure FDA0002843298590000032
并用它来更新本轮的动作记忆
Figure FDA0002843298590000033
如公式(11)所示;
Figure FDA0002843298590000034
Figure FDA0002843298590000035
Figure FDA0002843298590000036
其中,
Figure FDA0002843298590000037
为一组映射矩阵,
Figure FDA0002843298590000038
为对应的偏置;
同理得到对象特征上的相似度分布
Figure FDA0002843298590000039
如公式(14)所示;
Figure FDA00028432985900000310
Figure FDA00028432985900000311
Figure FDA00028432985900000312
其中,
Figure FDA00028432985900000313
为一组映射矩阵,
Figure FDA00028432985900000314
为对应的偏置。
5.根据权利要求4所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(4)进行多模态记忆动态融合,利用浅层推理机的输出u′作为监视哨,结合问题描述的原始嵌入特征qe,引导下层不同模态记忆内容的权重分配,动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案,其具体过程如下:
4-1.记忆动态融合模块利用上层记忆网络的输出作为监视哨,引导下层不同模态记忆内容的权重分配,动态融合不同模态的记忆,融合后的记忆
Figure FDA00028432985900000317
可由公式(15)计算得到:
Figure FDA00028432985900000315
其中,
Figure FDA00028432985900000316
是可学习的参数,α是密度向量,αa和αo是密度向量α的两个元素;
4-2.记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案;具体地:将
Figure FDA0002843298590000041
和问题特征qe做融合,再通过权重矩阵Wp的映射得到特征向量ν,如公式(16)所示;
Figure FDA0002843298590000042
得到的特征向量ν输入到一个多分类器中去预测问题的答案。
CN202011499931.2A 2020-12-17 2020-12-17 一种跨媒体层次化深度视频问答推理框架 Active CN112527993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499931.2A CN112527993B (zh) 2020-12-17 2020-12-17 一种跨媒体层次化深度视频问答推理框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499931.2A CN112527993B (zh) 2020-12-17 2020-12-17 一种跨媒体层次化深度视频问答推理框架

Publications (2)

Publication Number Publication Date
CN112527993A true CN112527993A (zh) 2021-03-19
CN112527993B CN112527993B (zh) 2022-08-05

Family

ID=75001166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499931.2A Active CN112527993B (zh) 2020-12-17 2020-12-17 一种跨媒体层次化深度视频问答推理框架

Country Status (1)

Country Link
CN (1) CN112527993B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011193A (zh) * 2021-04-09 2021-06-22 广东外语外贸大学 基于Bi-LSTM算法的检测咨询语句重复性评价方法及***
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN115618061A (zh) * 2022-11-29 2023-01-17 广东工业大学 一种语义对齐的视频问答方法
WO2023159979A1 (zh) * 2022-02-22 2023-08-31 中兴通讯股份有限公司 Ai推理方法、***和计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1296243A2 (en) * 2001-09-25 2003-03-26 Interuniversitair Microelektronica Centrum Vzw A method for operating a real-time multimedia terminal in a QoS manner
US20160342895A1 (en) * 2015-05-21 2016-11-24 Baidu Usa Llc Multilingual image question answering
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US10106153B1 (en) * 2018-03-23 2018-10-23 Chongqing Jinkang New Energy Vehicle Co., Ltd. Multi-network-based path generation for vehicle parking
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及***
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1296243A2 (en) * 2001-09-25 2003-03-26 Interuniversitair Microelektronica Centrum Vzw A method for operating a real-time multimedia terminal in a QoS manner
US20160342895A1 (en) * 2015-05-21 2016-11-24 Baidu Usa Llc Multilingual image question answering
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US10106153B1 (en) * 2018-03-23 2018-10-23 Chongqing Jinkang New Energy Vehicle Co., Ltd. Multi-network-based path generation for vehicle parking
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及***
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN111242197A (zh) * 2020-01-07 2020-06-05 中国石油大学(华东) 基于双视域语义推理网络的图像文匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞俊等: ""视觉问答技术研究"", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011193A (zh) * 2021-04-09 2021-06-22 广东外语外贸大学 基于Bi-LSTM算法的检测咨询语句重复性评价方法及***
CN113011193B (zh) * 2021-04-09 2021-11-23 广东外语外贸大学 基于Bi-LSTM算法的检测咨询语句重复性评价方法及***
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
WO2023159979A1 (zh) * 2022-02-22 2023-08-31 中兴通讯股份有限公司 Ai推理方法、***和计算机可读存储介质
CN115618061A (zh) * 2022-11-29 2023-01-17 广东工业大学 一种语义对齐的视频问答方法

Also Published As

Publication number Publication date
CN112527993B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
Shen et al. Question/answer matching for CQA system via combining lexical and sequential information
CN109885756B (zh) 基于cnn和rnn的序列化推荐方法
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN113297364B (zh) 一种面向对话***中的自然语言理解方法及装置
CN109241377A (zh) 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
Zong et al. Emotion recognition in the wild via sparse transductive transfer linear discriminant analysis
Du et al. Full transformer network with masking future for word-level sign language recognition
Zhou et al. Plenty is plague: Fine-grained learning for visual question answering
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
CN112069399A (zh) 一种基于交互匹配的个性化搜索***
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116720519B (zh) 一种苗医药命名实体识别方法
CN116881416A (zh) 关系推理与跨模态独立匹配网络的实例级跨模态检索方法
CN116189047A (zh) 一种基于多模态信息聚合的短视频分类方法
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant