CN112527993A - 一种跨媒体层次化深度视频问答推理框架 - Google Patents
一种跨媒体层次化深度视频问答推理框架 Download PDFInfo
- Publication number
- CN112527993A CN112527993A CN202011499931.2A CN202011499931A CN112527993A CN 112527993 A CN112527993 A CN 112527993A CN 202011499931 A CN202011499931 A CN 202011499931A CN 112527993 A CN112527993 A CN 112527993A
- Authority
- CN
- China
- Prior art keywords
- memory
- video
- answer
- reasoning
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种跨媒体层次化深度视频问答推理框架。本发明步骤:1、利用记忆组件保存视频的全局语义信息,通过多轮记忆更新迭代得到浅层推理机。2、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆。3、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理。4、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。本发明推理框架能够在视频问答数据集上取得显著的效果。
Description
技术领域
本发明涉及一种针对视频问答的深度神经网络,尤其涉及一种基于跨媒体统一表达的层次化深度推理框架。
背景技术
跨媒体技术旨在打通不同媒体(如视频媒体、文本媒体)之间的“语义鸿沟”,形成统一的跨媒体语义表达。但由于多媒体数据本身语义的复杂性,在深度学习出现之前,该问题一直没有得到很好地解决。近年来,深度学习在各个研究领域上都取得了惊人的成绩,它借助复杂的神经网络模型对需要解决的任务进行端到端建模,学习跨媒体数据的深度统一表达。由于深度模型强大的语义表达能力,深度跨媒体统一表达模型成为目前的主流方法。
在深度跨媒体统一表达的理论基础上,衍生出一些目前热门的分支方向,如跨媒体检索、视觉描述以及视觉问答等。跨媒体检索旨在给定一种媒体数据从海量数据库中找到最匹配的另一种媒体的相关数据;视觉描述的目标是给一张图像使用一句或几句自然语言对其内容进行有效概述;视觉问答的目标在于使用自然语言描述的问题和一个视觉数据对象作为输入,算法在充分理解自然语言描述和视觉内容后,进行深度推理,最终输出一个自然语言描述的答案。这些任务中,视觉问答相对来说更有挑战性,它涉及视觉内容和自然语言的细粒度理解,同时还需要进行深度知识推理。因此,视觉问答成为近年来学界的研究热点。
视频数据作为一种主流的视觉数据对象,大规模存在于各种社交网站中,它的数据量几乎超过其他媒体数据的总和。相比于图像,视频数据更为复杂。视频不是图像序列数量上简单的堆叠,它包含有视觉、文本、语音等多个模态的数据信息。视频中的视觉对象会随着时间的变化呈现不同视角的视觉特征,且不同时刻的空间视觉信息相互关联。另外,基于视频数据的视觉问答涉及更为复杂的问题。用户可以根据视频内容提出高自由度的多样性问题。视频问答任务下的问题除了颜色、数量、位置等静态空间信息相关的问题外,通常还包括动作类别、动作时序关系推理等复杂的问题。另外,给定一个视频数据对象,模型对于不同的问题给出正确的回答所依赖的视觉信息量是不同的。有的问题只依赖一帧信息就能给出有效回答,有的则需要理解完整视频的语义才能正确预测出答案。
综上所述,视频问答的难点在于如何在正确有效地理解视频内容以及充分准确地理解问题意图的基础上,构建高效的跨媒体问答推理框架,从而提升答案预测的准确性。
发明内容
本发明提供了一种针对复杂长时视频问答的深度分层推理框架,该架构主要包含:1、构建浅层推理机:执行无关信息过滤功能,从复杂长时视频所有可能的长序列信息中识别出与问题描述相关的重要视觉内容,过滤掉无关的视觉信息,避免深层记忆网络信息及噪声的超载;2、构建深层推理机:在浅层推理机的引导下,利用来自视觉和自然语言更深层的语义证据进行更精细的推理,学习更为细粒度的注意力,以提高跨模态任务推理的质量。在视频问答方面,利用本发明的深度推理框架改善推理质量,取得了比传统视觉问答模型更好的效果。3、记忆动态融合模块:用于动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。
本发明解决其技术问题所采用的技术方案如下:
步骤(1)、利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息。
步骤(2)、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆。
步骤(3)、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理,以提高问答的质量。
步骤(4)、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。
进一步的,步骤(1)所述的利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代,推理出与问题描述的全局语义特征最相关的视觉信息,具体如下:
Xe=tanh(WxX+bx) (公式1)
1-2.使用硬注意力机制进行特征选择。计算问题描述特征与视频特征Xe之间的相似度,根据相似度的分数对视频特征进行排序,挑选出相似度最高的前n个与问题最相关的视频特征去更新浅层推理机中的记忆单元,从而得到最近邻的n个键值对,key={k1,k2,...,kn},value={v1,v2,...,vn},更新后的视频特征序列集,如公式(3)所示:
Γ(y1,...,yn)={j1,...jn},当yj1≥yj2≥…≥yjn (公式4)
其中fs表示相似性测度,Γ是排序操作。
1-3.基于更新后的视频特征序列集,浅层推理机学习问题描述特征在每个记忆单元上的概率分布ρ。通过加权和操作获得浅层推理机的输出z,结合原始输入的问题描述特征作为下一轮推理的问题。公式(5)(6)中的Gx和Gq分别表示两个前馈全连接神经网络。
其中vi为第i个记忆单元的存储内容。
步骤(2)所述的基于引导型浅层推理机,构建深层多模态记忆网络,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆模块,形成空间记忆和时序记忆,具体如下:
通过一个1×1的卷积神经网络将视频中的对象特征 转化为空间记忆模块的内在向量特征,使用另一个1×1的卷积神经网络将视频中的动作特征嵌入到时序记忆模块。其中do为对象特征的维度,k为对象的数量,da为动作特征的维度,l为动作的数量。
所述的多模态子成分包括对象特征和动作特征;
所述的不同模态的记忆模块包括空间记忆模块和时序记忆模块;步骤(3)构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理,具体如下:
3-1.对于第λ轮推理,给定动作特征ai,问题的描述特征h′l和上一时刻的动作记忆通过P(·)和D(·)这两个组合相似度的计算获得动作特征的相似度分布如公式(7)所示。同样的给出对象特征oi,得到对象特征上的相似度分布如公式(8)所示。
其中,P(·)和D(·)是两个相似度计算函数。
3-2.考虑到对象特征和动作特征对于高质量的推理问答都起着非常重要的作用,多模态记忆协同推理框架作为一个可交互的推理机,允许动作记忆和对象记忆动态交互,当更新某一模态的记忆时,另一模态的记忆会为注意力的学习提供有用的线索,具体地:
计算某一模态记忆内容的更新门控信号时,除了考虑模态本身之外,还需要考虑另一模态的影响。以动作模态为例,动作记忆的更新门控信号可以由公式(10)得到,随后采用基于GRU的注意力机制来提取上下文特征并用它来更新本轮的动作记忆如公式(11)所示。
步骤(4)进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案,其具体过程如下:
4-1.由于问题描述的复杂性和多样性,不同的视觉子模态对于问答模型的贡献大小是动态变化的。记忆动态融合模块利用浅层推理机的输出u′作为监视哨,结合问题描述的原始嵌入特征qe,引导深层推理机不同模态记忆内容的权重分配,动态融合不同模态的记忆,融合后的记忆可由公式(15)计算得到:
将得到的特征向量ν输入到一个回答模块(多分类器)中去预测问题的答案。
本发明有益效果:
本发明对复杂的长时网络视频问答问题,提出了一种新的由粗到细的层次深度推理框架,首先通过构建浅层推理机从一个长视频序列中过滤无效信息并且识别出重要视觉内容,学习粗粒度的视频全局的注意力,然后构建深层推理机分别从帧间和帧内两个方向进行深度优化推理。通过多轮推理迭代,我们的推理框架能够模拟人类的视频问答推理过程,先从长时视频中定位与问题相关的关键时刻,再收集相关的证据来预测答案。我们发明的推理框架能够在视频问答数据集上取得显著的效果。
附图说明
图1是本发明方法的总体框架示意图。
图2是本发明方法中构造的引导型浅层推理机。
图3是本发明方法中构造的优化型深层推理机。
具体实施方式
下面对本发明的详细参数做进一步具体说明。
如图1所示,本发明提供一种针对复杂视频问答的层次化深度问答推理框架。
步骤(1)所述的利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息,如图2所示,具体如下:
对于全局视频数据特征的提取,使用大规模预训练的神经网络VGG和3D-CNN去抽取中间特征,这些特征再输入双向GRU网络得到全局感知的语义特征其中dx=2048是特征的维度。对于问题描述特征的提取,首先采用浅层词嵌入模型Glove对每个词进行编码来捕捉单词的语义,之后将生成的词向量依次输入含有dq=256隐含单元的双向LSTM网络,学习问题描述的上下文信息,最后拼接每个时刻前后向的隐藏状态来表示问题描述的全局语义
1-2.使用硬注意力机制进行特征选择。计算问题描述特征与视频特征之间的相似度,根据相似性分数对视频特征进行排序,挑选出相似度最高的前20个与问题最相关的视频特征去更新记忆网络的存储单元,从而得到最近邻的20个键值对,key={k1,k2,...,kn},value={v1,v2,...,vn},形成更新后的视频特征序列。
1-3.基于更新后的记忆内容,学习问题描述在每个记忆单元上的概率分布ρ。通过加权和操作获得该层网络的输出z,结合问题描述的原始特征作为下一轮推理的更新后的问题。
步骤(2)所述的在浅层推理机的基础上,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆,具体如下:
利用现有的Faster-RCNN模型抽取视频对象的特征,基于浅层推理机,利用Faster-RCNN模型在20个重要的视频单元内依次检测出36个目标,对每个目标的物体提取4096维的对象特征。接着,通过一个1×1的卷积神经网络将视频中的对象特征,转化为空间记忆模块的内在向量,形成空间记忆。
借助一个外部预训练的视频时序候选生成网络来预测视频中最具有潜在动作的前l=30个时序段,对这30个时序段按照步骤(1)提取视频的特征作为视频动作特征。使用另一个1×1的卷积神经网络将视频中的动作特征嵌入到时序记忆模块,形成时序记忆。
步骤(3)所述的构建多模态记忆协同推理,利用来自对象和动作的多模态证据执行更为精细的推理,如图3所示,具体如下:
3-1.利用来自对象和动作的多模态证据执行更为精细的推理,对于第λ轮推理,给定动作特征,问题的特征和上一时刻的动作记忆我们通过元素点乘相似度函数和元素绝对值相似度函数的计算获得动作特征的相似度分布。同理可以得到对象特征上的相似度分布。
3-2.计算记忆更新门控信号。在计算动作记忆的更新门控时,除了考虑动作模态本身之外,还需要考虑对象模态的影响。同理,在计算对象记忆的更新门控时,除了考虑对象模态,还需要动作模态来提供有利的线索。随后采用基于GRU的注意力机制来提取上下文特征,并用它来更新本轮的动作记忆
步骤(4)进行多模态记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案,如图3所示,具体如下:
4-1.记忆动态融合模块利用浅层推理机的输出作为监视哨,引导深层不同模态记忆内容的权重分配,动态融合不同模态的记忆。该模块首先将256维的浅层推理机的记忆u′和300维的问题特征qe进行拼接,再经过一个2×556的矩阵变换后通过softmax的二分类器,得到深层推理机的不同子模态的权重,最后使用加权和运算得出融合后的记忆
Claims (5)
1.一种跨媒体层次化深度视频问答推理框架,其特征在于包括如下步骤:
步骤(1)、利用记忆组件保存视频的全局语义信息,在问题描述的全局视觉特征的引导下,通过多轮记忆更新迭代得到浅层推理机,用于推理与问题描述的全局语义特征最相关的视觉信息;
步骤(2)、基于浅层推理机,构建深层推理机,将视频深层语义解析下的多模态子成分嵌入不同模态的记忆卡槽,形成空间记忆和时序记忆;
步骤(3)、构建多模态记忆协同推理框架,利用来自对象和动作的多模态证据执行更为精细的推理,以提高问答的质量;
步骤(4)、进行多模态记忆动态融合,利用浅层推理机的输出作为监视哨,引导下层不同模态记忆内容的权重分配,通过框架中的记忆动态融合模块动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案。
2.根据权利要求1所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(1)具体如下:
Xe=tanh(WxX+bx) (公式1)
1-2.使用硬注意力机制进行特征选择,计算问题描述特征与视频特征Xe之间的相似度,根据相似度的分数对视频特征进行排序,挑选出相似度最高的前n个与问题最相关的视频特征去更新浅层推理机中的记忆单元,从而得到最近邻的n个键值对,key={k1,k2,...,kn},value={v1,v2,...,vn},更新后的视频特征序列集,如公式(3)所示:
Γ(y1,...,yn)={j1,...jn},当yj1≥yj2≥…≥yjn (公式4)
其中fs表示相似性测度,Γ是排序操作;
1-3.基于更新后的视频特征序列集,浅层推理机学习问题描述特征在每个记忆单元上的概率分布ρ;通过加权和操作获得浅层推理机的输出z,结合原始输入的问题描述特征作为下一轮推理的问题;公式(5)(6)中的Gx和Gq分别表示两个前馈全连接神经网络;
其中vi为第i个记忆单元的存储内容。
4.根据权利要求3所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(3)具体如下:
3-1.利用来自对象和动作的多模态证据执行更为精细的推理,对于第λ轮推理,给定动作ai,问题的动词特征h′l和上一时刻的动作记忆通过P(·)和D(·)这两个组合相似度的计算获得动作特征的相似度分布如公式(7)所示;同样得到对象特征上的相似度分布如公式(8)所示;
3-2.多模态记忆协同推理模块作为一个可交互的推理机,允许动作记忆和对象记忆动态交互,当更新某一模态的记忆时,另一模态的记忆会为注意力的学习提供有用的线索;当动作模态更新时,动作记忆的更新门控由公式(10)得到,随后采用基于GRU的注意力机制来提取上下文特征并用它来更新本轮的动作记忆如公式(11)所示;
5.根据权利要求4所述的一种跨媒体层次化深度视频问答推理框架,其特征在于步骤(4)进行多模态记忆动态融合,利用浅层推理机的输出u′作为监视哨,结合问题描述的原始嵌入特征qe,引导下层不同模态记忆内容的权重分配,动态融合不同模态的记忆,该记忆动态融合模块的输出将作为回答模块的输入去预测最佳答案,其具体过程如下:
得到的特征向量ν输入到一个多分类器中去预测问题的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011499931.2A CN112527993B (zh) | 2020-12-17 | 2020-12-17 | 一种跨媒体层次化深度视频问答推理框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011499931.2A CN112527993B (zh) | 2020-12-17 | 2020-12-17 | 一种跨媒体层次化深度视频问答推理框架 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112527993A true CN112527993A (zh) | 2021-03-19 |
CN112527993B CN112527993B (zh) | 2022-08-05 |
Family
ID=75001166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011499931.2A Active CN112527993B (zh) | 2020-12-17 | 2020-12-17 | 一种跨媒体层次化深度视频问答推理框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112527993B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011193A (zh) * | 2021-04-09 | 2021-06-22 | 广东外语外贸大学 | 基于Bi-LSTM算法的检测咨询语句重复性评价方法及*** |
CN113536952A (zh) * | 2021-06-22 | 2021-10-22 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN115618061A (zh) * | 2022-11-29 | 2023-01-17 | 广东工业大学 | 一种语义对齐的视频问答方法 |
WO2023159979A1 (zh) * | 2022-02-22 | 2023-08-31 | 中兴通讯股份有限公司 | Ai推理方法、***和计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1296243A2 (en) * | 2001-09-25 | 2003-03-26 | Interuniversitair Microelektronica Centrum Vzw | A method for operating a real-time multimedia terminal in a QoS manner |
US20160342895A1 (en) * | 2015-05-21 | 2016-11-24 | Baidu Usa Llc | Multilingual image question answering |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
US10106153B1 (en) * | 2018-03-23 | 2018-10-23 | Chongqing Jinkang New Energy Vehicle Co., Ltd. | Multi-network-based path generation for vehicle parking |
CN108846384A (zh) * | 2018-07-09 | 2018-11-20 | 北京邮电大学 | 融合视频感知的多任务协同识别方法及*** |
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN109919044A (zh) * | 2019-02-18 | 2019-06-21 | 清华大学 | 基于预测进行特征传播的视频语义分割方法及装置 |
CN111242197A (zh) * | 2020-01-07 | 2020-06-05 | 中国石油大学(华东) | 基于双视域语义推理网络的图像文匹配方法 |
-
2020
- 2020-12-17 CN CN202011499931.2A patent/CN112527993B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1296243A2 (en) * | 2001-09-25 | 2003-03-26 | Interuniversitair Microelektronica Centrum Vzw | A method for operating a real-time multimedia terminal in a QoS manner |
US20160342895A1 (en) * | 2015-05-21 | 2016-11-24 | Baidu Usa Llc | Multilingual image question answering |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
US10106153B1 (en) * | 2018-03-23 | 2018-10-23 | Chongqing Jinkang New Energy Vehicle Co., Ltd. | Multi-network-based path generation for vehicle parking |
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN108846384A (zh) * | 2018-07-09 | 2018-11-20 | 北京邮电大学 | 融合视频感知的多任务协同识别方法及*** |
CN109919044A (zh) * | 2019-02-18 | 2019-06-21 | 清华大学 | 基于预测进行特征传播的视频语义分割方法及装置 |
CN111242197A (zh) * | 2020-01-07 | 2020-06-05 | 中国石油大学(华东) | 基于双视域语义推理网络的图像文匹配方法 |
Non-Patent Citations (1)
Title |
---|
俞俊等: ""视觉问答技术研究"", 《计算机研究与发展》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011193A (zh) * | 2021-04-09 | 2021-06-22 | 广东外语外贸大学 | 基于Bi-LSTM算法的检测咨询语句重复性评价方法及*** |
CN113011193B (zh) * | 2021-04-09 | 2021-11-23 | 广东外语外贸大学 | 基于Bi-LSTM算法的检测咨询语句重复性评价方法及*** |
CN113536952A (zh) * | 2021-06-22 | 2021-10-22 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN113536952B (zh) * | 2021-06-22 | 2023-04-21 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
WO2023159979A1 (zh) * | 2022-02-22 | 2023-08-31 | 中兴通讯股份有限公司 | Ai推理方法、***和计算机可读存储介质 |
CN115618061A (zh) * | 2022-11-29 | 2023-01-17 | 广东工业大学 | 一种语义对齐的视频问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112527993B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
Shen et al. | Question/answer matching for CQA system via combining lexical and sequential information | |
CN109885756B (zh) | 基于cnn和rnn的序列化推荐方法 | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN113297364B (zh) | 一种面向对话***中的自然语言理解方法及装置 | |
CN109241377A (zh) | 一种基于深度学习话题信息增强的文本文档表示方法和装置 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
Zong et al. | Emotion recognition in the wild via sparse transductive transfer linear discriminant analysis | |
Du et al. | Full transformer network with masking future for word-level sign language recognition | |
Zhou et al. | Plenty is plague: Fine-grained learning for visual question answering | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN114970517A (zh) | 一种基于多模态交互的上下文感知的面向视觉问答的方法 | |
CN113609326A (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN112069399A (zh) | 一种基于交互匹配的个性化搜索*** | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN115408603A (zh) | 一种基于多头自注意力机制的在线问答社区专家推荐方法 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 | |
CN116881416A (zh) | 关系推理与跨模态独立匹配网络的实例级跨模态检索方法 | |
CN116189047A (zh) | 一种基于多模态信息聚合的短视频分类方法 | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |