CN107766447B - 一种使用多层注意力网络机制解决视频问答的方法 - Google Patents
一种使用多层注意力网络机制解决视频问答的方法 Download PDFInfo
- Publication number
- CN107766447B CN107766447B CN201710874931.8A CN201710874931A CN107766447B CN 107766447 B CN107766447 B CN 107766447B CN 201710874931 A CN201710874931 A CN 201710874931A CN 107766447 B CN107766447 B CN 107766447B
- Authority
- CN
- China
- Prior art keywords
- video
- level
- attention
- frame
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种利用多层注意力网络机制解决视频问答的方法。主要包括如下步骤:1)针对于一组视频,利用预训练好的卷积神经网络,获得帧级别及分段级别视频表达。2)使用问题单词级别的注意力网络机制,得到针对问题单词级别的帧级别及分段级别视频表达。3)使用问题级别的时间注意力机制,得到与问题相关的帧级别及分段级别视频表达。4)利用问题级别的融合注意力网络机制,得到问题相关的联合视频表达。5)利用所得联合视频表达,获取针对视频所问问题答案。相比于一般视频问答解决方案,本发明利用多层注意力机制,能够更准确地反映视频和问题特性,产生更加符合的答案。本发明在视频问答中所取得的效果相比于传统方法更好。
Description
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用多层注意力网络来生成与视频相关的问题的答案的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要解决的是关于静态图像相关的问答问题。虽然目前的技术针对于静态图像问答,可以取得很好的表现结果,但是这样的方法缺少对于视频中的时间动态信息的建模,所以不能很好地拓展到视频问答任务上面。
针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本方法将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。
本方法将利用2维卷积神经网络进行帧级别的特征提取,利用3维卷积神经网络进行分段级别的视频特征提取。之后利用问题单词级别的注意力网络机制,来分别针对上面获取到的帧级别及分段级别的视频特征,学习得到针对所问问题的单词级别的视频表达。之后利用问题级别的时间注意力机制,学习得到问题相关的帧级别及分段级别的视频表达。最后本方法在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习出问题相关的联合视频表达来处理视频问答问题。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中的时间动态信息的建模的问题,且针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本发明提供一种利用多层注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是:
利用多层注意力网络来解决开放式视频问答问题,包含如下步骤:
1、针对于一组视频、问题、答案训练集,通过2维卷积神经网络获取帧级别的视频特征,通过3维卷积神经网络获取分段级别的视频特征。
2、使用问题单词级别的注意力网络机制,分别针对之前获取的帧级别及分段级别的视频特征,学习得到针对所问问题的单词级别的视频表达。
3、使用问题级别的时间注意力机制,学习得到与问题相关的帧级别及分段级别的视频表达。
4、在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习出问题相关的联合视频表达。
5、利用学习得到的问题相关的联合视频表达,获取针对于视频所问问题的答案。
上述步骤可具体采用如下实现方式:
1、对于所给视频,使用预训练的2维卷积神经网络获取视频v的帧级别的特征其中M(f)代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达。使用预训练的3维卷积神经网络获取视频v的分段级别的特征其中M(s)代表视频分段表达v(s)中的分段数,代表视频第k分段的嵌入表达。则视频的双重特征表达(包含帧级别及分段级别的特征)为v=(v(f),v(s))。
2、针对于视频的帧级别、分段级别的表达和问题文本均为有着可变长度的序列化数据,本发明选择名为“长短期记忆网络”(Long-Short Term Memory network LSTM)的可变循环神经网络来学习其相关的特征表达,该网络单元的更新方法如下:
ft=δg(Wfxt+Ufht-1+bf)
it=δg(Wixt+Uiht-1+bi)
ot=δg(Woxt+Uoht-1+bo)
在上述公式中,xt代表输入向量,ht代表输出向量,ct代表单元状态向量,Ws和Us代表参数矩阵,bs代表偏置向量。激活函数δg(.)和δh(.)分别代表sigmoid函数与双曲正切函数。符号代表元素级相乘操作。
则对于通过LSTM网络取得的帧级别的视频特征表达记为其中代表视频第i帧的特征表达。对于通过LSTM网络取得的分段级别的视频特征表达记为其中代表视频第j分段的特征表达。则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s))。
对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
即单词级别的帧注意力分数的标准化值。
对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
即单词级别的分段注意力分数的标准化值。
5、之后,将视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中。对于给定的视频增广的帧级别的表达输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为对于给定的视频增广的分段级别的表达则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
即问题级别的帧注意力分数的标准化值。
即问题级别的分段注意力分数的标准化值。
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
8、给定问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),则问题级别的针对于帧的混合注意力分数为:
问题级别的针对于分段的注意力分数为:
9、则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
10、则给定问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,soft max(.)为softmax函数。
随后根据获得的各个候选答案的概率分布输出最可能的答案作为所问问题的最终答案。
并且不仅对于有候选答案的视频问答可以利用本发明的方法获取最佳答案,也可以利用本发明中的问题相关的联合视频表达z,作为LSTM网络的输入,生成开放形式的结合视频内容的问题答案。
附图说明
图1是本发明所使用的对于视频问答问题的多层时空注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用多层注意力网络机制来解决视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得答案的概率分布,再与真实的答案进行比较,更新整个多层注意力网络的参数,得到最终的多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的多层注意力网络,得到所预测的答案。
所述的步骤1)采用多层注意力网络来提取视频及问题的综合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达;
1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征,通过LSTM网络,获取视频的帧级别及分段级别的时间特征表达;对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征,结合步骤1.2)找出的问题的输出状态表达,通过注意力模型,找出视频增广的帧表达及增广的分段表达;
1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题级别的双重时间注意力视频表达;
1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题相关的联合视频表达。
所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征其中M(f)代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达;使用预训练的3维卷积神经网络获取视频v的分段级别的特征其中M(s)代表视频分段表达v(s)中的分段数,代表视频第k分段的嵌入表达;则视频的双重特征表达(包含帧级别及分段级别的特征)为v=(v(f),v(s))。
所述的步骤1.2)具体为:
对于步骤1.1)获得的视频的帧级别的表达输入到LSTM网络中,获得帧级别的视频特征表达,记为其中代表视频第i帧的特征表达;对于步骤1.1)获得的视频的分段级别的表达输入到LSTM网络中,获得分段级别的视频特征表达,记为其中代表视频第j分段的特征表达;则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s));
所述的步骤1.3)具体为:
则对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
即单词级别的帧注意力分数的标准化值;
则对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
即单词级别的分段注意力分数的标准化值;
所述的步骤1.4)具体为:
将步骤1.3)获得的视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中;则对于给定的视频增广的帧级别的表达输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为对于给定的视频增广的分段级别的表达则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
即问题级别的帧注意力分数的标准化值;
即问题级别的分段注意力分数的标准化值;
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
所述的步骤1.5)具体为:
利用步骤1.4)获得的问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),按如下公式获得问题级别的针对于帧的混合注意力分数s(f)及问题级别的针对于分段的注意力分数s(s):
则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
所述的步骤2)具体为:
利用步骤1.5)获得的问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,soft max(.)为softmax函数;
随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较,根据比较的差值更新整个多层注意力网络。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,一共构建了两份数据集,分别为YouTube2Text数据集和VideoClip数据集,其中YouTube2Text数据集包含1987条视频片段及122708条文字描述,VideoClip数据集包含201068条视频片段及287933条文字描述。本发明针对于两份数据集中的文字描述分别生成对应的问题答案对,对于YouTube2Text数据集,本发明生成四种问题答案对,分别与视频的对象、数目、地点、人物相关;对于VideoClip数据集,本发明生成四种问题答案对,分别与视频的对象、数目、颜色、地点相关。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于YouTube2Text数据集中的每一个视频取60帧,对于VideoClip数据集中的每一个视频取20帧,将所取的那些帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小,随后利用预训练好的VGGNet获取每一帧的4096维的特征表达。
2)对于YouTube2Text数据集中的每一个视频,利用预训练好的C3DNet获取每一个视频的30个分段,对于VideoClip数据集中的每一个视频,利用预训练好的C3DNet获取每一个视频的5个分段,两个数据集中每个视频提取的每个分段均包含16帧。
3)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有6500个单词,单词向量的维度为300维。
4)对于YouTube2Text数据集,我们把预定义的答案种类数目设定为495。对于VideoClip数据集,我们把预定义的答案种类数目设定为300。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy来对于本发明的效果进行评价。对于本发明提出的DLAN(Dual-Level AttentionNetwork)分为以下3类进行测试,DLAN(f)(仅包含帧级别的视频表达),DLAN(s)(仅包含分段级别的视频表达),DLAN(既包含帧级别也包含分段级别的视频表达)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化,初始的学习率设定为1e-3,每一个LSTM网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(early stopping),批数据集大小(batch size)设为100,使用了ADAM(Adaptive MomentEstimation)的梯度下降技术。另外,对于YouTube2Text数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、地点问题(Location)、人物问题(Person))分别求取测试结果,VideoClip数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、颜色问题(Color)、地点问题(Location))分别求取测试结果。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1 本发明针对于YouTube2Text数据集不同种类问题的测试结果
表2 本发明针对于VideoClip数据集不同种类问题的测试结果
Claims (7)
1.一种使用多层注意力网络机制解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得答案的概率分布,再与真实的答案进行比较,更新整个多层注意力网络的参数,得到最终的多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的多层注意力网络,得到所预测的答案;
所述的步骤1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达;
1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征,通过LSTM网络,获取视频的帧级别及分段级别的时间特征表达;对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征,结合步骤1.2)找出的问题的输出状态表达,通过注意力模型,找出视频增广的帧表达及增广的分段表达;
1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题级别的双重时间注意力视频表达;
1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题相关的联合视频表达。
4.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
则对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
即单词级别的帧注意力分数的标准化值;
则对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
即单词级别的分段注意力分数的标准化值;
5.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.4)为:
将步骤1.3)获得的视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中;则对于给定的视频增广的帧级别的表达输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为对于给定的视频增广的分段级别的表达则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
即问题级别的帧注意力分数的标准化值;
即问题级别的分段注意力分数的标准化值;
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
7.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤2)为:
利用步骤1.5)获得的问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sofmax(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,softmax(.)为softmax函数;
随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较,根据比较的差值更新整个多层注意力网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874931.8A CN107766447B (zh) | 2017-09-25 | 2017-09-25 | 一种使用多层注意力网络机制解决视频问答的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710874931.8A CN107766447B (zh) | 2017-09-25 | 2017-09-25 | 一种使用多层注意力网络机制解决视频问答的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766447A CN107766447A (zh) | 2018-03-06 |
CN107766447B true CN107766447B (zh) | 2021-01-12 |
Family
ID=61266316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710874931.8A Active CN107766447B (zh) | 2017-09-25 | 2017-09-25 | 一种使用多层注意力网络机制解决视频问答的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766447B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549658B (zh) * | 2018-03-12 | 2021-11-30 | 浙江大学 | 一种基于语法分析树上注意力机制的深度学习视频问答方法及*** |
CN108681539B (zh) * | 2018-05-07 | 2019-06-21 | 内蒙古工业大学 | 一种基于卷积神经网络的蒙汉神经翻译方法 |
CN108829756B (zh) * | 2018-05-25 | 2021-10-22 | 杭州一知智能科技有限公司 | 一种利用分层注意力上下文网络解决多轮视频问答的方法 |
CN108763444B (zh) * | 2018-05-25 | 2021-02-05 | 杭州一知智能科技有限公司 | 利用分层编码解码器网络机制来解决视频问答的方法 |
CN108804677B (zh) * | 2018-06-12 | 2021-08-31 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及*** |
CN109002519A (zh) * | 2018-07-09 | 2018-12-14 | 北京慧闻科技发展有限公司 | 基于卷积循环神经网络的答案选择方法、装置和电子设备 |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和*** |
KR102211939B1 (ko) * | 2018-12-07 | 2021-02-04 | 서울대학교산학협력단 | 질의 응답 장치 및 방법 |
CN109815364B (zh) * | 2019-01-18 | 2020-01-14 | 上海极链网络科技有限公司 | 一种海量视频特征提取、存储和检索方法及*** |
CN109857909B (zh) * | 2019-01-22 | 2020-11-20 | 杭州一知智能科技有限公司 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
CN109889923B (zh) * | 2019-02-28 | 2021-03-26 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN109902164B (zh) * | 2019-03-06 | 2020-12-18 | 杭州一知智能科技有限公司 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
CN110263912B (zh) * | 2019-05-14 | 2021-02-26 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110263916B (zh) * | 2019-05-31 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110348462B (zh) * | 2019-07-09 | 2022-03-04 | 北京金山数字娱乐科技有限公司 | 一种图像特征确定、视觉问答方法、装置、设备及介质 |
CN110516791B (zh) * | 2019-08-20 | 2022-04-22 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及*** |
CN110727824B (zh) * | 2019-10-11 | 2022-04-01 | 浙江大学 | 利用多重交互注意力机制解决视频中对象关系问答任务的方法 |
CN111008302B (zh) * | 2019-11-18 | 2022-04-29 | 浙江大学 | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 |
CN110990628A (zh) * | 2019-12-06 | 2020-04-10 | 浙江大学 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
CN110933518B (zh) * | 2019-12-11 | 2020-10-02 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
CN111209439B (zh) * | 2020-01-10 | 2023-11-21 | 北京百度网讯科技有限公司 | 视频片段检索方法、装置、电子设备及存储介质 |
CN111428012B (zh) * | 2020-03-02 | 2023-05-26 | 平安科技(深圳)有限公司 | 基于注意力机制的智能问答方法、装置、设备和存储介质 |
CN111652357B (zh) * | 2020-08-10 | 2021-01-15 | 浙江大学 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其*** |
CN112395887A (zh) * | 2020-11-05 | 2021-02-23 | 北京文思海辉金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN112488111B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112488055B (zh) * | 2020-12-18 | 2022-09-06 | 贵州大学 | 一种基于渐进图注意力网络的视频问答方法 |
CN112860945B (zh) * | 2021-01-07 | 2022-07-08 | 国网浙江省电力有限公司 | 利用帧-字幕自监督进行多模态视频问答的方法 |
CN113609330B (zh) * | 2021-07-15 | 2022-06-14 | 哈尔滨理工大学 | 一种基于文本注意力和细粒度信息的视频问答***、方法、计算机及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9123254B2 (en) * | 2012-06-07 | 2015-09-01 | Xerox Corporation | Method and system for managing surveys |
-
2017
- 2017-09-25 CN CN201710874931.8A patent/CN107766447B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
Also Published As
Publication number | Publication date |
---|---|
CN107766447A (zh) | 2018-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN107463609B (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价*** | |
Zong et al. | Domain regeneration for cross-database micro-expression recognition | |
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
CN109492662B (zh) | 一种基于对抗自编码器模型的零样本图像分类方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN108763444B (zh) | 利用分层编码解码器网络机制来解决视频问答的方法 | |
CN109299657B (zh) | 基于语义注意力保留机制的群体行为识别方法及装置 | |
CN110717431A (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN109711465B (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN110532900A (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN109829049B (zh) | 利用知识库渐进时空注意力网络解决视频问答任务的方法 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成***及方法 | |
Wang | Online Learning Behavior Analysis Based on Image Emotion Recognition. | |
CN110889672A (zh) | 一种基于深度学习的学生打卡及上课状态的检测*** | |
CN111160189A (zh) | 一种基于动态目标训练的深度神经网络人脸表情识别方法 | |
CN109740012B (zh) | 基于深度神经网络对图像语义进行理解和问答的方法 | |
AU2019101138A4 (en) | Voice interaction system for race games | |
CN109889923B (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
CN110705490B (zh) | 视觉情感识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |