CN107766447B - 一种使用多层注意力网络机制解决视频问答的方法 - Google Patents

一种使用多层注意力网络机制解决视频问答的方法 Download PDF

Info

Publication number
CN107766447B
CN107766447B CN201710874931.8A CN201710874931A CN107766447B CN 107766447 B CN107766447 B CN 107766447B CN 201710874931 A CN201710874931 A CN 201710874931A CN 107766447 B CN107766447 B CN 107766447B
Authority
CN
China
Prior art keywords
video
level
attention
frame
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710874931.8A
Other languages
English (en)
Other versions
CN107766447A (zh
Inventor
赵洲
孟令涛
林靖豪
姜兴华
蔡登�
何晓飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710874931.8A priority Critical patent/CN107766447B/zh
Publication of CN107766447A publication Critical patent/CN107766447A/zh
Application granted granted Critical
Publication of CN107766447B publication Critical patent/CN107766447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种利用多层注意力网络机制解决视频问答的方法。主要包括如下步骤:1)针对于一组视频,利用预训练好的卷积神经网络,获得帧级别及分段级别视频表达。2)使用问题单词级别的注意力网络机制,得到针对问题单词级别的帧级别及分段级别视频表达。3)使用问题级别的时间注意力机制,得到与问题相关的帧级别及分段级别视频表达。4)利用问题级别的融合注意力网络机制,得到问题相关的联合视频表达。5)利用所得联合视频表达,获取针对视频所问问题答案。相比于一般视频问答解决方案,本发明利用多层注意力机制,能够更准确地反映视频和问题特性,产生更加符合的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

Description

一种使用多层注意力网络机制解决视频问答的方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用多层注意力网络来生成与视频相关的问题的答案的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要解决的是关于静态图像相关的问答问题。虽然目前的技术针对于静态图像问答,可以取得很好的表现结果,但是这样的方法缺少对于视频中的时间动态信息的建模,所以不能很好地拓展到视频问答任务上面。
针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本方法将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。
本方法将利用2维卷积神经网络进行帧级别的特征提取,利用3维卷积神经网络进行分段级别的视频特征提取。之后利用问题单词级别的注意力网络机制,来分别针对上面获取到的帧级别及分段级别的视频特征,学习得到针对所问问题的单词级别的视频表达。之后利用问题级别的时间注意力机制,学习得到问题相关的帧级别及分段级别的视频表达。最后本方法在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习出问题相关的联合视频表达来处理视频问答问题。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中的时间动态信息的建模的问题,且针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本发明提供一种利用多层注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是:
利用多层注意力网络来解决开放式视频问答问题,包含如下步骤:
1、针对于一组视频、问题、答案训练集,通过2维卷积神经网络获取帧级别的视频特征,通过3维卷积神经网络获取分段级别的视频特征。
2、使用问题单词级别的注意力网络机制,分别针对之前获取的帧级别及分段级别的视频特征,学习得到针对所问问题的单词级别的视频表达。
3、使用问题级别的时间注意力机制,学习得到与问题相关的帧级别及分段级别的视频表达。
4、在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习出问题相关的联合视频表达。
5、利用学习得到的问题相关的联合视频表达,获取针对于视频所问问题的答案。
上述步骤可具体采用如下实现方式:
1、对于所给视频,使用预训练的2维卷积神经网络获取视频v的帧级别的特征
Figure BDA0001417907660000021
其中M(f)代表视频帧表达v(f)中的帧数,
Figure BDA0001417907660000022
代表视频第j帧的嵌入表达。使用预训练的3维卷积神经网络获取视频v的分段级别的特征
Figure BDA0001417907660000023
其中M(s)代表视频分段表达v(s)中的分段数,
Figure BDA0001417907660000024
代表视频第k分段的嵌入表达。则视频的双重特征表达(包含帧级别及分段级别的特征)为v=(v(f),v(s))。
2、针对于视频的帧级别、分段级别的表达和问题文本均为有着可变长度的序列化数据,本发明选择名为“长短期记忆网络”(Long-Short Term Memory network LSTM)的可变循环神经网络来学习其相关的特征表达,该网络单元的更新方法如下:
ft=δg(Wfxt+Ufht-1+bf)
it=δg(Wixt+Uiht-1+bi)
ot=δg(Woxt+Uoht-1+bo)
Figure BDA0001417907660000025
Figure BDA0001417907660000031
在上述公式中,xt代表输入向量,ht代表输出向量,ct代表单元状态向量,Ws和Us代表参数矩阵,bs代表偏置向量。激活函数δg(.)和δh(.)分别代表sigmoid函数与双曲正切函数。
Figure BDA0001417907660000032
符号代表元素级相乘操作。
则对于通过LSTM网络取得的帧级别的视频特征表达记为
Figure BDA0001417907660000033
其中
Figure BDA0001417907660000034
代表视频第i帧的特征表达。对于通过LSTM网络取得的分段级别的视频特征表达记为
Figure BDA0001417907660000035
其中
Figure BDA0001417907660000036
代表视频第j分段的特征表达。则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s))。
对于通过LSTM网络取得的问题的输出状态表达记为
Figure BDA0001417907660000037
其中
Figure BDA0001417907660000038
为问题q的第k个单词的输出状态表达。
3、给定问题的输出状态表达
Figure BDA0001417907660000039
及帧级别的视频特征表达
Figure BDA00014179076600000310
按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数
Figure BDA00014179076600000311
Figure BDA00014179076600000312
其中,
Figure BDA00014179076600000313
Figure BDA00014179076600000314
为参数矩阵,
Figure BDA00014179076600000315
为偏置向量,p(f,w)为用来计算单词级别帧注意力分数的参数向量,tanh(.)为反正切函数,
Figure BDA00014179076600000316
为视频v的第i帧的输出状态表达,
Figure BDA00014179076600000317
为问题q的第k个单词的输出状态表达。
对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
Figure BDA00014179076600000318
即单词级别的帧注意力分数的标准化值。
则单词级别的第i帧的注意力表达为
Figure BDA00014179076600000319
则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接,记为
Figure BDA0001417907660000041
4、给定问题的输出状态表达
Figure BDA0001417907660000042
及分段级别的视频特征表达
Figure BDA0001417907660000043
按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的分段的注意力分数
Figure BDA0001417907660000044
Figure BDA0001417907660000045
其中,
Figure BDA0001417907660000046
Figure BDA0001417907660000047
为参数矩阵,
Figure BDA0001417907660000048
为偏置向量,p(s,w)为用来计算单词级别分段注意力分数的参数向量,tanh(.)为反正切函数,
Figure BDA0001417907660000049
为视频v的第j帧的输出状态表达,
Figure BDA00014179076600000410
为问题q的第k个单词的输出状态表达。
对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
Figure BDA00014179076600000411
即单词级别的分段注意力分数的标准化值。
则单词级别的第j分段的注意力表达为
Figure BDA00014179076600000412
则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接,记为
Figure BDA00014179076600000413
5、之后,将视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中。对于给定的视频增广的帧级别的表达
Figure BDA00014179076600000414
输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
Figure BDA00014179076600000415
对于给定的视频增广的分段级别的表达
Figure BDA00014179076600000416
则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
Figure BDA00014179076600000417
6、给定帧级别的视频增广表达
Figure BDA00014179076600000418
及问题文本的最后输出状态
Figure BDA0001417907660000051
则针对于视频第i个编码增广帧的问题级别的帧时间注意力分数为:
Figure BDA0001417907660000052
其中
Figure BDA0001417907660000053
Figure BDA0001417907660000054
为参数矩阵,
Figure BDA0001417907660000055
为偏置向量,p(f,q)为计算问题级别的帧时间注意力分数的参数向量。tanh(.)为反正切函数。
Figure BDA0001417907660000056
为第i帧的视频编码增广表达。
对于每一个视频帧的编码增广表达
Figure BDA0001417907660000057
其针对于问题的时间softmax激活函数为:
Figure BDA0001417907660000058
即问题级别的帧注意力分数的标准化值。
则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加,即为:
Figure BDA0001417907660000059
7、给定分段级别的视频增广表达
Figure BDA00014179076600000510
及问题文本的最后输出状态
Figure BDA00014179076600000511
则针对于视频第j个编码增广分段的问题级别的分段时间注意力分数为:
Figure BDA00014179076600000512
其中
Figure BDA00014179076600000513
Figure BDA00014179076600000514
为参数矩阵,
Figure BDA00014179076600000515
为偏置向量,p(s,q)为计算问题级别的帧时间注意力分数的参数向量。tanh(.)为反正切函数。
Figure BDA00014179076600000516
为第j分段的视频编码增广表达。
对于每一个视频分段的编码增广表达
Figure BDA00014179076600000517
其针对于问题的时间softmax激活函数为:
Figure BDA00014179076600000518
即问题级别的分段注意力分数的标准化值。
则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加,即为:
Figure BDA0001417907660000061
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
8、给定问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),则问题级别的针对于帧的混合注意力分数为:
Figure BDA0001417907660000062
问题级别的针对于分段的注意力分数为:
Figure BDA0001417907660000063
其中
Figure BDA0001417907660000064
为参数矩阵,bs为偏置向量,p为计算混合注意力分数的参数向量,
Figure BDA0001417907660000065
为问题文本的最后输出状态,tanh(.)为反正切函数。
9、则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
Figure BDA0001417907660000066
10、则给定问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,soft max(.)为softmax函数。
随后根据获得的各个候选答案的概率分布输出最可能的答案作为所问问题的最终答案。
并且不仅对于有候选答案的视频问答可以利用本发明的方法获取最佳答案,也可以利用本发明中的问题相关的联合视频表达z,作为LSTM网络的输入,生成开放形式的结合视频内容的问题答案。
附图说明
图1是本发明所使用的对于视频问答问题的多层时空注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用多层注意力网络机制来解决视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得答案的概率分布,再与真实的答案进行比较,更新整个多层注意力网络的参数,得到最终的多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的多层注意力网络,得到所预测的答案。
所述的步骤1)采用多层注意力网络来提取视频及问题的综合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达;
1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征,通过LSTM网络,获取视频的帧级别及分段级别的时间特征表达;对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征,结合步骤1.2)找出的问题的输出状态表达,通过注意力模型,找出视频增广的帧表达及增广的分段表达;
1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题级别的双重时间注意力视频表达;
1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题相关的联合视频表达。
所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征
Figure BDA0001417907660000081
其中M(f)代表视频帧表达v(f)中的帧数,
Figure BDA0001417907660000082
代表视频第j帧的嵌入表达;使用预训练的3维卷积神经网络获取视频v的分段级别的特征
Figure BDA0001417907660000083
其中M(s)代表视频分段表达v(s)中的分段数,
Figure BDA0001417907660000084
代表视频第k分段的嵌入表达;则视频的双重特征表达(包含帧级别及分段级别的特征)为v=(v(f),v(s))。
所述的步骤1.2)具体为:
对于步骤1.1)获得的视频的帧级别的表达
Figure BDA0001417907660000085
输入到LSTM网络中,获得帧级别的视频特征表达,记为
Figure BDA0001417907660000086
其中
Figure BDA0001417907660000087
代表视频第i帧的特征表达;对于步骤1.1)获得的视频的分段级别的表达
Figure BDA0001417907660000088
输入到LSTM网络中,获得分段级别的视频特征表达,记为
Figure BDA0001417907660000089
其中
Figure BDA00014179076600000810
代表视频第j分段的特征表达;则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s));
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为
Figure BDA00014179076600000811
其中
Figure BDA00014179076600000812
为问题q的第k个单词的输出状态表达。
所述的步骤1.3)具体为:
对于步骤1.2)获得的问题的输出状态表达
Figure BDA00014179076600000813
及帧级别的视频特征表达
Figure BDA00014179076600000814
按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数
Figure BDA00014179076600000815
Figure BDA00014179076600000816
其中,
Figure BDA00014179076600000817
Figure BDA00014179076600000818
为参数矩阵,
Figure BDA00014179076600000819
为偏置向量,p(f,w)为用来计算单词级别帧注意力分数的参数向量,tanh(.)为反正切函数,
Figure BDA00014179076600000820
为视频v的第i帧的输出状态表达,
Figure BDA00014179076600000821
为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
Figure BDA0001417907660000091
即单词级别的帧注意力分数的标准化值;
则单词级别的第i帧的注意力表达为
Figure BDA0001417907660000092
则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接,记为
Figure BDA0001417907660000093
对于步骤1.2)获得的问题的输出状态表达
Figure BDA0001417907660000094
及分段级别的视频特征表达
Figure BDA0001417907660000095
按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的帧的注意力分数
Figure BDA0001417907660000096
Figure BDA0001417907660000097
其中,
Figure BDA0001417907660000098
Figure BDA0001417907660000099
为参数矩阵,
Figure BDA00014179076600000910
为偏置向量,p(s,w)为用来计算单词级别分段注意力分数的参数向量,tanh(.)为反正切函数,
Figure BDA00014179076600000911
为视频v的第j帧的输出状态表达,
Figure BDA00014179076600000912
为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
Figure BDA00014179076600000913
即单词级别的分段注意力分数的标准化值;
则单词级别的第j分段的注意力表达为
Figure BDA00014179076600000914
则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接,记为
Figure BDA00014179076600000915
所述的步骤1.4)具体为:
将步骤1.3)获得的视频增广的帧级别表达
Figure BDA00014179076600000916
与视频增广的分段级别的表达
Figure BDA00014179076600000917
分别输入到第二层LSTM网络中;则对于给定的视频增广的帧级别的表达
Figure BDA00014179076600000918
输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
Figure BDA0001417907660000101
对于给定的视频增广的分段级别的表达
Figure BDA0001417907660000102
则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
Figure BDA0001417907660000103
结合所得到的针对于帧级别的视频增广表达的LSTM输出
Figure BDA0001417907660000104
及问题文本的最后输出状态
Figure BDA0001417907660000105
按如下公式获取针对于视频第i个编码增广帧的问题级别的帧时间注意力分数:
Figure BDA0001417907660000106
其中
Figure BDA0001417907660000107
Figure BDA0001417907660000108
为参数矩阵,
Figure BDA0001417907660000109
为偏置向量,p(f,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,
Figure BDA00014179076600001010
为第i帧的视频编码增广表达;
对于每一个视频帧的编码增广表达
Figure BDA00014179076600001011
其针对于问题的时间softmax激活函数为:
Figure BDA00014179076600001012
即问题级别的帧注意力分数的标准化值;
则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加,即为:
Figure BDA00014179076600001013
结合所得到的针对于分段级别的视频增广表达的LSTM输出
Figure BDA00014179076600001014
及问题文本的最后输出状态
Figure BDA00014179076600001015
按如下公式获取针对于视频第j个编码增广分段的问题级别的分段时间注意力分数:
Figure BDA00014179076600001016
其中
Figure BDA00014179076600001017
Figure BDA00014179076600001018
为参数矩阵,
Figure BDA00014179076600001019
为偏置向量,p(s,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,
Figure BDA00014179076600001020
为第j分段的视频编码增广表达;
对于每一个视频分段的编码增广表达
Figure BDA0001417907660000111
其针对于问题的时间softmax激活函数为:
Figure BDA0001417907660000112
即问题级别的分段注意力分数的标准化值;
则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加,即为:
Figure BDA0001417907660000113
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
所述的步骤1.5)具体为:
利用步骤1.4)获得的问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),按如下公式获得问题级别的针对于帧的混合注意力分数s(f)及问题级别的针对于分段的注意力分数s(s)
Figure BDA0001417907660000114
Figure BDA0001417907660000115
其中
Figure BDA0001417907660000116
为参数矩阵,bs为偏置向量,p为计算混合注意力分数的参数向量,
Figure BDA0001417907660000117
为问题文本的最后输出状态,tanh(.)为反正切函数;
则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
Figure BDA0001417907660000118
所述的步骤2)具体为:
利用步骤1.5)获得的问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,soft max(.)为softmax函数;
随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较,根据比较的差值更新整个多层注意力网络。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,一共构建了两份数据集,分别为YouTube2Text数据集和VideoClip数据集,其中YouTube2Text数据集包含1987条视频片段及122708条文字描述,VideoClip数据集包含201068条视频片段及287933条文字描述。本发明针对于两份数据集中的文字描述分别生成对应的问题答案对,对于YouTube2Text数据集,本发明生成四种问题答案对,分别与视频的对象、数目、地点、人物相关;对于VideoClip数据集,本发明生成四种问题答案对,分别与视频的对象、数目、颜色、地点相关。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于YouTube2Text数据集中的每一个视频取60帧,对于VideoClip数据集中的每一个视频取20帧,将所取的那些帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小,随后利用预训练好的VGGNet获取每一帧的4096维的特征表达。
2)对于YouTube2Text数据集中的每一个视频,利用预训练好的C3DNet获取每一个视频的30个分段,对于VideoClip数据集中的每一个视频,利用预训练好的C3DNet获取每一个视频的5个分段,两个数据集中每个视频提取的每个分段均包含16帧。
3)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有6500个单词,单词向量的维度为300维。
4)对于YouTube2Text数据集,我们把预定义的答案种类数目设定为495。对于VideoClip数据集,我们把预定义的答案种类数目设定为300。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy来对于本发明的效果进行评价。对于本发明提出的DLAN(Dual-Level AttentionNetwork)分为以下3类进行测试,DLAN(f)(仅包含帧级别的视频表达),DLAN(s)(仅包含分段级别的视频表达),DLAN(既包含帧级别也包含分段级别的视频表达)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化,初始的学习率设定为1e-3,每一个LSTM网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(early stopping),批数据集大小(batch size)设为100,使用了ADAM(Adaptive MomentEstimation)的梯度下降技术。另外,对于YouTube2Text数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、地点问题(Location)、人物问题(Person))分别求取测试结果,VideoClip数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、颜色问题(Color)、地点问题(Location))分别求取测试结果。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
Figure BDA0001417907660000131
表1 本发明针对于YouTube2Text数据集不同种类问题的测试结果
Figure BDA0001417907660000141
表2 本发明针对于VideoClip数据集不同种类问题的测试结果

Claims (7)

1.一种使用多层注意力网络机制解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得答案的概率分布,再与真实的答案进行比较,更新整个多层注意力网络的参数,得到最终的多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的多层注意力网络,得到所预测的答案;
所述的步骤1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达;
1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征,通过LSTM网络,获取视频的帧级别及分段级别的时间特征表达;对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征,结合步骤1.2)找出的问题的输出状态表达,通过注意力模型,找出视频增广的帧表达及增广的分段表达;
1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题级别的双重时间注意力视频表达;
1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题相关的联合视频表达。
2.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频的帧级别的表达
Figure FDA0002744475080000011
其中M(f)代表视频帧表达v(f)中的帧数,
Figure FDA0002744475080000012
代表视频第j帧的嵌入表达;使用预训练的3维卷积神经网络获取视频v的分段级别的特征
Figure FDA0002744475080000021
其中M(s)代表视频分段表达v(s)中的分段数,
Figure FDA0002744475080000022
代表视频第k分段的嵌入表达;则视频的双重特征表达为v=(v(f),v(s))。
3.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.2)为:
对于步骤1.1)获得的视频的帧级别的表达
Figure FDA0002744475080000023
输入到LSTM网络中,获得帧级别的视频特征表达,记为
Figure FDA0002744475080000024
其中
Figure FDA0002744475080000025
代表视频第i帧的特征表达;对于步骤1.1)获得的视频的分段级别的表达
Figure FDA0002744475080000026
输入到LSTM网络中,获得分段级别的视频特征表达,记为
Figure FDA0002744475080000027
其中
Figure FDA0002744475080000028
代表视频第j分段的特征表达;则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s));
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为
Figure FDA0002744475080000029
其中
Figure FDA00027444750800000210
为问题q的第k个单词的输出状态表达。
4.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
对于步骤1.2)获得的问题的输出状态表达
Figure FDA00027444750800000211
及帧级别的视频特征表达
Figure FDA00027444750800000212
按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数
Figure FDA00027444750800000213
Figure FDA00027444750800000214
其中,
Figure FDA00027444750800000215
Figure FDA00027444750800000216
为参数矩阵,
Figure FDA00027444750800000217
为偏置向量,p(f,w)为用来计算单词级别帧注意力分数的参数向量,tanh(.)为反正切函数,
Figure FDA00027444750800000218
为视频第i帧的特征表达,
Figure FDA00027444750800000219
为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
Figure FDA0002744475080000031
即单词级别的帧注意力分数的标准化值;
则单词级别的第i帧的注意力表达为
Figure FDA0002744475080000032
则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接,记为
Figure FDA0002744475080000033
对于步骤1.2)获得的问题的输出状态表达
Figure FDA0002744475080000034
及分段级别的视频特征表达
Figure FDA0002744475080000035
按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的帧的注意力分数
Figure FDA0002744475080000036
Figure FDA0002744475080000037
其中,
Figure FDA0002744475080000038
Figure FDA0002744475080000039
为参数矩阵,
Figure FDA00027444750800000310
为偏置向量,p(s,w)为用来计算单词级别分段注意力分数的参数向量,tanh(.)为反正切函数,
Figure FDA00027444750800000311
为视频第j分段的特征表达,
Figure FDA00027444750800000312
为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
Figure FDA00027444750800000313
即单词级别的分段注意力分数的标准化值;
则单词级别的第j分段的注意力表达为
Figure FDA00027444750800000314
则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接,记为
Figure FDA00027444750800000315
5.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.4)为:
将步骤1.3)获得的视频增广的帧级别表达
Figure FDA00027444750800000316
与视频增广的分段级别的表达
Figure FDA00027444750800000317
分别输入到第二层LSTM网络中;则对于给定的视频增广的帧级别的表达
Figure FDA0002744475080000041
输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
Figure FDA0002744475080000042
对于给定的视频增广的分段级别的表达
Figure FDA0002744475080000043
则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
Figure FDA0002744475080000044
结合所得到的针对于帧级别的视频增广表达的LSTM输出
Figure FDA0002744475080000045
及问题文本的最后输出状态
Figure FDA0002744475080000046
按如下公式获取针对于视频第i个编码增广帧的问题级别的帧时间注意力分数:
Figure FDA0002744475080000047
其中
Figure FDA0002744475080000048
Figure FDA0002744475080000049
为参数矩阵,
Figure FDA00027444750800000410
为偏置向量,p(f,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,
Figure FDA00027444750800000411
为第i帧的视频编码增广表达;
对于每一个视频帧的编码增广表达
Figure FDA00027444750800000412
其针对于问题的时间softmax激活函数为:
Figure FDA00027444750800000413
即问题级别的帧注意力分数的标准化值;
则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加,即为:
Figure FDA00027444750800000414
结合所得到的针对于分段级别的视频增广表达的LSTM输出
Figure FDA00027444750800000415
及问题文本的最后输出状态
Figure FDA00027444750800000416
按如下公式获取针对于视频第j个编码增广分段的问题级别的分段时间注意力分数:
Figure FDA00027444750800000417
其中
Figure FDA00027444750800000418
Figure FDA00027444750800000419
为参数矩阵,
Figure FDA00027444750800000420
为偏置向量,p(s,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,
Figure FDA00027444750800000421
为第j分段的视频编码增广表达;
对于每一个视频分段的编码增广表达
Figure FDA0002744475080000051
其针对于问题的时间softmax激活函数为:
Figure FDA0002744475080000052
即问题级别的分段注意力分数的标准化值;
则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加,即为:
Figure FDA0002744475080000053
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
6.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.5)为:
利用步骤1.4)获得的问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),按如下公式获得问题级别的针对于帧的混合注意力分数s(f)及问题级别的针对于分段的注意力分数s(s)
Figure FDA0002744475080000054
Figure FDA0002744475080000055
其中
Figure FDA0002744475080000056
为参数矩阵,bs为偏置向量,p为计算混合注意力分数的参数向量,
Figure FDA0002744475080000057
为问题文本的最后输出状态,tanh(.)为反正切函数;
则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
Figure FDA0002744475080000058
7.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤2)为:
利用步骤1.5)获得的问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sofmax(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,softmax(.)为softmax函数;
随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较,根据比较的差值更新整个多层注意力网络。
CN201710874931.8A 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法 Active CN107766447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710874931.8A CN107766447B (zh) 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710874931.8A CN107766447B (zh) 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法

Publications (2)

Publication Number Publication Date
CN107766447A CN107766447A (zh) 2018-03-06
CN107766447B true CN107766447B (zh) 2021-01-12

Family

ID=61266316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710874931.8A Active CN107766447B (zh) 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN107766447B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549658B (zh) * 2018-03-12 2021-11-30 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN108681539B (zh) * 2018-05-07 2019-06-21 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108804677B (zh) * 2018-06-12 2021-08-31 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及***
CN109002519A (zh) * 2018-07-09 2018-12-14 北京慧闻科技发展有限公司 基于卷积循环神经网络的答案选择方法、装置和电子设备
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和***
KR102211939B1 (ko) * 2018-12-07 2021-02-04 서울대학교산학협력단 질의 응답 장치 및 방법
CN109815364B (zh) * 2019-01-18 2020-01-14 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及***
CN109857909B (zh) * 2019-01-22 2020-11-20 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109889923B (zh) * 2019-02-28 2021-03-26 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110348462B (zh) * 2019-07-09 2022-03-04 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及***
CN110727824B (zh) * 2019-10-11 2022-04-01 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN111008302B (zh) * 2019-11-18 2022-04-29 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN110990628A (zh) * 2019-12-06 2020-04-10 浙江大学 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN110933518B (zh) * 2019-12-11 2020-10-02 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111209439B (zh) * 2020-01-10 2023-11-21 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN111428012B (zh) * 2020-03-02 2023-05-26 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN111652357B (zh) * 2020-08-10 2021-01-15 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其***
CN112395887A (zh) * 2020-11-05 2021-02-23 北京文思海辉金信软件有限公司 对话应答方法、装置、计算机设备和存储介质
CN112488111B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112860945B (zh) * 2021-01-07 2022-07-08 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN113609330B (zh) * 2021-07-15 2022-06-14 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答***、方法、计算机及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123254B2 (en) * 2012-06-07 2015-09-01 Xerox Corporation Method and system for managing surveys

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities

Also Published As

Publication number Publication date
CN107766447A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价***
Zong et al. Domain regeneration for cross-database micro-expression recognition
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN109299657B (zh) 基于语义注意力保留机制的群体行为识别方法及装置
CN110717431A (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN109711465B (zh) 基于mll和asca-fr的图像字幕生成方法
CN110532900A (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN109829049B (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成***及方法
Wang Online Learning Behavior Analysis Based on Image Emotion Recognition.
CN110889672A (zh) 一种基于深度学习的学生打卡及上课状态的检测***
CN111160189A (zh) 一种基于动态目标训练的深度神经网络人脸表情识别方法
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
AU2019101138A4 (en) Voice interaction system for race games
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN110705490B (zh) 视觉情感识别方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant