CN110377711A - 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 - Google Patents

一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 Download PDF

Info

Publication number
CN110377711A
CN110377711A CN201910585462.7A CN201910585462A CN110377711A CN 110377711 A CN110377711 A CN 110377711A CN 201910585462 A CN201910585462 A CN 201910585462A CN 110377711 A CN110377711 A CN 110377711A
Authority
CN
China
Prior art keywords
convolution
attention
video
layers
coding layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910585462.7A
Other languages
English (en)
Other versions
CN110377711B (zh
Inventor
赵洲
孟令涛
张竹
袁晶
怀宝兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910585462.7A priority Critical patent/CN110377711B/zh
Publication of CN110377711A publication Critical patent/CN110377711A/zh
Application granted granted Critical
Publication of CN110377711B publication Critical patent/CN110377711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。主要包括如下步骤:1)针对视频与问题,分层卷积自注意力编码器网络获取多层视频语义表达。2)对获得的视频帧的多层视频语义表达,计算损失函数并训练模型,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务进行回答语句生成。相比于一般的开放式长视频问答任务解决方案,本发明对多种有效信息进行综合利用。本发明在开放式长视频问答任务中所取得的效果相比于传统的方法更好。

Description

一种利用分层卷积自注意力网络解决开放式长视频问答任务 的方法
技术领域
本发明涉及以开放式长视频问答任务,尤其涉及一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。
背景技术
当下,开放式长视频问答任务成为一项重要的服务,但是目前已有该项服务的效果并不是很好。
现有的技术主要是利用多模型卷积编解码器网络解决短视频问答任务。由于缺乏对长范围依赖的建模并且计算开销过大,这种方法对长视频问答任务不适用。为了克服该缺陷,本方法将利用分层卷积自注意力网络解决开放式长视频问答任务。
本发明将利用一个分层卷积自注意力编码器对长视频内容进行建模,获取长视频内容的分层结构,并获取含有问题信息的视频上下文长范围依赖信息。之后本发明利用多范围注意力解码器合并多层视频表达来生成答案。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺乏对长范围依赖的建模并且计算开销过大的问题,本发明提供一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。本发明所采用的具体技术方案是:
一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法,包含如下步骤:
1、针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达;
2、利用步骤1获取的多层视频语义表达,计算GRU注意力解码器输出向量,进一步得到分层卷积自注意力网络损失函数;
3、利用步骤2获取的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练,利用训练后的分层卷积自注意力网络,输入视频与对应问题语句,对开放式长视频问答任务进行回答语句生成。
进一步的,所述的步骤1具体为:
1.1针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn),其中vi代表视频中第i帧的帧表达向量,i=(1,2,...,n),n代表视频中的帧数;
1.2针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题中的单词数;
1.3将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达与全局问题表达hQ
其中代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m),m代表问题中的单词数。分别代表正向与反向GRU计算,代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接,获得问题语句中第i个单词的上下文单词表达 代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接,获得全局问题表达hQ
1.4将所得到的视频帧表达v=(v1,v2,...,vn)、输入到L层卷积自注意力编码层中,所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层,每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元;获得L层卷积自注意力编码层的输出向量(h1,h2,...,hL),将L层卷积自注意力编码层的输出向量堆叠起来,获得多层视频语义表达(h1,h2,...,hL)。
进一步的,所述的步骤1.4具体为:
1.4.1第1层卷积自注意力编码层的输入为视频帧表达v=(v1,v2,...,vn),第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列其中代表第l-1层卷积自注意力编码层的输出序列中的第i个向量,l=(1,2,...,L),nl-1代表第l-1层卷积自注意力编码层的输出序列长度;
1.4.2根据得到第l层卷积自注意力编码层中第一卷积单元的输出
Y=[A;B]
其中,i=(1,2,...,nl-1),Y=[A;B]代表将2d维的向量Y拆解为两个d维向量A与B,d代表第l-1层卷积自注意力编码层的输出序列中向量的维度,j=(1,2,...,nl-1)。Wl代表可训练的权重矩阵,bl代表可训练的参数向量,代表按元素相乘计算;
1.4.3将第l层卷积自注意力编码层中第一个卷积单元的输出输入到第l层卷积自注意力编码层中第二个卷积单元,按照与第一个卷积单元相同的计算方法获得第l层卷积自注意力编码层中第二卷积单元的输出
1.4.4将第l层卷积自注意力编码层中第二卷积单元的输出分割为nl个片段,每个片段所含元素数目为H,nl-1=H×nl;将nl个片段输入到第l层卷积自注意力编码层的注意力分割单元中,获得第l层卷积自注意力编码层中视频片段级别的表达对nl个片段中第i个片段,按照如下公式计算得到第i个片段的视频片段级别的表达
其中,i=(1,2,...,nl),softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,Ws 1、Ws 2代表可训练的权重矩阵,bs为可训练的偏置向量,代表可训练的权重向量的转置;
1.4.5利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达输入到第l层卷积自注意力编码层中带有问题信息的自注意力单元,按照如下方法得到第l层卷积自注意力编码层的输出序列
1.4.5.1利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M,
其中,Mij代表视频到问题矩阵M的第i行第j列元素,i=(1,2,...,nl),j=(1,2,...,m),tanh()代表双曲正切函数计算,代表可训练的权重矩阵,bm代表可训练的偏置向量,代表可训练的权重向量的转置。
1.4.5.2利用得到的视频到问题矩阵M,按照如下公式计算得到第l层卷积自注意力编码层的输出序列中第i个向量,
D=M·MT
其中,i=(1,2,...,nl),矩阵D代表视频自注意力矩阵,代表对进行第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作,softmax(·)代表softmax函数计算。
则按照如上方法,可以获得第l层卷积自注意力编码层的输出序列l=(1,2,...,L),将L层卷积自注意力编码层的输出序列堆叠起来,可以获得多层视频语义表达(h1,h2,...,hL)。
进一步的,所述的步骤2具体为:
2.1利用步骤1获得的多层视频语义表达(h1,h2,...,hL),输入到GRU注意力解码器,循环生成第t步的解码器输出向量计算公式如下,
其中,t=(1,2,...,r),r代表回答语句中的单词数;为GRU注意力解码器生成的第t-1步的解码器输出向量,xt为第t步的解码器输入向量,xt计算公式如下,
其中,wt代表第t步的解码器输入单词嵌入向量,hQ代表步骤1获得的全局问题表达,代表第t步对应的多范围视频表达,计算方法如下,
针对步骤1获得的多层视频语义表达(h1,h2,...,hL),按照如下公式计算第t步对应的多范围视频表达
其中,softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,代表可训练的权重矩阵,bg代表可训练的偏置向量,代表可训练的权重向量的转置,代表第t-1步的解码器输出向量,hQ代表步骤1获得的全局问题表达,代表视频语义表达(h1,h2,...,hL)中的第l层卷积自注意力编码层的输出序列中第i维向量,l=(1,2,...,nl),K代表提前设定好的注意力范围数。
2.2利用计算得到的GRU注意力解码器的第t步输出向量按照如下公式计算得到分层卷积自注意力网络损失函数LML
其中,softmax(·)代表softmax函数计算,log(·)代表自然底数对数计算,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
本发明的有益效果为:
(1)本发明对开放式长视频问答任务,利用分层卷积自注意力编码器网络,有效获取了长视频内容的分层结构,并且获取了含有问题信息的视频上下文长范围依赖信息;
(2)本发明利用一个多范围GRU注意力解码器,获取了视频中多层语义信息的合成,防止仅利用最上层视频语义信息导致的信息丢失,更有效地获得视频与问题相关的信息;
(3)本发明可以更有效地提取出视频中与问题语句相关的部分,并生成更符合问题需求的答案;在利用ActivityCaption数据集改造的开放式长视频问答任务数据集上进行实验,实验发现,本发明可以取得较好的效果。
附图说明
图1是本发明使用的用来解决开放式长视频问答任务的分层卷积自注意力网络模型示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,图1中a)代表利用L层卷积自注意力编码层生成多层视频语义表达,图1中b)代表利用解码器计算损失函数并生成答案。
本发明一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法包括如下步骤:
步骤一,针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达,其具体步骤为:
针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn)。其中vi代表视频中第i帧的帧表达向量,i=(1,2,...,n),n代表视频中的帧数。
针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题语句中的单词数。将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达与全局问题表达hQ
其中代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m),m代表问题语句中的单词数。分别代表正向与反向GRU计算,代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接,获得问题语句中第i个单词的上下文单词表达 代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接,获得全局问题表达hQ
之后将所得到的视频帧表达v=(v1,v2,...,vn)输入到L层卷积自注意力编码层中,获得L层卷积自注意力编码层的输出向量(h1,h2,...,hL),将L层卷积自注意力编码层的输出向量堆叠起来,获得多层视频语义表达(h1,h2,...,hL)。
第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列l=(1,2,...,L),其中第1层卷积自注意力编码层的输入为视频帧表达v=(v1,v2,...,vn),nl-1代表第l-1层卷积自注意力编码层的输出序列长度。将按照如下公式计算,得到第l层卷积自注意力编码层中第一个卷积单元的输出
Y=[A;B]
其中,i=(1,2,...,nl-1),Y=[A;B]代表将2d维的向量Y拆解为两个d维向量A与B,d代表第l-1层卷积自注意力编码层的输出序列中向量的维度,j=(1,2,...,nl-1)。Wl代表可训练的权重矩阵,bl代表可训练的参数向量,代表按元素相乘计算。
将第l层卷积自注意力编码层中第一个卷积单元的输出输入到第l层卷积自注意力编码层中第二个卷积单元,按照与第一个卷积单元相同的计算方法获得第l层卷积自注意力编码层中第二个卷积单元的输出
将第l层卷积自注意力编码层中第二个卷积单元的输出分割为nl个片段,每个片段所含元素数目为H,nl-1=H×nl。将nl个片段输入到第l层卷积自注意力编码层的注意力分割单元中,获得第l层卷积自注意力编码层中视频片段级别的表达对nl个片段中第i个片段,按照如下公式计算得到第i个片段的视频片段级别的表达
其中,i=(1,2,...,nl),softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,Ws 1、Ws 2代表可训练的权重矩阵,bs为可训练的偏置向量,代表可训练的权重向量的转置。
利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达输入到第l层卷积自注意力编码层中带有问题信息的自注意力单元,按照如下方法得到第l层卷积自注意力编码层的输出序列
利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M,
其中,Mij代表视频到问题矩阵M的第i行第j列元素,i=(1,2,...,nl),j=(1,2,...,m),tanh(·)代表双曲正切函数计算,代表可训练的权重矩阵,bm代表可训练的偏置向量,代表可训练的权重向量的转置。
利用得到的视频到问题矩阵M,按照如下公式计算得到第l层卷积自注意力编码层的输出序列中第i个向量,
D=M·MT
其中,i=(1,2,...,nl),矩阵D代表视频自注意力矩阵,代表对第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作,softmax(·)代表softmax函数计算。
则按照如上方法,可以获得第l层卷积自注意力编码层的输出序列l=(1,2,...,L),将L层卷积自注意力编码层的输出序列堆叠起来,可以获得多层视频语义表达(h1,h2,...,hL)。
步骤二,利用步骤一获取的多层视频语义表达,计算得到分层卷积自注意力网络损失函数,其具体步骤为:
将步骤一获得的多层视频语义表达(h1,h2,...,hL)输入到GRU注意力解码器,循环生成第t步的解码器输出向量计算公式如下,
其中,为GRU注意力解码器生成的第t-1步的解码器输出向量,xt为第t步的解码器输入向量,xt计算公式如下,
其中,wt代表第t步的解码器输入单词嵌入向量,hQ代表步骤一获得的全局问题表达,代表第t步对应的多范围视频表达,计算方法如下。
针对步骤一获得的多层视频语义表达(h1,h2,...,hL),按照如下公式计算第t步对应的多范围视频表达
其中,t=(1,2,...,r),r代表回答语句中的单词数;softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,代表可训练的权重矩阵,bg代表可训练的偏置向量,代表可训练的权重向量的转置,代表第t-1步的解码器输出向量,hQ代表步骤一获得的全局问题表达,代表视频语义表达(h1,h2,...,hL)中的第l层卷积自注意力编码层的输出序列中第i维向量,l=(1,2,...,nl),K代表提前设定好的注意力范围数。
利用计算得到的第t步的解码器输出向量按照如下公式计算得到分层卷积自注意力网络损失函数LML
其中,softmax(·)代表softmax函数计算,log(·)代表自然底数对数计算,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
步骤三,利用步骤二获取的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务,输入视频与对应问题,生成视频问答任务答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityCaption数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了BLEU-1,[email protected],[email protected]三种评价标准来对于本发明的效果进行评价,BLEU-1评价标准反映了生成的回答语句的单词匹配程度,[email protected][email protected]评价标准反映了生成的回答语句的单词级别的歧义程度。按照具体实施方式中描述的步骤,所得的实验结果如表1所示,本方法表示为HCSA。
表1的测试结果反映出,本发明可以有效地解决放式长视频问答任务,生成符合要求的回答语句。
表1
Method BLEU-1 [email protected] [email protected]
HCSA 28.83 36.90 61.74

Claims (4)

1.一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于包括如下步骤:
1)针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达;
2)利用步骤1)获取的多层视频语义表达,计算GRU注意力解码器输出向量,进一步得到分层卷积自注意力网络损失函数;
3)利用步骤2)得到的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练;输入视频与对应问题语句,利用训练后的分层卷积自注意力网络对开放式长视频问答任务进行回答语句生成。
2.根据权利要求1所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于所述的步骤1)具体为:
1.1)针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn),其中vi代表视频中第i帧的帧表达向量,n代表视频中的帧数;
1.2)针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题语句中的单词数;
1.3)将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达与全局问题表达hQ
其中代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m);分别代表正向与反向GRU计算;代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接,获得问题语句中第i个单词的上下文单词表达 代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接,获得全局问题表达hQ
1.4)将步骤1.1)得到的视频帧表达v=(v1,v2,...,vn)输入到L层卷积自注意力编码层中,所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层,每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元;获得L层卷积自注意力编码层的输出向量(h1,h2,...,hL),将L层卷积自注意力编码层的输出向量堆叠起来,进一步获得多层视频语义表达(h1,h2,...,hL)。
3.根据权利要求2所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于所述步骤1.4)具体为:
1.4.1)第1层卷积自注意力编码层的输入为步骤1.1)得到的视频帧表达v=(v1,v2,...,vn),第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列 代表第l-1层卷积自注意力编码层的输出序列中的第i个向量,nl-1代表第l-1层卷积自注意力编码层的输出序列长度;
1.4.2)计算第l层卷积自注意力编码层中的第一卷积单元的输出
Y=[A;B]
其中,i=(1,2,...,nl-1),l=(1,2,...,L),Y=[A;B]代表将2d维的向量Y拆解为两个d维向量A与B,d代表第l-1层卷积自注意力编码层的输出序列中向量的维度,j=(1,2,...,nl-1);Wl代表可训练的权重矩阵,bl代表可训练的参数向量,代表按元素相乘计算;
1.4.3)将第l层卷积自注意力编码层中的第一卷积单元的输出输入到第l层卷积自注意力编码层中的第二卷积单元,按照步骤1.4.2)中的计算方法获得第l层卷积自注意力编码层中的第二卷积单元的输出
1.4.4)将第l层卷积自注意力编码层中的第二卷积单元的输出分割为nl个片段,每个片段所含元素数目为H,nl-1=H×nl;将nl个片段输入到第l层卷积自注意力编码层中的注意力分割单元中,获得第l层卷积自注意力编码层中视频片段级别的表达
其中,i=(1,2,...,nl),代表第i个片段的视频片段级别的表达,softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,Ws 1、Ws 2代表可训练的权重矩阵,bs为可训练的偏置向量,代表可训练的权重向量的转置;
1.4.5)将步骤1.4.4)获得的第l层卷积自注意力编码层中视频片段级别的表达与步骤1.3)获得的问题语句的上下文单词表达输入到第l层卷积自注意力编码层中的带有问题信息的自注意力单元,得到第l层卷积自注意力编码层的输出序列具体步骤如下:
1.4.5.1)利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M,
其中,Mij代表视频到问题矩阵M的第i行第j列元素,i=(1,2,...,nl),j=(1,2,...,m),代表可训练的权重矩阵,bm代表可训练的偏置向量,代表可训练的权重向量的转置;
1.4.5.2)根据视频到问题矩阵M,得到第l层卷积自注意力编码层的输出序列将L层卷积自注意力编码层的输出序列堆叠起来,进一步获得多层视频语义表达(h1,h2,...,hL),
D=M·MT
其中,i=(1,2,...,nl),矩阵D代表视频自注意力矩阵,代表对进行第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作。
4.根据权利要求1所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于所述的步骤2)具体为:
2.1)将步骤1)获得的多层视频语义表达(h1,h2,...,hL)输入到GRU注意力解码器,得到第t步的解码器输出向量
其中,t=(1,2,...,r),r代表回答语句中的单词数;xt为第t步的解码器输入向量,计算公式如下:
其中,wt代表第t步的解码器输入单词嵌入向量,代表第t步对应的多范围视频表达,K代表提前设定好的注意力范围数,代表可训练的权重矩阵,bg代表可训练的偏置向量,代表可训练的权重向量的转置;
2.2)根据得到的第t步的解码器输出向量按照如下公式计算得到分层卷积自注意力网络损失函数LML
其中,log(·)代表自然底数对数计算,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
CN201910585462.7A 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 Active CN110377711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910585462.7A CN110377711B (zh) 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910585462.7A CN110377711B (zh) 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Publications (2)

Publication Number Publication Date
CN110377711A true CN110377711A (zh) 2019-10-25
CN110377711B CN110377711B (zh) 2022-04-01

Family

ID=68251441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910585462.7A Active CN110377711B (zh) 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Country Status (1)

Country Link
CN (1) CN110377711B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160038A (zh) * 2019-12-16 2020-05-15 浙江大学 一种基于自注意机制进行视频对话答案与问题的生成方法
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***
CN113128237A (zh) * 2021-04-09 2021-07-16 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN113450421A (zh) * 2021-07-16 2021-09-28 中国电子科技集团公司第二十八研究所 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292204A1 (en) * 2015-03-30 2016-10-06 Avaya Inc. System and method for compiling and dynamically updating a collection of frequently asked questions
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160292204A1 (en) * 2015-03-30 2016-10-06 Avaya Inc. System and method for compiling and dynamically updating a collection of frequently asked questions
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160038A (zh) * 2019-12-16 2020-05-15 浙江大学 一种基于自注意机制进行视频对话答案与问题的生成方法
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111275118B (zh) * 2020-01-22 2022-09-16 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111652202A (zh) * 2020-08-10 2020-09-11 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***
CN111652202B (zh) * 2020-08-10 2020-12-01 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其***
CN113128237A (zh) * 2021-04-09 2021-07-16 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN113128237B (zh) * 2021-04-09 2023-04-07 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN113450421A (zh) * 2021-07-16 2021-09-28 中国电子科技集团公司第二十八研究所 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Also Published As

Publication number Publication date
CN110377711B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN110377711A (zh) 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
US20180329884A1 (en) Neural contextual conversation learning
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN111241855A (zh) 文本翻译方法、装置、存储介质和计算机设备
CN107798385B (zh) 基于块张量分解的循环神经网络稀疏连接方法
CN108763535A (zh) 信息获取方法及装置
CN110196928B (zh) 完全并行化具有领域扩展性的端到端多轮对话***及方法
Yu et al. On-device neural language model based word prediction
CN112612881B (zh) 基于Transformer的中文智能对话方法
CN109614480B (zh) 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN110059220A (zh) 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN109857909A (zh) 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN114595306B (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算***及方法
CN111008517A (zh) 一种基于张量分解技术的神经语言模型的压缩方法
CN112560502B (zh) 一种语义相似度匹配方法、装置及存储介质
CN110263143A (zh) 提高相关性的神经问题生成方法
CN108959388A (zh) 信息生成方法及装置
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
Li et al. PSDVec: A toolbox for incremental and scalable word embedding
CN114819148A (zh) 基于不确定性估计知识蒸馏的语言模型压缩方法
Fernández-Reyes et al. CV Retrieval System based on job description matching using hybrid word embeddings
CN111652000A (zh) 一种语句相似度判断方法及判断***
CN114492451A (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant