CN109857909B - 多粒度卷积自注意力上下文网络解决视频对话任务的方法 - Google Patents

多粒度卷积自注意力上下文网络解决视频对话任务的方法 Download PDF

Info

Publication number
CN109857909B
CN109857909B CN201910097296.6A CN201910097296A CN109857909B CN 109857909 B CN109857909 B CN 109857909B CN 201910097296 A CN201910097296 A CN 201910097296A CN 109857909 B CN109857909 B CN 109857909B
Authority
CN
China
Prior art keywords
expression
video
attention
representing
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910097296.6A
Other languages
English (en)
Other versions
CN109857909A (zh
Inventor
赵洲
张易诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Publication of CN109857909A publication Critical patent/CN109857909A/zh
Application granted granted Critical
Publication of CN109857909B publication Critical patent/CN109857909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。主要包括如下步骤:1)针对于所给视频、对话历史及当轮问题,获取含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达。2)利用得到的含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达,获取当轮回答。相比于一般的视频问答解决方案,本发明利用了多粒度卷积自注意力上下文网络模型,能够更好地克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题。本发明在视频对话任务中所取得的效果相比于传统的方法更好。

Description

多粒度卷积自注意力上下文网络解决视频对话任务的方法
技术领域
本发明涉及视频对话任务,尤其涉及一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。
背景技术
视频对话任务可以被看做为视觉问答任务的拓展,在该任务中需要对话***可以针对于某个特定视频的内容,持续与人类进行自然语言形式的对话。与以往的视觉问答任务不同的是,视觉问答任务中的各个问题为相互独立的问题,而视频对话任务中对话***需要回答的问题与之前的对话上下文有关。
目前大多数的视觉问答任务只关注处理静态的图像信息,然而视频是我们日常生活中常见的信息载体形式,所以将视觉问答任务拓展到视频对话任务十分必要。准确地说,视频对话任务是针对于给定的视频、对话历史和人类用户的每一轮的对话问题,对话***可以将视频信息与对话历史中的上下文信息结合起来,回答人类用户的对话问题。
虽然视觉问答任务与视频对话任务很相似,但是由于视频中存在的隐含时间结构信息,并且视觉问答任务解决方法缺乏了对于关键的对话上下文的处理,目前的视觉问答任务的方法不能被直接运用于解决视频对话任务。此外在对话上下文处理时,对话上下文中的序列化与各轮对话相互依赖特性的使用也十分关键。
目前,对于序列化形式的数据,一般采用循环神经网络的处理方式。并且为了解决基础循环神经网络中存在的梯度消失问题,利用长短时记忆神经网络来提高对于序列化形式数据的处理效果。但是长短时记忆神经网络仍然会存在消耗时间过长的问题。为了弥补此问题,本发明使用多粒度卷积神经网络来进行序列化形式数据的处理。同时本发明利用自注意力机制来提高对话***对于对话上下文的表达效果。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题,本发明提供一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。本发明所采用的具体技术方案是:
利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,包含如下步骤:
1.设计一种多粒度卷积自注意力处理机制来对于视频、对话信息进行编码处理。
2.利用步骤1中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达。
3.利用步骤1中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达。
4.利用步骤2获得的含有对话上下文信息的当轮问题表达与步骤3获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案。
5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
上述步骤可具体采用如下实现方式:
1.设计一种多粒度卷积自注意力处理机制,该机制可以在对于视频、对话信息进行编码处理时,加入时间信息。
多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;
将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:
Yi=Attention(Xi,Xi,Xi),
Figure GDA0002635890710000031
其中i=1,2,...,k,dx为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;
对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;
将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P′=(p1′,p2′,...,pk′),
P′=Attention(P,P,P),
Figure GDA0002635890710000032
其中dp为压缩序列表达P的维度;
将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′=(z1′,z2′,...,zk′),
Figure GDA0002635890710000033
Figure GDA0002635890710000034
其中,σ()代表sigmoid函数,
Figure GDA0002635890710000035
代表以元素方式相乘,
Figure GDA0002635890710000036
代表权重矩阵,bg代表偏置向量,S1代表门比例值;
将获得的混合输出序列表达Z′=(z1,z2,...,zk)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;
将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O1
Figure GDA0002635890710000041
Figure GDA0002635890710000042
Figure GDA0002635890710000043
其中,σ()代表sigmoid函数,
Figure GDA0002635890710000044
代表以元素方式相乘,tanh()代表双曲正切函数,
Figure GDA0002635890710000045
Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值。
2.设计一种分层对话历史编码器,该分层对话历史编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制,获取含有对话历史信息的问题的表达。
对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达ri q
Figure GDA0002635890710000046
f(xi)=W1σ(W2xi+b1)+b2
Figure GDA0002635890710000047
其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,
Figure GDA0002635890710000048
代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问答对应的问题的自注意力表达ri q,或者,第i轮问答对应的答案的自注意力表达ri q
将所得到的第i轮问题与第i轮答案对应的问题与答案的自注意力句子表达ri q
Figure GDA0002635890710000051
利用如下公式,计算得到第i轮对话的混合表达ci
Figure GDA0002635890710000052
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000053
代表权重矩阵;
对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu
Figure GDA0002635890710000054
Figure GDA0002635890710000055
Figure GDA0002635890710000056
qu=q+uq
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000057
代表权重矩阵,bqu代表偏置向量,
Figure GDA0002635890710000058
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数,ui代表第i轮对话对应的对话上下文表达。
3.设计一种含有对话上下文信息的视频编码器,该含有对话上下文信息的视频编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制,获取含有对话上下文信息的视频编码。
对于所给的视频,利用提前训练好的VGG网络获取视频的外表特征表达
Figure GDA0002635890710000059
利用提前训练好的3D-卷积网络获取视频的动作特征表达
Figure GDA00026358907100000510
将获得的视频外表特征表达
Figure GDA00026358907100000511
与视频动作特征表达
Figure GDA00026358907100000512
分别利用步骤1中设计的多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达
Figure GDA0002635890710000061
与视频互相作用的动作特征表达
Figure GDA0002635890710000062
对于得到的视频互相作用的外表特征表达
Figure GDA0002635890710000063
与步骤2)中得到的含有对话历史信息的问题的表达qu,利用如下公式计算含有上下文信息的视频外表特征表达vqf
Figure GDA0002635890710000064
Figure GDA0002635890710000065
Figure GDA0002635890710000066
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000067
代表权重矩阵,bqf代表偏置向量,
Figure GDA0002635890710000068
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数;
对于得到的视频互相作用的动作特征表达
Figure GDA0002635890710000069
与步骤2)中得到的含有对话历史信息的问题的表达qu,利用如下公式计算含有上下文信息的视频动作特征表达vqs
Figure GDA00026358907100000610
Figure GDA00026358907100000611
Figure GDA00026358907100000612
其中,tanh()代表双曲正切函数,
Figure GDA00026358907100000613
代表权重矩阵,bqs代表偏置向量,
Figure GDA00026358907100000614
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数;
对于得到的含有上下文信息的视频外表特征表达vqf与含有上下文信息的视频动作特征表达vqs,利用如下公式计算得到含有上下文信息的视频表达
Figure GDA00026358907100000615
Figure GDA00026358907100000616
其中,
Figure GDA0002635890710000071
代表以元素方式相乘;
对于得到的含有上下文信息的视频表达
Figure GDA0002635890710000072
与步骤2中得到的含有对话历史信息的问题的表达qu,利用如下公式计算得到含有对话上下文信息的视频编码fquv
Figure GDA0002635890710000073
其中,Concat()代表连接操作,g()代表双曲正切激活函数。
4.设计一种含有答案解码器,该答案解码器利用步骤3得到的含有对话上下文信息的视频编码fquv,从预先存储的候选答案语料中选择对于用户该轮问题的最佳回复。
对于预先存储的候选答案语料中的所有答案,利用步骤1中设计的多粒度卷积自注意力处理机制,获取候选答案表达矩阵
Figure GDA0002635890710000074
其中
Figure GDA0002635890710000075
代表候选答案语料中的第i个答案的语义表达,T3代表候选答案语料中的答案数目;
对于得到的候选答案表达矩阵A与步骤3得到的含有对话上下文信息的视频编码fquv,利用如下公式计算得到候选答案对应的概率分布pa
Figure GDA0002635890710000076
其中,softmax()代表softmax运算函数;之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复。
5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该网络可以针对于特定视频,与用户进行对话。
附图说明
图1是本发明用于解决视频对话任务的多粒度卷积自注意力上下文网络整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明多粒度卷积自注意力上下文网络解决视频对话任务的方法包括如下步骤:
1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;
2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;
3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;
4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;
5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
所述步骤1),其具体步骤为:
多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;
将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:
Yi=Attention(Xi,Xi,Xi),
Figure GDA0002635890710000081
其中i=1,2,...,k,dx为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;
对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;
将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P′=(p1′,p2′,...,pk′),
P′=Attention(P,P,P),
Figure GDA0002635890710000091
其中dp为压缩序列表达P的维度;
将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′=(z1′,z2′,...,zk′),
Figure GDA0002635890710000092
Figure GDA0002635890710000093
其中,σ()代表sigmoid函数,
Figure GDA0002635890710000094
代表以元素方式相乘,
Figure GDA0002635890710000095
代表权重矩阵,bg代表偏置向量,S1代表门比例值;
将获得的混合输出序列表达Z′=(z1,z2,...,zk)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;
将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O1
Figure GDA0002635890710000096
Figure GDA0002635890710000097
Figure GDA0002635890710000098
其中,σ()代表sigmoid函数,
Figure GDA0002635890710000101
代表以元素方式相乘,tanh()代表双曲正切函数,
Figure GDA0002635890710000102
Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值;
所述步骤2),其具体步骤为:
对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达ri q
Figure GDA0002635890710000103
f(xi)=W1σ(W2xi+b1)+b2
Figure GDA0002635890710000104
其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,
Figure GDA0002635890710000105
代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问答对应的问题的自注意力表达ri q,或者,第i轮问答对应的答案的自注意力表达ri q
将所得到的第i轮问题与第i轮答案对应的问题与答案的自注意力句子表达ri q
Figure GDA0002635890710000106
利用如下公式,计算得到第i轮对话的混合表达ci
Figure GDA0002635890710000107
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000108
代表权重矩阵;
对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu
Figure GDA0002635890710000111
Figure GDA0002635890710000112
Figure GDA0002635890710000113
qu=q+uq
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000114
代表权重矩阵,bqu代表偏置向量,
Figure GDA0002635890710000115
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数,ui代表第i轮对话对应的对话上下文表达;
所述步骤3),其具体步骤为:
对于所给的视频,利用提前训练好的VGG网络获取视频的外表特征表达
Figure GDA0002635890710000116
利用提前训练好的3D-卷积网络获取视频的动作特征表达
Figure GDA0002635890710000117
将获得的视频外表特征表达
Figure GDA0002635890710000118
与视频动作特征表达
Figure GDA0002635890710000119
分别利用步骤1中设计的多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达
Figure GDA00026358907100001110
与视频互相作用的动作特征表达
Figure GDA00026358907100001111
对于得到的视频互相作用的外表特征表达
Figure GDA00026358907100001112
与步骤2)中得到的含有对话历史信息的问题的表达qu,利用如下公式计算含有上下文信息的视频外表特征表达vqf
Figure GDA00026358907100001113
Figure GDA00026358907100001114
Figure GDA00026358907100001115
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000121
代表权重矩阵,bqf代表偏置向量,
Figure GDA0002635890710000122
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数;
对于得到的视频互相作用的动作特征表达
Figure GDA0002635890710000123
与步骤2)中得到的含有对话历史信息的问题的表达qu,利用如下公式计算含有上下文信息的视频动作特征表达vqs
Figure GDA0002635890710000124
Figure GDA0002635890710000125
Figure GDA0002635890710000126
其中,tanh()代表双曲正切函数,
Figure GDA0002635890710000127
代表权重矩阵,bqs代表偏置向量,
Figure GDA0002635890710000128
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数;
对于得到的含有上下文信息的视频外表特征表达vqf与含有上下文信息的视频动作特征表达vqs,利用如下公式计算得到含有上下文信息的视频表达
Figure GDA0002635890710000129
Figure GDA00026358907100001210
其中,
Figure GDA00026358907100001211
代表以元素方式相乘;
对于得到的含有上下文信息的视频表达
Figure GDA00026358907100001212
与步骤2中得到的含有对话历史信息的问题的表达qu,利用如下公式计算得到含有对话上下文信息的视频编码fquv
Figure GDA00026358907100001213
其中,Concat()代表连接操作,g()代表双曲正切激活函数;
所述的步骤4),其具体步骤为:
对于预先存储的候选答案语料中的所有答案,利用步骤1)中设计的多粒度卷积自注意力处理机制,获取答案表达矩阵
Figure GDA00026358907100001214
其中
Figure GDA00026358907100001215
代表候选答案语料中的第i个答案的语义表达,T3代表候选答案语料中的答案数目;
对于得到的候选答案表达矩阵A与步骤3)得到的含有对话上下文信息的视频编码fquv,利用如下公式计算得到候选答案对应的概率分布pa
Figure GDA0002635890710000131
其中,softmax()代表softmax运算函数;之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复;
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的YouTubeClips与TACoS-MultiLevel实验数据集上进行实验,所使用的YouTubeClips数据集中共包括6515条视频数据、66806个对话问答对数据;TACoS-MultiLevel数据集中共包括9935条视频数据、37228个对话问答对数据。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了平均倒数排序(MRR),精确度@1(Precision@1),精确度@5(Precision@5),平均排序(MeanRank)这四种评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为MGCSACN:
方法名 平均倒数排序 精确度@1 精确度@5 平均排序
MGCSACN 0.481 0.344 0.687 6.969
表1本发明针对于YouTubeClips数据集的测试结果
方法名 平均倒数排序 精确度@1 精确度@5 平均排序
MGCSACN 0.542 0.437 0.717 5.875
表2本发明针对于TACoS-MultiLevel数据集的测试结果。

Claims (5)

1.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于包括如下步骤:
1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;其中多粒度卷积自注意力上下文网络对输入的视频帧特征序列或对话单词映射特征序列进行分割成分段,计算得到每个分段的局部互动信息表达,将局部互动信息表达输入卷积层得到压缩序列表达,计算得到含有自注意力互动信息的序列表达,利用压缩序列表达和含有自注意力互动信息的序列表达计算得到混合输出序列,将获得的混合输出序列表达复制获得新的混合输出序列表达,计算得到最终的多粒度卷积自注意力处理机制输出序列表达;
2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;
对于对话历史各轮对话表达利用步骤1)的多粒度卷积自注意力处理机制得到对应的多粒度卷积自注意力处理机制输出序列表达,计算获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达得到对应的问题与答案的自注意力句子表达,再计算得到对应对话的混合表达,利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达;
3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;处理所给的视频得到视频外表特征表达与视频动作特征表达,分别利用多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达,计算含有上下文信息的视频外表特征表达,计算含有上下文信息的视频外表特征表达,对于得到的视频互相作用的动作特征表达与步骤2)中得到的含有对话历史信息的问题的表达,计算含有上下文信息的视频动作特征表达,对于得到的含有上下文信息的视频外表特征表达与含有上下文信息的视频动作特征表达,计算得到含有上下文信息的视频表达,对于得到的含有上下文信息的视频表达与步骤2中得到的含有对话历史信息的问题的表达,计算得到含有对话上下文信息的视频编码;
4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;
其中对于预先存储的候选答案语料中的所有答案,利用多粒度卷积自注意力处理机制,获取候选答案表达矩阵,对于得到的候选答案表达矩阵与步骤3)得到的含有对话上下文信息的视频编码,计算得到候选答案对应的概率分布,进而得到当轮问题答案;
5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
2.根据权利要求1所述的利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤1),具体为:
多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;
将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:
Yi=Attention(Xi,Xi,Xi),
Figure FDA0002646028970000031
其中i=1,2,...,k,dx为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;
对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;
将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P′=(p′1,p′2,...,p′k),
P′=Attention(P,P,P),
Figure FDA0002646028970000041
其中dp为压缩序列表达P的维度;
将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′=(z′1,z′2,...,z′k),
Figure FDA0002646028970000042
Figure FDA0002646028970000043
其中,σ()代表sigmoid函数,
Figure FDA0002646028970000044
代表以元素方式相乘,
Figure FDA0002646028970000045
代表权重矩阵,bg代表偏置向量,S1代表门比例值;
将获得的混合输出序列表达Z′=(z′1,z′2,...,z′k)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;
将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O1
Figure FDA0002646028970000046
Figure FDA0002646028970000047
Figure FDA0002646028970000048
其中,σ()代表sigmoid函数,
Figure FDA0002646028970000049
代表以元素方式相乘,tanh()代表双曲正切函数,
Figure FDA00026460289700000410
Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值。
3.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤2),具体为:
对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达
Figure FDA0002646028970000051
f(xi)=W1σ(W2xi+b1)+b2
Figure FDA0002646028970000052
其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,
Figure FDA0002646028970000053
代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问答对应的问题的自注意力表达
Figure FDA0002646028970000054
或者,第i轮问答对应的答案的自注意力表达
Figure FDA0002646028970000055
将所得到的第i轮问题与第i轮答案对应的问题与答案的自注意力句子表达
Figure FDA0002646028970000056
利用如下公式,计算得到第i轮对话的混合表达ci
Figure FDA0002646028970000057
其中,tanh()代表双曲正切函数,
Figure FDA0002646028970000061
代表权重矩阵;
对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu
Figure FDA0002646028970000062
Figure FDA0002646028970000063
Figure FDA0002646028970000064
qu=q+uq
其中,tanh()代表双曲正切函数,
Figure FDA0002646028970000065
代表权重矩阵,bqu代表偏置向量,
Figure FDA0002646028970000066
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数,ui代表第i轮对话对应的对话上下文表达。
4.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤3)具体为:
对于所给的视频,利用提前训练好的VGG网络获取视频的外表特征表达
Figure FDA0002646028970000067
利用提前训练好的3D-卷积网络获取视频的动作特征表达
Figure FDA0002646028970000068
将获得的视频外表特征表达
Figure FDA0002646028970000069
与视频动作特征表达
Figure FDA00026460289700000610
分别利用步骤1中设计的多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达
Figure FDA00026460289700000611
与视频互相作用的动作特征表达
Figure FDA0002646028970000071
对于得到的视频互相作用的外表特征表达
Figure FDA0002646028970000072
Figure FDA0002646028970000073
与步骤2)中得到的含有对话历史信息的问题的表达qu,利用如下公式计算含有上下文信息的视频外表特征表达vqf
Figure FDA0002646028970000074
Figure FDA0002646028970000075
Figure FDA0002646028970000076
其中,tanh()代表双曲正切函数,
Figure FDA0002646028970000077
代表权重矩阵,bqf代表偏置向量,
Figure FDA0002646028970000078
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数,其中
Figure FDA0002646028970000079
表示第第i帧视频互相作用的外表特征表达;
对于得到的视频互相作用的动作特征表达
Figure FDA00026460289700000710
Figure FDA00026460289700000711
与步骤2)中得到的含有对话历史信息的问题的表达qu,利用如下公式计算含有上下文信息的视频动作特征表达vqs
Figure FDA00026460289700000712
Figure FDA00026460289700000713
Figure FDA0002646028970000081
其中,tanh()代表双曲正切函数,
Figure FDA0002646028970000082
代表权重矩阵,bqs代表偏置向量,
Figure FDA0002646028970000083
代表参数向量的转置,exp()代表以自然底数e为底的指数运算函数,其中
Figure FDA0002646028970000084
表示对应的第i帧视频互相作用的动作特征表达;
对于得到的含有上下文信息的视频外表特征表达vqf与含有上下文信息的视频动作特征表达vqs,利用如下公式计算得到含有上下文信息的视频表达
Figure FDA0002646028970000085
Figure FDA0002646028970000086
其中,
Figure FDA0002646028970000087
代表以元素方式相乘;
对于得到的含有上下文信息的视频表达
Figure FDA0002646028970000088
与步骤2中得到的含有对话历史信息的问题的表达qu,利用如下公式计算得到含有对话上下文信息的视频编码fquv
Figure FDA0002646028970000089
其中,Concat()代表连接操作,g()代表双曲正切激活函数。
5.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤4),具体为:
对于预先存储的候选答案语料中的所有答案,利用步骤1)中设计的多粒度卷积自注意力处理机制,获取候选答案表达矩阵
Figure FDA00026460289700000810
Figure FDA00026460289700000811
其中
Figure FDA00026460289700000812
代表候选答案语料中的第i个答案的语义表达,T3代表候选答案语料中的答案数目;
对于得到的候选答案表达矩阵A与步骤3)得到的含有对话上下文信息的视频编码fquv,利用如下公式计算得到候选答案对应的概率分布pa
Figure FDA0002646028970000091
其中,softmax()代表softmax运算函数;之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复。
CN201910097296.6A 2019-01-22 2019-01-31 多粒度卷积自注意力上下文网络解决视频对话任务的方法 Active CN109857909B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100600450 2019-01-22
CN201910060045 2019-01-22

Publications (2)

Publication Number Publication Date
CN109857909A CN109857909A (zh) 2019-06-07
CN109857909B true CN109857909B (zh) 2020-11-20

Family

ID=66897170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910097296.6A Active CN109857909B (zh) 2019-01-22 2019-01-31 多粒度卷积自注意力上下文网络解决视频对话任务的方法

Country Status (1)

Country Link
CN (1) CN109857909B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427490B (zh) * 2019-07-03 2021-11-09 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及***
CN110990628A (zh) * 2019-12-06 2020-04-10 浙江大学 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN112182162B (zh) * 2020-09-30 2023-10-31 中国人民大学 一种基于记忆神经网络的个性化对话方法和***
CN112434514B (zh) * 2020-11-25 2022-06-21 重庆邮电大学 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN116483960B (zh) * 2023-03-30 2024-01-02 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363763A (zh) * 2018-02-05 2018-08-03 深圳市腾讯计算机***有限公司 一种自动问答方法、装置和存储介质
CN108959388A (zh) * 2018-05-31 2018-12-07 科大讯飞股份有限公司 信息生成方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4287218B2 (ja) * 2003-08-05 2009-07-01 パナソニック株式会社 データ通信装置及びデータ通信方法
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN107766447B (zh) * 2017-09-25 2021-01-12 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363763A (zh) * 2018-02-05 2018-08-03 深圳市腾讯计算机***有限公司 一种自动问答方法、装置和存储介质
CN108959388A (zh) * 2018-05-31 2018-12-07 科大讯飞股份有限公司 信息生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improving Variational Encoder-Decoders in Dialogue Generation;Xiaoyu Shen等;《ResearchGate》;20180206;1-9 *
多通道人机交互信息融合的智能方法;杨明浩等;《中国科学: 信息科学》;20180413;第48卷(第4期);433-448 *

Also Published As

Publication number Publication date
CN109857909A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109857909B (zh) 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN108268444B (zh) 一种基于双向lstm、cnn和crf的中文分词方法
JP7408574B2 (ja) 質問応答としてのマルチタスク学習
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN109657041B (zh) 基于深度学习的问题自动生成方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN107644014A (zh) 一种基于双向lstm和crf的命名实体识别方法
Wendorf Comparisons of structural equation modeling and hierarchical linear modeling approaches to couples' data
CN110377711B (zh) 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN111144553B (zh) 一种基于时空记忆注意力的图像描述方法
CN108595436A (zh) 情感对话内容的生成方法和***、存储介质
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN111782788A (zh) 一种面向开放域对话***的情感回复自动生成方法
CN112948558A (zh) 面向开放域对话***的上下文增强的问题生成方法及装置
CN109783825A (zh) 一种基于神经网络的古文翻译方法
CN115455985A (zh) 一种基于机器阅读理解的自然语言***的处理方法
Wang et al. Vector-to-sequence models for sentence analogies
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN112132075B (zh) 图文内容处理方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant