CN109857909B - 多粒度卷积自注意力上下文网络解决视频对话任务的方法 - Google Patents
多粒度卷积自注意力上下文网络解决视频对话任务的方法 Download PDFInfo
- Publication number
- CN109857909B CN109857909B CN201910097296.6A CN201910097296A CN109857909B CN 109857909 B CN109857909 B CN 109857909B CN 201910097296 A CN201910097296 A CN 201910097296A CN 109857909 B CN109857909 B CN 109857909B
- Authority
- CN
- China
- Prior art keywords
- expression
- video
- attention
- representing
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。主要包括如下步骤:1)针对于所给视频、对话历史及当轮问题,获取含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达。2)利用得到的含有对话上下文信息的当轮问题表达与含有对话上下文信息的视频表达,获取当轮回答。相比于一般的视频问答解决方案,本发明利用了多粒度卷积自注意力上下文网络模型,能够更好地克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题。本发明在视频对话任务中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及视频对话任务,尤其涉及一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。
背景技术
视频对话任务可以被看做为视觉问答任务的拓展,在该任务中需要对话***可以针对于某个特定视频的内容,持续与人类进行自然语言形式的对话。与以往的视觉问答任务不同的是,视觉问答任务中的各个问题为相互独立的问题,而视频对话任务中对话***需要回答的问题与之前的对话上下文有关。
目前大多数的视觉问答任务只关注处理静态的图像信息,然而视频是我们日常生活中常见的信息载体形式,所以将视觉问答任务拓展到视频对话任务十分必要。准确地说,视频对话任务是针对于给定的视频、对话历史和人类用户的每一轮的对话问题,对话***可以将视频信息与对话历史中的上下文信息结合起来,回答人类用户的对话问题。
虽然视觉问答任务与视频对话任务很相似,但是由于视频中存在的隐含时间结构信息,并且视觉问答任务解决方法缺乏了对于关键的对话上下文的处理,目前的视觉问答任务的方法不能被直接运用于解决视频对话任务。此外在对话上下文处理时,对话上下文中的序列化与各轮对话相互依赖特性的使用也十分关键。
目前,对于序列化形式的数据,一般采用循环神经网络的处理方式。并且为了解决基础循环神经网络中存在的梯度消失问题,利用长短时记忆神经网络来提高对于序列化形式数据的处理效果。但是长短时记忆神经网络仍然会存在消耗时间过长的问题。为了弥补此问题,本发明使用多粒度卷积神经网络来进行序列化形式数据的处理。同时本发明利用自注意力机制来提高对话***对于对话上下文的表达效果。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对于对话上下文信息处理而无法直接运用于解决视频对话任务的问题,本发明提供一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法。本发明所采用的具体技术方案是:
利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,包含如下步骤:
1.设计一种多粒度卷积自注意力处理机制来对于视频、对话信息进行编码处理。
2.利用步骤1中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达。
3.利用步骤1中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达。
4.利用步骤2获得的含有对话上下文信息的当轮问题表达与步骤3获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案。
5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
上述步骤可具体采用如下实现方式:
1.设计一种多粒度卷积自注意力处理机制,该机制可以在对于视频、对话信息进行编码处理时,加入时间信息。
多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;
将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:
Yi=Attention(Xi,Xi,Xi),
其中i=1,2,...,k,dx为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;
对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;
将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P′=(p1′,p2′,...,pk′),
P′=Attention(P,P,P),
其中dp为压缩序列表达P的维度;
将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′=(z1′,z2′,...,zk′),
将获得的混合输出序列表达Z′=(z1,z2,...,zk)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;
将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O1,
其中,σ()代表sigmoid函数,代表以元素方式相乘,tanh()代表双曲正切函数,Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值。
2.设计一种分层对话历史编码器,该分层对话历史编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制,获取含有对话历史信息的问题的表达。
对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达ri q、
f(xi)=W1σ(W2xi+b1)+b2
其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问答对应的问题的自注意力表达ri q,或者,第i轮问答对应的答案的自注意力表达ri q;
对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu,
qu=q+uq
3.设计一种含有对话上下文信息的视频编码器,该含有对话上下文信息的视频编码器可以结合利用步骤1中设计的多粒度卷积自注意力处理机制,获取含有对话上下文信息的视频编码。
对于所给的视频,利用提前训练好的VGG网络获取视频的外表特征表达利用提前训练好的3D-卷积网络获取视频的动作特征表达将获得的视频外表特征表达与视频动作特征表达分别利用步骤1中设计的多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达与视频互相作用的动作特征表达
其中,Concat()代表连接操作,g()代表双曲正切激活函数。
4.设计一种含有答案解码器,该答案解码器利用步骤3得到的含有对话上下文信息的视频编码fquv,从预先存储的候选答案语料中选择对于用户该轮问题的最佳回复。
对于得到的候选答案表达矩阵A与步骤3得到的含有对话上下文信息的视频编码fquv,利用如下公式计算得到候选答案对应的概率分布pa,
其中,softmax()代表softmax运算函数;之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复。
5.步骤3中设计的视频编码器及步骤4中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该网络可以针对于特定视频,与用户进行对话。
附图说明
图1是本发明用于解决视频对话任务的多粒度卷积自注意力上下文网络整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明多粒度卷积自注意力上下文网络解决视频对话任务的方法包括如下步骤:
1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;
2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;
3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;
4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;
5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
所述步骤1),其具体步骤为:
多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;
将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:
Yi=Attention(Xi,Xi,Xi),
其中i=1,2,...,k,dx为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;
对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;
将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P′=(p1′,p2′,...,pk′),
P′=Attention(P,P,P),
其中dp为压缩序列表达P的维度;
将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′=(z1′,z2′,...,zk′),
将获得的混合输出序列表达Z′=(z1,z2,...,zk)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;
将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O1,
其中,σ()代表sigmoid函数,代表以元素方式相乘,tanh()代表双曲正切函数,Wx代表权重矩阵,bf、bs代表偏置向量,[X;Y;Z]代表对于新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn)进行连接操作,S2代表门比例值;
所述步骤2),其具体步骤为:
对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达ri q、
f(xi)=W1σ(W2xi+b1)+b2
其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问答对应的问题的自注意力表达ri q,或者,第i轮问答对应的答案的自注意力表达ri q;
对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu,
qu=q+uq
所述步骤3),其具体步骤为:
对于所给的视频,利用提前训练好的VGG网络获取视频的外表特征表达利用提前训练好的3D-卷积网络获取视频的动作特征表达将获得的视频外表特征表达与视频动作特征表达分别利用步骤1中设计的多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达与视频互相作用的动作特征表达
其中,Concat()代表连接操作,g()代表双曲正切激活函数;
所述的步骤4),其具体步骤为:
对于得到的候选答案表达矩阵A与步骤3)得到的含有对话上下文信息的视频编码fquv,利用如下公式计算得到候选答案对应的概率分布pa,
其中,softmax()代表softmax运算函数;之后将概率相较其他数值大的候选答案作为对于用户该轮问题的回复;
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的YouTubeClips与TACoS-MultiLevel实验数据集上进行实验,所使用的YouTubeClips数据集中共包括6515条视频数据、66806个对话问答对数据;TACoS-MultiLevel数据集中共包括9935条视频数据、37228个对话问答对数据。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了平均倒数排序(MRR),精确度@1(Precision@1),精确度@5(Precision@5),平均排序(MeanRank)这四种评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为MGCSACN:
方法名 | 平均倒数排序 | 精确度@1 | 精确度@5 | 平均排序 |
MGCSACN | 0.481 | 0.344 | 0.687 | 6.969 |
表1本发明针对于YouTubeClips数据集的测试结果
方法名 | 平均倒数排序 | 精确度@1 | 精确度@5 | 平均排序 |
MGCSACN | 0.542 | 0.437 | 0.717 | 5.875 |
表2本发明针对于TACoS-MultiLevel数据集的测试结果。
Claims (5)
1.一种利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于包括如下步骤:
1)设计一种多粒度卷积自注意力处理机制对视频、对话信息进行编码处理;其中多粒度卷积自注意力上下文网络对输入的视频帧特征序列或对话单词映射特征序列进行分割成分段,计算得到每个分段的局部互动信息表达,将局部互动信息表达输入卷积层得到压缩序列表达,计算得到含有自注意力互动信息的序列表达,利用压缩序列表达和含有自注意力互动信息的序列表达计算得到混合输出序列,将获得的混合输出序列表达复制获得新的混合输出序列表达,计算得到最终的多粒度卷积自注意力处理机制输出序列表达;
2)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种分层对话历史编码器,利用该分层对话历史编码器获得含有对话上下文信息的当轮问题表达;
对于对话历史各轮对话表达利用步骤1)的多粒度卷积自注意力处理机制得到对应的多粒度卷积自注意力处理机制输出序列表达,计算获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达得到对应的问题与答案的自注意力句子表达,再计算得到对应对话的混合表达,利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达;
3)利用步骤1)中设计的多粒度卷积自注意力处理机制,设计一种视频编码器,利用该视频编码器获得含有对话上下文信息的视频表达;处理所给的视频得到视频外表特征表达与视频动作特征表达,分别利用多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达,计算含有上下文信息的视频外表特征表达,计算含有上下文信息的视频外表特征表达,对于得到的视频互相作用的动作特征表达与步骤2)中得到的含有对话历史信息的问题的表达,计算含有上下文信息的视频动作特征表达,对于得到的含有上下文信息的视频外表特征表达与含有上下文信息的视频动作特征表达,计算得到含有上下文信息的视频表达,对于得到的含有上下文信息的视频表达与步骤2中得到的含有对话历史信息的问题的表达,计算得到含有对话上下文信息的视频编码;
4)利用步骤2)获得的含有对话上下文信息的当轮问题表达与步骤3)获得的含有对话上下文信息的视频表达,设计一种答案解码器,利用该答案解码器获得当轮问题答案;
其中对于预先存储的候选答案语料中的所有答案,利用多粒度卷积自注意力处理机制,获取候选答案表达矩阵,对于得到的候选答案表达矩阵与步骤3)得到的含有对话上下文信息的视频编码,计算得到候选答案对应的概率分布,进而得到当轮问题答案;
5)步骤3)中设计的视频编码器及步骤4)中设计的答案解码器经过训练,得到最终的多粒度卷积自注意力上下文网络,利用该多粒度卷积自注意力上下文网络针对于特定视频,与用户进行对话。
2.根据权利要求1所述的利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤1),具体为:
多粒度卷积自注意力上下文网络对于输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),分割为k个长度为l的片段X=(X1,X2,...,Xk),其中X1=(x1,x2,...,xl),X2=(xl+1,xl+2,...,x2l),...,Xi=(xl×(i-1)+1,xl×(i-1)+2,...,xl×i),i=1,2,...,k,n=k×l;
将分割后的每个分段Xi按照如下公式计算获得每个分段的局部互动信息表达:
Yi=Attention(Xi,Xi,Xi),
其中i=1,2,...,k,dx为片段Xi的序列元素维度,Yi为片段Xi对应的局部互动信息表达;
对于k个长度为l的片段X=(X1,X2,...,Xk),利用上述方法获得对应的局部互动信息表达Y=(Y1,Y2,...,Yk),其中Yi=(yl×(i-1)+1,yl×(i-1)+2,...,yl×i),i=1,2,...,k;
将获得的局部互动信息表达Y=(Y1,Y2,...,Yk)输入到一个卷积核维度与卷积步长均为l的卷积层,获得压缩序列表达P=(p1,p2,...,pk);将获得的压缩序列表达P=(p1,p2,...,pk)按照如下公式计算获得含有自注意力互动信息的序列表达P′=(p′1,p′2,...,p′k),
P′=Attention(P,P,P),
其中dp为压缩序列表达P的维度;
将获得的压缩序列表达P与含有自注意力互动信息的序列表达P′按照如下公式计算出混合输出序列表达Z′=(z′1,z′2,...,z′k),
将获得的混合输出序列表达Z′=(z′1,z′2,...,z′k)复制l次,获得新的混合输出序列表达Z=(z1,z2,...,zn),其中n=k×l;
将获得的新的混合输出序列表达Z=(z1,z2,...,zn)、局部互动信息表达Y=(Y1,Y2,...,Yk)与输入的视频帧特征序列或对话单词映射特征序列X=(x1,x2,...,xn),按照如下公式计算得到最终的多粒度卷积自注意力处理机制输出序列表达O1,
3.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤2),具体为:
对于对话历史各轮对话表达C=(C1,C2,...,CN),其中第i轮对话表达Ci由第i轮的问题表达qi与第i轮的答案表达ai组成,将每一轮的问题表达与答案表达,利用步骤1)中所设计的多粒度卷积自注意力处理机制,获取对应的多粒度卷积自注意力处理机制输出序列表达;将获得的每一轮的问题表达与答案的多粒度卷积自注意力处理机制输出序列表达,利用如下公式,计算得到对应的问题与答案的自注意力句子表达
f(xi)=W1σ(W2xi+b1)+b2
其中,xi代表输入的第i轮的问题或第i轮的答案所对应多粒度卷积自注意力处理机制输出序列表达的一个元素,σ()代表sigmoid函数,代表以元素方式相乘,W1、W2代表权重矩阵,b1、b2代表偏置向量,n代表输入的第i轮的问题表达qi或第i轮的答案表达的长度,O代表所得到第i轮问答对应的问题的自注意力表达或者,第i轮问答对应的答案的自注意力表达将所得到的第i轮问题与第i轮答案对应的问题与答案的自注意力句子表达利用如下公式,计算得到第i轮对话的混合表达ci,
对于得到的每一轮对话的混合表达c=(c1,c2,...,cN),利用掩饰的多粒度卷积自注意力处理机制,获得相互作用的对话上下文表达u=(u1,u2,...,uN);对于输入的新问题表达q,利用如下公式计算最终的含有对话历史信息的问题的表达qu,
qu=q+uq
4.根据权利要求1所述利用多粒度卷积自注意力上下文网络解决视频对话任务的方法,其特征在于,所述步骤3)具体为:
对于所给的视频,利用提前训练好的VGG网络获取视频的外表特征表达利用提前训练好的3D-卷积网络获取视频的动作特征表达将获得的视频外表特征表达与视频动作特征表达分别利用步骤1中设计的多粒度卷积自注意力处理机制,获取对应的视频互相作用的外表特征表达与视频互相作用的动作特征表达
其中,Concat()代表连接操作,g()代表双曲正切激活函数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019100600450 | 2019-01-22 | ||
CN201910060045 | 2019-01-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857909A CN109857909A (zh) | 2019-06-07 |
CN109857909B true CN109857909B (zh) | 2020-11-20 |
Family
ID=66897170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910097296.6A Active CN109857909B (zh) | 2019-01-22 | 2019-01-31 | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857909B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427490B (zh) * | 2019-07-03 | 2021-11-09 | 华中科技大学 | 一种基于自注意力机制的情感对话生成方法与装置 |
CN110516791B (zh) * | 2019-08-20 | 2022-04-22 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及*** |
CN110990628A (zh) * | 2019-12-06 | 2020-04-10 | 浙江大学 | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 |
CN112182162B (zh) * | 2020-09-30 | 2023-10-31 | 中国人民大学 | 一种基于记忆神经网络的个性化对话方法和*** |
CN112434514B (zh) * | 2020-11-25 | 2022-06-21 | 重庆邮电大学 | 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备 |
CN116483960B (zh) * | 2023-03-30 | 2024-01-02 | 阿波罗智联(北京)科技有限公司 | 对话识别方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363763A (zh) * | 2018-02-05 | 2018-08-03 | 深圳市腾讯计算机***有限公司 | 一种自动问答方法、装置和存储介质 |
CN108959388A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息生成方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4287218B2 (ja) * | 2003-08-05 | 2009-07-01 | パナソニック株式会社 | データ通信装置及びデータ通信方法 |
US10565305B2 (en) * | 2016-11-18 | 2020-02-18 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN107766447B (zh) * | 2017-09-25 | 2021-01-12 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN107818174A (zh) * | 2017-11-15 | 2018-03-20 | 浙江大学 | 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108829756B (zh) * | 2018-05-25 | 2021-10-22 | 杭州一知智能科技有限公司 | 一种利用分层注意力上下文网络解决多轮视频问答的方法 |
CN108763444B (zh) * | 2018-05-25 | 2021-02-05 | 杭州一知智能科技有限公司 | 利用分层编码解码器网络机制来解决视频问答的方法 |
-
2019
- 2019-01-31 CN CN201910097296.6A patent/CN109857909B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363763A (zh) * | 2018-02-05 | 2018-08-03 | 深圳市腾讯计算机***有限公司 | 一种自动问答方法、装置和存储介质 |
CN108959388A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
Improving Variational Encoder-Decoders in Dialogue Generation;Xiaoyu Shen等;《ResearchGate》;20180206;1-9 * |
多通道人机交互信息融合的智能方法;杨明浩等;《中国科学: 信息科学》;20180413;第48卷(第4期);433-448 * |
Also Published As
Publication number | Publication date |
---|---|
CN109857909A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857909B (zh) | 多粒度卷积自注意力上下文网络解决视频对话任务的方法 | |
CN108268444B (zh) | 一种基于双向lstm、cnn和crf的中文分词方法 | |
JP7408574B2 (ja) | 質問応答としてのマルチタスク学習 | |
CN107463609B (zh) | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN109657041B (zh) | 基于深度学习的问题自动生成方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN107644014A (zh) | 一种基于双向lstm和crf的命名实体识别方法 | |
Wendorf | Comparisons of structural equation modeling and hierarchical linear modeling approaches to couples' data | |
CN110377711B (zh) | 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 | |
CN108829756B (zh) | 一种利用分层注意力上下文网络解决多轮视频问答的方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN111144553B (zh) | 一种基于时空记忆注意力的图像描述方法 | |
CN108595436A (zh) | 情感对话内容的生成方法和***、存储介质 | |
CN109902164B (zh) | 利用卷积双向自注意网络解决开放长格式视频问答的方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
CN111782788A (zh) | 一种面向开放域对话***的情感回复自动生成方法 | |
CN112948558A (zh) | 面向开放域对话***的上下文增强的问题生成方法及装置 | |
CN109783825A (zh) | 一种基于神经网络的古文翻译方法 | |
CN115455985A (zh) | 一种基于机器阅读理解的自然语言***的处理方法 | |
Wang et al. | Vector-to-sequence models for sentence analogies | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN112132075B (zh) | 图文内容处理方法及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |