CN110377792A - 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法 - Google Patents

一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法 Download PDF

Info

Publication number
CN110377792A
CN110377792A CN201910516683.9A CN201910516683A CN110377792A CN 110377792 A CN110377792 A CN 110377792A CN 201910516683 A CN201910516683 A CN 201910516683A CN 110377792 A CN110377792 A CN 110377792A
Authority
CN
China
Prior art keywords
video
frame
represent
cross
module type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910516683.9A
Other languages
English (en)
Other versions
CN110377792B (zh
Inventor
赵洲
孟令涛
张竹
陈漠沙
仇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910516683.9A priority Critical patent/CN110377792B/zh
Publication of CN110377792A publication Critical patent/CN110377792A/zh
Application granted granted Critical
Publication of CN110377792B publication Critical patent/CN110377792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。主要包括如下步骤:1)针对问题语句与视频帧,利用语义图像卷积网络、多头自注意力模块、与多步骤跨模型交互模块获取视频帧的跨模型语义表达。2)对获得的视频帧的跨模型语义表达,计算损失函数并训练模型,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。相比于一般的视频片段抽取解决方案,本发明对多种有效信息进行综合利用。本发明在以问题为基础的视频片段抽取任务中所取得的效果相比于传统的方法更好。

Description

一种利用跨模型交互网络解决以问题为基础的视频片段抽取 任务的方法
技术领域
本发明涉及以问题为基础的视频片段抽取任务,尤其涉及一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。
背景技术
当下,视频片段抽取任务成为一项重要的服务,但是目前已有该项服务的效果并不是很好。
现有的技术主要是仅仅关注视频片段抽取任务中的一个方面,例如只关注问题描述学习、视频内容建模、跨模型表达混合,这样便忽略了对多种有效信息的综合利用,来提高视频片段抽取的精确性。为了克服该缺陷,本方法将使用跨模型交互网络解决以问题为基础的视频片段抽取任务。
本发明将利用一个语义图像卷积网络抓取提问中的语法结构,获得提问的语义表达,利用多头自注意力模块获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达,利用多步跨模型交互来获取视频与提问内容之间的联系。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中只关注视频片段抽取任务中的一个方面,忽略了对于多种有效信息的综合利用的问题,本发明提供一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。本发明所采用的具体技术方案是:
一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,包括如下步骤:
1、针对问题语句,利用语义图像卷积网络获取问题语句的语义表达;
2、针对视频,获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达;
3、利用步骤1获取的问题语句的语义表达与步骤2获取的自注意力视频语义表达,获取视频帧的跨模型语义表达;
4、利用步骤3获得的视频帧的跨模型语义表达,计算得到跨模型交互网络的损失函数;
5、利用步骤4获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。
进一步的,所述的步骤1具体为:
针对问题语句,利用提前训练好的Glove word2vec模型获取问题语句的单词表达q=(q1,q2,...qi,...qm),其中qi代表问题语句中第i个单词的Glove特征表达向量;将问题语句的单词表达q=(q1,q2,...qi,...qm)输入到双向GRU网络中,获取问题语句的上下文单词表达其中代表问题语句中第i个单词的上下文单词表达;
利用自然语言处理工具方法,获取问题语句中的语义依赖图θ=(ν,ε),其中ν代表语义依赖图中所有点的集合,每个语义依赖图中的点为问题语句的一个单词;ε代表语义依赖图中所有边的集合,每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系;
按照如下公式计算获得l层语义图像卷积网络的输出作为问题语句的语义表达,
其中,表示第l层语义图像卷积网络输出中第i个单词对应的输出,代表可训练的变换矩阵,dir(i,j)代表(i,j)边的指向方向,代表可训练的偏置向量,lab(i,j)代表(i,j)边的标签,N(i)代表所有与点i有依赖关系的点的集合,ReLU(·)代表ReLU运算,gk代表第k层语义图像卷积网络的中间输出,k=(1,2,...,l)。
进一步的,所述的步骤2具体为:
针对视频,利用提前训练好的3维卷积网络,获取视频帧特征V=(v1,v2,...vi,...,vn),其中vi代表视频中第i帧的特征;利用如下公式计算得到自注意力视频表达
Vs=MultiHead(V,V,V)+V
MultiHead(V,V,V)=WOConcat(head1,head2,...,headH)
headi=Attention(Wi 1V,Wi 2V,Wi 3V)
其中,WO、Wi 1、Wi 2、Wi 3为可训练的线性映射矩阵,Softmax(·)代表softmax运算,dk代表矩阵Wi 1、Wi 2、Wi 3的行数;
将自注意力视频表达输入到双向GRU网络中,获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达
进一步的,所述的步骤3具体为:
利用步骤1获取的问题语句的语义表达与步骤2获取的自注意力视频语义表达按照如下公式计算得到视频问题注意力矩阵M,
其中Mij代表矩阵M中的第i行第j列元素,W1 m为可训练的参数矩阵,bm为可训练的偏置向量,wT为行向量,tanh(·)代表双曲正切函数计算;
利用得到的视频问题注意力矩阵M与问题语句的语义表达按照如下公式计算得到视频帧的聚合问题表达
其中,Mij代表矩阵M中的第i行第j列元素,exp(·)代表以自然常数e为底的指数函数计算,hi s代表视频第i帧的聚合问题表达;
利用得到的视频帧的聚合问题表达与自注意力视频语义表达按照如下公式计算得到过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达
其中,Wv、Ws代表可训练的参数矩阵,bv、bs代表可训练的偏置向量,σ(·)代表sigmoid函数计算,代表元素级别的相乘计算,代表过滤后的视频第i帧的聚合问题表达,代表过滤后的自注意力视频第i帧的语义表达;
利用得到的过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达按照如下公式计算得到视频帧的跨模型语义表达f=(f1,f2,...fi,...fn),
其中,pf代表可训练的参数向量,Wvf、Wsf代表可训练的参数矩阵,bf代表可训练的偏置向量,σ(·)代表sigmoid函数计算,fi代表视频第i帧的跨模型语义表达。
进一步的,所述的步骤4具体为:
将步骤3获得的视频帧的跨模型语义表达f=(f1,f2,...fi,...fn)输入到双向GRU中,获得视频帧的最终语义表达对视频每个帧,利用可变长度窗口预定义一组预定义候选片段集合其中Ci代表视频第i帧的预定义候选片段集合,代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界,wj代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度,k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目;利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数,
其中,csi为k维向量,csi代表视频第i帧的k个预定义候选片段对应的置信度分数,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,Wc代表可训练的参数矩阵,bc代表可训练的偏置向量,σ(·)代表sigmoid函数计算;
利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值,
其中,为2k维向量,代表视频第i帧的k个预定义候选片段对应的预测偏离值,代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值,Wo代表可训练的参数矩阵,bo代表可训练的偏置向量;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段,计算与目标片段(s,e)的IoU值,对IoU值小于边界值λ的预定义候选片段,将其IoU值设为0;利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,按照如下公式计算校准损失函数Lalign
Lij=(1-IoUij)·log(1-csij)+IoUij·log(csij)
其中,IoUij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,log(·)代表以自然常数e为底的对数函数计算;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,取出其中IoU值大于边界值γ的预定义候选片段,构成集合Ch;利用集合Ch中所有预定义候选片段的开始边界与结束边界及相应目标片段的开始边界s与结束边界e,结合得到的视频每个帧所有预定义候选片段的预测偏离值,按照如下公式计算得到回归损失函数Lreg
其中,N代表集合Ch中所有预定义候选片段的数目,R(·)代表平滑L1计算,δs代表集合Ch中第i个预定义候选片段的起点实际偏离值,δe代表集合Ch中第i个预定义候选片段的终点实际偏离值,代表集合Ch中第i个片段的起点预测偏离值,代表集合Ch中第i个片段的终点预测偏离值,i=(1,2,...,N);
利用得到的校准损失函数Lalign与回归损失函数Lreg,按照如下公式计算得到跨模型交互网络的损失函数L,
L=Lalign+α·Lreg
其中,α代表平衡校准损失函数Lalign与回归损失函数Lreg的超参数。
进一步的,所述的步骤5具体为:
利用步骤4获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,获得训练后的跨模型交互网络;利用训练后的跨模型交互网络,输入视频与问题,获得视频中所有预定义候选片段的置信度分数,将置信度分数最高的视频片段抽取出来,作为对视频进行以问题为基础的片段抽取的结果。
本发明的有益效果为:
(1)本发明对以问题为基础的视频片段抽取任务,综合考虑到了多种相关因素,包括自然语言形式问题语句的语义结构、视频内容的长范围语义依赖、多模型有效结合;
(2)本发明利用语义图像卷积网络提取自然语言形式问题语句的语义结构,从而得到了自然语言形式问题语句更有效的语义表达,同时本发明利用多头自注意力模块获取了包含视频内容中的长范围语义依赖信息的自注意力视频语义表达。在获取问题语句的语义表达与自注意力视频语义表达的基础上,本发明设计了一种多步骤跨模型交互模块获取视频帧的跨模型语义表达,之后利用获取的视频帧的跨模型语义表达,计算模型损失函数,并利用损失函数进行模型训练。利用训练后的模型对视频进行以问题为基础的片段抽取;
(3)本发明可以更有效地提取出视频中与问题语句相关的片段;在ActivityCaption数据集与TACoS数据集上进行实验,实验发现,本发明可以取得较好的效果。
附图说明
图1是本发明使用的用来解决以问题为基础的视频片段抽取任务的跨模型交互网络模型示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,图1中a)代表利用语义图像卷积网络获取问题语句的语义表达,图1中b)代表利用多头自注意力模块获取自注意力视频语义表达;图中c)代表利用多步骤跨模型交互模块获取视频帧的跨模型语义表达;图1中d)代表利用片段提取模块获取视频片段。
本发明一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法包括如下步骤:
步骤一,针对问题语句,利用语义图像卷积网络获取问题语句的语义表达。
针对问题语句,利用提前训练好的Glove word2vec模型获取问题语句的单词表达q=(q1,q2,...qi,...qm),其中qi代表问题语句中第i个单词的Glove特征表达向量;将问题语句的单词表达q=(q1,q2,...qi,...qm)输入到双向GRU网络中,获取问题语句的上下文单词表达其中代表问题语句中第i个单词的上下文单词表达;
利用自然语言处理工具方法,获取问题语句中的语义依赖图θ=(ν,ε),其中ν代表语义依赖图中所有点的集合,每个语义依赖图中的点为问题语句的一个单词;ε代表语义依赖图中所有边的集合,每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系;
按照如下公式计算获得l层语义图像卷积网络的输出作为问题语句的语义表达,
其中,表示第l层语义图像卷积网络输出中第i个单词对应的输出,代表可训练的变换矩阵,dir(i,j)代表(i,j)边的指向方向,代表可训练的偏置向量,lab(i,j)代表(i,j)边的标签,N(i)代表所有与点i有依赖关系的点的集合,ReLU(·)代表ReLU运算,gk代表第k层语义图像卷积网络的中间输出,k=(1,2,...,l)。
步骤二,针对视频,获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达,其具体步骤为:
针对视频,利用提前训练好的3维卷积网络,获取视频帧特征V=(v1,v2,...vi,...,vn),其中vi代表视频中第i帧的特征;利用如下公式计算得到自注意力视频表达
Vs=MultiHead(V,V,V)+V
MultiHead(V,V,V)=WOConcat(head1,head2,...,headH)
headi=Attention(Wi 1V,Wi 2V,Wi 3V)
其中,WO、Wi 1、Wi 2、Wi 3为可训练的线性映射矩阵,Softmax(·)代表softmax运算,dk代表矩阵Wi 1、Wi 2、Wi 3的行数;
将自注意力视频表达输入到双向GRU网络中,获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达上述步骤可以合成一个多头自注意力模块,针对视频,利用多头自注意力模块可以直接获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达。
步骤三,利用步骤一获取的问题语句的语义表达与步骤二获取的自注意力视频语义表达,设计一种多步骤跨模型交互模块用来获取视频帧的跨模型语义表达,所述多步骤跨模型交互模块的设计包括以下步骤:
利用步骤一获取的问题语句的语义表达与步骤二获取的自注意力视频语义表达按照如下公式计算得到视频问题注意力矩阵M,
其中Mij代表矩阵M中的第i行第j列元素,W1 m为可训练的参数矩阵,bm为可训练的偏置向量,wT为行向量,tanh(·)代表双曲正切函数计算;
利用得到的视频问题注意力矩阵M与问题语句的语义表达按照如下公式计算得到视频帧的聚合问题表达
其中,Mij代表矩阵M中的第i行第j列元素,exp(·)代表以自然常数e为底的指数函数计算,代表视频第i帧的聚合问题表达;
利用得到的视频帧的聚合问题表达与自注意力视频语义表达按照如下公式计算得到过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达
其中,Wv、Ws代表可训练的参数矩阵,bv、bs代表可训练的偏置向量,σ(·)代表sigmoid函数计算,代表元素级别的相乘计算,代表过滤后的视频第i帧的聚合问题表达,代表过滤后的自注意力视频第i帧的语义表达;
利用得到的过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达按照如下公式计算得到视频帧的跨模型语义表达f=(f1,f2,...fi,...fn),
其中,pf代表可训练的参数向量,Wvf、Wsf代表可训练的参数矩阵,bf代表可训练的偏置向量,σ(·)代表sigmoid函数计算,fi代表视频第i帧的跨模型语义表达。
步骤四,将步骤三获得的视频帧的跨模型语义表达f=(f1,f2,...fi,...fn)输入到双向GRU中,获得视频帧的最终语义表达对视频每个帧,利用可变长度窗口预定义一组预定义候选片段集合其中Ci代表视频第i帧的预定义候选片段集合,代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界,wj代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度,k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目;利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数,
其中,csi为k维向量,csi代表视频第i帧的k个预定义候选片段对应的置信度分数,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,Wc代表可训练的参数矩阵,bc代表可训练的偏置向量,σ(·)代表sigmoid函数计算;
利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值,
其中,为2k维向量,代表视频第i帧的k个预定义候选片段对应的预测偏离值,代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值,Wo代表可训练的参数矩阵,bo代表可训练的偏置向量;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段,计算与目标片段(s,e)的IoU值,对IoU值小于边界值λ的预定义候选片段,将其IoU值设为0;利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,按照如下公式计算校准损失函数Lalign
Lij=(1-IoUij)·log(1-csij)+IoUij·log(csij)
其中,IoUij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,log(·)代表以自然常数e为底的对数函数计算;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,取出其中IoU值大于边界值γ的预定义候选片段,构成集合Ch;利用集合Ch中所有预定义候选片段的开始边界与结束边界及相应目标片段的开始边界s与结束边界e,结合得到的视频每个帧所有预定义候选片段的预测偏离值,按照如下公式计算得到回归损失函数Lreg
其中,N代表集合Ch中所有预定义候选片段的数目,R(·)代表平滑L1计算,δs代表集合Ch中第i个预定义候选片段的起点实际偏离值,δe代表集合Ch中第i个预定义候选片段的终点实际偏离值,代表集合Ch中第i个预定义候选片段的起点预测偏离值,代表集合Ch中第i个预定义候选片段的终点预测偏离值,i=(1,2,...,N);
利用得到的校准损失函数Lalign与回归损失函数Lreg,按照如下公式计算得到跨模型交互网络的损失函数L,
L=Lalign+α·Lreg
其中,α代表平衡校准损失函数Lalign与回归损失函数Lreg的超参数。
步骤五,利用步骤四获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,获得训练后的跨模型交互网络。利用训练后的跨模型交互网络,输入视频与问题,获得视频中所有预定义候选片段的置信度分数,将置信度分数最高的视频片段抽取出来,作为对视频进行以问题为基础的片段抽取的结果。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityCaption数据集与TACoS数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了R@1IoU=0.3,R@1IoU=0.5,R@1IoU=0.7,R@5IoU=0.3,R@5IoU=0.5,R@5IoU=0.7六种评价标准来对于本发明的效果进行评价,这六种评价标准分别反映了在IoU取0.3、0.5、0.7时,若分别选择最佳1个、最佳5个预定义候选片段,则有多少百分比的大于设定的IoU值的候选片段被挑出。按照具体实施方式中描述的步骤,所得的实验结果如表1与表2所示,本方法表示为CMIN。
表1为本发明在ActivityCaption数据集上针对R@1IoU=0.3,R@1IoU=0.5,R@1IoU=0.7,R@5IoU=0.3,R@5IoU=0.5,R@5IoU=0.7六种评价标准的测试结果。表2为本发明在TACoS数据集上针对R@1IoU=0.3,R@1IoU=0.5,R@1IoU=0.7,R@5IoU=0.3,R@5IoU=0.5,R@5IoU=0.7六种评价标准的测试结果。
表1与表2的测试结果反映出,本发明可以有效地解决以问题为基础的视频片段抽取任务,抽取出符合要求的视频片段。
表1
表2

Claims (6)

1.一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,其特征在于包括如下步骤:
1)针对问题语句,利用语义图像卷积网络获取问题语句的语义表达;
2)针对视频,获取包含视频内容中的长范围语义依赖信息的自注意力视频语义表达;
3)利用步骤1)获取的问题语句的语义表达与步骤2)获取的自注意力视频语义表达,获取视频帧的跨模型语义表达;
4)利用步骤3)获得的视频帧的跨模型语义表达,计算得到跨模型交互网络的损失函数;
5)利用步骤4)获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。
2.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,其特征在于所述的步骤1)具体为:
针对问题语句,利用提前训练好的Glove word2vec模型获取问题语句的单词表达q=(q1,q2,...qi,...qm),其中qi代表问题语句中第i个单词的Glove特征表达向量;将问题语句的单词表达q=(q1,q2,...qi,...qm)输入到双向GRU网络中,获取问题语句的上下文单词表达其中代表问题语句中第i个单词的上下文单词表达;
利用自然语言处理工具方法,获取问题语句中的语义依赖图θ=(ν,ε),其中ν代表语义依赖图中所有点的集合,每个语义依赖图中的点为问题语句的一个单词;ε代表语义依赖图中所有边的集合,每个语义依赖图中的边为问题语句中的一个单词对之间的依赖关系,及单词自身到自身的自循环依赖关系;
按照如下公式计算获得l层语义图像卷积网络的输出作为问题语句的语义表达,
其中,表示第l层语义图像卷积网络输出中第i个单词对应的输出,代表可训练的变换矩阵,dir(i,j)代表(i,j)边的指向方向,代表可训练的偏置向量,lab(i,j)代表(i,j)边的标签,N(i)代表所有与点i有依赖关系的点的集合,ReLU(·)代表ReLU运算,gk代表第k层语义图像卷积网络的中间输出,k=(1,2,...,l)。
3.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,其特征在于所述的步骤2)具体为:
针对视频,利用提前训练好的3维卷积网络,获取视频帧特征V=(v1,v2,...vi,...,vn),其中vi代表视频中第i帧的特征;利用如下公式计算得到自注意力视频表达
Vs=MultiHead(V,V,V)+V
MultiHead(V,V,V)=WOConcat(head1,head2,...,headH)
headi=Attention(Wi 1V,Wi 2V,Wi 3V)
其中,WO、Wi 1、Wi 2、Wi 3为可训练的线性映射矩阵,Softmax(·)代表softmax运算,dk代表矩阵Wi 1、Wi 2、Wi 3的行数;
将自注意力视频表达输入到双向GRU网络中,获得包含视频内容中的长范围语义依赖信息的自注意力视频语义表达
4.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,其特征在于所述的步骤3)具体为:
利用步骤1)获取的问题语句的语义表达与步骤2)获取的自注意力视频语义表达按照如下公式计算得到视频问题注意力矩阵M,
其中Mij代表矩阵M中的第i行第j列元素,W1 m、W2 m为可训练的参数矩阵,bm为可训练的偏置向量,wT为行向量,tanh(·)代表双曲正切函数计算;
利用得到的视频问题注意力矩阵M与问题语句的语义表达按照如下公式计算得到视频帧的聚合问题表达
其中,Mij代表矩阵M中的第i行第j列元素,exp(·)代表以自然常数e为底的指数函数计算,代表视频第i帧的聚合问题表达;
利用得到的视频帧的聚合问题表达与自注意力视频语义表达按照如下公式计算得到过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达
其中,Wv、Ws代表可训练的参数矩阵,bv、bs代表可训练的偏置向量,σ(·)代表sigmoid函数计算,代表元素级别的相乘计算,代表过滤后的视频第i帧的聚合问题表达,代表过滤后的自注意力视频第i帧的语义表达;
利用得到的过滤后的视频帧的聚合问题表达与过滤后的自注意力视频语义表达按照如下公式计算得到视频帧的跨模型语义表达f=(f1,f2,...fi,...fn),
其中,pf代表可训练的参数向量,Wvf、Wsf代表可训练的参数矩阵,bf代表可训练的偏置向量,σ(·)代表sigmoid函数计算,fi代表视频第i帧的跨模型语义表达。
5.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,其特征在于所述的步骤4)具体为:
将步骤3)获得的视频帧的跨模型语义表达f=(f1,f2,...fi,...fn)输入到双向GRU中,获得视频帧的最终语义表达对视频每个帧,利用可变长度窗口预定义一组预定义候选片段集合其中Ci代表视频第i帧的预定义候选片段集合,代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的开始与结束边界,wj代表视频第i帧的预定义候选片段集合中第j个预定义候选片段的长度,k代表视频每个帧的预定义候选片段集合中所含有的预定义候选片段数目;利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的置信度分数,
其中,csi为k维向量,csi代表视频第i帧的k个预定义候选片段对应的置信度分数,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,Wc代表可训练的参数矩阵,bc代表可训练的偏置向量,σ(·)代表sigmoid函数计算;
利用得到的视频帧的最终语义表达按照如下公式计算得到视频每个帧所有预定义候选片段的预测偏离值,
其中,为2k维向量,代表视频第i帧的k个预定义候选片段对应的预测偏离值,代表视频第i帧第j个预定义候选片段对应的起点预测偏离值与终点预测偏离值,Wo代表可训练的参数矩阵,bo代表可训练的偏置向量;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段,计算与目标片段(s,e)的IoU值,对IoU值小于边界值λ的预定义候选片段,将其IoU值设为0;利用得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,按照如下公式计算校准损失函数Lalign
Lij=(1-IoUij)·log(1-csij)+IoUij·log(csij)
其中,IoUij代表视频第i帧第j个预定义候选片段与相应目标片段的IoU值,csij代表视频第i帧第j个预定义候选片段对应的置信度分数,log(·)代表以自然常数e为底的对数函数计算;
对得到的视频每个帧预定义候选片段集合中的每个预定义候选片段与目标片段(s,e)的IoU值,取出其中IoU值大于边界值γ的预定义候选片段,构成集合Ch;利用集合Ch中所有预定义候选片段的开始边界与结束边界及相应目标片段的开始边界s与结束边界e,结合得到的视频每个帧所有预定义候选片段的预测偏离值,按照如下公式计算得到回归损失函数Lreg
其中,N代表集合Ch中所有预定义候选片段的数目,R(·)代表平滑L1计算,δs代表集合Ch中第i个预定义候选片段的起点实际偏离值,δe代表集合Ch中第i个预定义候选片段的终点实际偏离值,代表集合Ch中第i个片段的起点预测偏离值,代表集合Ch中第i个片段的终点预测偏离值,i=(1,2,...,N);
利用得到的校准损失函数Lalign与回归损失函数Lreg,按照如下公式计算得到跨模型交互网络的损失函数L,
L=Lalign+α·Lreg
其中,α代表平衡校准损失函数Lalign与回归损失函数Lreg的超参数。
6.根据权利要求1所述利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法,其特征在于所述的步骤5)具体为:
利用步骤4)获得的跨模型交互网络的损失函数,对跨模型交互网络进行训练,获得训练后的跨模型交互网络;利用训练后的跨模型交互网络,输入视频与问题,获得视频中所有预定义候选片段的置信度分数,将置信度分数最高的视频片段抽取出来,作为对视频进行以问题为基础的片段抽取的结果。
CN201910516683.9A 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法 Active CN110377792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516683.9A CN110377792B (zh) 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516683.9A CN110377792B (zh) 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法

Publications (2)

Publication Number Publication Date
CN110377792A true CN110377792A (zh) 2019-10-25
CN110377792B CN110377792B (zh) 2021-09-21

Family

ID=68250351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516683.9A Active CN110377792B (zh) 2019-06-14 2019-06-14 基于跨模型交互网络实现问题-视频片段抽取任务的方法

Country Status (1)

Country Link
CN (1) CN110377792B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198966A (zh) * 2019-12-22 2020-05-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN112488063A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN113590821A (zh) * 2021-07-26 2021-11-02 首都师范大学 一种隐含语篇关系的分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN109815927A (zh) * 2019-01-30 2019-05-28 杭州一知智能科技有限公司 利用对抗双向交互网络解决视频时间文本定位任务的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN109815927A (zh) * 2019-01-30 2019-05-28 杭州一知智能科技有限公司 利用对抗双向交互网络解决视频时间文本定位任务的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198966A (zh) * 2019-12-22 2020-05-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111198966B (zh) * 2019-12-22 2023-09-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
CN111414845A (zh) * 2020-03-18 2020-07-14 浙江大学 利用空间-时间图推理网络解决多形态语句视频定位任务的方法
CN111414845B (zh) * 2020-03-18 2023-06-16 浙江大学 基于空间-时间图推理网络的多形态语句视频定位方法
CN112488063A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN112488063B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN113590821A (zh) * 2021-07-26 2021-11-02 首都师范大学 一种隐含语篇关系的分类方法

Also Published As

Publication number Publication date
CN110377792B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN110377792A (zh) 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN111259625B (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN110209824B (zh) 基于组合模型的文本情感分析方法、***、装置
Tan et al. Relaxed transformer decoders for direct action proposal generation
CN107729468B (zh) 基于深度学习的答案抽取方法及***
Carter et al. What made you do this? understanding black-box decisions with sufficient input subsets
Zhou et al. Embracing uncertainty: Decoupling and de-bias for robust temporal grounding
CN110852168A (zh) 基于神经架构搜索的行人重识别模型构建方法及装置
CN110019843A (zh) 知识图谱的处理方法及装置
CN108875074A (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN104915643A (zh) 一种基于深度学习的行人再标识方法
CN108121702A (zh) 数学主观题评阅方法及***
CN106355446B (zh) 一种网络和***的广告推荐***
CN109543181A (zh) 一种基于主动学习和深度学习相结合的命名实体模型和***
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
Li et al. Theme-aware visual attribute reasoning for image aesthetics assessment
CN108846047A (zh) 一种基于卷积特征的图片检索方法及***
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
Tsai et al. Adversarial domain separation and adaptation
CN109447958A (zh) 图像处理方法、装置、存储介质及计算机设备
CN113255597B (zh) 一种基于transformer的行为分析方法、装置及其终端设备
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN112052665B (zh) 一种远程监督事件抽取方法及其应用
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115048586B (zh) 一种融合多特征的新闻推荐方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant