CN111526434B - 基于转换器的视频摘要方法 - Google Patents

基于转换器的视频摘要方法 Download PDF

Info

Publication number
CN111526434B
CN111526434B CN202010329511.3A CN202010329511A CN111526434B CN 111526434 B CN111526434 B CN 111526434B CN 202010329511 A CN202010329511 A CN 202010329511A CN 111526434 B CN111526434 B CN 111526434B
Authority
CN
China
Prior art keywords
video
frame
encoder
attention mechanism
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010329511.3A
Other languages
English (en)
Other versions
CN111526434A (zh
Inventor
梁国强
张艳宁
吕艳兵
李书成
吉时雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010329511.3A priority Critical patent/CN111526434B/zh
Publication of CN111526434A publication Critical patent/CN111526434A/zh
Application granted granted Critical
Publication of CN111526434B publication Critical patent/CN111526434B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于转换器的视频摘要提取方法。首先,对选定数据集进行处理,得到模型的训练数据集;然后,构建包括自注意力机制的视频摘要转换器神经网络模型,利用自注意力机制计算视频帧之间的相似度,并通过添加先前帧的重要性得分来增强模型捕获视频帧序列全局依赖关系的能力,利用训练数据集对模型进行训练;最后,利用训练好的模型对待处理视频数据进行处理,得到每一帧的重要性得分,根据该得分选择得到视频摘要。本发明能够很好地捕获视频帧序列之间的时序信息,进而能够很好地对视频帧的重要性程度以得分的形式进行预测,且本发明的模型网络对帧序列可以以并行化的方式进行训练,具有训练时效快、所得视频摘要完整简短的优点。

Description

基于转换器的视频摘要方法
技术领域
本发明属计算机视觉、深度学习表示技术领域,具体涉及一种基于转换器的视频摘要方法。
背景技术
随着摄像机、视频分享技术的快速发展,视频的数量正在呈现***式的增长。面对海量视频数据,如何高效地从视频中提取有用信息成为一个重要的问题。作为解决该问题的一个重要技术,视频摘要技术旨在对原视频生成一个完整且简短的摘要视频,该摘要视频在时长简短的基础上又能够传递原视频要表达的信息,已经成为多媒体、计算机视觉等领域的热点。视频摘要技术综合运用了机器学习、人工智能等多方面技术,在视频检索、存储、推荐等方面具有重要的作用。
目前,大部分的视频摘要方法分为两个阶段,第一阶段是对所有视频帧进行重要性得分的预测,第二阶段是利用第一阶段的结果来选择视频的关键镜头,从而获得最终摘要结果。第一阶段是视频摘要方法的关键阶段,目前大多数方法的研究都是针对视频帧重要性得分的预测,很多方法都具有比较好的性能。如文献“Ke Zhang,Wei-Lun Chao,FeiSha,et al.Video Summarization with Long Short-Term Memory[C]//EuropeanConference on Computer Vision.Springer,Cham,2016.”中使用两个LSTM网络,一个从前往后,一个从后往前来提取视频帧的序列信息并进行视频帧重要性得分预测,该网络结构组成简单,可提取关键的序列信息,但循环神经网络难以捕捉长时的依赖关系,在处理长视频信息时,容易遗失早期的序列依赖关系;文献“Ji,Zhong,Xiong,Kailin,Pang,Yanwei,etal.Video Summarization with Attention-Based Encoder-Decoder Networks[J].2017.”采用编解码器结构来提取视频关键帧,虽然加入了注意力机制,取得了不错的效果,但编解码器依然使用LSTM网络,其复杂度与视频的长度相关,存在难以实现并行训练、耗时长的问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于转换器的视频摘要方法。利用基于注意力机制的转换器,优化特征到解码器的信息流路线,将解码器输出的重要性得分与原始特征进行加权,用于预测下一帧的重要性得分,增强模型输入与输出之间的联系,实现训练的完全并行化,同时更好地捕捉全局依赖信息。
一种基于转换器的视频摘要方法,其步骤如下:
步骤1:对选定数据集中的视频进行下采样,然后使用预先训练好的神经网络提取视频每一帧的特征向量hf∈Rd,f为帧序号,f=1,2,...,F,F是下采样后视频的总长度,d表示特征向量的长度;一个视频所有帧的特征向量和对应的重要性分数构成训练集中的一个样本;所述的选定数据集包括TvSum和SumMe;
步骤2:使用下式生成视频帧的位置向量:
Figure GDA0002939418680000021
其中,PEf(i)表示视频第f帧的位置向量的第i个元素值,i=1,2,…,d;
然后,将视频每一帧的位置向量逐元素与其特征向量相加,对每一帧得到一个添加位置向量后的新向量xf
步骤3:构建视频摘要转换器神经网络模型,包括编码器和解码器两个部分,其中,编码器由两个相同结构的编码器单元顺序连接而成,每个编码器单元依次包括多头自注意力机制模块、残差连接及归一化模块1、两层的前馈网络和残差连接及归一化模块2,将添加了位置向量的视频帧序列输入到第一个编码器单元中,第二个编码器单元输出得到一个维度与输入相同的带有序列信息的中间变量Y;
解码器由两个相同结构的解码器单元顺序连接而成,每个解码器单元依次包括带有掩膜的多头自注意力机制模块、残差连接及归一化模块1、多头自注意力机制模块、残差连接及归一化模块2、两层的前馈网络和残差连接及归一化模块3;解码器有两个输入,当预测第k帧的重要性得分时,已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入,编码器输出的中间变量输入到每个解码器单元的多头自注意力机制模块中;在第二个解码器单元后连接线性层和sigmoid函数,输出每一帧的重要性分值预测结果;
对上述神经网络模型的输入进行初始化,具体包括:编码器单元中多头自注意力机制模块第n个头的输入初始化为:
Figure GDA0002939418680000022
Figure GDA0002939418680000023
其中,n=1,2,3,4,在第一个编码器单元中Q0=K0=V0=X,X为步骤2得到的添加了位置向量的视频帧特征,在第二个编码器单元中Q0、K0、V0为第一个编码器单元的输出,
Figure GDA0002939418680000031
为随机生成的并且需在训练过程中学习的大小为d×d的矩阵;解码器单元中带有掩膜的多头自注意力机制模块的第n个头的输入Qn、Kn和Vn的初始化方法与编码器中多头自注意力机制模块相同,不同之处为在第一个解码器单元中
Figure GDA0002939418680000032
其中,hf为步骤1得到的第f帧的特征向量,sf为预测得到的第f帧对应的重要性得分,第二个解码器单元中Q0、K0、V0为第一个解码器单元的输出;解码器单元中多头自注意力机制模块的第n个头的输入Qn、Kn和Vn的初始化方法与编码器中多头自注意力机制模块相同,不同之处为K0=V0=Y,Q0=Z,其中,Y为编码器输出的中间变量,Z为所在解码器单元中残差连接及归一化模块1输出的变量;
步骤4:使用步骤1得到的训练数据集对步骤3构建的视频摘要转换器神经网络模型进行训练,设定网络的损失函数为均方损失函数
Figure GDA0002939418680000033
其中,L表示网络损失,sf和s′f分别为模型预测的视频第f帧重要性分数和数据集中人工标注的重要性分数;
步骤5:对待处理的视频数据集进行预处理,包括片段提取、降采样、特征提取和位置向量添加,得到每一帧的特征表示;然后,利用步骤4训练好的神经网络模型提取得到每一帧视频的重要性得分;利用KTS算法将视频划分为若干个场景镜头,并使用背包算法,依据视频帧的重要性得分选择出重要的视频镜头作为视频摘要,所选取的视频摘要长度不超过原视频长度的15%。
本发明的有益效果是:由于摒弃了循环神经网络,在编解码器中使用多头自注意力机制,实现了视频帧之间的关联,且在训练过程中,对解码器中多头自注意力机制模块的输入,即人工标注得分与特征向量的乘积添加掩膜,从而对视频帧序列的训练实现了完全并行化,具有训练时效快的优点;由于所设计的解码器底端输入采用特征向量与重要性得分乘积的方式,即当预测第k帧的重要性得分时,已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积作为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入,实现了解码过程中不同时序输出的关联,可以通过上一时刻的输出改善下一个时刻的输出结果,从而使得序列信息更加完整,获得更好的重要性得分预测性能;从整体看,本发明构建的整个模型完全基于自注意力机制,没有循环结构及过多的卷积操作,模型简单、易实现;且自注意力机制的使用能让模型更好地关注序列之间的细节信息,编解码器的结构使得序列的全局信息更加完整。
附图说明
图1是本发明的基于转换器的视频摘要方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于转换器的视频摘要方法,其具体实现过程如下:
1、数据处理
对选定数据集中的视频进行下采样,然后使用预先训练好的神经网络提取视频每一帧的特征向量hf∈Rd,f为帧序号,f=1,2,...,F,F是下采样后视频的总长度,d表示特征向量的长度;一个视频所有帧的特征向量和对应的重要性分数构成训练集中的一个样本;所述的选定数据集包括TvSum和SumMe,它们包含若干个视频及人工对其每一帧标注的重要性分数s′f
2、添加位置向量
为了表示每一帧的位置信息,需要添加位置表示向量。使用下式生成视频帧的位置向量:
Figure GDA0002939418680000041
其中,PEf(i)表示视频第f帧的位置向量的第i个元素值,i=1,2,…,d。
然后,将视频每一帧的位置向量逐元素相加到其特征向量,每一帧得到一个添加位置向量后的新向量xf=hf+PEf,将得到的向量作为后面网络模型编码器的输入。
3、构建视频摘要转换器神经网络模型
本发明设计了用于视频摘要的转换器模型,包括编码器和解码器,使用该模型获得视频帧的重要性得分。
其中,编码器由两个相同结构的编码器单元顺序连接而成,每个单元依次由多头自注意力机制模块、残差连接及归一化模块1、两层的前馈网络和残差连接及归一化模块2组成,将步骤2得到的添加了位置表示向量的视频帧特征序列
Figure GDA0002939418680000042
输入到第一个编码器单元中,最终第二个编码器单元输出得到一个维度与输入X相同的带有序列信息的中间变量Y。其中,多头自注意力机制记载在文献“Ashish Vaswani,Noam Shazeer,Niki Parmar,et al.Attention is all you need[J].2017.”中。
解码器由两个相同结构的解码器单元顺序连接而成,每个单元依次由带有掩膜的多头自注意力机制模块、残差连接及归一化模块1、多头自注意力机制模块、残差连接及归一化模块2、两层的前馈网络和又一个残差连接及归一化模块3组成,解码器有两个输入,当预测第k(k=1,2,...,F)帧的重要性得分时,前k-1个视频帧已预测得到的重要性得分与该帧特征向量的乘积作为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入,而编码器输出的中间变量则输入到每个解码器单元的多头自注意力机制模块中;在最后一个解码器单元后面添加线性层和sigmoid函数,输出每一帧的重要性分值预测结果。
编码器的处理过程为:首先,编码器接收X,对多头自注意力机制模块第n(n=1,2,3,4)个头的输入进行初始化:
Figure GDA0002939418680000051
Figure GDA0002939418680000052
Figure GDA0002939418680000053
其中,Q0=K0=V0=X,
Figure GDA0002939418680000054
为随机生成的并且需在训练过程中学习的大小为d×d的矩阵;然后,依据多头自注意力机制对Qn,Kn,Vn进行处理:
Figure GDA0002939418680000055
M(Q0,K0,V0)=Concat(H1,...,H4)WO (7)
其中,Concat为拼接函数,WO为随机生成的并且需在训练过程中学习的大小为4d×d的矩阵,M(Q0,K0,V0)为多头自注意力机制模块最终的输出;接着,进行残差连接及归一化操作;最后,使用一个两层的前馈网络和残差连接及归一化模块,对特征进行进一步的映射,并将得到的变量继续输入第二个编码器单元,最终输出得到一个维度与输入相同的带有序列信息的中间变量Y;
解码器的处理过程为:首先,当预测第k帧的重要性得分时,已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积作为第一个解码器单元的输入,即:
Figure GDA0002939418680000061
需要注意的是,训练过程中第一个解码器单元使用所有人工标注得分与特征向量的乘积作为输入,以实现训练的并行化,因此需要在自注意力机制模块添加掩膜,以确保预测当前帧的重要性得分时仅依赖于该帧之前的输出,而自注意力机制模块的处理过程与上述编码器中相同;
然后将上述带有掩膜的自注意力机制模块的输出进行残差连接与归一化操作得到Z,并与编码器得到的中间变量Y一同输入到解码器单元中的自注意力机制模块中:
K0=V0=Y,Q0=Z (9)
接着,将上一步自注意力机制模块输出的特征与原始特征进行相加、归一化,并输入到一个两层的前馈网络中,最后再次进行残差连接及归一化操作,将得到的变量输入到第二个解码器单元中;
最终,将第二个解码器单元的输出通过一个线性层和sigmoid函数,得到帧的重要性分值预测结果。
4、训练神经网络模型
使用步骤1得到的训练数据集对步骤3介绍的视频摘要转换器神经网络模型进行训练,设定网络的损失函数为均方损失函数
Figure GDA0002939418680000062
其中,L表示网络损失,sf和s′f分别为模型预测的视频第f帧重要性分数和数据集中人工标注的重要性分数,多次迭代训练后得到训练好的模型;
5、利用神经网络模型得到视频摘要
对待处理的视频数据集进行预处理,包括片段提取、降采样、特征提取和位置向量添加,得到每一帧的特征表示;然后,利用步骤4训练好的神经网络模型提取得到每一帧视频的重要性得分。最后,利用KTS算法将视频划分为多个场景镜头,并使用背包算法,依据视频帧的重要性得分选择出重要的视频镜头,即视频摘要。所选取的视频摘要长度不能超过原视频长度的15%。

Claims (1)

1.一种基于转换器的视频摘要方法,其步骤如下:
步骤1:对选定数据集中的视频进行下采样,然后使用预先训练好的神经网络提取视频每一帧的特征向量hf∈Rd,f为帧序号,f=1,2,...,F,F是下采样后视频的总长度,d表示特征向量的长度;一个视频所有帧的特征向量和对应的重要性分数构成训练集中的一个样本;所述的选定数据集包括TvSum和SumMe;
步骤2:使用下式生成视频帧的位置向量:
Figure FDA0002939418670000011
其中,PEf(i)表示视频第f帧的位置向量的第i个元素值,i=1,2,…,d;
然后,将视频每一帧的位置向量逐元素与其特征向量相加,对每一帧得到一个添加位置向量后的新向量xf
步骤3:构建视频摘要转换器神经网络模型,包括编码器和解码器两个部分,其中,编码器由两个相同结构的编码器单元顺序连接而成,每个编码器单元依次包括多头自注意力机制模块、残差连接及归一化模块1、两层的前馈网络和残差连接及归一化模块2,将添加了位置向量的视频帧序列输入到第一个编码器单元中,第二个编码器单元输出得到一个维度与输入相同的带有序列信息的中间变量Y;
解码器由两个相同结构的解码器单元顺序连接而成,每个解码器单元依次包括带有掩膜的多头自注意力机制模块、残差连接及归一化模块1、多头自注意力机制模块、残差连接及归一化模块2、两层的前馈网络和残差连接及归一化模块3;解码器有两个输入,当预测第k帧的重要性得分时,已预测得到的前k-1个视频帧的重要性得分与其特征向量的乘积为第一个解码器单元中带有掩膜的多头自注意力机制模块的输入,编码器输出的中间变量输入到每个解码器单元的多头自注意力机制模块中;在第二个解码器单元后连接线性层和sigmoid函数,输出每一帧的重要性分值预测结果;
对上述神经网络模型的输入进行初始化,具体包括:编码器单元中多头自注意力机制模块第n个头的输入初始化为:
Figure FDA0002939418670000012
Figure FDA0002939418670000013
其中,n=1,2,3,4,在第一个编码器单元中Q0=K0=V0=X,X为步骤2得到的添加了位置向量的视频帧特征,在第二个编码器单元中Q0、K0、V0为第一个编码器单元的输出,
Figure FDA0002939418670000014
为随机生成的并且需在训练过程中学习的大小为d×d的矩阵;解码器单元中带有掩膜的多头自注意力机制模块的第n个头的输入Qn、Kn和Vn的初始化方法与编码器中多头自注意力机制模块相同,不同之处为在第一个解码器单元中
Figure FDA0002939418670000021
其中,hf为步骤1得到的第f帧的特征向量,sf为预测得到的第f帧对应的重要性得分,第二个解码器单元中Q0、K0、V0为第一个解码器单元的输出;解码器单元中多头自注意力机制模块的第n个头的输入Qn、Kn和Vn的初始化方法与编码器中多头自注意力机制模块相同,不同之处为K0=V0=Y,Q0=Z,其中,Y为编码器输出的中间变量,Z为所在解码器单元中残差连接及归一化模块1输出的变量;
步骤4:使用步骤1得到的训练数据集对步骤3构建的视频摘要转换器神经网络模型进行训练,设定网络的损失函数为均方损失函数
Figure FDA0002939418670000022
其中,L表示网络损失,sf和s′f分别为模型预测的视频第f帧重要性分数和数据集中人工标注的重要性分数;
步骤5:对待处理的视频数据集进行预处理,包括片段提取、降采样、特征提取和位置向量添加,得到每一帧的特征表示;然后,利用步骤4训练好的神经网络模型提取得到每一帧视频的重要性得分;利用KTS算法将视频划分为若干个场景镜头,并使用背包算法,依据视频帧的重要性得分选择出重要的视频镜头作为视频摘要,所选取的视频摘要长度不超过原视频长度的15%。
CN202010329511.3A 2020-04-24 2020-04-24 基于转换器的视频摘要方法 Expired - Fee Related CN111526434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329511.3A CN111526434B (zh) 2020-04-24 2020-04-24 基于转换器的视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329511.3A CN111526434B (zh) 2020-04-24 2020-04-24 基于转换器的视频摘要方法

Publications (2)

Publication Number Publication Date
CN111526434A CN111526434A (zh) 2020-08-11
CN111526434B true CN111526434B (zh) 2021-05-18

Family

ID=71903775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329511.3A Expired - Fee Related CN111526434B (zh) 2020-04-24 2020-04-24 基于转换器的视频摘要方法

Country Status (1)

Country Link
CN (1) CN111526434B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986181B (zh) * 2020-08-24 2021-07-30 中国科学院自动化研究所 基于双注意力机制的血管内支架图像分割方法和***
CN112231516B (zh) * 2020-09-29 2024-02-27 北京三快在线科技有限公司 视频摘要生成模型的训练方法、视频摘要生成方法及装置
CN112257572B (zh) * 2020-10-20 2022-02-01 神思电子技术股份有限公司 一种基于自我注意力机制的行为识别方法
CN112380949B (zh) * 2020-11-10 2024-03-26 大连理工大学 一种微震波到时点检测方法及***
CN113438509A (zh) * 2021-06-23 2021-09-24 腾讯音乐娱乐科技(深圳)有限公司 视频摘要的生成方法、设备和存储介质
CN113657257B (zh) * 2021-08-16 2023-12-19 浙江大学 一种端到端的手语翻译方法和***
CN115002559B (zh) * 2022-05-10 2024-01-05 上海大学 基于门控多头位置注意力机制的视频摘要算法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105530554B (zh) * 2014-10-23 2020-08-07 南京中兴新软件有限责任公司 一种视频摘要生成方法及装置
US10289912B1 (en) * 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
CN105357594B (zh) * 2015-11-19 2018-08-31 南京云创大数据科技股份有限公司 基于集群及h264的视频浓缩算法的海量视频摘要生成方法
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108427713B (zh) * 2018-02-01 2021-11-16 宁波诺丁汉大学 一种用于自制视频的视频摘要方法及***
CN109885728B (zh) * 2019-01-16 2022-06-07 西北工业大学 基于元学习的视频摘要方法
CN109889923B (zh) * 2019-02-28 2021-03-26 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN110287374B (zh) * 2019-06-14 2023-01-03 天津大学 一种基于分布一致性的自注意力视频摘要方法

Also Published As

Publication number Publication date
CN111526434A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111526434B (zh) 基于转换器的视频摘要方法
Li et al. Collaborative spatiotemporal feature learning for video action recognition
Wu et al. 3-D PersonVLAD: Learning deep global representations for video-based person reidentification
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
Wu et al. A compact dnn: approaching ***net-level accuracy of classification and domain adaptation
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111626245B (zh) 一种基于视频关键帧的人体行为识别方法
Lorre et al. Temporal contrastive pretraining for video action recognition
Richard et al. A bag-of-words equivalent recurrent neural network for action recognition
CN111104555B (zh) 基于注意力机制的视频哈希检索方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
Gao et al. Co-saliency detection with co-attention fully convolutional network
CN112115796A (zh) 一种基于注意力机制的三维卷积微表情识别算法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN114037930A (zh) 基于时空增强网络的视频动作识别方法
CN115022711B (zh) 一种电影场景内镜头视频排序***及方法
CN113033452A (zh) 融合通道注意力和选择性特征融合机制的唇语识别方法
CN111612133A (zh) 基于人脸图像多阶段关系学习的内脏器官特征编码方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及***
Savadi Hosseini et al. A hybrid deep learning architecture using 3d cnns and grus for human action recognition
Hou et al. Confidence-guided self refinement for action prediction in untrimmed videos
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
Lee et al. Capturing long-range dependencies in video captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210518