CN109711380A - 一种基于全局上下文信息的时序行为片段生成***及方法 - Google Patents

一种基于全局上下文信息的时序行为片段生成***及方法 Download PDF

Info

Publication number
CN109711380A
CN109711380A CN201910004792.2A CN201910004792A CN109711380A CN 109711380 A CN109711380 A CN 109711380A CN 201910004792 A CN201910004792 A CN 201910004792A CN 109711380 A CN109711380 A CN 109711380A
Authority
CN
China
Prior art keywords
behavior
timing
video unit
segment
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910004792.2A
Other languages
English (en)
Other versions
CN109711380B (zh
Inventor
宋井宽
李涛
高联丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910004792.2A priority Critical patent/CN109711380B/zh
Publication of CN109711380A publication Critical patent/CN109711380A/zh
Application granted granted Critical
Publication of CN109711380B publication Critical patent/CN109711380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频分析技术领域,其公开了一种基于全局上下文信息的时序行为片段生成***及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。该***包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;通过时序行为片段生成网络中的双向并行的LSTM模块有效利用了视频的全局上下文信息,弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性,从而高效的融合了时序行为片段的特征。本发明适用于视频中的行为分析和定位。

Description

一种基于全局上下文信息的时序行为片段生成***及方法
技术领域
本发明涉及视频分析技术领域,具体涉及一种基于全局上下文信息的时序行为片段生成***及方法。
背景技术
时序行为片段生成是指给定一段未分割的长视频,算法需要检测视频中的行为片段,包括其开始时间和结束时间,从而达到准确定位长视频中行为发生的时间段和过滤掉不相关信息的效果。
现有的时序行为片段生成方法可以分为两类:
第一类是采用时序滑动窗口生成行为片段。
第二类是首先将视频分为视频单元(视频单元由数帧图片所组成)的集合,然后通过编码器得到每个视频单元包含行为的概率,最后将超过阈值的视频单元聚集起来作为候选时序行为片段。
其中,基于时序滑动窗口的方法虽然覆盖了整个视频,但是随之而来是计算量的巨幅增加和时序行为片段的冗余。
尽管基于行为概率的方法在一定程度上解决了上述问题,但是现有方法通常使用时序卷积和单向的LSTM来生成概率时序。这样的方法存在以下问题:1)时序卷积只能捕获有限的时序信息,而不能捕获到整段视频的全局信息;2)单向的LSTM在输出一个视频单元的作为行为的概率时,只对过往的信息进行了编码,并没有考虑到未来的信息。
另外,需要指出的是现有方法直接使用平均池化对行为片段的特征进行编码,这样并没有考虑到不同视频单元的重要性,会导致得出的时序行为片段不准确。
发明内容
本发明所要解决的技术问题是:提出一种基于全局上下文信息的时序行为片段生成***及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。
本发明解决上述技术问题所采用的技术方案是:
基于全局上下文信息的时序行为片段生成***,包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;
所述视频单元编码网络,用于将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
所述时序行为片段生成网络,用于对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
所述基于行为进行概率的时序行为片段重新排序网络,利用视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
作为进一步优化,所述时序行为片段生成网络包括残差卷积层模块和双向并行的LSTM模块;
所述残差卷积层模块,用于对视频单元的时空特征进行处理从而编码高层语义信息,获得残差特征;
所述双向并行的LSTM模块,用于对输入的残差特征进行循环编码,从而获取视频的双向LSTM特征;
所述双向并行的LSTM模块后连接一个时序卷积层和S函数,用于对双向LSTM特征进行编码,计算视频单元作为行为开始、行为进行和行为结束的概率,利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段。
作为进一步优化,所述残差卷积层模块由两层时序卷积层组成,其中两层时序卷积层后均设置ReLU(线性整流函数)激活函数,时序卷积层的卷积核的大小为3;
其中,第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接,再经过第二层ReLU激活函数获得残差卷积层模块输出的残差特征。
作为进一步优化,所述双向并行的LSTM模块包括前向LSTM模块和后向LSTM模块,所述前向LSTM模块对残差特征进行正向处理,所述后向LSTM模块对残差特征进行后向处理,前向处理和后向处理过程是并行同时进行的。
此外,本发明还提供了一种基于全局上下文信息的时序行为片段生成方法,其包括以下步骤:
a.数据预处理:
将给定的视频转换为图片,并且对图片的大小进行缩放处理,然后采用全变分光流算法提取光流特征;
b.视频单元编码:
将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
c.生成初始时序行为片段:
对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
d.基于行为进行概率对初始时序行为片段重新排序:
基于视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
作为进一步优化,步骤c中,所述利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段,具体包括:
选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点:
(1)该视频单元的概率高于概率序列中最大值的0.5倍;
(2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率;
然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段,保留时长符合要求的初始时序行为片段。
作为进一步优化,所述步骤d具体包括:
d1.对初始时序行为片段进行扩充,获得扩充后的时序行为片段;
d2.将扩充的时序行为片段分为三部分:时序行为开始部分、时序行为片段和时序行为结束部分;
d3.对于每一部分,提取双向并行的LSTM模块的输出作为它的特征;
d4.应用时序行为片段生成网络获取扩充的时序行为片段的三部分对应的概率序列;
d5.对概率序列进行数据标准化操作,获得时序行为片段的注意力特征;
d6.将时序行为片段对应的注意力特征输入到三个全连接层和S函数,获得此时序行为片段的置信度得分,根据各个时序行为片段的置信度得分进行排序。
作为进一步优化,步骤d中还包括:对时序行为片段集合进行非极大值抑制操作,过滤掉重叠率高的时序行为片段。
本发明的有益效果是:
1)通过双向并行的LSTM模块有效利用了视频的全局上下文信息,弥补了时序卷积层只能捕获有限时序信息和单向LSTM只能编码过往信息的缺点。
2)基于行为进行概率的时序行为片段重新排序网络权衡了不同视频单元所包含行为的重要性,从而高效的融合了时序行为片段的特征。
附图说明
图1为视频单元编码网络和时序行为片段生成网络的原理示意图;
图2为基于行为进行概率的时序行为片段重新排序网络原理示意图;
图3为残差卷积层模块原理示意图;
图4为双向并行的LSTM模块原理示意图。
具体实施方式
本发明旨在提出一种基于全局上下文信息的时序行为片段生成***及方法,解决传统技术不能获取全局上下文信息、只能编码过往信息、没有考虑不同单元的行为重要性从而直接采取平均池化的问题。在本发明中,通过双向并行的LSTM模块解决了现有方法不能获取全局上下文信息以及只能编码过往信息的缺点;此外,还基于行为概率的时序行为片段重新排序网络对不同视频单元的行为重要性进行权衡,解决了现有方法没有考虑不同单元的行为重要性从而直接采取平均池化的缺陷。
本发明中的基于全局上下文信息的时序行为片段生成***,包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;
所述视频单元编码网络,用于将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
所述时序行为片段生成网络,用于对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
所述基于行为进行概率的时序行为片段重新排序网络,利用视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
在具体实现上,对于给定的视频,首先我们需要将其转换为图片,并且将图片的大小缩放为宽度为340像素,高度为256像素。然后采用全变分光流算法(TVL1)提取光流特征。以上便完成了数据的预处理过程。将经过预处理后的视频数据依次经过本发明中的视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络的处理后,我们会得到若干时序行为片段集合,接下来,我们对此时序行为片段集合进行Soft-NMS(非极大值抑制)操作,过滤掉重叠率高的时序行为片段,从而保证使用尽可能少的时序行为片段覆盖视频中的行为发生区域,于是我们得到了最终结果。
下面对本发明中***的各个部分进行具体介绍:
视频单元编码网络:给定一段视频其中T表示视频中帧数的总和,vt表示视频中第t帧。首先将视频分为视频单元的集合,于是可以得到视频单元集合其中视频单元集合的数目nu表示一个视频单元含有的帧数的数量,ut表示视频中第t个视频单元。
对于每一个视频单元而言,它都会通过双流网络进行编码,从而提取视频单元的时空特征。我们将视频单元集合输入到双流网络可以得到视频的时空特征集合其中df表示一个视频单元的时空特征的维度。
时序行为片段生成网络:给定一段视频的时空特征集合FU={fu,1,…,fu,N},时序行为片段生成网络的目标是通过对每一个视频单元的时空特征进行编码,从而可以预测这个视频单元作为行为开始,行为进行和行为结束的概率。
在本发明中,我们利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段,利用视频单元作为行为进行的概率对初始时序行为片段排序。
我们的时序行为片段生成网络如图1所示,它包含有两个模块:残差卷积层模块和双向并行的LSTM模块。
残差卷积层模块:残差卷积层模块是ResNet的一种变体,如图3所示,它由两层时序卷积层组成,其中两层时序卷积层后都要经过ReLU(线性整流函数)激活函数,时序卷积层的卷积核的大小为3。通过残差卷积层模块,我们可以对视频时空特征进行处理从而编码高层语义信息。我们将视频的时空特征集合输入到残差卷积层,然后将第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接,之后经过第二层ReLU激活函数得到了残差卷积网络的输出,记为残差特征FUR=RConv(FU)。
双向并行的LSTM模块:双向并行的LSTM模块由两个LSTM模块组成,分别是前向LSTM和后向LSTM,如图4所示。前向LSTM对残差特征进行正向处理(例如从左至右),后向LSTM对残差特征进行后向处理(例如从右至左),这两个处理过程是并行同时进行的。双向并行的LSTM对输入的残差特征进行循环编码,从而获取视频的双向LSTM特征信息。具体来说,前向LSTM的计算过程如下所示:
其中t表示第t步计算过程,fur,t表示第t个视频单元的残差特征,σ表示S函数,φ表示正弦函数,it,ζt,ot,ct分别表示输入门,遗忘门,输出门,记忆单元和第t步的隐藏状态。为了简化公式,我们定义前向LSTM的处理过程为其中是前向LSTM的输出。对于后向LSTM,我们将视频单元的残差特征反向输入其中,得到后向LSTM的输出
视频的残差特征集合在经过双向并行的LSTM模块后,每一个视频单元的特征被定义为前向LSTM和后向LSTM的隐藏状态的拼接。于是,我们得到新的视频单元集合的特征有接下来,我们将此特征输入一层时序卷积层和S函数进行编码,从而得到了每一个视频单元作为行为开始,行为进行和行为结束的概率集合其中分别表示行为开始,行为进行和行为结束的概率。
初始时序行为片段的生成:通过计算出的视频单元作为行为开始和行为结束概率我们生成初始时序行为片段。我们选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点:
1)该视频单元的概率高于概率序列中最大值的0.5倍。
2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率。
然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段,保留时长符合要求的时序行为片段得到此网络最终结果。在此阶段,我们定义为对应时序行为片段的置信度得分。
基于行为进行概率的时序行为片段重新排序网络:
时序行为片段重新排序网络的目标是为了降低不合适的时序行为片段的置信度得分,提高合适的行为时序片段的置信度得分。
如图2所示,考虑一个初始时序行为片段γ=[us,ue],其中us,ue分别表示此时序行为片段的开始视频单元和结束视频单元,我们首先对时序行为片段进行扩充,用于捕获丰富的上下文信息,从而得到扩充后的时序行为片段γ=[us-uc,ue+uc],其中uc表示扩充的视频单元的数量。然后,我们将扩充的时序行为片段分为三部分:γs=[us-uc,us+uc]表示时序行为开始部分,γa=[us,ue]表示时序行为片段,γe=[ue-uc,ue+uc]表示时序行为结束部分。
对于每一部分,我们提取双向并行的LSTM模块的输出作为它的特征,因此我们可以分别得到三部分的特征如下:
此外,对于每一个视频单元,我们可以应用时序行为片段生成网络从而得到此视频单元作为行为进行的概率pa,因此我们可以分别得到三部分对应的概率序列如下: 然后我们对概率序列分别进行数据的标准化操作。比如给定概率序列我们进行如下计算:
其中对应时序行为开始部分γs中第j个视频单元的行为注意力得分。对γs,γa,γe分别进行如下操作,我们可以得到注意力得分序列
接下来,我们使用下面的函数对三部分分别进行计算,然后将计算后的三部分特征拼接起来得到对应时序行为片段γ的注意力特征。
最终,我们将时序行为片段对应的特征输入到三个全连接层(全连接层的隐藏结点数分为别1024,512和1)和S函数得到了此时序行为片段的置信度得分pγ。我们计算作为此时序行为片段重新排序之后的置信度得分。

Claims (8)

1.基于全局上下文信息的时序行为片段生成***,其特征在于,
包括:视频单元编码网络、时序行为片段生成网络和基于行为进行概率的时序行为片段重新排序网络;
所述视频单元编码网络,用于将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
所述时序行为片段生成网络,用于对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
所述基于行为进行概率的时序行为片段重新排序网络,利用视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
2.如权利要求1所述的***,其特征在于,
所述时序行为片段生成网络包括残差卷积层模块和双向并行的LSTM模块;
所述残差卷积层模块,用于对视频单元的时空特征进行处理从而编码高层语义信息,获得残差特征;
所述双向并行的LSTM模块,用于对输入的残差特征进行循环编码,从而获取视频的双向LSTM特征;
所述双向并行的LSTM模块后连接一个时序卷积层和S函数,用于对双向LSTM特征进行编码,计算视频单元作为行为开始、行为进行和行为结束的概率,利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段。
3.如权利要求2所述的***,其特征在于,
所述残差卷积层模块由两层时序卷积层组成,其中两层时序卷积层后均设置ReLU激活函数,时序卷积层的卷积核的大小为3;
其中,第一层ReLU激活函数的输出与第二层时序卷积层的输出进行拼接,再经过第二层ReLU激活函数获得残差卷积层模块输出的残差特征。
4.如权利要求2所述的***,其特征在于,
所述双向并行的LSTM模块包括前向LSTM模块和后向LSTM模块,所述前向LSTM模块对残差特征进行正向处理,所述后向LSTM模块对残差特征进行后向处理,前向处理和后向处理过程是并行同时进行的。
5.一种基于全局上下文信息的时序行为片段生成方法,应用于如权利要求1-4任意一项所述的***,其特征在于,包括以下步骤:
a.数据预处理:
将给定的视频转换为图片,并且对图片的大小进行缩放处理,然后采用全变分光流算法提取光流特征;
b.视频单元编码:
将视频划分为视频单元的集合,将各个视频单元输入至双流网络进行编码,提取对应视频单元的时空特征,从而获得视频的时空特征集合;
c.生成初始时序行为片段:
对每一个视频单元的时空特征进行编码,从而预测这个视频单元作为行为开始、行为进行和行为结束的概率;利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段;
d.基于行为进行概率对初始时序行为片段重新排序:
基于视频单元作为行为进行的概率对初始时序行为片段进行排序,生成时序行为片段集合。
6.如权利要求5所述的方法,其特征在于,
步骤c中,所述利用视频单元作为行为开始和行为结束的概率生成初始时序行为片段,具体包括:
选取行为开始和行为结束概率序列中满足以下两点条件之一的视频单元作为候选的时序片段边界节点:
(1)该视频单元的概率高于概率序列中最大值的0.5倍;
(2)该视频单元的概率高于前一个视频单元的概率以及后一个视频单元的概率;
然后将候选行为开始节点和候选行为结束节点两两结合生成初始时序行为片段,保留时长符合要求的初始时序行为片段。
7.如权利要求5所述的方法,其特征在于,
所述步骤d具体包括:
d1.对初始时序行为片段进行扩充,获得扩充后的时序行为片段;
d2.将扩充的时序行为片段分为三部分:时序行为开始部分、时序行为片段和时序行为结束部分;
d3.对于每一部分,提取双向并行的LSTM模块的输出作为它的特征;
d4.应用时序行为片段生成网络获取扩充的时序行为片段的三部分对应的概率序列;
d5.对概率序列进行数据标准化操作,获得时序行为片段的注意力特征;
d6.将时序行为片段对应的注意力特征输入到三个全连接层和S函数,获得此时序行为片段的置信度得分,根据各个时序行为片段的置信度得分进行排序。
8.如权利要求5所述的方法,其特征在于,
步骤d中还包括:对时序行为片段集合进行非极大值抑制操作,过滤掉重叠率高的时序行为片段。
CN201910004792.2A 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成***及方法 Active CN109711380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910004792.2A CN109711380B (zh) 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910004792.2A CN109711380B (zh) 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成***及方法

Publications (2)

Publication Number Publication Date
CN109711380A true CN109711380A (zh) 2019-05-03
CN109711380B CN109711380B (zh) 2022-09-16

Family

ID=66259858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910004792.2A Active CN109711380B (zh) 2019-01-03 2019-01-03 一种基于全局上下文信息的时序行为片段生成***及方法

Country Status (1)

Country Link
CN (1) CN109711380B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110610145A (zh) * 2019-08-28 2019-12-24 电子科技大学 一种结合全局运动参数的行为识别方法
CN111079507A (zh) * 2019-10-18 2020-04-28 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111372123A (zh) * 2020-03-03 2020-07-03 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111898461A (zh) * 2020-07-08 2020-11-06 贵州大学 一种时序行为片段生成方法
CN111901673A (zh) * 2020-06-24 2020-11-06 北京大学 一种视频预测方法、装置、存储介质及终端
CN112202726A (zh) * 2020-09-10 2021-01-08 西安交通大学 一种基于上下文感知的***异常检测方法
CN113641792A (zh) * 2021-08-13 2021-11-12 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及***
CN116307218A (zh) * 2023-03-27 2023-06-23 松原市邹佳网络科技有限公司 基于人工智能的元宇宙体验用户行为预测方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268568A (zh) * 2014-09-17 2015-01-07 电子科技大学 基于独立子空间网络的行为识别方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法
CN108491680A (zh) * 2018-03-07 2018-09-04 安庆师范大学 基于残差网络和注意力机制的药物关系抽取方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、***及存储介质
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268568A (zh) * 2014-09-17 2015-01-07 电子科技大学 基于独立子空间网络的行为识别方法
US20180025257A1 (en) * 2016-01-25 2018-01-25 Google Inc. Generating images using neural networks
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法
CN108491680A (zh) * 2018-03-07 2018-09-04 安庆师范大学 基于残差网络和注意力机制的药物关系抽取方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、***及存储介质
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JAIDEEP SINGH CHAUHAN 等: "Context-Aware Action Detection in Untrimmed Videos Using Bidirectional LSTM", 《2018 15TH CONFERENCE ON COMPUTER AND ROBOT VISION》 *
JAIDEEP SINGH CHAUHAN 等: "Context-Aware Action Detection in Untrimmed Videos Using Bidirectional LSTM", 《2018 15TH CONFERENCE ON COMPUTER AND ROBOT VISION》, 17 December 2018 (2018-12-17), pages 222 - 229 *
LIANLI GAO 等: "Video Captioning With Attention-Based LSTM and Semantic Consistency", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
LIANLI GAO 等: "Video Captioning With Attention-Based LSTM and Semantic Consistency", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 19, no. 9, 19 July 2017 (2017-07-19), pages 2045 - 2055, XP011658882, DOI: 10.1109/TMM.2017.2729019 *
YUEMING JIN 等: "SV-RCNet: Workflow Recognition From Surgical Videos Using Recurrent Convolutional Network", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》 *
YUEMING JIN 等: "SV-RCNet: Workflow Recognition From Surgical Videos Using Recurrent Convolutional Network", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》, vol. 37, no. 5, 27 December 2017 (2017-12-27), pages 1114 - 1126 *
曹伟: "基于并行卷积神经网络的人脸表情识别", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
曹伟: "基于并行卷积神经网络的人脸表情识别", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》, no. 11, 15 November 2018 (2018-11-15), pages 138 - 79 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610145A (zh) * 2019-08-28 2019-12-24 电子科技大学 一种结合全局运动参数的行为识别方法
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN111079507A (zh) * 2019-10-18 2020-04-28 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111079507B (zh) * 2019-10-18 2023-09-01 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111372123B (zh) * 2020-03-03 2022-08-09 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111372123A (zh) * 2020-03-03 2020-07-03 南京信息工程大学 基于从局部到全局的视频时序片段提取方法
CN111901673A (zh) * 2020-06-24 2020-11-06 北京大学 一种视频预测方法、装置、存储介质及终端
CN111898461A (zh) * 2020-07-08 2020-11-06 贵州大学 一种时序行为片段生成方法
CN111898461B (zh) * 2020-07-08 2022-08-30 贵州大学 一种时序行为片段生成方法
CN112202726A (zh) * 2020-09-10 2021-01-08 西安交通大学 一种基于上下文感知的***异常检测方法
CN112202726B (zh) * 2020-09-10 2021-11-19 西安交通大学 一种基于上下文感知的***异常检测方法
CN113641792A (zh) * 2021-08-13 2021-11-12 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及***
CN113641792B (zh) * 2021-08-13 2023-11-21 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及***
CN116307218A (zh) * 2023-03-27 2023-06-23 松原市邹佳网络科技有限公司 基于人工智能的元宇宙体验用户行为预测方法及***

Also Published As

Publication number Publication date
CN109711380B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109711380A (zh) 一种基于全局上下文信息的时序行为片段生成***及方法
US11810359B2 (en) Video semantic segmentation method based on active learning
Chen et al. Global context-aware progressive aggregation network for salient object detection
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111753827B (zh) 基于语义强化编码器解码器框架的场景文字识别方法及***
CN111709351B (zh) 基于多径时空特征强化融合的三支流网络行为识别方法
CN111539887B (zh) 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和***
CN109685724B (zh) 一种基于深度学习的对称感知人脸图像补全方法
CN111709304A (zh) 一种基于时空注意力增强特征融合网络的行为识别方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测***
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及***
CN111626296B (zh) 基于深度神经网络的医学图像分割***及方法、终端
CN112200096A (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
Chen et al. EDBGAN: Image inpainting via an edge-aware dual branch generative adversarial network
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN116091978A (zh) 一种基于高级语义信息特征编码的视频描述方法
Yan et al. Weakly supervised regional and temporal learning for facial action unit recognition
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
Keisham et al. Online action proposal generation using spatio-temporal attention network
CN112348033B (zh) 一种协同显著性目标检测方法
CN116523985A (zh) 一种结构和纹理特征引导的双编码器图像修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant