CN111914731A - 一种基于自注意力机制的多模态lstm的视频动作预测方法 - Google Patents
一种基于自注意力机制的多模态lstm的视频动作预测方法 Download PDFInfo
- Publication number
- CN111914731A CN111914731A CN202010738071.7A CN202010738071A CN111914731A CN 111914731 A CN111914731 A CN 111914731A CN 202010738071 A CN202010738071 A CN 202010738071A CN 111914731 A CN111914731 A CN 111914731A
- Authority
- CN
- China
- Prior art keywords
- rgb
- optical flow
- features
- data set
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000033001 locomotion Effects 0.000 title claims abstract description 35
- 230000007246 mechanism Effects 0.000 title claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 38
- 230000003287 optical effect Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 230000000875 corresponding effect Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000007547 defect Effects 0.000 abstract description 3
- 230000004438 eyesight Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于自注意力机制的多模态LSTM的视频动作预测方法,该方法包括以下步骤:步骤1:准备训练数据集并针对原视频进行预处理得到RGB图片和光流图片;步骤2:基于RGB图片和光流图片通过TSN网络提取RGB特征和光流特征,基于训练数据集通过Faster‑RCNN目标检测器得到与目标检测相关的特征;步骤3:建立基于自注意力机制的多模态LSTM网络模型,并将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至该网络模型中训练,输出各自对应的动作种类分布张量;步骤4:建立融合网络为动作种类分布张量分配权重并与动作种类分布张量相结合得到最终视频动作预测结果。与现有技术相比,本发明具有准确率高,解决了较长的动作预测时间效果不佳的缺陷。
Description
技术领域
本发明涉及视频动作预测技术领域,尤其是涉及一种基于自注意力机制的多模态LSTM的视频动作预测方法。
背景技术
基于视觉的动作识别一直是计算机视觉领域研究的难点与热点之一,涉及图像处理、深度学习、人工智能等多个学科领域。不仅具有很高的学术研究价值,在5G时代下互联网行业的蓬勃发展的趋势下,对于视频的分析和理解还具有广泛的应用背景。目前动作识别领域的关注点在于如何正确地识别视频中包含的完整动作。然而在实际应用中,人们更希望监控***能对监控场所中潜在的风险进行预警,使得危险行为造成严重后果之前对这些行为加以阻止,而并非已经完成的动作加以识别或者对造成的后果加以检测。若要实现这一目的,则需要赋予监控***视觉,使其具备动作预测的能力。
动作预测是指通过提取并且处理连续输入的视频流的特征,从而在视频中的动作完成前尽可能早地对其动作类别进行预测。动作预测与动作识别的主要区别便在于识别对象的完整性。前者的识别对象是动作发生前的视频片段,这些片段不包含将要发生的动作。而后者的识别对象是包含动作的完整视频。动作预测是一项更加具有挑战性的任务。第一,一些动作在运动的初期具有相似的特征表现,比如“握手”和“挥手”这两个不同的动作在运动初期都存在将手向上抬起的过程,相似的举动使得获得的视频流的特征不好区分这两个不同的动作。第二,由于动作预测任务的设定,无法得知完成整个动作需要的时间,无法通过动作持续时间来区分不同的动作。因此从已经观测到的视频部分,既无法取得具有关键语义的特征来区分动作初期相似的动作,也不能获得完整的动作时序结构。第三,由于选取的视频片段取在需要预测的动作片段之前,而这样的输入数据往往与需要预测的动作没有很强的联系。
动作预测方法通常从视频里提取出特征,建模特征与动作类别之间的映射关系来预测将来发生的动作。因此预测效果的好坏很大程度上取决于特征对于非完整动作的描述能力,以及能否从目标动作中学习到其所特有的时序运动模式。在深度学习的方法出现之前,词袋模型以及支持向量机等传统机器学习方法被用于解决动作预测任务。近年来,深度学习类的方法成为计算机视觉领域的主流,卷积网络可以提取具有丰富语义的高层次特征,这些高层次特征可以用来识别以及检测。然后再进一步融合或者编码这些特征,改善模型的效果。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自注意力机制的多模态LSTM的视频动作预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于自注意力机制的多模态LSTM的视频动作预测方法,该方法包括以下步骤:
步骤1:准备训练数据集并针对原视频进行预处理得到RGB图片和光流图片;
步骤2:基于RGB图片和光流图片通过TSN网络提取RGB特征和光流特征,基于训练数据集通过Faster-RCNN目标检测器得到与目标检测相关的特征;
步骤3:建立基于自注意力机制的多模态LSTM网络模型,并将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至该网络模型中训练,输出各自对应的动作种类分布张量;
步骤4:建立融合网络为动作种类分布张量分配权重并与动作种类分布张量相结合得到最终视频动作预测结果。
进一步地,所述的步骤1包括以下分步骤:
步骤101:选取用于训练得到与目标检测相关的特征的数据集;
步骤102:按照设定帧率分解原视频提取得到RGB图片;
步骤103:采用TVL1算法针对原视频提取得到光流图片。
进一步地,所述步骤101中的数据集采用EPIC-KITCHENS数据集和EGTEA Gaze+数据集。
进一步地,所述步骤102中的设定帧率为30fps。
进一步地,所述的步骤2包括以下分步骤:
步骤201:预先训练完毕原TSN网络,得到预训练的TSN网络模型;
步骤202;去除原TSN网络中的分类层,加载预训练的TSN网络模型,得到基于双流法原理的TSN网络;
步骤203:将RGB图片和光流图片输入至基于双流法原理的TSN网络中,从该网络中的global pooling层输出提取对应的RGB特征和光流特征;
步骤204:利用数据集的目标标注训练Faster-RCNN目标检测器得到与目标检测相关的特征。
进一步地,所述步骤202中的基于双流法原理的TSN网络所对应的训练过程的初始学习率设为0.001,采用随机梯度下降的标准交叉熵损失函数训练160个epoch,当在第80个epoch后,学习率减少10倍。
进一步地,所述步骤204中的数据集采用EGTEA Gaze+数据集。
进一步地,所述步骤3包括以下分步骤:
步骤301:建立基于自注意力机制的多模态LSTM网络模型,其包括由位置编码模块和自注意力机制模块组成的编码器和多层独立的LSTM网络,其中:
所述位置编码模块,用于编码视频中的帧的绝对位置和相对位置以得到对应的位置的特征序列;
所述自注意力机制模块,用于进一步挖掘位置的特征序列中的语义以得到对于视频的全局描述;
步骤302:将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练,输出各自对应的动作种类分布张量。
进一步地,所述步骤302中的将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练所对应的训练过程的学习率设为0.005,采用随机梯度下降的标准交叉熵损失函数训练100个epoch,动量设为0.9。
进一步地,所述LSTM网络的层数为2层。
与现有技术相比,本发明具有以下优点:
(1)本发明方法综合考虑三种视频特征,RGB特征用于建模空间信息,光流特征用于建模时序运动信息,与目标检测相关的特征用于建模视频中的人与何种目标进行互动;由于特征序列对于位置信息十分敏感,采用独立的基于三角函数的位置编码模块编码视频中的帧的绝对位置以及相对位置;对于编码好位置的特征序列,再送入自注意力模块处理,进一步挖掘特征序列中的语义以获得对于视频的全局描述;将自注意模块的输出作为LSTM网络的输入,LSTM能够有效地加载历史信息,并且可以完成不同预测时间的预测,LSTM网络的输出即为动作种类的分布;为了避免过拟合,分开训练特征提取网络和预测网络;提取好的三种特征作为预测网络的输入,预测网络采取交叉熵损失函数进行训练;将训练好的模型在数据集的测试集上进行检测,以评估模型的效果;与近年来做动作预测的方法对比,在准确率指标上超过了那些方法,并且解决了较长的动作预测时间效果不佳的缺陷。
(2)本发明方法中的自注意力机制是自然语言处理领域的研究提出,被证实在文本、语音等数据上取得了不错的效果。而计算机视觉领域的数据类型以图片视频为主,在动作预测任务的算法运用自注意力机制有助于缩短两大社区之间的距离。
(3)本发明方法证明了文本序列与视频序列都具有时序性,相似的特性也是能够使用位置编码和自注意力机制编码的基础。
附图说明
图1为本发明中的整体网络模型结构图;
图2为本发明中的多模态LSTM网络模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
具体实施例
1.视频预处理以及训练数据准备
本发明方法在EPIC-KITCHENS和EGTEA Gaze+两个数据集进行实验,以30fps的帧率分解原视频提取RGB图片,然后使用TVL1算法提取对应的光流图片。
2.特征提取
本发明方法采用基于双流法原理的TSN网络提取RGB特征和光流特征。首先在动作识别任务上训练好TSN网络,得到预训练的模型。然后去除原TSN网络的分类层,加载预训练的模型,从global pooling层的输出提取相应的RGB特征和光流特征。与目标检测相关的特征利用数据集的目标标注训练Faster-RCNN目标检测器,目标检测器的输出略去边界框的坐标信息,保留目标的种类信息。因为算法只关注视频中的人与何物在互动,即算法仅仅建模有利于预测动作种类的信息。
3.动作预测
本发明方法设计的动作预测算法的网络模型结构如图1所示,以位置编码模块和自注意力机制模块的编码器和两层独立的LSTM网络为基础框架,编码器负责进一步编码提取完的特征序列,提取特征序列的上下文信息以获得更加丰富的语义。LSTM网络具体实施动作预测,加载过去观察到的视频帧,并且产生不同的预测时间的动作种类分布。LSTM的输入输出关系如图2所示,对于一个视频片段,在动作开始前,往前取样14帧图片,时间间隔为0.25s。三种特征分别进入由编码器和LSTM网络构成的三个子网络,分别训练。最后再使用三个全连接层构成的注意力机制的融合网络,为三个子网络分配权重,权重与对应的动作种类分布张量对应相乘得到整个模型最后输出。
4.训练策略以及相关参数
TSN的双流网络训练设定是,segment的数量为3,采用随机梯度下降的标准交叉熵损失函数训练160个epoch。初始学习率定为0.001,在第80个epoch后,学习率减少10倍。实验环境为单卡GEFORCE 1060。Faster-RCNN目标检测器在EPIC-KITCHENS数据集训练,由于EGTEA Gaze+数据集缺乏边界框标注,所以在该数据集上并未加入与目标检测相关的特征,该数据集上的模型仅考虑RGB特征和光流特征。预测网络有3个子网络,每个子网络也是采用随机梯度下降的标准交叉熵损失函数进行训练,学习率固定不变定为0.005,动量设为0.9,训练100个epoch。
5.实验结果与分析
表1和表2展示了本发明方法与其他预测算法在EPIC-KITCHENS和EGTEA Gaze+数据集上的结果。评价指标是Top-5准确率。在EGTEA Gaze+数据集上所有的预测时间,本发明方法超过了对比的方法。在EPIC-KITCHENS数据集上,除了预测时间为0.5s和0.25s略低于RU算法,其他预测时间均超过了其他的对比算法。为了进一步验证自注意力机制的有效性,本发明方法在模型中对比全模型(B)以及去除掉编码器后的模型(A)在三个分特征上的预测结果如表3所示。从结果看来,本发明方法提出的基于自注意力机制的编码器有效地改善了模型的性能,不仅解决了其他算法在长预测时间性能较差的缺陷,增加了模型的鲁棒性,而且在准确率上也带来了提升。
表1:本发明方法与其他预测算法在EPIC-KITCHENS数据集上的预测结果
TABLE I
Action anticipation results on the EPIC-KITCHENS dataset
表2:本发明方法与其他预测算法在EGTEA Gaze+数据集上的预测结果
TABLE II
Action anticipation results on the EGTEA Gaze+dataset
表3:本发明方法在模型中对比全模型(B)以及去除掉编码器后的模型(A)在三个分特征上的预测结果
TABLE III
Comparison of experimental results with and without Encoder on asingle modality
本实施例的图1中,Linear layer表示线性层,Flow feature表示光流特征,RGBfeature表示RGB特征,Obj feature表示与目标检测相关的特征,Multiplication表示相乘,Anticipation output distribution表示预测输出结果,BN-inception表示BN-inception网络结构,Faster-RCNN表示Faster-RCNN目标检测器,Position encoding表示位置编码模块,Sum表示求和,The concatenation of hidden and cell states表示隐藏状态和单元状态的连接,Self-attention表示自注意力模块,Rolling LSTM unit表示运行中的LSTM网络单元,Unrolling LSTM unit表示未运行的LSTM网络单元,Multi-model LSTM表示多模态LSTM网络模型,Modality ATTention fusion network表示模态注意融合网络;
本实施例的图2中,Observation time表示观测时间,Anticipation time表示预测时间,Time interval表示时间区间,Anticipate output表示预测输出,ObservedSegment表示观察部分,Action occurring表示行动发生,Action starting time表示行动开始时间。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,该方法包括以下步骤:
步骤1:准备训练数据集并针对原视频进行预处理得到RGB图片和光流图片;
步骤2:基于RGB图片和光流图片通过TSN网络提取RGB特征和光流特征,基于训练数据集通过Faster-RCNN目标检测器得到与目标检测相关的特征;
步骤3:建立基于自注意力机制的多模态LSTM网络模型,并将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至该网络模型中训练,输出各自对应的动作种类分布张量;
步骤4:建立融合网络为动作种类分布张量分配权重并与动作种类分布张量相结合得到最终视频动作预测结果。
2.根据权利要求1所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述的步骤1包括以下分步骤:
步骤101:选取用于训练得到与目标检测相关的特征的数据集;
步骤102:按照设定帧率分解原视频提取得到RGB图片;
步骤103:采用TVL1算法针对原视频提取得到光流图片。
3.根据权利要求2所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述步骤101中的数据集采用EPIC-KITCHENS数据集和EGTEA Gaze+数据集。
4.根据权利要求2所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述步骤102中的设定帧率为30fps。
5.根据权利要求1所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述的步骤2包括以下分步骤:
步骤201:预先训练完毕原TSN网络,得到预训练的TSN网络模型;
步骤202;去除原TSN网络中的分类层,加载预训练的TSN网络模型,得到基于双流法原理的TSN网络;
步骤203:将RGB图片和光流图片输入至基于双流法原理的TSN网络中,从该网络中的global pooling层输出提取对应的RGB特征和光流特征;
步骤204:利用数据集的目标标注训练Faster-RCNN目标检测器得到与目标检测相关的特征。
6.根据权利要求5所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述步骤202中的基于双流法原理的TSN网络所对应的训练过程的初始学习率设为0.001,采用随机梯度下降的标准交叉熵损失函数训练160个epoch,当在第80个epoch后,学习率减少10倍。
7.根据权利要求5所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述步骤204中的数据集采用EGTEA Gaze+数据集。
8.根据权利要求1所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述步骤3包括以下分步骤:
步骤301:建立基于自注意力机制的多模态LSTM网络模型,其包括由位置编码模块和自注意力机制模块组成的编码器和多层独立的LSTM网络,其中:
所述位置编码模块,用于编码视频中的帧的绝对位置和相对位置以得到对应的位置的特征序列;
所述自注意力机制模块,用于进一步挖掘位置的特征序列中的语义以得到对于视频的全局描述;
步骤302:将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练,输出各自对应的动作种类分布张量。
9.根据权利要求8所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述步骤302中的将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练所对应的训练过程的学习率设为0.005,采用随机梯度下降的标准交叉熵损失函数训练100个epoch,动量设为0.9。
10.根据权利要求8所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法,其特征在于,所述LSTM网络的层数为2层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738071.7A CN111914731B (zh) | 2020-07-28 | 2020-07-28 | 一种基于自注意力机制的多模态lstm的视频动作预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738071.7A CN111914731B (zh) | 2020-07-28 | 2020-07-28 | 一种基于自注意力机制的多模态lstm的视频动作预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914731A true CN111914731A (zh) | 2020-11-10 |
CN111914731B CN111914731B (zh) | 2024-01-23 |
Family
ID=73286387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010738071.7A Active CN111914731B (zh) | 2020-07-28 | 2020-07-28 | 一种基于自注意力机制的多模态lstm的视频动作预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914731B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434608A (zh) * | 2020-11-24 | 2021-03-02 | 山东大学 | 一种基于双流结合网络的人体行为识别方法及*** |
CN113343564A (zh) * | 2021-05-28 | 2021-09-03 | 国网江苏省电力有限公司南通供电分公司 | 一种基于多元经验模态分解的变压器顶层油温预测方法 |
CN113963200A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 模态数据融合处理方法、装置、设备及存储介质 |
CN114758285A (zh) * | 2022-06-14 | 2022-07-15 | 山东省人工智能研究院 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN109063568A (zh) * | 2018-07-04 | 2018-12-21 | 复旦大学 | 一种基于深度学习的花样滑冰视频自动打分的方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN110852273A (zh) * | 2019-11-12 | 2020-02-28 | 重庆大学 | 一种基于强化学习注意力机制的行为识别方法 |
-
2020
- 2020-07-28 CN CN202010738071.7A patent/CN111914731B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN109063568A (zh) * | 2018-07-04 | 2018-12-21 | 复旦大学 | 一种基于深度学习的花样滑冰视频自动打分的方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN110852273A (zh) * | 2019-11-12 | 2020-02-28 | 重庆大学 | 一种基于强化学习注意力机制的行为识别方法 |
Non-Patent Citations (1)
Title |
---|
潘陈听;谭晓阳;: "复杂背景下基于深度学习的视频动作识别", 计算机与现代化, no. 07 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434608A (zh) * | 2020-11-24 | 2021-03-02 | 山东大学 | 一种基于双流结合网络的人体行为识别方法及*** |
CN112434608B (zh) * | 2020-11-24 | 2023-02-28 | 山东大学 | 一种基于双流结合网络的人体行为识别方法及*** |
CN113343564A (zh) * | 2021-05-28 | 2021-09-03 | 国网江苏省电力有限公司南通供电分公司 | 一种基于多元经验模态分解的变压器顶层油温预测方法 |
CN113963200A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 模态数据融合处理方法、装置、设备及存储介质 |
CN114758285A (zh) * | 2022-06-14 | 2022-07-15 | 山东省人工智能研究院 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111914731B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914731A (zh) | 一种基于自注意力机制的多模态lstm的视频动作预测方法 | |
US20180114071A1 (en) | Method for analysing media content | |
Zhang et al. | A multistage refinement network for salient object detection | |
Zhou et al. | PGDENet: Progressive guided fusion and depth enhancement network for RGB-D indoor scene parsing | |
Yang et al. | Hierarchical soft quantization for skeleton-based human action recognition | |
Lin et al. | Multi-grained deep feature learning for robust pedestrian detection | |
Wang et al. | Spatial–temporal pooling for action recognition in videos | |
Shi et al. | Shuffle-invariant network for action recognition in videos | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
Suratkar et al. | Employing transfer-learning based CNN architectures to enhance the generalizability of deepfake detection | |
de Oliveira Silva et al. | Human action recognition based on a two-stream convolutional network classifier | |
Lin et al. | Joint learning of local and global context for temporal action proposal generation | |
Shi et al. | A divided spatial and temporal context network for remote sensing change detection | |
Gkalelis et al. | ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network | |
Farrajota et al. | Human action recognition in videos with articulated pose information by deep networks | |
Hussain et al. | AI-driven behavior biometrics framework for robust human activity recognition in surveillance systems | |
Shaikh et al. | Real-Time Multi-Object Detection Using Enhanced Yolov5-7S on Multi-GPU for High-Resolution Video | |
Qin et al. | Application of video scene semantic recognition technology in smart video | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
Huang et al. | Video frame prediction with dual-stream deep network emphasizing motions and content details | |
Zebhi et al. | Converting video classification problem to image classification with global descriptors and pre‐trained network | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
Ramalingam et al. | A deep hybrid model for human-computer interaction using dynamic hand gesture recognition | |
Sun et al. | Transformer with spatio-temporal representation for video anomaly detection | |
CN113743306A (zh) | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |