CN110084202A - 一种基于高效三维卷积的视频行为识别方法 - Google Patents

一种基于高效三维卷积的视频行为识别方法 Download PDF

Info

Publication number
CN110084202A
CN110084202A CN201910356716.8A CN201910356716A CN110084202A CN 110084202 A CN110084202 A CN 110084202A CN 201910356716 A CN201910356716 A CN 201910356716A CN 110084202 A CN110084202 A CN 110084202A
Authority
CN
China
Prior art keywords
dimensional convolution
video
network
feature
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910356716.8A
Other languages
English (en)
Other versions
CN110084202B (zh
Inventor
李春国
徐煜耀
常颖
赵清玄
徐琴珍
杨绿溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910356716.8A priority Critical patent/CN110084202B/zh
Publication of CN110084202A publication Critical patent/CN110084202A/zh
Application granted granted Critical
Publication of CN110084202B publication Critical patent/CN110084202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于高效三维卷积的视频行为识别方法,在三维卷积神经网络的基础上,进一步降低了它的运行时间、计算量以及参数量。本发明先对输入视频进行稀疏采样,再利用二维卷积网络处理经过稀疏采样之后的视频帧,得到各个随机采样帧的特征表示,然后利用一个三维卷积网络对这些不同帧的特征进行融合,生成最终的动作分类标签。本发明提出了一种新的三维卷积方式,使网络能在保持甚至超过现有性能的情况下,降低计算量、参数量以及运行时间。本发明在数据集UCF101上进行测试,利用该三维卷积网络结合上述的行为识别流程,使得在UCF101数据集上的准确率达到了92.9%。另一方面,本发明大大降低了三维网络的计算量、参数量以及运行时间,有利于算法实时性的实现。

Description

一种基于高效三维卷积的视频行为识别方法
技术领域
本发明属于计算机视觉与人工智能、多媒体信号处理领域,特别是涉及一种基于高效三维卷积的视频行为识别方法。
背景技术
近年来,视频理解领域飞速发展,特别是行动识别,这主要得益于深入学习和大数据集的创建。新的数据集,如Kinetics、ActivityNet和Something-Something为这一领域贡献了更多的多样性和现实性。行为识别可以分为动作检测与活动理解。动作检测所针对的动作是短时的动作,在短时间内可以决定当前动作的类别,能足够快地实时运行,而活动理解涉及的是可以跨越几秒钟的长期活动,它需要将长期的前后帧视频信息集合起来才能达到预测的精确性。本发明就是综合了上述两个目的。利用稀疏采样、二维特征提取、三维卷积特征融合的方式,可以很好完成活动理解的任务。但当一个动作是短时的,经过上述的稀疏采样之后,得到的可能仅仅是一个静态图片的语义信息。因此,这里通过在3D网络上并联一个2D网络,来改善这个问题。对于短时的行为,这个2D网络结构可以保证这个静态图片语义信息被充分利用。
为了降低计算资源以及时间上的浪费,同时充分利用长时视频中的行为信息,Mohammadreza等人提出了ECO网络。该网络与前面方法的不同主要有以下三点:
1)类似于TSN,该网络从整个视频中采样固定数量的帧,以覆盖用于理解视频的长时时间结构。这样的话,采样的视频帧将包含整个视频且不受限于视频长度。
2)与TSN不同的一点是,该方法使用3D网络来融合帧之间的关系,并在整个视频中跟踪它们。ECO可以实现端到端的训练来完成对这个关系的学习。
3)该网络直接提供视频层面(video-level)的分数,没有上述的事后归因的特征融合。因此,他们的计算资源与时间将大大节省,可以被移植到移动端设备上,实现在线视频理解。
虽然ECO网络有上述的优点,但是由于它采用了传统的C3D网络来融合特征,而C3D网络计算量大、模型大的缺点将会制约该网络实现移动端迁移。因此本发明在C3D网络的基础上提出了一种新的特征融合3D网络,称为移动三维卷积网络(Mobile 3D ConvolutionalNetwork,简称M3D网络),并在ECO网络结构中用M3D网络作为三维卷积网络来融合特征,提出了一种基于高效三维卷积的视频行为识别网络——Mobile-ECO网络。
发明内容
针对视频行为识别任务中,算法在满足较高识别准确率的同时,还需要能够降低运行时间,减少计算量与参数量,这样利于算法的可移植性。本发明提出了一种基于高效三维卷积的视频行为识别方法,其特征在于:所述的方法包括如下步骤:
(1)将输入的视频进行稀疏采样;
(2)将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图;
(3)将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量;
(4)将二维卷积网络提取的特征分别通过另一个与上述三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量;
(5)将上述两者的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类。
作为本发明进一步改进,所述步骤(1)中对输入的视频进行稀疏采样,具体步骤为:
步骤1.1:对于一个输入视频,假设它的总帧长为L,将此视频分成N段等长的子视频段Si,i=1,...,N,然后在每一个子视频段Si中,随机采样一帧,进行后续的处理。
作为本发明进一步改进,所述步骤(2)中将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图,具体步骤为:
步骤2.1:将步骤2.1稀疏采样后的视频帧,送入批次归一化Inception网络进行特征提取,得到不同视频帧的特征图,这里取inception-3c层特征,以备后续三维模块特征融合使用。
作为本发明进一步改进,所述步骤(3)中将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量,具体步骤为:
步骤3.1稀疏采样后的视频帧通过二维卷积网络提取到特征,将不同帧的特征组合成一个输入块,利用新的三维卷积网络Mobile-3D进行特征融合,这里将Pool层的输出作为此步骤的特征向量。
作为本发明进一步改进,所述步骤(4)中将二维卷积网络提取的特征通过另一个与步骤3.1中的三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量,具体步骤为:
步骤4.1:将稀疏采样视频帧经过权利要求3中的二维卷积网络后提取到的特征图利用另一个二维卷积网络进行特征提取,此二维卷积网络为批次归一化Inception网络中从inception-4a层至inception-5b层的部分,然后将输出的N×1024维特征图通过平均池化为1024维的特征向量,其中N为稀疏采样后的视频帧数。
作为本发明进一步改进,所述步骤(5)中将步骤3.1与步骤4.1中得到的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类,具体步骤为:
步骤5.1:将步骤3.1得到的512维特征向量与步骤4.1得到的1024维向量连接,得到1536维的特征向量;
步骤5.2:将上述的1536维特征向量利用全连接层转化为101维的输出,这里采用101维输出的原因是数据集UCF101的类别数为101,然后利用SoftMax层进行预测;
作为本发明进一步改进,所述UCF101数据集来源为YouTube视频,共计101类动作,13320段视频。共有5个大类的动作包括:人-物交互、肢体运动、人-人交互、弹奏乐器、运动。
作为本发明进一步改进,建立模型的实验平台如下:Ubuntu 14***,采用GeForceGTX 980
显卡,采用Caffe框架来进行网络的训练与测试,使用基于Nesterov动量优化的小批次法来训练,并在每个全连接层中使用Dropout法进行正则化,防止过拟合,将每个视频分割成16片段,并从每个片段中随机选择一个帧,将输入帧的大小调整到240×320,并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强,然后,将输入调整为3×16×224×224,训练时初始学习率设置为0.001,当验证误差饱和4次时,学习率降低10倍,训练网络的动量设置为0.9,权重衰减设置为0.0005,小批次的大小设置为16。
本申请一种基于高效三维卷积的视频行为识别方法,本发明先对输入视频进行稀疏采样,再利用二维卷积网络处理经过稀疏采样之后的视频帧,得到各个随机采样帧的特征表示,然后利用一个三维卷积网络对这些不同帧的特征进行融合,生成最终的动作分类标签。本发明在中佛罗里达大学提出的数据集UCF101上进行测试,利用该三维卷积网络结合上述的行为识别流程,使得在UCF101数据集上的准确率达到了92.9%。另一方面,本发明大大降低了三维网络的计算量、参数量以及运行时间,有利于算法实时性的实现。
附图说明
图1为本申请高效三维卷积的视频行为识别整体流程。
图2为本申请Mobile-3D网络卷积结构。
图3为本申请利用摄像头采集的测试视频结果举例。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出了一种新的三维卷积方式,使网络能在保持甚至超过现有性能的情况下,降低计算量、参数量以及运行时间。本发明在数据集UCF101上进行测试,利用该三维卷积网络结合上述的行为识别流程,使得在UCF101数据集上的准确率达到了92.9%。另一方面,本发明大大降低了三维网络的计算量、参数量以及运行时间,有利于算法实时性的实现。
一种基于高效三维卷积的视频行为识别方法,整体流程说明书附图1所示,包括如下步骤:
步骤1:将输入的视频进行稀疏采样。
对于一个输入视频,假设它的总帧长为L。将此视频分成N段等长的子视频段Si,i=1,...,N。然后在每一个子视频段Si中,随机采样一帧,进行后续的处理。
步骤2:将步骤1稀疏采样后的视频帧,送入BatchNorm-Inception网络进行特征提取,得到不同视频帧的特征图。这里取inception-3c层特征,以备后续三维模块特征融合使用。
步骤3:将步骤2提取到的特征组合成一个输入块,利用本发明提出的新的三维卷积网络(Mobile-3D)进行特征融合,这里将Pool层的输出作为最后的特征向量。Mobile-3D网络结构见说明书附表1所示。
表1 Mobile-3D网络结构
表中的P3Dform的操作层表示的是3×1×1卷积核与1×3×3卷积核级联的结构;M3D_form表示的是利用说明书附图2中的Mobile-3D网络卷积结构,其中如果重复次数大于1时,所列大于一的空间维步长与时间维步长只是针对第一层重复层的,后面的重复层的步长均为1;T_Pool层表示的是对时间维度进行池化,其尺寸为2×1×1;Pool层就是二维空间的池化层,其尺寸为1×4×4;3Dconv表示的是就是一般的三维卷积,其中1×1×1表示的是卷积核的尺寸;FC层表示的是全连接层,它的输出通道k表示的是分类的类别数。
步骤4:将步骤2得到的视频帧特征图利用另一个二维卷积网络进行特征提取,此二维卷积网络为BatchNorm-Inception网络中从inception-4a层至inception-5b层的部分,然后将输出的N×1024维特征图通过平均池化为1024维的特征向量,其中N为稀疏采样后的视频帧数。
步骤5:将步骤3得到的512维特征向量与步骤4得到的1024维向量连接,得到1536维的特征向量。
步骤6:将步骤5得到的1536维特征向量利用全连接层转化为101维的输出,这里采用101维输出的原因是数据集UCF101的类别数为101。然后利用SoftMax层进行预测。在数据集UCF101上的测试结果如说明书附图表2所示。利用作者采集的视频进行测试的情况如说明书附图3所示。
表2视频行为识别测试结果
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (8)

1.一种基于高效三维卷积的视频行为识别方法,其特征在于:所述的方法包括如下步骤:
(1)将输入的视频进行稀疏采样;
(2)将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图;
(3)将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量;
(4)将二维卷积网络提取的特征分别通过另一个与上述三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量;
(5)将上述两者的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类。
2.根据权利要求1所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:所述步骤(1)中对输入的视频进行稀疏采样,具体步骤为:
步骤1.1:对于一个输入视频,假设它的总帧长为L,将此视频分成N段等长的子视频段Si,i=1,...,N,然后在每一个子视频段Si中,随机采样一帧,进行后续的处理。
3.根据权利要求1所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:所述步骤(2)中将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图,具体步骤为:
步骤2.1:将步骤2.1稀疏采样后的视频帧,送入批次归一化Inception网络进行特征提取,得到不同视频帧的特征图,这里取inception-3c层特征,以备后续三维模块特征融合使用。
4.根据权利要求1所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:所述步骤(3)中将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量,具体步骤为:
步骤3.1稀疏采样后的视频帧通过二维卷积网络提取到特征,将不同帧的特征组合成一个输入块,利用新的三维卷积网络Mobile-3D进行特征融合,这里将Pool层的输出作为此步骤的特征向量。
5.根据权利要求4所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:所述步骤(4)中将二维卷积网络提取的特征通过另一个与步骤3.1中的三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量,具体步骤为:
步骤4.1:将稀疏采样视频帧经过权利要求3中的二维卷积网络后提取到的特征图利用另一个二维卷积网络进行特征提取,此二维卷积网络为批次归一化Inception网络中从inception-4a层至inception-5b层的部分,然后将输出的N×1024维特征图通过平均池化为1024维的特征向量,其中N为稀疏采样后的视频帧数。
6.根据权利要求5所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:所述步骤(5)中将步骤3.1与步骤4.1中得到的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类,具体步骤为:
步骤5.1:将步骤3.1得到的512维特征向量与步骤4.1得到的1024维向量连接,得到1536维的特征向量;
步骤5.2:将上述的1536维特征向量利用全连接层转化为101维的输出,这里采用101维输出的原因是数据集UCF101的类别数为101,然后利用SoftMax层进行预测。
7.根据权利要求1所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:所述UCF101数据集来源为YouTube视频,共计101类动作,13320段视频,共有5个大类的动作包括:人-物交互、肢体运动、人-人交互、弹奏乐器、运动。
8.根据权利要求1所述的一种基于高效三维卷积的视频行为识别方法,其特征在于:建立模型的实验平台如下:Ubuntu 14***,采用GeForce GTX 980显卡,采用Caffe框架来进行网络的训练与测试,使用基于Nesterov动量优化的小批次法来训练,并在每个全连接层中使用Dropout法进行正则化,防止过拟合,将每个视频分割成16片段,并从每个片段中随机选择一个帧,将输入帧的大小调整到240×320,并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强,然后,将输入调整为3×16×224×224,训练时初始学习率设置为0.001,当验证误差饱和4次时,学习率降低10倍,训练网络的动量设置为0.9,权重衰减设置为0.0005,小批次的大小设置为16。
CN201910356716.8A 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法 Active CN110084202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910356716.8A CN110084202B (zh) 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910356716.8A CN110084202B (zh) 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN110084202A true CN110084202A (zh) 2019-08-02
CN110084202B CN110084202B (zh) 2023-04-18

Family

ID=67417792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910356716.8A Active CN110084202B (zh) 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN110084202B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688918A (zh) * 2019-09-12 2020-01-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN110705389A (zh) * 2019-09-16 2020-01-17 全球能源互联网研究院有限公司 一种电网作业行为的识别方法及***
CN110765860A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 摔倒判定方法、装置、计算机设备及存储介质
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉***的视频中人体动作识别方法和装置
CN111259874A (zh) * 2020-05-06 2020-06-09 成都派沃智通科技有限公司 一种基于深度学习的校园安全视频监测方法
CN112364850A (zh) * 2021-01-13 2021-02-12 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN112381071A (zh) * 2021-01-11 2021-02-19 深圳市一心视觉科技有限公司 一种视频流中目标的行为分析方法、终端设备及介质
CN112560678A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 表情识别方法、装置、设备及计算机存储介质
CN112749666A (zh) * 2021-01-15 2021-05-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
WO2022134983A1 (zh) * 2020-12-25 2022-06-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109102025A (zh) * 2018-08-15 2018-12-28 电子科技大学 基于深度学习联合优化的行人重识别方法
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法
CN109102025A (zh) * 2018-08-15 2018-12-28 电子科技大学 基于深度学习联合优化的行人重识别方法
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688918A (zh) * 2019-09-12 2020-01-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN110688918B (zh) * 2019-09-12 2023-02-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
WO2021051545A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质
CN110705389A (zh) * 2019-09-16 2020-01-17 全球能源互联网研究院有限公司 一种电网作业行为的识别方法及***
CN110765860A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 摔倒判定方法、装置、计算机设备及存储介质
CN110765860B (zh) * 2019-09-16 2023-06-23 平安科技(深圳)有限公司 摔倒判定方法、装置、计算机设备及存储介质
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉***的视频中人体动作识别方法和装置
CN111259874A (zh) * 2020-05-06 2020-06-09 成都派沃智通科技有限公司 一种基于深度学习的校园安全视频监测方法
CN112560678A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 表情识别方法、装置、设备及计算机存储介质
WO2022134983A1 (zh) * 2020-12-25 2022-06-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN112381071A (zh) * 2021-01-11 2021-02-19 深圳市一心视觉科技有限公司 一种视频流中目标的行为分析方法、终端设备及介质
CN112364850B (zh) * 2021-01-13 2021-04-06 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN112364850A (zh) * 2021-01-13 2021-02-12 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN112749666A (zh) * 2021-01-15 2021-05-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN112749666B (zh) * 2021-01-15 2024-06-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法
CN117714875B (zh) * 2024-02-06 2024-04-30 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Also Published As

Publication number Publication date
CN110084202B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110084202A (zh) 一种基于高效三维卷积的视频行为识别方法
Zhang et al. DBNCF: Personalized courses recommendation system based on DBN in MOOC environment
CN110472627A (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN108399380A (zh) 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN110472531A (zh) 视频处理方法、装置、电子设备及存储介质
Kwon et al. First person action recognition via two-stream convnet with long-term fusion pooling
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN111881776B (zh) 动态表情获取方法、装置、存储介质和电子设备
CN110188654A (zh) 一种基于移动未裁剪网络的视频行为识别方法
CN115713715B (zh) 一种基于深度学习的人体行为识别方法及识别***
EP3982276A2 (en) Method and apparatus for processing video, storage medium amd program
CN112035549A (zh) 数据挖掘方法、装置、计算机设备及存储介质
Wang et al. Will you ever become popular? learning to predict virality of dance clips
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及***
Santos et al. Efficient violence detection using transfer learning
Lingling et al. Improvement of face detection algorithm based on lightweight convolutional neural network
CN113420179A (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
Park et al. Multimodal learning model based on video–audio–chat feature fusion for detecting e-sports highlights
Kang et al. Convolutional gate recurrent unit for video facial expression recognition in the wild
CN109857886A (zh) 一种基于极小极大值博弈理论视图逼近的三维模型检索方法
CN115984924A (zh) 一种基于类脑技术的自然场景下的表情识别方法
CN114663765A (zh) 一种基于弱监督细粒度的植物叶片识别***及方法
Xiao et al. Light weight object detector based on composite attention residual network and boundary location loss
Liu Research on Moving Object Detection of Animated Characters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant