CN114648722A - 一种基于视频多路径时空特征网络的动作识别方法 - Google Patents

一种基于视频多路径时空特征网络的动作识别方法 Download PDF

Info

Publication number
CN114648722A
CN114648722A CN202210362715.6A CN202210362715A CN114648722A CN 114648722 A CN114648722 A CN 114648722A CN 202210362715 A CN202210362715 A CN 202210362715A CN 114648722 A CN114648722 A CN 114648722A
Authority
CN
China
Prior art keywords
feature
map
pooling
video
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210362715.6A
Other languages
English (en)
Other versions
CN114648722B (zh
Inventor
张海平
胡泽鹏
刘旭
马琮皓
管力明
施月玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
School of Information Engineering of Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
School of Information Engineering of Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University, School of Information Engineering of Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210362715.6A priority Critical patent/CN114648722B/zh
Publication of CN114648722A publication Critical patent/CN114648722A/zh
Application granted granted Critical
Publication of CN114648722B publication Critical patent/CN114648722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频多路径时空特征网络的动作识别方法,包括:获取待识别的视频,根据帧率从视频中抽取若干张图像并对图像进行预处理;按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像,形成多个图像序列;建立时空特征网络模型,时空特征网络模型包括多个特征提取模块,各图像序列一一对应输入至特征提取模块获取时空特征矩阵;将各特征提取模块输出的时空特征矩阵聚合,输出特征向量;利用分类器对特征向量进行分类检测,以概率最高的类别作为检测结果。该方法能够大幅提升动作视频分类的准确度,并有助于增强网络模型对动作视频的理解,显著提升鲁棒性,从而能够应对现实生活中的复杂场景。

Description

一种基于视频多路径时空特征网络的动作识别方法
技术领域
本发明属于深度学习视频理解领域,具体涉及一种基于视频多路径时空特征网络的动作识别方法。
背景技术
视频市场的快速增长受益于移动互联网和智能数字设备等方面的技术创新。如今,智能移动设备可存储数千个视频,移动应用程序允许用户通过移动互联网方便地访问数百视频网站。因此,视频在许多领域都变得愈发重要。例如,动作识别能够应用于网站每天大量视频的上传审核,用于视频监控危险动作与危险行为,甚至应用在机器人动作技术等领域。然而,传统深度学习方法通常涉及低精度和速度慢的问题,尤其在是处理大量视频场景和复杂动作视频场景时不能满足需求。
在当前的人工智能深度学习方法中,动作分类通常通过两种机制来实现。一种方法是使用双流网络,其中一个流位于RGB帧上,用于提取空间信息,另一个是利用光流作为输入来捕获时间信息。双流模式的光流模块的加入,能大量提升动作识别的精度,然而光流的计算成本十分昂贵。另一种方法是通过3D卷积从多帧RGB图像中学习时空特征。3DCNN能够有效地提取时空信息,但是由于时空信息是一起被提取的,该类型的网络缺乏对时间维度的具体考量,也无法像双流网络中根据光流信息获取具体前后动作差异,在提取特征的过程中很多重要的信息被丢失。因此,如何在3DCNN网络中更好的分离时间信息与空间信息使得它们更明确的表达出各自的特征信息,仍然是一个挑战。具体还是在于对视频片段中的空间和时间信息的提取。空间信息代表单帧场景中的静态信息,例如在视频中动作实体,相关具体的动作形态等信息;时间信息代表在多帧上整合空间信息从而获得动作上下文相关信息。因此,针对这两部分设计出一种有效的深度学习方法去提升动作识别的准确性是很有必要的。
发明内容
本发明的目的在于针对上述问题,提出一种基于视频多路径时空特征网络的动作识别方法,能够大幅提升动作视频分类的准确度,并有助于增强网络模型对动作视频的理解,显著提升鲁棒性,从而能够应对现实生活中的复杂场景。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的一种基于视频多路径时空特征网络的动作识别方法,包括如下步骤:
S1、获取待识别的视频,根据帧率从视频中抽取若干张图像并对图像进行预处理;
S2、按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像,形成多个图像序列;
S3、建立时空特征网络模型,时空特征网络模型包括多个特征提取模块,各图像序列一一对应输入至特征提取模块,特征提取模块执行如下操作:
S31、获取对应图像序列的中间特征X∈RN×T×C×H×W,其中,N为批尺寸,T为视频总帧数,C为图像的通道数,H为图像的高度,W为图像的宽度;
S32、将中间特征X均分为第一特征矩阵X0和第二特征矩阵X1,并计算差值X1-X0作为差异特征,其中,X0为中间特征X的前半部分,X1为中间特征X的后半部分,X0、X1∈RN ×(T/2)×C×H×W
S33、将差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征;
S34、将空间注意力特征与中间特征X点乘后再与中间特征X相加,获得空间特征图;
S35、将空间特征图输入并行的最大池化层和平均池化层对应获得第一最大池化特征图和第一平均池化特征图;
S36、将第一最大池化特征图和第一平均池化特征图输入第二多层感知机对应获得第二最大池化特征图和第二平均池化特征图;
S37、将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图;
S38、将第二最大池化特征图、第二平均池化特征图和融合特征图分别经过sigmoid层对应获得第一池化信息图、第二池化信息图和第三池化信息图;
S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图,第四池化信息图与空间特征图点乘后再与空间特征图相加,输出时空特征矩阵;
S4、将各特征提取模块输出的时空特征矩阵聚合,输出特征向量;
S5、利用分类器对特征向量进行分类检测,以概率最高的类别作为检测结果。
优选地,步骤S1中,预处理为随机裁剪图像至宽高为[256,320]像素。
优选地,步骤S3中,时空特征网络模型包括2个特征提取模块。
优选地,步骤S37中,将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作,卷积层为1D卷积层,squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。
优选地,第一多层感知机的缩减系数为r、放大系数为2r,第二多层感知机的缩减系数和放大系数均为r,r=16。
优选地,步骤S4中,将各特征提取模块输出的时空特征矩阵聚合时,每个时空特征矩阵的权重比为1:1。
与现有技术相比,本发明的有益效果为:
该方法通过将获取的待识别视频抽帧为图像,以不同的采样率获取多个图像序列,作为时空特征网络模型的多层级输入,天然的对获取的图像序列进行了时序建模,将从对应图像序列中提取出的中间特征进行差异性操作,能够在不增加计算量的前提下,大幅度削减视频背景对动作识别准确度的干扰,并能够有效聚合平均池化特征和最大池化特征提取出动作在时间维度的敏感信息,对视频整体进行全局建模,在此过程中,时空特征网络模型的健壮性能够得到持续的增强,从而在聚合各池化信息图时,使每一层特征提取模块输出的时空特征矩阵都能够表征出自有的那一层提取出来的特性,能够大幅提升动作视频分类的准确度;并通过融合多个时空特征矩阵,能够有助于增强网络模型对动作视频的理解,显著提升鲁棒性,从而能够应对现实生活中的复杂场景。
附图说明
图1为本发明动作识别方法的流程图;
图2为本发明动作识别方法的总体架构图;
图3为本发明空间差分模块的结构示意图;
图4为本发明注意力时序模块的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-4所示,一种基于视频多路径时空特征网络的动作识别方法,包括如下步骤:
S1、获取待识别的视频,根据帧率从视频中抽取若干张图像并对图像进行预处理。从视频(Video)中抽取的图像数量(视频总帧数)为视频每秒帧数(帧率)乘以视频总秒数。
在一实施例中,步骤S1中,预处理为随机裁剪图像至宽高为[256,320]像素。
S2、按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像,形成多个图像序列。
其中,设定m个采样率分别为[τ12,...,τm],每个采样率抽取的图像形成一个图像序列(Sample),其中,m个图像序列的维度分别为
Figure BDA0003584603520000051
其中,T为视频总帧数,C为图像的通道数,H为图像的高度,W为图像的宽度。
S3、建立时空特征网络模型,时空特征网络模型包括多个特征提取模块,各图像序列一一对应输入至特征提取模块,特征提取模块执行如下操作:
S31、获取对应图像序列的中间特征X∈RN×T×C×H×W,其中,N为批尺寸,T为视频总帧数,C为图像的通道数,H为图像的高度,W为图像的宽度;
S32、将中间特征X均分为第一特征矩阵X0和第二特征矩阵X1,其中,并计算差值X1-X0作为差异特征,X0为中间特征X的前半部分,X1为中间特征X的后半部分,X0、X1∈RN ×(T/2)×C×H×W
S33、将差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征;
S34、将空间注意力特征与中间特征X点乘后再与中间特征X相加,获得空间特征图;
S35、将空间特征图输入并行的最大池化层和平均池化层对应获得第一最大池化特征图和第一平均池化特征图;
S36、将第一最大池化特征图和第一平均池化特征图输入第二多层感知机对应获得第二最大池化特征图和第二平均池化特征图;
S37、将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图;
S38、将第二最大池化特征图、第二平均池化特征图和融合特征图分别经过sigmoid层对应获得第一池化信息图、第二池化信息图和第三池化信息图;
S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图,第四池化信息图与空间特征图点乘后再与空间特征图相加,输出时空特征矩阵。
在一实施例中,步骤S3中,时空特征网络模型包括2个特征提取模块。
在一实施例中,步骤S37中,将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作,卷积层为1D卷积层,squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。
在一实施例中,第一多层感知机的缩减系数为r、放大系数为2r,第二多层感知机的缩减系数和放大系数均为r,r=16。
其中,如图2所示,每个特征提取模块包括依次连接的Backbone框架、空间差分模块(Spatial-Difference Modulation)和注意力时序模块(Temporal-AttentionModulation),Backbone框架如采用ResNet框架。将第i个图像序列记为Fi,并将{F1,F2,...,Fm}中的元素一一对应作为m个特征提取模块的输入,通过Backbone框架获取对应图像序列的中间特征X。本实施例中将m设定为2,N=32,且批尺寸(Batch_Size)还可根据实际需求调整。具体如下:
如图3所示,空间差分模块包括第一提取单元(Difference operation)、最大池化层(MaxPooling)、第一多层感知机(MLP)和sigmoid层(SIGMOID)、第二提取单元(包括点乘、相加操作),利用第一提取单元将中间特征X均分为第一特征矩阵X0和第二特征矩阵X1,并计算差值X1-X0,通过相减操作提取差异特征,可以在不增加计算复杂度的情况下,大大减少动作识别视频背景对于动作识别准确率的干扰。差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征,通过3D最大池化层有效的提取了前后特征差异性,获得Fmax∈RN×(T/2r)×1×1×1。再将Fmax∈RN×(T/2r)×1×1×1通过第一多层感知机,其中,第一多层感知机包括依次连接的第一3D卷积层、ReLU层和第二3D卷积层,为了削减参数开销和提升特征提取效果,第一多层感知机将Fmax∈RN×(T/2r)×1×1×1先进行缩小后再进行放大,其中,削减系数为r,放大系数为2r,如r=16,获得Fmlp∈RN×T×1×1×1。将Fmlp输入至sigmoid层获得对应的空间注意力特征。利用第二提取单元将空间注意力特征与中间特征X点乘后再与中间特征X相加获得空间特征图(Spatial Attention),空间特征图的计算公式如下:
Y=X+X·(δ(MLP(Max(D(X))))
其中,X为Backbone框架输出的中间特征,D为差异性操作(即X1-X0),Max为最大池化操作,MLP为第一多层感知机操作,δ为sigmoid操作。以上为一个空间差分模块的具体结构与操作,其他各空间差分模块同理,仅对应不同的输出,卷积核大小有所不同,这里不再赘述。
如图4所示,注意力时序模块包括并行的最大池化层(MaxPooling)和平均池化层(AvgPooling)、第二多层感知机(Shared-MLP)、squeeze操作、concat操作(C)、1D卷积层(1DCNN)、unsqueeze操作、三个sigmoid层(sigmoid)和第三提取单元(包括相加、点乘、相加)。其中,利用3D最大池化层对空间特征图进行提取,获得第一最大池化特征图,利用3D平均池化层分别对空间特征图进行提取,获得第一平均池化特征图。利用第二多层感知机对第一最大池化特征图和第一平均池化特征图分别进行提取,对应获得第二最大池化特征图和第二平均池化特征图,第二多层感知机结构与第一多层感知机类似,但缩减系数和放大系数同是r,r=16。第二最大池化特征图和第二平均池化特征图依次经过squeeze操作、concat操作、1D卷积层和unsqueeze操作获得融合特征图,具体地,将第二最大池化特征图和第二平均池化特征图分别做squeeze操作对应获得F’max与F’avg,维度均为RN×T×1。通过concat操作连接F’max和F’avg的第二个维度获得Fios,Fios∈RN×2T×1。再将Fios通过一个卷积核大小为(3,3)的1D卷积层,进一步增加其平均特征和最大特征的联系。最后应用unsqueeze操作还原其原先维度,获得融合特征图。利用三个sigmoid层一一对应对第二最大池化特征图、第二平均池化特征图和融合特征图进行提取,对应获得第一池化信息图Ftemp1∈RN ×T×1×1×1、第二池化信息图Ftemp2∈RN×T×1×1×1和第三池化信息图Ftemp3∈RN×T×1×1×1。将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图,第四池化信息图与空间特征图点乘后再与空间特征图相加,输出时空特征矩阵。其中,各池化信息图及时空特征矩阵的计算公式如下:
Ftemp1=δ(SMLP(Max(X’)))
Ftemp2=δ(SMLP(Avg(X’)))
Ftemp3=δ(unsqueeze(Conv(squeeze([(Avg(X’),Max(X’)])))))
Y’=X’+X’·(Ftemp1+Ftemp2+Ftemp3)
其中,Y’为时空特征矩阵,X’为空间特征图,δ为sigmoid操作,SMLP为第二多层感知机操作,Max为最大池化操作,Avg为平均池化操作,Conv为卷积操作,squeeze为squeeze操作,unsqueeze为unsqueeze操作。
该注意力时序模块能够有效的聚合平均池化特征和最大池化特征提取出动作在时间维度的敏感信息。能够显著的改进现有技术中网络对时序建模中的具体动作行为重要特征不敏感的问题,例如,在一段投篮视频中,应该对视频中球与手随着时间变化的位置给予更多关注,而不是像现有技术中的网络错误的聚焦在了运动员的身体部分。需要说明的是,各注意力时序模块执行相似操作,在此不再赘述。
S4、将各特征提取模块输出的时空特征矩阵聚合,输出特征向量。
在一实施例中,步骤S4中,将各特征提取模块输出的时空特征矩阵聚合时,每个时空特征矩阵的权重比为1:1。
其中,各特征提取模块输出的时空特征矩阵的维度是相同的,权重比优选为1:1,对齐进行相加操作(即聚合Fusion),通过融合多个时空特征矩阵,能够有助于增强网络对动作视频的理解,显著提升鲁棒性,从而应对现实生活中复杂的场景。
S5、利用分类器对特征向量进行分类检测,以概率最高的类别作为检测结果。分类器采用神经网络的线性连接层,输出待识别的视频属于各个类别的概率,取概率最高的那一个类别作为动作视频结果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于视频多路径时空特征网络的动作识别方法,其特征在于:所述基于视频多路径时空特征网络的动作识别方法包括如下步骤:
S1、获取待识别的视频,根据帧率从视频中抽取若干张图像并对图像进行预处理;
S2、按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像,形成多个图像序列;
S3、建立时空特征网络模型,所述时空特征网络模型包括多个特征提取模块,各所述图像序列一一对应输入至所述特征提取模块,所述特征提取模块执行如下操作:
S31、获取对应图像序列的中间特征X∈RN×T×C×H×W,其中,N为批尺寸,T为视频总帧数,C为图像的通道数,H为图像的高度,W为图像的宽度;
S32、将中间特征X均分为第一特征矩阵X0和第二特征矩阵X1,并计算差值X1-X0作为差异特征,其中,X0为中间特征X的前半部分,X1为中间特征X的后半部分,X0、X1∈RN×(T/2)×C×H×W
S33、将差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征;
S34、将空间注意力特征与中间特征X点乘后再与中间特征X相加,获得空间特征图;
S35、将空间特征图输入并行的最大池化层和平均池化层对应获得第一最大池化特征图和第一平均池化特征图;
S36、将第一最大池化特征图和第一平均池化特征图输入第二多层感知机对应获得第二最大池化特征图和第二平均池化特征图;
S37、将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图;
S38、将第二最大池化特征图、第二平均池化特征图和融合特征图分别经过sigmoid层对应获得第一池化信息图、第二池化信息图和第三池化信息图;
S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图,所述第四池化信息图与空间特征图点乘后再与空间特征图相加,输出时空特征矩阵;
S4、将各所述特征提取模块输出的时空特征矩阵聚合,输出特征向量;
S5、利用分类器对所述特征向量进行分类检测,以概率最高的类别作为检测结果。
2.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S1中,所述预处理为随机裁剪图像至宽高为[256,320]像素。
3.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S3中,所述时空特征网络模型包括2个特征提取模块。
4.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S37中,所述将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作,所述卷积层为1D卷积层,所述squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。
5.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:所述第一多层感知机的缩减系数为r、放大系数为2r,所述第二多层感知机的缩减系数和放大系数均为r,r=16。
6.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S4中,所述将各特征提取模块输出的时空特征矩阵聚合时,每个时空特征矩阵的权重比为1∶1。
CN202210362715.6A 2022-04-07 2022-04-07 一种基于视频多路径时空特征网络的动作识别方法 Active CN114648722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210362715.6A CN114648722B (zh) 2022-04-07 2022-04-07 一种基于视频多路径时空特征网络的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210362715.6A CN114648722B (zh) 2022-04-07 2022-04-07 一种基于视频多路径时空特征网络的动作识别方法

Publications (2)

Publication Number Publication Date
CN114648722A true CN114648722A (zh) 2022-06-21
CN114648722B CN114648722B (zh) 2023-07-18

Family

ID=81997696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210362715.6A Active CN114648722B (zh) 2022-04-07 2022-04-07 一种基于视频多路径时空特征网络的动作识别方法

Country Status (1)

Country Link
CN (1) CN114648722B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN111123257A (zh) * 2019-12-30 2020-05-08 西安电子科技大学 基于图时空网络的雷达动目标多帧联合检测方法
CN112818843A (zh) * 2021-01-29 2021-05-18 山东大学 基于通道注意力导向时间建模的视频行为识别方法及***
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN113408343A (zh) * 2021-05-12 2021-09-17 杭州电子科技大学 基于双尺度时空分块互注意力的课堂动作识别方法
CN113850182A (zh) * 2021-09-23 2021-12-28 浙江理工大学 基于DAMR_3DNet的动作识别方法
CN114037930A (zh) * 2021-10-18 2022-02-11 苏州大学 基于时空增强网络的视频动作识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN111123257A (zh) * 2019-12-30 2020-05-08 西安电子科技大学 基于图时空网络的雷达动目标多帧联合检测方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN112818843A (zh) * 2021-01-29 2021-05-18 山东大学 基于通道注意力导向时间建模的视频行为识别方法及***
CN113408343A (zh) * 2021-05-12 2021-09-17 杭州电子科技大学 基于双尺度时空分块互注意力的课堂动作识别方法
CN113850182A (zh) * 2021-09-23 2021-12-28 浙江理工大学 基于DAMR_3DNet的动作识别方法
CN114037930A (zh) * 2021-10-18 2022-02-11 苏州大学 基于时空增强网络的视频动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱威: "《基于时空相关性的HEVC帧间模式决策快速算法》", 《通信学报》, vol. 37, no. 4, pages 64 - 73 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及***

Also Published As

Publication number Publication date
CN114648722B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Kim et al. Deep convolutional neural models for picture-quality prediction: Challenges and solutions to data-driven image quality assessment
Liu et al. Robust video super-resolution with learned temporal dynamics
Remez et al. Class-aware fully convolutional Gaussian and Poisson denoising
Linardos et al. Simple vs complex temporal recurrences for video saliency prediction
CN107977932B (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN107463949B (zh) 一种视频动作分类的处理方法及装置
CN110378288B (zh) 一种基于深度学习的多级时空运动目标检测方法
US9633282B2 (en) Cross-trained convolutional neural networks using multimodal images
WO2022121485A1 (zh) 图像的多标签分类方法、装置、计算机设备及存储介质
CN112465727A (zh) 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法
CN110555465A (zh) 一种基于cnn与多特征融合的天气图像识别方法
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
TWI761813B (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
Prabhushankar et al. Ms-unique: Multi-model and sharpness-weighted unsupervised image quality estimation
CN112257526A (zh) 一种基于特征交互学习的动作识别方法及终端设备
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测***
CN110443296B (zh) 面向高光谱图像分类的数据自适应激活函数学习方法
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及***
CN113936309A (zh) 一种基于面部分块的表情识别方法
Steffens et al. Cnn based image restoration: Adjusting ill-exposed srgb images in post-processing
Saleh et al. Adaptive uncertainty distribution in deep learning for unsupervised underwater image enhancement
CN113011253A (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN111310516B (zh) 一种行为识别方法和装置
CN114648722B (zh) 一种基于视频多路径时空特征网络的动作识别方法
Kong et al. A comprehensive comparison of multi-dimensional image denoising methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant