CN113065450B - 基于可分离三维残差注意网络的人体动作识别方法 - Google Patents

基于可分离三维残差注意网络的人体动作识别方法 Download PDF

Info

Publication number
CN113065450B
CN113065450B CN202110334547.5A CN202110334547A CN113065450B CN 113065450 B CN113065450 B CN 113065450B CN 202110334547 A CN202110334547 A CN 202110334547A CN 113065450 B CN113065450 B CN 113065450B
Authority
CN
China
Prior art keywords
attention
dimensional
channel
separable
sep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110334547.5A
Other languages
English (en)
Other versions
CN113065450A (zh
Inventor
张祖凡
彭月
甘臣权
张家波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110334547.5A priority Critical patent/CN113065450B/zh
Publication of CN113065450A publication Critical patent/CN113065450A/zh
Application granted granted Critical
Publication of CN113065450B publication Critical patent/CN113065450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于可分离三维残差注意网络的人体动作识别方法,属于计算机视觉领域。该方法包括:S1:利用可分离三维卷积替换3D ResNet中的标准三维卷积,搭建Sep‑3D ResNet;S2:设计通道注意力模块和空间注意力模块,然后按顺序堆叠构造双重注意力机制;S3:对不同时刻的中层卷积特征进行双重注意力加权,在时间维度上扩展双重注意力模块,然后将其嵌入到Sep‑3D ResNet的Sep‑3D RAB中,搭建Sep‑3D RAN;S4:利用多阶段训练策略对Sep‑3D RAN进行联合端到端训练。本发明能提升分类判别特征的区分能力,实现了高质量时空视觉特征的高效提取,能够增强模型的分类精度和识别效率。

Description

基于可分离三维残差注意网络的人体动作识别方法
技术领域
本发明属于计算机视觉领域,涉及一种基于可分离三维残差注意网络的人体动作识别方法。
背景技术
视频中隐藏着巨大的信息,网络视频市场庞大的用户量、高速增长的市场规模给网络视频的管理、存储、识别带来了极大的挑战,因此网络视频业务日益受到各方的重视。在以人为中心的计算机视觉研究领域中,人体动作识别任务因其在人机交互、智能家居、自动驾驶、虚拟现实等诸多领域中应用广泛,成为计算机视觉任务中一个重要的研究方向。人体动作识别的主要任务是自发地识别出图像序列或视频中的人体动作,通过对图像序列进行处理分析,剖析人体运动模式,建立视频内容和动作类别之间的映射关系,从而挖掘视频中所包含的深层次信息,学***台对海量相关视频数据进行统一分类管理,有助于营造和谐的网络环境。此外,人体动作识别技术的发展也促使了视频异常监控业务的成熟,在公共场合中能辅助社会治安管理人员迅速对危机事件做出预测,在家庭生活中能及时监控用户的异常行为(如晕倒,摔跤等)以便及时就医。因此,对视频中的人体动作进行精确地识别,具有重要的学术价值和应用价值。
传统的动作识别算法依赖于人工设计特征,且往往要根据不同的任务进行特定的特征设计,识别算法的性能严重依赖于数据库本身,增加了不同数据集上处理过程的复杂度,泛化能力和通用性较差。并且,在现如今信息***的时代背景下,图像和视频数据呈指数级增长,人们更倾向于采用非人工的方法提取更具有一般性的特征表示,因此基于手工特征的动作识别方法无法满足任务需求。
深度学习得益于其层级训练模式,通过层层递进的特征提取机制自动从原始视频数据中抽取高维特征,充分捕获视频数据的上下文语义信息,从而增加深度模型的描述能力,有利于最后的识别判断,因此在动作识别领域中得到了广泛的应用。近年来,深度学习应用于人体动作识别领域的主要技术有2D CNN、3D CNN和注意力机制等。2D CNN可以有效地捕捉RGB视频帧的空间邻域相关性信息,3D CNN可以同时捕捉时空维度上的视觉特征,注意力机制可以实现关键性特征的灵活筛选,从而提升模型的识别性能。虽然2D CNN复杂度较低且参数量较少,但由于时间流信息的缺乏,其对于动态特征的提取能力不足;虽然3DCNN能在原始输入数据上直接进行时空特征的融合,但会导致模型参数量的大幅增加,不利于模型的优化过程。此外,特征提取过程中包含大量冗余特征,导致模型的识别结果受到干扰。
因此,亟需一种能够提高视频识别性能的方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于可分离三维残差注意网络的人体动作识别方法,采取合理的核结构分解操作以缓解深度三维卷积模型优化困难现象,并结合注意力机制以提升关键性特征筛选的灵活性,从而制取更高质量的时空视觉特征以提升模型的识别性能。
为达到上述目的,本发明提供如下技术方案:
一种基于可分离三维残差注意网络的人体动作识别方法,具体包括以下步骤:
S1:构造可分离三维卷积,利用可分离三维卷积替换传统三维残差网络(3Dresidual network,3D ResNet)中的标准三维卷积,从而搭建可分离三维残差网络(Separable 3D residual network,Sep-3D ResNet),以缓解深度三维卷积模型优化困难现象;
S2:设计通道注意力模块以捕捉通道级重要性分布,设计空间注意力模块以自动权衡各空间位置的重要性,然后将两个注意力模块按顺序堆叠以构造双重注意力机制;
S3:通过对不同时刻的中层卷积特征进行双重注意力加权,在时间维度上扩展双重注意力模块,然后将其嵌入到Sep-3D ResNet的可分离三维残差块中,搭建形成可分离三维残差注意网络(Separable 3D residual attention network,Sep-3D RAN)模型;
S4:利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练,以缓解训练样本量不足所导致模型的过拟合效应,提升模型的泛化能力。
进一步,步骤S1中,构造可分离三维卷积具体过程为:通过三维卷积核分解操作将时空维度上的标准三维卷积近似为空间维度上的二维卷积和时间维度上的一维卷积,以构造可分离三维卷积。
可分离三维卷积操作过程为:假定在卷积层i中有Ni-1个输入特征,首先将这Ni-1个特征与Mi个大小为1×h×w×Ni-1的二维空间滤波器进行卷积,其中h、w、Ni-1分别为二维空间卷积核的高度、宽度和通道维数;然后再与Ni个大小为t×1×1×Mi的一维时间滤波器进行卷积,其中t和Mi分别表示一维时间卷积核的时间尺度和通道维数。其中Mi的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则,由以下公式计算得出:
Figure BDA0002996871080000031
为了搭建Sep-3D ResNet,选取了3D ResNet作为模型的基准架构,然后利用前述可分离三维卷积操作替换3D ResNet中的标准三维卷积操作。相较于原始基准模型,Sep-3DResNet在保持网络层数不变的情况下,倍增了模型的非线性激活函数,从而更易拟合复杂函数,在缓解深度三维卷积模型优化困难问题的基础上,提高了模型的描述能力,增强了模型的识别性能。
进一步,步骤S2中,首先定义双重注意力机制的输入。假定模型输入为F∈RT ×H×W×C,其中,T,H,W分别表示输入立方体的时间维度、高度和宽度,C表示输入通道数。经过一组或一系列可分离三维卷积后得到的中层特征映射立方体F'∈RT'×H'×W'×C',定义t时刻的切片张量为Ft∈RH'×W'×C',其中t=0,1,…,T'。该切片张量即为后续双重注意力机制的输入特征。
双重注意力机制的引入:
(1)设计通道注意力模块,具体包括:由于捕捉通道级重要性分布需要显示地建模各通道之间的依赖性,因此采取全局平均池化操作对输入特征的空间维度进行聚合,生成通道描述子FC∈R1×1×C',从而避免局部空间信息的干扰,表达公式为:
Figure BDA0002996871080000032
其中,Ft∈RH'×W'×C'表示t时刻的切片张量,t=0,1,…,T',T'、H'、W'、C'分别表示输入立方体经过一组或一系列可分离三维卷积后得到的中层特征映射立方体的时间维度、高度、宽度和通道数;
随后,利用类似于自注意力函数的门控机制得到各通道的重要性分布集合,即将通道描述子FC送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射;为限制模型的参数量,将隐藏激活层的维度设置为C'/r,r为缩减比通常设置为16;然后利用sigmoid激活函数进行归一化操作,得到最终的通道注意力映射;通道注意力求解过程表达式为:
MC(Ft)=EPC(σ(MLP(FC))))=EPC(σ(W1(δ(W0FC))))
其中,σ(·)表示sigmoid激活函数,δ(·)表示relu激活函数,W0、W1代表多层感知机的权重,EPC(·)表示将通道注意力值沿空间域扩展到原始维度,即令MC(Ft)∈RC'×H'×W'
为了执行自动特征校准,需要将通道注意力映射到原始输入特征,则细化后的切片张量计算过程为:
Figure BDA0002996871080000041
其中,符号
Figure BDA0002996871080000042
指元素级乘法运算。
(2)设计空间注意力模块,具体包括:与通道注意力模块类似,为有效计算空间注意特征映射,利用全局平均池化操作聚合Ft'的通道维度,以生成一个二维空间描述子FS∈RH'×W'×1,从而总结Ft'的全局通道信息,具体计算表达式为:
Figure BDA0002996871080000043
随后,为得到特征图Ft'中不同空间位置与目标动作的相关性,利用二维卷积操作而非多层感知机来计算其空间注意力值分布,即:
MS(Ft')=EPS(σ(conv(FS)))
其中,conv(·)表示二维卷积操作,通常卷积核大小设置为7×7以获得最好的识别性能,EPS(·)表示沿通道尺度上的维度变换操作,目的是将不同空间位置上的通道维数扩展到原始通道维度,即令MS(Ft')∈RC'×H'×W'
在推断了原始切片张量Ft的通道注意映射和空间注意映射后,首先利用通道注意力模块实现特征校准,得到细化后的切片张量Ft',然后在空间注意映射MS(Ft')和Ft'之间使用元素级乘法操作执行特征再校准,得到注意力加权后的切片张量Ft”,从而实现在区分信息密集型通道的同时识别空间显著区域,并抑制冗余背景信息;得到的最终细化张量Ft”的计算过程为:
Figure BDA0002996871080000044
进一步,步骤S3中,搭建形成Sep-3D RAN模型具体包括:为了实现前述双重注意力机制在时间维度上的扩展,通道注意映射与空间注意力映射的推断过程需要被应用在中层卷积特征F'∈RT'×H'×W'×C'的所有时间维度上,即各个时刻上的切片张量需要重复双重注意力加权过程,最后将各细化后的切片张量按照原始时间维度进行排列,堆叠为最终的细化特征立方体;
通过在Sep-3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块,得到了可分离三维残差注意块(Separable 3D residualattention block,Sep-3D RAB),从而在捕捉输入数据的抽象语义信息的同时灵活地为关键性特征分配更为丰富的注意力资源;最后遵循3D ResNet的模型架构搭建Sep-3D RAN,即将3D ResNet中的简单残差块替换为Sep-3D RAB。
进一步,步骤S4中,利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练,具体包括:首先利用预训练权重初始化网络参数以加速模型的收敛过程;考虑到Sep-3DRAN具有四个可分离三维残差注意块,模型的训练过程被划分为四个阶段;在第一阶段,注意力机制仅被嵌入到第一个残差块中,然后固定该模块之前的网络层参数,训练后续的网络层;在第二阶段,向第二个残差块中继续嵌入注意力机制,然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数,并训练后续的网络层;重复上述过程直到所有残差块均嵌入了注意力机制;由于预训练权重的引入,模型可以实现快速收敛,因此训练过程并不耗时,易于实现。此外,在所有训练阶段,模型都是端到端可训练的,因此模型能够直接学习从原始输入到目标输出之间的映射关系。
为了实现端到端的训练模式,利用一个全连接层生成最终的一维预测向量I∈RC,C指目标数据集的动作类别总数,然后选择softmax函数以计算输入视频所属类别的概率分布,即:
Figure BDA0002996871080000051
其中,
Figure BDA0002996871080000052
表示第n个视频属于动作类别i的预测概率;
在优化阶段,利用交叉熵损失函数调节真实值与预测值之间的误差,损失函数表达式为:
Figure BDA0002996871080000053
其中,yn,i表示给定输入视频相对应的真实标签值,N指训练过程中每一批次的样本数。
本发明的有益效果在于:本发明能提升了分类判别特征的区分能力,实现了高质量时空视觉特征的高效提取,能够增强模型的分类精度和识别效率;具体体现在以下几方面:
1)本发明使用可分离三维卷积来近似标准三维卷积,将三维时空域内的卷积操作简化为在级联的二维空间平面与一维时间平面上进行卷积,缓解了深度三维卷积模型优化困难的现象;
2)使用通道注意力模块捕捉更有意义的通道信息分量,使用空间注意力模块关注更为显著的空间区域,有助模型灵活筛选关键性特征;
3)使用多阶段训练策略训练模型,在不添加额外的正则化操作的情况下避免了模型的过拟合效应。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于可分离三维残差注意网络的人体动作识别的过程;
图2为本发明基于可分离三维残差注意网络的人体动作识别***模型图;
图3为可分离三维卷积示意图;
图4为通道注意力模块示意图;
图5为空间注意力模块示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图5,本发明设计了一种基于可分离三维残差注意网络的人体动作识别方法,如图1和图2所示,具体包括以下步骤:
步骤一:通过三维卷积核分解操作将时空维度上的标准三维卷积近似为级联的二维空间卷积和一维时间卷积,以构造可分离三维卷积,然后利用可分离三维卷积替换3DResNet中的标准三维卷积,以搭建Sep-3D ResNet;
步骤二:设计通道注意力模块产生每通道调制权重以捕捉通道级重要性分布,设计空间注意力模块自动权衡各空间位置的邻域相关性,然后将通道注意力模块和空间注意力模块按顺序堆叠,依次推断输入特征的通道注意力映射和空间注意力映射,从而构造双重注意力机制;
步骤三:针对中层卷积特征立方体的各个时间维度的切片张量,依次计算其通道注意力值和空间注意力值,然后将细化后的切片张量按照原始时间维度堆叠,并将其嵌入到Sep-3DResNet的可分离三维残差块中,搭建为最终的Sep-3D RAN;
步骤四:通过在Sep-3D ResNet中分阶段引入注意力模块,并依次训练各个阶段的子网络,最后对整个网络进行联合端到端训练,在充分激活注意力层的同时缓解训练样本不足的情况所导致的模型过拟合现象。
图3为可分离三维卷积示意图,给出了在给定卷积层中,输入特征经过可分离三维卷积操作得到相应输出特征的示意图。
可分离三维残差注意网络模块:
如图3所示,可分离三维卷积操作过程为:假定在卷积层i中有Ni-1个输入特征,这Ni-1个特征首先与Mi个大小为1×h×w×Ni-1的二维空间滤波器进行卷积,h,w,Ni-1分别为二维空间卷积核的高度、宽度和通道维数,然后再与Ni个大小为t×1×1×Mi的一维时间滤波器进行卷积,t和Mi分别表示一维时间卷积核的时间尺度和通道维数,其中Mi的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则,由以下公式计算得出:
Figure BDA0002996871080000071
为了搭建Sep-3D ResNet,选取了3D ResNet作为模型的基准架构,然后利用前述可分离三维卷积操作替换3D ResNet中的标准三维卷积操作。相较于原始基准模型,Sep-3DResNet在保持网络层数不变的情况下,倍增了模型的非线性激活函数,从而更易拟合复杂函数,在缓解深度三维卷积模型优化困难问题的基础上,提高了模型的描述能力,增强了模型的识别性能。
图4为通道注意力映射推断过程的示意图,输入特征经过空间维度上的全局平均池化操作、浅层多层感知机和维度变换操作后,得到了通道注意力分布。图5为空间注意力映射推断过程的示意图,输入特征经过通道维度上的全局平均池化操作、二维卷积操作和维度变换操作后,得到了空间注意力分布。
如图4所示,首先定义双重注意力模块的输入。假定模型输入为F∈RT×H×W×C,其中,T,H,W分别表示输入立方体的时间维度、高度和宽度,C表示输入通道数。经过一组或一系列可分离三维卷积后得到的中层特征映射立方体F'∈RT'×H'×W'×C',定义t时刻的切片张量为Ft∈RH'×W'×C',其中t=0,1,…,T'。该切片张量即为后续双重注意力机制的输入特征。
双重注意力模块包含两个子模块,即:
(1)通道注意力模块。如图4所示,由于捕捉通道级重要性分布需要显示地建模各通道之间的依赖性,因此采取全局平均池化操作对输入特征的空间维度进行聚合,以生成通道描述子FC∈R1×1×C',从而避免局部空间信息的干扰,具体公式如下:
Figure BDA0002996871080000081
随后,利用类似于自注意力函数的门控机制得到各通道的重要性分布集合,即将通道描述子FC送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射。为限制模型的参数量,将隐藏激活层的维度设置为C'/r,r为缩减比,通常设置为16。然后利用sigmoid激活函数进行归一化操作,得到最终的通道注意力映射。通道注意力求解过程可概括为:
MC(Ft)=EPC(σ(MLP(FC)))=EPC(σ(W1(δ(W0FC))))
其中,σ(·)指sigmoid激活函数,σ(·)指relu激活函数,W0,W1代表多层感知机的权重,EPC(·)表示将通道注意力值沿空间域扩展到原始维度,即令MC(Ft)∈RC'×H'×W'
为了执行自动特征校准,需要将通道注意力映射到原始输入特征,则细化后的切片张量计算过程为:
Figure BDA0002996871080000082
其中,符号
Figure BDA0002996871080000083
指元素级乘法运算。
利用通道注意力模块进行特征校准后,模型可以自动权衡各通道信息分量的重要性,从而逐渐提高对信息密集型特征的敏感性。
(2)空间注意力模块。如图5所示,与通道注意力模块类似,为有效计算空间注意特征映射,利用全局平均池化操作聚合Ft'的通道维度,以生成一个二维空间描述子FS∈RH '×W'×1,从而总结Ft'的全局通道信息,具体计算过程表示为:
Figure BDA0002996871080000084
随后,为得到特征图Ft'中不同空间位置与目标动作的相关性,利用二维卷积操作而非多层感知机来计算其空间注意力值分布,即:
MS(Ft')=EPS(σ(conv(FS)))
其中,conv(·)表示二维卷积操作,通常卷积核大小设置为7×7以获得最好的识别性能,EPS(·)表示沿通道尺度上的维度变换操作,目的是将不同空间位置上的通道维数扩展到原始通道维度,即令MS(Ft')∈RC'×H'×W'
在推断了原始切片张量Ft的通道注意映射和空间注意映射后,首先利用通道注意力模块实现特征校准,得到细化后的切片张量Ft',然后在空间注意映射MS(Ft')和Ft'之间使用元素级乘法操作执行特征再校准,得到注意力加权后的切片张量Ft”,从而实现在区分信息密集型通道的同时识别空间显著区域,并抑制冗余背景信息。得到的最终细化张量Ft”的计算过程为:
Figure BDA0002996871080000091
可分离三维残差注意网络模块。为了实现前述双重注意力机制在时间维度上的扩展,通道注意映射与空间注意力映射的推断过程需要被应用在中层卷积特征F'∈RT '×H'×W'×C'的所有时间维度上,即各个时刻上的切片张量需要重复上述双重注意力加权过程,最后将各细化后的切片张量按照原始时间维度进行排列,堆叠为最终的细化特征立方体。
通过在Sep-3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块,得到了可分离三维残差注意块(Sep-3D RAB),从而在捕捉输入数据的抽象语义信息的同时灵活地为关键性特征分配更为丰富的注意力资源。最后遵循3DResNet的模型架构搭建了Sep-3D RAN,即将3D ResNet中的简单残差块替换为Sep-3D RAB。
可选的,模块四具体包括:
多阶段训练策略模块。首先利用预训练权重初始化网络参数以加速模型的收敛过程。考虑到Sep-3D RAN具有四个可分离三维残差注意块,模型的训练过程被划分为四个阶段。在第一阶段,注意力机制仅被嵌入到第一个残差块中,然后固定该模块之前的网络层参数,训练后续的网络层。在第二阶段,向第二个残差块中继续嵌入注意力机制,然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数,并训练后续的网络层。重复上述过程直到四个注意力模块全部被嵌入到网络中。由于预训练权重的引入,模型可以实现快速收敛,因此训练过程并不耗时,易于实现。此外,在所有训练阶段,模型都是端到端可训练的,因此模型能够直接学习从原始输入到目标输出之间的映射关系。
为了实现端到端的训练模式,利用一个全连接层生成最终的一维预测向量I∈RC,C指目标数据集的动作类别总数,然后选择softmax函数以计算输入视频所属类别的概率分布,即:
Figure BDA0002996871080000092
其中,
Figure BDA0002996871080000093
表示第n个视频属于动作类别i的预测概率。
在优化阶段,利用交叉熵损失函数调节真实值与预测值之间的误差,损失函数计算如下:
Figure BDA0002996871080000094
其中,yn,i表示给定输入视频相对应的真实标签值,N指训练过程中每一批次的样本数。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于可分离三维残差注意网络的人体动作识别方法,其特征在于,该方法具体包括以下步骤:
S1:构造可分离三维卷积,利用可分离三维卷积替换3D ResNet中的标准三维卷积,从而搭建Sep-3D ResNet;其中,Sep-3D ResNet是可分离三维残差网络;
S2:设计通道注意力模块以捕捉通道级重要性分布,设计空间注意力模块以自动权衡各空间位置的重要性,然后将两个注意力模块按顺序堆叠以构造双重注意力机制;
设计通道注意力模块,具体包括:采取全局平均池化操作对输入特征的空间维度进行聚合,生成通道描述子FC∈R1×1×C′,表达公式为:
Figure FDA0003775734310000011
其中,Ft∈RH′×W′×C′表示t时刻的切片张量,t=0,1,…,T′,T′、H′、W′、C′分别表示输入立方体经过一组或一系列可分离三维卷积后得到的中层特征映射立方体的时间维度、高度、宽度和通道数;
随后,利用类似于自注意力函数的门控机制得到各通道的重要性分布集合,即将通道描述子FC送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射;为限制模型的参数量,将隐藏激活层的维度设置为C′/r,r为缩减比;然后利用sigmoid激活函数进行归一化操作,得到最终的通道注意力映射;通道注意力求解过程表达式为:
MC(Ft)=EPC(σ(MLP(FC)))=EPC(σ(W1(δ(W0FC))))
其中,σ(·)表示sigmoid激活函数,δ(·)表示relu激活函数,W0、W1代表多层感知机的权重,EPC(·)表示将通道注意力值沿空间域扩展到原始维度,即令MC(Ft)∈RC′×H′×W′
为了执行自动特征校准,需要将通道注意力映射到原始输入特征,则细化后的切片张量计算过程为:
Figure FDA0003775734310000012
其中,符号
Figure FDA0003775734310000013
指元素级乘法运算;
设计空间注意力模块,具体包括:利用全局平均池化操作聚合Ft′的通道维度,以生成一个二维空间描述子FS∈RH′×W′×1,从而总结Ft′的全局通道信息,具体计算表达式为:
Figure FDA0003775734310000014
随后,利用二维卷积操作而非多层感知机来计算其空间注意力值分布,即:
MS(Ft′)=EPS(σ(conv(FS)))
其中,conv(·)表示二维卷积操作,EPS(·)表示沿通道尺度上的维度变换操作;
在推断了原始切片张量Ft的通道注意映射和空间注意映射后,首先利用通道注意力模块实现特征校准,得到细化后的切片张量Ft′,然后在空间注意映射MS(Ft′)和Ft′之间使用元素级乘法操作执行特征再校准,得到注意力加权后的切片张量Ft”,从而实现在区分信息密集型通道的同时识别空间显著区域,并抑制冗余背景信息;得到的最终细化张量Ft”的计算过程为:
Figure FDA0003775734310000021
S3:通过对不同时刻的中层卷积特征进行双重注意力加权,在时间维度上扩展双重注意力模块,然后将其嵌入到Sep-3D ResNet的可分离三维残差块中,搭建形成Sep-3D RAN模型;其中,Sep-3D RAN是可分离三维残差注意网络;
S4:利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练,具体包括:利用一个全连接层生成最终的一维预测向量I∈RC,C指目标数据集的动作类别总数,然后选择softmax函数以计算输入视频所属类别的概率分布,即:
Figure FDA0003775734310000022
其中,
Figure FDA0003775734310000023
表示第n个视频属于动作类别i的预测概率;
在优化阶段,利用交叉熵损失函数调节真实值与预测值之间的误差,损失函数表达式为:
Figure FDA0003775734310000024
其中,yn,i表示给定输入视频相对应的真实标签值,N指训练过程中每一批次的样本数。
2.根据权利要求1所述的人体动作识别方法,其特征在于,步骤S1中,所述的构造可分离三维卷积具体是通过三维卷积核分解操作将时空维度上的标准三维卷积近似为空间维度上的二维卷积和时间维度上的一维卷积,以构造可分离三维卷积。
3.根据权利要求1或2所述的人体动作识别方法,其特征在于,步骤S1中,所述的构造可分离三维卷积,具体包括:假定在卷积层i中有Ni-1个输入特征,首先将Ni-1个特征与Mi个大小为1×h×w×Ni-1的二维空间滤波器进行卷积,其中h、w、Ni-1分别为二维空间卷积核的高度、宽度和通道维数;然后再与Ni个大小为t×1×1×Mi的一维时间滤波器进行卷积,其中t和Mi分别表示一维时间卷积核的时间尺度和通道维数。
4.根据权利要求3所述的人体动作识别方法,其特征在于,Mi的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则,由以下公式计算得出:
Figure FDA0003775734310000031
5.根据权利要求1所述的人体动作识别方法,其特征在于,步骤S3中,搭建形成Sep-3DRAN模型具体包括:各个时刻上的切片张量重复双重注意力加权过程,最后将各细化后的切片张量按照原始时间维度进行排列,堆叠为最终的细化特征立方体;
通过在Sep-3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块,得到了可分离三维残差注意块;最后遵循3D ResNet的模型架构搭建Sep-3D RAN,即将3D ResNet中的简单残差块替换为可分离三维残差注意块。
6.根据权利要求1所述的人体动作识别方法,其特征在于,步骤S4中,利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练,具体包括:首先利用预训练权重初始化网络参数以加速模型的收敛过程;考虑到Sep-3D RAN具有四个可分离三维残差注意块,模型的训练过程被划分为四个阶段;在第一阶段,注意力机制仅被嵌入到第一个残差块中,然后固定该模块之前的网络层参数,训练后续的网络层;在第二阶段,向第二个残差块中继续嵌入注意力机制,然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数,并训练后续的网络层;重复上述过程直到所有残差块均嵌入了注意力机制。
CN202110334547.5A 2021-03-29 2021-03-29 基于可分离三维残差注意网络的人体动作识别方法 Active CN113065450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334547.5A CN113065450B (zh) 2021-03-29 2021-03-29 基于可分离三维残差注意网络的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334547.5A CN113065450B (zh) 2021-03-29 2021-03-29 基于可分离三维残差注意网络的人体动作识别方法

Publications (2)

Publication Number Publication Date
CN113065450A CN113065450A (zh) 2021-07-02
CN113065450B true CN113065450B (zh) 2022-09-20

Family

ID=76564513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334547.5A Active CN113065450B (zh) 2021-03-29 2021-03-29 基于可分离三维残差注意网络的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN113065450B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255616B (zh) * 2021-07-07 2021-09-21 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113887419B (zh) * 2021-09-30 2023-05-12 四川大学 一种基于提取视频时空信息的人体行为识别方法及***
CN114550162B (zh) * 2022-02-16 2024-04-02 北京工业大学 一种视图重要性网络与自注意力机制相结合的三维物体识别方法
CN117575915B (zh) * 2024-01-16 2024-07-23 闽南师范大学 一种图像超分辨率重建方法、终端设备及存储介质
CN117831301B (zh) * 2024-03-05 2024-05-07 西南林业大学 一种结合三维残差卷积神经网络和时空注意力机制的交通流量预测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190113119A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 합성곱 신경망을 위한 주의집중 값 계산 방법
US11361225B2 (en) * 2018-12-18 2022-06-14 Microsoft Technology Licensing, Llc Neural network architecture for attention based efficient model adaptation
CN109871777B (zh) * 2019-01-23 2021-10-01 广州智慧城市发展研究院 一种基于注意力机制的行为识别***
CN111415342B (zh) * 2020-03-18 2023-12-26 北京工业大学 一种融合注意力机制的三维卷积神经网络肺部结节图像自动检测方法
CN111428699B (zh) * 2020-06-10 2020-09-22 南京理工大学 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及***
CN112288041B (zh) * 2020-12-15 2021-03-30 之江实验室 一种多模态深度神经网络的特征融合方法

Also Published As

Publication number Publication date
CN113065450A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN113065450B (zh) 基于可分离三维残差注意网络的人体动作识别方法
Mascarenhas et al. A comparison between VGG16, VGG19 and ResNet50 architecture frameworks for Image Classification
CN111242208B (zh) 一种点云分类方法、分割方法及相关设备
CN113378906B (zh) 一种特征自适应对齐的无监督域适应遥感图像语义分割方法
CN111291809B (zh) 一种处理装置、方法及存储介质
Jin et al. Pedestrian detection with super-resolution reconstruction for low-quality image
CN110378381A (zh) 物体检测方法、装置和计算机存储介质
WO2021147325A1 (zh) 一种物体检测方法、装置以及存储介质
CN110222717A (zh) 图像处理方法和装置
Tan et al. Photograph aesthetical evaluation and classification with deep convolutional neural networks
CN110222718B (zh) 图像处理的方法及装置
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
Li et al. Application of semi-supervised learning in image classification: Research on fusion of labeled and unlabeled data
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN113378938A (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及***
Yuan et al. A lightweight network for smoke semantic segmentation
Cai et al. Combination of temporal‐channels correlation information and bilinear feature for action recognition
CN115100709A (zh) 一种特征分离的图像人脸识别与年龄估计方法
Wang et al. Global contextual guided residual attention network for salient object detection
Ma et al. Relative-position embedding based spatially and temporally decoupled Transformer for action recognition
Liu et al. Behavior detection and evaluation based on multi-frame MobileNet
WO2022175717A1 (en) System and method for self-attentive image modality conversion and domain adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant