CN114240999A - 一种基于增强图注意力与时间卷积网络的运动预测方法 - Google Patents

一种基于增强图注意力与时间卷积网络的运动预测方法 Download PDF

Info

Publication number
CN114240999A
CN114240999A CN202111373469.6A CN202111373469A CN114240999A CN 114240999 A CN114240999 A CN 114240999A CN 202111373469 A CN202111373469 A CN 202111373469A CN 114240999 A CN114240999 A CN 114240999A
Authority
CN
China
Prior art keywords
attention
feature
graph
module
graph attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111373469.6A
Other languages
English (en)
Inventor
刘盛
张少波
高飞
陈胜勇
柯正昊
柯程远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111373469.6A priority Critical patent/CN114240999A/zh
Publication of CN114240999A publication Critical patent/CN114240999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于增强图注意力与时间卷积网络的运动预测方法,该方法通过聚合时空信息来估计人体未来的运动姿态,构建了增强的图注意力模块与重构的TCN模块,利用输入特征的通道间关系生成通道注意力图,并基于通道注意力图,分别使用局部和全局图注意力卷积网络,提取局部对称、局部连接和全局语义信息。重构的TCN可以有效地捕获复杂的、高动态的时间信息。最后进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。本发明可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。

Description

一种基于增强图注意力与时间卷积网络的运动预测方法
技术领域
本申请属于运动预测技术领域,尤其涉及一种基于增强图注意力与时间卷积网络的运动预测方法。
背景技术
人体运动预测旨在根据历史人体骨架姿态预测未来的动态运动变化,该技术的发展对人-机交互、自主驾驶、公共安全、医疗保健、运动监测等许多应用都非常有利。人类运动的感知和预测对于交互机器人起着不可或缺的作用,也引领了未来机器人研究的一个趋势。然而,在人体运动预测中,预测姿态的不连续和误差累积会极大地影响其实际应用进展。
预测姿态的不连续和误差累积通常分别由模型在空间和时间维度上的表征能力不足引起。为了实现人体运动预测的高精度,已经有许多优秀的前期工作对人体骨骼序列的时空信息进行编码。人体骨骼的数学模型一般是基于人体主要关节来构建,每个关节都是一个独立的可观测点。同时,各个关节点之间又存在着相互联系。卷积神经网络对二维规则数据具有良好的空间结构感知能力,常用于图像识别和分割,但在面对人体骨骼等拓扑不规则数据时往往不能取得很好效果,而图卷积网络(GCN)则能够很好地构造和表征不规则数据结构。
各种基于GCN的算法在位姿估计、运动预测等领域得到了广泛的应用,但仅靠空间信息并不能保证模型在序列数据处理中的有效性。递归神经网络(RNN)对序列数据具有较强的处理能力,最早在NLP领域被设计出来,随后广泛应用于基于视频的动作识别和运动预测等领域,但空间信息的缺乏严重影响了RNN及其后的LSTM和GRU变体的最终预测精度。离散余弦变换(DCT)也被引入用于时间维度特征的表征,但很多实验应用表明,增加DCT的可观测帧数并不会显著提高最终的预测结果,这显然与常识相反。
发明内容
本申请提出了一种基于增强图注意力与时间卷积网络的运动预测方法,来减少人体运动预测过程中姿态的不连续与误差的累计问题。
为了实现上述目的,本申请技术方案如下:
一种基于增强图注意力与时间卷积网络的运动预测方法,包括:
将输入的原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及Relu函数,完成数据初始化;
将初始化后的数据输入到第一增强图注意力模块,输出第一图注意力特征,将第一图注意力特征输入到第一重构TCN模块得到第一时序特征,然后对第一图注意力特征进行切割操作后与第一时序特征进行元素相加,输出第一融合特征;
将第一融合特征输入到第二增强图注意力模块,输出第二图注意力特征,将第二图注意力特征输入到第二重构TCN模块得到第二时序特征,然后对第二图注意力特征进行切割操作后与第二时序特征进行元素相加,输出第二融合特征;
将第二融合特征输入到第三增强图注意力模块,输出第三图注意力特征;
对第三图注意力特征进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
进一步的,所述增强图注意力模块,执行如下操作:
将初始化后的数据,输入一个通道注意力模块,生成通道注意力图;
将通道注意力图分别输入局部注意力模块与全局图注意力模块,然后与输入数据聚合生成图注意力特征。
进一步的,所述通道注意力模块,执行如下操作:
同时使用平均池化与最大池化操作来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成最终的通道注意力图,表示如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
σ表示Sigmod激活函数,MLP(AvgPool(F)表示对输入特征F进行平均池化操作后再进行MLP操作,MLP(MaxPool(F))表示对输入特征F进行最大池化操作后再进行MLP操作,Mc(F)表示通道注意力图。
进一步的,所述局部注意力模块的操作表示为:
Figure BDA0003363189990000031
其中,σ表示Sigmod激活函数,W是一个用于将输入通道转换为输出通道的可学习的转换矩阵,M是一个可学习的掩码矩阵,
Figure BDA0003363189990000032
为图卷积核,其中A为人体骨架节点的一阶邻接矩阵,而I是节点的自连接矩阵,
Figure BDA0003363189990000033
表示矩阵元素一一相乘,Y1为局部图注意力模块的输出;
全局图注意力模块的操作表示为:
Figure BDA0003363189990000034
K为多头注意力机制的头数,Bk是一个自适应全局邻接矩阵,Ck是一个可学习的全局邻接矩阵,Wk是一个可学习的输入输出通道的转换矩阵,Y2为全局图注意力模块的输出。
进一步的,所述重构TCN模块,执行如下操作:
依次经过密度卷积、BatchNorm2D、ReLU、二维卷积、BatchNorm2D、ReLU激活函数、Dropout函数操作,输出时序特征。
本申请提出了一种基于增强图注意力与时间卷积网络的运动预测方法,构建了增强的图注意力模块与重构的TCN模块,并将其组合成基于增强图注意力与时间卷积网络的人体运动预测方法,本发明可以有效地减少人体运动预测过程中姿态的不连续与误差的累计。
附图说明
图1为基于增强图注意力与时间卷积网络的人体运动预测方法流程图;
图2为基于增强图注意力与时间卷积网络的整体网络示例图;
图3为增强的图注意力模块网络图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于增强图注意力与时间卷积网络的运动预测方法,包括:
步骤S1、将输入的原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展以、二维归一化及Relu函数,完成数据初始化。
对输入网络的人体骨架序列数据进行预处理,如图2中的输入数据(b,66,10),b表示模型训练的batch size为b,66表示每帧骨架数据大小为66,10表示整个序列在时间维度由10帧组成。通过线性变换扩展为预设维度的数据,即通过全连接网络将时间维度10映射扩展为64,且拆分每帧骨架数据66为3和22两个维度,3表示xyz三通道,22表示一共22个骨架节点,最终得到数据格式为(b,3,64,22),以满足后续对通道与节点分开计算的要求。再依次将数据经过二维归一化(BatchNorm2D)、通道扩展(3,(3,1),256)、二维归一化(BatchNorm2D)以及Relu函数(ReLU),完成数据预处理。
本申请拆分骨架节点维度为两个维度,并将时序维度由10扩展为64,为后续的时序特征提取提供更多的可操作空间。
步骤S2、将初始化后的数据输入到第一增强图注意力模块,输出第一图注意力特征,将第一图注意力特征输入到第一重构TCN模块得到第一时序特征,然后对第一图注意力特征进行切割操作后与第一时序特征进行元素相加,输出第一融合特征。
如图2所示,第一增强图注意力模块(AGA Block1)对初始化后的数据进行处理,输出第一图注意力特征。执行如下操作:
将初始化后的数据,输入一个通道注意力模块,生成通道注意力图;
将通道注意力图分别输入局部注意力模块与全局图注意力模块,然后与输入数据聚合生成图注意力特征。
具体的,第一增强图注意力模块如图3所示,将初始化后的数据输入到通道注意力模块,通道注意力模块同时使用平均池化(Average Pool)与最大池化操作(Max Pool)来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成最终的通道注意力图。
平均池化(Average Pool)与最大池化操作(Max Pool)的输出,分别经过MLP层处理后,通过元素相加完成数据融合(⊕表示矩阵元素一一相加)。再经过一个Sigmoid激活函数,形成通道注意力图。
所述MLP层依次由一维卷积(256,1,256)、ReLU、一维卷积(256,1,256)串接构成。
上述处理采用如下公式表示:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,σ表示Sigmod激活函数。MLP(AvgPool(F)表示对输入特征F进行平均池化操作后再进行MLP操作,MLP(MaxPool(F))表示对输入特征F进行最大池化操作后再进行MLP操作,Mc(F)表示通道注意力图。
然后,将通道注意力图分别输入局部图注意力模块与全局图注意力模块。如图3所示,局部图注意力模块包括第一分支和第二分支,第一分支和第二分支分别包括:一阶邻接矩阵GCN Connection、二维归一化BatchNorm2D和ReLU激活函数,第一分支和第二分支的输出经过元素相乘后,再输入到二维卷积(512,(1,1),256)、二维归一化BatchNorm2D、ReLU和Dropout函数。
局部图注意力模块可以表示为:
Figure BDA0003363189990000051
其中,σ表示Sigmod激活函数,X表示输入数据,W是一个用于将输入通道转换为输出通道的可学习的转换矩阵,M是一个可学习的掩码矩阵,
Figure BDA0003363189990000052
为图卷积核,其中A为人体骨架节点的一阶邻接矩阵(GCN Connection),而I是节点的自连接矩阵(GCNSymmetry),
Figure BDA0003363189990000053
表示矩阵元素一一相乘,Y1为局部图注意力模块的输出。
如图3所示,全局图注意力模块包括Global Graph Attention、二维卷积(256,(1,1),256)、二维归一化BatchNorm2D、ReLU激活函数和Dropout函数。
全局图注意力模块可以表示为:
Figure BDA0003363189990000054
K为多头注意力机制的头数,Bk是一个自适应全局邻接矩阵,Ck是一个可学习的全局邻接矩阵,Wk是一个可学习的输入输出通道的转换矩阵,Y2为全局图注意力模块的输出。k属于1~K。
最后将局部图注意力模块与全局图注意力模块的输出,与第一增强图注意力模块的输入数据各元素相加,形成最终的增强的图注意力特征(第一图注意力特征)。
接下来,将第一图注意力特征输入到第一重构TCN模块得到第一时序特征,然后对第一图注意力特征进行切割操作后与第一时序特征进行元素相加,输出第一融合特征。
第一重构TCN模块,在原始TCN的基础上,将膨胀卷积替换为密度卷积(二维卷积(256,(7,1),256)),即卷积核不存在空洞,以使其对序列骨架数据具有更好的表征能力。如图2所示,重构TCN模块依次经过密度卷积(256,(7,1),256)、BatchNorm2D、ReLU、二维卷积(256,(1,1),256)、BatchNorm2D、ReLU激活函数、Dropout函数操作,输出时序特征。同时使用切割(Slice)操作,从第一图注意力特征(b,256,62,22)末尾切割出(b,256,56,22)作为残差与时序特征元素一一相加形成最终的模块输出结果,⊕表示矩阵元素一一相加。
步骤S3、将第一融合特征输入到第二增强图注意力模块,输出第二图注意力特征,将第二图注意力特征输入到第二重构TCN模块得到第二时序特征,然后对第二图注意力特征进行切割操作后与第二时序特征进行元素相加,输出第二融合特征。
本步骤的具体操作与上一步骤相同,这里不再赘述。
步骤S4、将第二融合特征输入到第三增强图注意力模块,输出第三图注意力特征。
本步骤继续增强图注意力,第三增强图注意力模块的具体操作与第一增强图注意力模块的操作相同,这里不再赘述。
步骤S5、对第三图注意力特征进行通道收缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
本步骤对第三图注意力特征进行后处理,输出预测的人体骨架序列。如图2所示,将第三图注意力特征经过一个二维卷积(256,(1,1),3),将通道由256收缩为原始数据的xyz三通道,得到结果(b,3,20,22),再将xyz(第二维度)与节点(第四维度)合并(LinearProjection),得到后处理结果。同时使用Slice操作从原始输入数据末尾切割(b,66,1)作为残差与后处理结果一一相加得到最终的预测结果(b,66,22),⊕表示矩阵元素一一相加。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述基于增强图注意力与时间卷积网络的运动预测方法,包括:
将输入的原始时序人体骨架数据,通过线性变换扩展为预设维度的数据,并依次经过二维归一化、通道扩展、二维归一化及Relu函数,完成数据初始化;
将初始化后的数据输入到第一增强图注意力模块,输出第一图注意力特征,将第一图注意力特征输入到第一重构TCN模块得到第一时序特征,然后对第一图注意力特征进行切割操作后与第一时序特征进行元素相加,输出第一融合特征;
将第一融合特征输入到第二增强图注意力模块,输出第二图注意力特征,将第二图注意力特征输入到第二重构TCN模块得到第二时序特征,然后对第二图注意力特征进行切割操作后与第二时序特征进行元素相加,输出第二融合特征;
将第二融合特征输入到第三增强图注意力模块,输出第三图注意力特征;
对第三图注意力特征进行通道压缩和维度合并处理得到后处理结果,并对原始时序人体骨架数据进行切割处理得到残差,将后处理结果与残差进行元素相加得到最终的预测结果。
2.根据权利要求1所述的基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述增强图注意力模块,执行如下操作:
将初始化后的数据,输入一个通道注意力模块,生成通道注意力图;
将通道注意力图分别输入局部注意力模块与全局图注意力模块,然后与输入数据聚合生成图注意力特征。
3.根据权利要求2所述的基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述通道注意力模块,执行如下操作:
同时使用平均池化与最大池化操作来提取空间与时间特征,并将两者的结果使用一个权值共享的MLP层来聚合形成最终的通道注意力图,表示如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
σ表示Sigmod激活函数,MLP(AvgPool(F)表示对输入特征F进行平均池化操作后再进行MLP操作,MLP(MaxPool(F))表示对输入特征F进行最大池化操作后再进行MLP操作,Mc(F)表示通道注意力图。
4.根据权利要求2所述的基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述局部注意力模块的操作表示为:
Figure FDA0003363189980000021
其中,σ表示Sigmod激活函数,W是一个用于将输入通道转换为输出通道的可学习的转换矩阵,M是一个可学习的掩码矩阵,
Figure FDA0003363189980000022
为图卷积核,其中A为人体骨架节点的一阶邻接矩阵,而I是节点的自连接矩阵,
Figure FDA0003363189980000023
表示矩阵元素一一相乘,Y1为局部图注意力模块的输出;
全局图注意力模块的操作表示为:
Figure FDA0003363189980000024
K为多头注意力机制的头数,Bk是一个自适应全局邻接矩阵,Ck是一个可学习的全局邻接矩阵,Wk是一个可学习的输入输出通道的转换矩阵,Y2为全局图注意力模块的输出。
5.根据权利要求1所述的基于增强图注意力与时间卷积网络的运动预测方法,其特征在于,所述重构TCN模块,执行如下操作:
依次经过密度卷积、BatchNorm2D、ReLU、二维卷积、BatchNorm2D、ReLU激活函数、Dropout函数操作,输出时序特征。
CN202111373469.6A 2021-11-19 2021-11-19 一种基于增强图注意力与时间卷积网络的运动预测方法 Pending CN114240999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373469.6A CN114240999A (zh) 2021-11-19 2021-11-19 一种基于增强图注意力与时间卷积网络的运动预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373469.6A CN114240999A (zh) 2021-11-19 2021-11-19 一种基于增强图注意力与时间卷积网络的运动预测方法

Publications (1)

Publication Number Publication Date
CN114240999A true CN114240999A (zh) 2022-03-25

Family

ID=80750063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373469.6A Pending CN114240999A (zh) 2021-11-19 2021-11-19 一种基于增强图注意力与时间卷积网络的运动预测方法

Country Status (1)

Country Link
CN (1) CN114240999A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及***
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及***

Similar Documents

Publication Publication Date Title
CN111310707B (zh) 基于骨骼的图注意力网络动作识别方法及***
CN110427877B (zh) 一种基于结构信息的人体三维姿态估算的方法
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
Guo et al. JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing
CN111047548A (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN115482241A (zh) 一种跨模态双分支互补融合的图像分割方法及装置
CN109598732B (zh) 一种基于三维空间加权的医学图像分割方法
KR20230104737A (ko) 비디오 행동 인식을 위한 다중 해상도 어텐션 네트워크
CN114882421A (zh) 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN114283495B (zh) 一种基于二值化神经网络的人体姿态估计方法
CN111178142A (zh) 一种基于时空上下文学习的手部姿态估计方法
CN113111760A (zh) 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN111210382A (zh) 图像处理方法、装置、计算机设备和存储介质
CN114708665A (zh) 一种基于多流融合的骨骼图人体行为识别方法及***
CN115546888A (zh) 一种基于身体部位分组的对称语义图卷积姿态估计方法
CN112906853A (zh) 模型自动优化的方法及装置、设备、存储介质
CN112712019A (zh) 一种基于图卷积网络的三维人体姿态估计方法
CN116524121A (zh) 一种单目视频三维人体重建方法、***、设备及介质
CN114240999A (zh) 一种基于增强图注意力与时间卷积网络的运动预测方法
Shim et al. SwinDepth: Unsupervised depth estimation using monocular sequences via swin transformer and densely cascaded network
CN113255569B (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
CN111539288A (zh) 一种双手姿势的实时检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination