CN111881802A

CN111881802A - 基于双分支时空图卷积网络的交警手势识别方法

Info

Publication number: CN111881802A
Application number: CN202010710972.5A
Authority: CN
Inventors: 江昆; 付峥; 杨蒙蒙; 杨殿阁; 王思佳; 黄晋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-11-03
Anticipated expiration: 2040-07-22
Also published as: CN111881802B

Abstract

本发明涉及一种基于双分支时空图卷积网络的交警手势识别方法，其包括步骤：1)对交警手势视频采用深度卷积网络对交警关节点以及骨架进行提取；2)使用信息表征方法来双路表征时空图卷积网络的输入信息，对交警关节点时空特征与骨架物理特征进行充分利用以及统一表达，从交警关节点以及交警骨架两个层次来完成交警动作分析；3)根据人体的自然骨架结构以及时间序列构建双分支时空图卷积网络，交警关节点信息与交警骨架信息分别输入到双分支时空图卷积网络中，实现交警手势识别。本发明可以克服由于交警的身高、衣着，交通场景光照以及复杂度等因素的影响，有效提升交警手势检测精度，同时保证识别算法的实时性，以满足实际应用需求。

Description

基于双分支时空图卷积网络的交警手势识别方法

技术领域

本发明涉及一种智能汽车的环境感知领域，特别是关于一种在基于人工智能技术的交通场景中应用的基于双分支时空图卷积网络的交警手势识别方法。

背景技术

对于自动驾驶而言，交警手势识别是其环境感知与环境认知任务中的关键部分。交警手势是用于指挥交通，保障道路交通安全畅通的一种方法，熟知交警手势信号有利于我们实现安全文明驾驶。交通行驶规范要求驾驶人能够准确识别八种交警手势，而且在交通场景中交警指挥信号优先级高于交通信号灯，在有交警介入的情形下车辆必须服从交警指挥。因此自动驾驶汽车应当具备识别交警手势的能力，以应对有交警介入的特殊情况，保证道路交通安全畅通。

目前对交警手势识别的研究有两大类：基于可穿戴式传感器的方法以及基于视觉传感器的方法，对于自动驾驶汽车而言基于视觉方法更具有可行性。传统的基于视觉的交警手势识别方法分为两步，首先基于视频序列提取交警手势的空间特征，其次对空间特征分类。然而由于交警的身高、衣着，交通场景光照以及复杂度等条件的影响，交警手势空间特征提取存在较大误差；同时传统的特征分类方法只能针对简单特定场景，而且模型泛化能力较差，无法满足实际应用中实时性与精度要求。近年来人工智能技术的发展可以很好的改善上述问题，使得交警手势识别算法更具有泛化性和实时性。

发明内容

针对上述问题，本发明的目的是提供一种基于双分支时空图卷积网络的交警手势识别方法，该方法可以克服由于交警的身高、衣着，交通场景光照以及复杂度等因素的影响，有效提升交警手势检测精度，同时保证识别算法的实时性，以满足实际应用需求。

为实现上述目的，本发明采取以下技术方案：一种基于双分支时空图卷积网络的交警手势识别方法，其包括以下步骤：1)对交警手势视频采用深度卷积网络对交警关节点以及骨架进行提取；2)使用信息表征方法来双路表征时空图卷积网络的输入信息，对交警关节点时空特征与骨架物理特征进行充分利用以及统一表达，从交警关节点以及交警骨架两个层次来完成交警动作分析；3)根据人体的自然骨架结构以及时间序列构建双分支时空图卷积网络，交警关节点信息与交警骨架信息分别输入到双分支时空图卷积网络中，实现交警手势识别。

进一步，所述步骤1)中，采用OPENPOSE算法提取关节点与骨架。

进一步，所述步骤2)中，信息表征方法具体步骤如下：

2.1)构建交警关节点信息分支：

所述关节点信息分支构建的信息矩阵P＝(p₀,p₁,…,p_i,…p₁₇)，其中i代表节点序号，t时刻交警某关节点p_i的时空特征向量表征为：

式中，

分别表示t时刻交警关节点p_i的横坐标、纵坐标，表征了该节点在t时刻的空间信息；

表征了t时刻下，该节点提取的置信度大小，置信度范围为[0-1]；

2.2)构建交警骨架信息分支：

所述骨架信息分支构建的信息矩阵S＝(s₁,s₂,…,s_j,…,s₁₃)，其中j代表向量序号，同时也是向量指向的节点序号；t时刻交警骨架向量s_j表征为：

式中，

表示向量编号j中的指向节点横坐标，

表示向量编号j中的指向节点纵坐标；

表示向量编号j中的指出节点横坐标，

表示向量编号j中的指出节点纵坐标；s_j代表的物理意义为二维矢量，表示交警因手势变化带来的检测骨架长度以及骨架运动方向的变化。

进一步，所述步骤3)中，双分支时空图卷积网络的构建方法包括以下步骤：

3.1)双分支时空图卷积网络的整体框架；

3.2)构建骨架的图卷积网络结构；

3.3)构建空间图卷积网络；

3.4)构建时间图卷积网络；

3.5)网络整体架构及训练。

进一步，所述步骤3.1)中，将步骤2)中的两个信息分支作为双分支时空图卷积网络的输入单元，通过时空图卷积操作来提取更高层次的特征，双分支分别通过SoftMax分类器得到对应的动作分类，最后根据Adaboost算法，将双分支的弱分类结果根据其分类正确率进行加权融合构成强分类器。

进一步，所述步骤3.2)中，时空图卷积网络结构由两部分组成：根据人体结构，将每一帧的节点连接成边，这些边形成空间边L_s＝{v_it,v_jt|(i,j)∈B}，B是一组自然连接的人体关节；将连续两帧中相同的节点连接成边，这些边形成时间边L_t＝{v_it,v_i(t+1)}。

进一步，所述步骤3.3)中，同一帧的交警人体内部的关节点的连接表示为邻接矩阵A，单位阵I表示自连接信息，则空间图卷积网络的卷积操作包括：

(1)构建卷积操作的分割策略：将节点划分为3个子集，第一个子集连接了空间位置上比根节点更远离整个骨架的邻居节点，突出表征交警离心运动；第二个子集连接了更靠近中心的邻居节点，突出表征交警近心运动，第三个子集为根节点本身，突出表征交警静止的运动特征；

(2)构建空间图卷积网络的邻接矩阵以及度矩阵；

(3)根据邻接矩阵和度矩阵得到图深度网络对于单一卷积核的卷积公式。

进一步，所述步骤3.4)中，在空间图卷积网络基础上，构建时间图卷积网络来学习时间中关节点变化的局部特征；在时间图卷积网络中可以设定卷积核的大小为：[time_size]×[1]，其中[time_size]表示学习与当前帧相邻的[time_size]个关键帧中关节点的变化特征，[1]表示只针对某一关节点而言；时间图卷积在完成1个节点卷积操作后进行下1个节点的卷积。

进一步，所述步骤3.5)中，采用基于两个并行双时空图卷积网络分支的网络框架：将交警的关节点信息表征向量与交警骨架信息表征向量分别输入到时空图卷积网络中，经过卷积操作生成更高级的特征图并分别传送到标准的SoftMax分类器中，得到手势识别结果；最后根据Adaboost算法，将双分支分类结果根据其分类正确率进行加权融合构成强分类器，进而实现交警手势识别。

进一步，所述步骤3.5)中，网络训练，首先对输入的数据进行batchnormalization，然后在经过10个时空网络单元后传入到池化层得到256维特征向量，其中每个时空单元由一组空间图卷积网络串联一组时间图卷积网络组成，最后用SoftMax函数进行分类，得到预测的交警手势类别。

本发明由于采取以上技术方案，其具有以下优点：1、本发明相比较于传统视觉提取交警手势的空间特征思路，使用深度卷积网络提取交警关节点与骨架信息可以很好的规避由于交警身高、衣着、光照等条件对手势特征提取的影响。2、本发明使用信息表征策略来双路表征时空图卷积网络的输入信息，可以对交警关节点时空特征与骨架物理特征进行充分利用以及统一表达。3、本发明以人体的自然骨架结构以及时间序列构建的双分支时空图卷积网络，可以进一步加强对交警手势的空间特征学习与分类，可以显著提升交警手势识别性能。

附图说明

图1是本发明的整体流程示意图。

图2是本发明中交警关节点序号与骨架提取点示意图。

图3是本发明中双路信息表征示意图。

图4是本发明中双路时空图卷积网络示意图。

图5是本发明中时空图卷积网络拓扑结构示意图。

图6是本发明中人体关节点划分子集示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种基于双分支时空图卷积网络的交警手势识别方法，其包括以下步骤：

1)对交警手势视频采用深度卷积网络对交警关节点以及骨架进行提取。

本发明不涉及实现交警检测和关键点检测的方法，因此对其实现方法不作限制。在本实施例中使用OPENPOSE算法提取关节点与骨架，提取的节点编号以及骨架连接方式如图2所示。

OPENPOSE算法总共提取人体18个主要关节点，编号0鼻子、编号1脖子、编号2右肩、编号3右肘、编号4右腕、编号5左肩、编号6左肘、编号7左腕、编号8右髋、编号9右膝、编号10右脚踝、编号11左髋、编号12左膝、编号13左脚踝、编号14右眼、编号15左眼、编号16右耳、编号17左耳。

通过OPENPOSE算法可以获得交警18个关节点的二维坐标以及坐标置信度百分比。与此同时，为了有效检测交警手势，本实施例中构建18组骨架向量，分别为向量0，根向量(0，0)、向量1(编号0鼻子—>编号1脖子)、向量2(编号1脖子—>编号2右肩)、向量3(编号2右肩—>编号3右肘)、向量4(编号3右肘—>编号4右腕)、向量5(编号1脖子—>编号5左肩)、向量6(编号5左肩—>编号6左肘)、向量7(编号6左肘—>编号7左腕)、向量8(编号1脖子—>编号8右髋)、向量9(编号8右髋—>编号9右膝)、向量10(编号9右膝—>编号10右脚踝)、向量11(编号1脖子—>编号11左髋)、向量12(编号11左髋—>编号12左膝)、向量13(编号12左膝—>编号13右膝)、向量14(编号0鼻子—>编号14右眼)、向量15(编号0鼻子—>编号15左眼)、向量16(编号14右眼—>编号16右耳)、向量17(编号15左眼—>编号17左耳)。

2)使用信息表征方法来双路表征时空图卷积网络的输入信息，对交警关节点时空特征与骨架物理特征进行充分利用以及统一表达。分析交警动作可以从交警关节点以及交警骨架两个层次来完成。图3是双路信息表征示意图。

信息表征方法具体步骤如下：

2.1)构建交警关节点信息分支；

关节点信息分支构建的信息矩阵P＝(p₀,p₁,…,p_i,…p₁₇)，其中i代表节点序号。t时刻交警某关节点p_i的时空特征向量表征为：

式中，

分别表示t时刻交警关节点p_i的横坐标、纵坐标，表征了该节点在t时刻的空间信息。

分别表征了交警关节点p_i从前一帧t-1时刻到t时刻的横坐标、纵坐标的变化量，表征了该节点在运动过程中的时间信息。

表征了t时刻下，该节点提取的置信度大小，置信度范围为[0-1]，置信度越大表明该节点的检测越准确。

2.2)构建交警骨架信息分支；

骨架信息分支构建的信息矩阵S＝(s₁,s₂,…,s_j,…,s₁₃)，其中j代表向量序号，同时也是向量指向的节点序号。t时刻交警骨架向量s_j表征为：

式中，

表示向量编号j中的指向节点横坐标，

表示向量编号j中的指向节点纵坐标；

表示向量编号j中的指出节点横坐标，

表示向量编号j中的指出节点纵坐标；s_j代表的物理意义为二维矢量，表示交警因手势变化带来的检测骨架长度以及骨架运动方向的变化。通过学习骨架向量的方向变化与长短变化来学习交警手势的空间特征。

3)根据人体的自然骨架结构以及时间序列构建双分支时空图卷积网络，交警关节点信息与交警骨架信息分别输入到双分支时空图卷积网络中，实现交警手势识别。

双分支时空图卷积网络的构建方法包括以下步骤：

3.1)双分支时空图卷积网络的整体框架；

首先构造出表示该骨架序列信息的图结构。

如图4所示，将步骤2)中的两个信息分支作为双分支时空图卷积网络的输入单元，通过一系列时空图卷积操作来提取更高层次的特征，双分支分别通过SoftMax分类器得到对应的动作分类，最后根据Adaboost算法，将双分支的弱分类结果根据其分类正确率进行加权融合构成强分类器。

3.2)构建骨架的图卷积网络结构；

记一个有N个关节点和T帧的骨骼序列的时空图为G＝(V，E)，其节点集合为V＝{v_i|i＝1,…,N}，对于该网络结构而言，节点数目为N＝18；时空图中边用集合E表示。第t帧的第i个节点在关节点信息分支的特征向量为P(v_it)，在骨架信息分支的特征向量为S(v_it)，特征向量的定义参照步骤2)。

时空图卷积网络结构由两部分组成：根据人体结构，将每一帧的节点连接成边，这些边形成空间边L_s＝{v_it,v_jt|(i,j)∈B}，B是一组自然连接的人体关节，示意图如图5人体自然连接边(实线表示)；将连续两帧中相同的节点连接成边，这些边形成时间边L_t＝{v_it,v_i(t+1)}，示意图如图5虚线连接边。

3.3)构建空间图卷积网络；

同一帧的交警人体内部的关节点的连接可以表示为邻接矩阵A，单位阵I表示自连接信息。空间图卷积网络的卷积操作包括：

(1)构建卷积操作的分割策略：为了更好表征交警手势特征，将节点划分为3个子集，第一个子集连接了空间位置上比根节点更远离整个骨架的邻居节点，如图6虚线区域①节点，突出表征交警离心运动；第二个子集连接了更靠近中心的邻居节点，如图6虚线区域②节点，突出表征交警近心运动，第三个子集为根节点本身，如图6虚线区域③小节点，突出表征交警静止的运动特征。

(2)构建空间图卷积网络的邻接矩阵以及度矩阵。

依据图理论，网络的邻接矩阵A和度矩阵D分别为：

(3)根据邻接矩阵和度矩阵得到图深度网络对于单一卷积核的卷积公式为：

(x)＝D^-1AX (4)

公式可以化简为：

式中，(x)表示节点特征X经过卷积操作后的输出特征向量，aggtegate(X_i)为使用均值聚合规则对第i个节点特征聚合表示。

为了表征交警不同尺度的运动特征，在构建的图卷积网络时将节点划分为了3个子集，输出结果为：

其中，

中加入最后一项是为了防止

中存在零项，f_in表示该卷积层的输入特征向量，f_out表示经过该卷积层卷积操作后的输出特征向量。本发明中根据子集划分情况设定卷积核大小及权重大小，进而对空间图卷积网络完成卷积操作。

3.4)构建时间图卷积网络；

空间图卷积网络可以学习到空间中相邻关节的局部特征。在此基础上，构建时间图卷积网络来学习时间中关节点变化的局部特征。

在时间图卷积网络中可以设定卷积核的大小为：[time_size]×[1]，其中[time_size]表示学习与当前帧相邻的[time_size]个关键帧中关节点的变化特征，[1]表示只针对某一关节点而言。时间图卷积在完成1个节点卷积操作后进行下1个节点的卷积。卷积操作中的[stride]表示步长，用来表示每次卷积操作结束后移动stride个关键帧进行下一步时间图卷积。

3.5)网络整体架构及训练；

为了充分利用交警动作信息，提升交警手势识别结果的准确率，本发明采用基于两个并行双时空图卷积网络分支的网络框架。

将交警的关节点信息表征向量与交警骨架信息表征向量分别输入到时空图卷积网络中，经过卷积操作生成更高级的特征图并分别传送到标准的SoftMax分类器中，得到手势识别结果。最后根据Adaboost算法，将双分支分类结果根据其分类正确率进行加权融合构成强分类器，进而更有效地实现交警手势识别。

网络训练，首先对输入的数据进行batch normalization，然后在经过10个时空网络单元后传入到池化层得到256维特征向量，其中每个时空单元由一组空间图卷积网络串联一组时间图卷积网络组成，最后用SoftMax函数进行分类，得到预测的交警手势类别。前三层的输出有64个通道，中间四层有128个通道，最后三层有256个通道，在每次经过时空图卷积网络单元后，以0.6的概率随机将特征dropout，时域卷积层的stride设置统一设置为2。网络采用SGD优化器训练，学习总代数为500，学习率为0.01。

4)利用测试集评估算法有效性；

为了更好地评估交警手势识别算法的有效性，本发明在测试集上进行定量测试，评价指标为TOP1准确率。当输入测试集交警动作视频可以实时输出交警手势识别结果，且TOP1的准确率可以达到92％。因此可以证明该算法的有效性。

综上，本发明利用车载摄像头采集交警动作信息，通过深度卷积网络提取出的交警关节点与骨架；提出信息表征策略完成节点时空信息与骨架物理信息的双路表征；根据人体的自然骨架结构以及时间序列构建双分支时空图卷积网络，通过该网络实现交警手势识别分类。该方法可以克服由于交警的身高、衣着，交通场景光照以及复杂度等因素的影响，有效提升交警手势检测精度，同时保证识别算法的实时性，以满足实际应用需求。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种基于双分支时空图卷积网络的交警手势识别方法，其特征在于包括以下步骤：

1)对交警手势视频采用深度卷积网络对交警关节点以及骨架进行提取；

2)使用信息表征方法来双路表征时空图卷积网络的输入信息，对交警关节点时空特征与骨架物理特征进行充分利用以及统一表达，从交警关节点以及交警骨架两个层次来完成交警动作分析；

2.如权利要求1所述交警手势识别方法，其特征在于：所述步骤1)中，采用OPENPOSE算法提取关节点与骨架。

3.如权利要求1所述交警手势识别方法，其特征在于，所述步骤2)中，信息表征方法具体步骤如下：

2.1)构建交警关节点信息分支：

式中，

2.2)构建交警骨架信息分支：

式中，

表示向量编号j中的指向节点横坐标，

表示向量编号j中的指向节点纵坐标；

表示向量编号j中的指出节点横坐标，

4.如权利要求3所述交警手势识别方法，其特征在于，所述步骤3)中，双分支时空图卷积网络的构建方法包括以下步骤：

3.1)双分支时空图卷积网络的整体框架；

3.2)构建骨架的图卷积网络结构；

3.3)构建空间图卷积网络；

3.4)构建时间图卷积网络；

3.5)网络整体架构及训练。

5.如权利要求4所述交警手势识别方法，其特征在于，所述步骤3.1)中，将步骤2)中的两个信息分支作为双分支时空图卷积网络的输入单元，通过时空图卷积操作来提取更高层次的特征，双分支分别通过SoftMax分类器得到对应的动作分类，最后根据Adaboost算法，将双分支的弱分类结果根据其分类正确率进行加权融合构成强分类器。

6.如权利要求4所述交警手势识别方法，其特征在于，所述步骤3.2)中，时空图卷积网络结构由两部分组成：根据人体结构，将每一帧的节点连接成边，这些边形成空间边L_s＝{v_it,v_jt|(i,j)∈B}，B是一组自然连接的人体关节；将连续两帧中相同的节点连接成边，这些边形成时间边L_t＝{v_it,v_i(t+1)}。

7.如权利要求4所述交警手势识别方法，其特征在于，所述步骤3.3)中，同一帧的交警人体内部的关节点的连接表示为邻接矩阵A，单位阵I表示自连接信息，则空间图卷积网络的卷积操作包括：

(2)构建空间图卷积网络的邻接矩阵以及度矩阵；

8.如权利要求4所述交警手势识别方法，其特征在于，所述步骤3.4)中，在空间图卷积网络基础上，构建时间图卷积网络来学习时间中关节点变化的局部特征；在时间图卷积网络中可以设定卷积核的大小为：[time_size]×[1]，其中[time_size]表示学习与当前帧相邻的[time_size]个关键帧中关节点的变化特征，[1]表示只针对某一关节点而言；时间图卷积在完成1个节点卷积操作后进行下1个节点的卷积。

9.如权利要求4所述交警手势识别方法，其特征在于，所述步骤3.5)中，采用基于两个并行双时空图卷积网络分支的网络框架：将交警的关节点信息表征向量与交警骨架信息表征向量分别输入到时空图卷积网络中，经过卷积操作生成更高级的特征图并分别传送到标准的SoftMax分类器中，得到手势识别结果；最后根据Adaboost算法，将双分支分类结果根据其分类正确率进行加权融合构成强分类器，进而实现交警手势识别。

10.如权利要求4所述交警手势识别方法，其特征在于，所述步骤3.5)中，网络训练，首先对输入的数据进行batch normalization，然后在经过10个时空网络单元后传入到池化层得到256维特征向量，其中每个时空单元由一组空间图卷积网络串联一组时间图卷积网络组成，最后用SoftMax函数进行分类，得到预测的交警手势类别。