CN111062311B

CN111062311B - 一种基于深度级可分离卷积网络的行人手势识别与交互方法

Info

Publication number: CN111062311B
Application number: CN201911281009.3A
Authority: CN
Inventors: 秦文虎; 张仕超; 孙立博; 张哲�; 平鹏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-05-23
Anticipated expiration: 2039-12-13
Also published as: CN111062311A

Abstract

本发明涉及一种深度级可分离卷积网络的行人手势识别与交互方法，包括：通过安装在车辆上的前视相机***采集包含行人的图像；将图像输入深度可分离卷积网络，检测行人包围盒，将包围盒区域的图像输入手势识别网络，输出行人区域的特征图。将行人所在区域的图像输入手势识别网络进行手势识别。手势识别网络通过深度级可分离卷积层提取特征，在输出特征图的每个点都预测12个人体关节点信息以及对应的12个偏移向量，最后通过对关节点分类理解行人手势，车辆根据识别到的行人手势，结合手势优先级，采取最保守策略做出决策。本发明使用深度级可分离卷积实现模型，成倍缩小模型规模，可以在智能手机等低功耗移动终端实现检测。

Description

一种基于深度级可分离卷积网络的行人手势识别与交互方法

技术领域

本发明涉及一种基于深度级可分离卷积网络的行人手势识别与交互技术，属于高级汽车驾驶员辅助技术领域。

背景技术

驾驶环境感知功能是高级汽车驾驶员辅助***ADAS(Advanced DriverAssistance System)的一项重要功能。行人作为公共交通场景中的重要组成部分，行人的意图对车辆驾驶决策有重要的影响。目前，大多数研究集中在如何让自主驾驶车辆高效安全驾驶，而缺少与行人交互方面的研究。因此，作为驾驶环境感知的重要部分，识别行人手势并进行行人交互有着迫切的需求。

目前，为了完成识别行人手势的任务，主要有两种方法：一种是基于传统的统计学习方法，依赖繁琐复杂的特征工程来得到行人手势信息；另外一种方法是使用深度学习方法，依赖卷积网络提取图像信息，对特征图输出设计合适的损失函数来训练模型，最终达到识别行人手势的目的。传统的基于特征工程的统计学习方法虽然计算量较小，简便易行，但是由于特征工程过于复杂，导致识别精度差；而基于深度卷积网络的模型虽然识别精度高，但是大多需要高性能的GPU才能勉强达到实时识别效果。

中国专利申请公布号CN107423679A的专利提出了一种行人意图检测方法和***，所述方法包括：设置距离传感器来采集观测区域内的目标形态数据；基于目标的现有状态信息，获知其轨迹信息；针对每个目标的移动轨迹及空间信息，判定该目标的行动意图。该方法只是获取到了行人的行走轨迹的预测，并没有达到行人和车辆交互的效果。另外，中国专利申请公布号CN104915628A的专利提出了一种用于自动化车辆的行人意图检测模型，所述方法包括：获取与行人运动意图相关的行人周围的交通场景的基本场景元素；基于基本场景元素以及行人的随着时间变化的三维3D距离信息，分析行人行走时的状态变化与每个周围基本场景元素之间的关系以获得基本场景元素与行人状态变化之间的关系；利用获得的关系，建立行人与周围所有基本场景元素之间的上下文相关模型；以及基于实时获得的与当前行人相关的当前场景元素，利用建立的上下文相关模型，对行人下一步的运动状态进行预测，以生成行人下一步的运动预测结果。该方法同样没有行人与车辆的交互过程，并且需要识别更多的额外场景信息和3D信息，计算量十分庞大，此外，该方法也没有指明当多个行人同时出现时该如何应对。

发明内容

本发明所要解决的技术问题是：

为了解决自主驾驶汽车行人手势识别与交互过程中存在的模型运算量大、识别速度慢、行人与车辆交互性差的问题，本发明提出一种基于深度级可分离卷积网络的行人手势识别与交互方法。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种基于深度级可分离卷积网络的行人手势识别与交互方法，其特征在于，包含以下步骤：

步骤一、采集包含行人的图像；

步骤二、将图像输入深度可分离卷积网络，检测行人包围盒，将包围盒区域的图像输入手势识别网络，输出行人区域的特征图；

步骤三、计算关节点坐标并对关节点坐标分类得到手势识别结果；

步骤四、对手势的优先级进行排序；

步骤五、根据优先级在前的手势表达的示意，得到移动车辆的最终交互决策。

如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，进一步地，步骤二所述深度级可分离卷积神经网络具体包括：

步骤2.1、深度卷积；

步骤2.2、批归一化；

步骤2.3、Relu激活；

步骤2.4、点卷积；

步骤2.5、批归一化；

步骤2.6、Relu激活。

如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，进一步地，步骤二所述特征图中的特征点包含12个人体关节点在该特征点存在的概率以及每个关节点在该点的偏移向量。

如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，进一步地，步骤二所述对关节点分类采用深度级可分离卷积结构精简模型。

如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，进一步地，步骤三所述对关节点分类的具体步骤包括：

步骤3.1、计算关节点坐标：由步骤二得到的特征点中包含的人体关节点分布特征图的置信度，结合对应点的偏移向量特征图，找到每个特征图中置信度最高的点以确定关节点类别，再从偏移向量得到关节点位置，从而得到人体关节点的完整信息；

步骤3.2、归一化：得到人体关节点坐标后，以左右肩连线的中心点为中心，将所有的关节点减去中心点的坐标后，进行归一化处理；

步骤3.3、分类：将归一化后的数据使用支持向量机或者一层全连接网络进行分类，得到最终的行人手势识别结果。

如前所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，进一步地，所述步骤五中，当同时检测到车辆周围有多个行人作出不同的手势的时候，根据行人手势的优先级不同，采用最保守策略作出行动决策。当车辆前方同时出现多个行人时，模型需要同时对多个行人的手势进行识别；得到多个行人的手势信息之后，根据手势信息的优先级对这些手势进行排序，然后才采取最保守策略做出回应。比如，有的行人要求车辆减速，有的行人要求车辆停车，那么优先执行停车策略。这样可以最大概率保证交通安全。

模型及时更新视野内行人状态，当视野内没有行人或者所有行人的手势均不要求车辆作出让步的时候，车辆进入正常行驶的状态。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

由于本发明所述的方法基于深度级可分离卷积模型实现，相比于传统的深度学习模型，规模成倍缩小，且不需要专用硬件或者GPU的设备的支持，降低了应用成本。同时可以保证识别精度，大大开阔了应用场景。本发明提出的技术方案可以实现在手机等低功耗移动设备上实时识别行人手势信息。并且，识别到信息之后，车辆和行人做出了有效交互。除此之外，对于车辆前方有多个行人的场景，模型会根据行人手势的优先级采取最保守策略进行决策，最大限度保证交通安全。

附图说明

图1是深度可分离卷积网络示意图；

图2是本发明所述方法示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明提出一种基于深度级可分离卷积网络的行人手势识别与交互方法。图2是本发明所述方法示意图。如图2所示。步骤包括：

首先通过安装在车辆前方的摄像机拍摄前方图像。本发明使用的前视相机采集的视频数据参数为1280×720@60FPS，视频帧为彩色图像，包含RGB三通道色彩信息，用(1280,720,3)维度的张量表示，张量中每个元素为整数，取值范围为[0,255]。

然后将图像输入深度级可分离卷积神经网络，检测行人包围盒。本发明利用深度级可分离卷积结构，将传统的卷积结构分为深度卷积和点卷积两个步骤，这样划分可以在保证模型识别效果的前提下，成倍缩小模型体积。图1是深度可分离卷积网络示意图。如图1所示，该结构将普通的卷积操作分为深度卷积和点卷积。其中，深度卷积针对每个输入通道采用不同的卷积核，就是说一个卷积核对应一个输入通道；点卷积就是普通的卷积，只不过其采用1×1 的卷积核。通过若干个深度级可分离卷积模块级联，提取特征图，在特征图中得到行人的包围盒。

然后将得到的行人区域图像输入手势识别网络。通过若干个深度级可分离卷积模块级联，构建人体关节点的特征提取网络。行人手势识别网络输出的特征图包含S×S×36个特征，其中S代表输出特征图的尺寸，每个特征点由一个包含36个数据的特征向量组成。这36个数据包含12个人体关节点在该特征点存在的概率，以及每个关节点在该点的偏移向量。通过结合概率特征图和偏移向量图，得到行人人体关节点坐标。

得到人体关节点坐标后，以左右肩连线的中心点为中心，将所有的关节点减去中心点的坐标后，进行归一化处理，最后将归一化后的数据使用支持向量机或者一层全连接网络进行分类，从而得到最终的行人手势识别结果。

在本步骤中，手势识别网络利用深度级可分离卷积结构精简模型，最后用支持向量机或者一层全连接层得到手势分类结果。

当车辆前方同时出现多个行人时，模型需要同时对多个行人的手势进行识别；得到多个行人的手势信息之后，根据手势信息的优先级对这些手势进行排序，然后采取最保守策略做出回应。比如，有的行人要求车辆减速，有的行人要求车辆停车，那么优先执行停车策略。这样可以最大概率保证交通安全。

当车辆前方没有行人，或者视野内的行人手势没有对车辆作出额外要求时，车辆进入正常行驶状态。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度级可分离卷积网络的行人手势识别与交互方法，其特征在于，包含以下步骤：

步骤一、采集包含行人的图像；

步骤三、计算关节点坐标并对关节点坐标分类得到手势识别结果，具体步骤包括：

步骤3.3、分类：将归一化后的数据使用支持向量机或者一层全连接网络进行分类，得到最终的行人手势识别结果；

步骤四、对手势的优先级进行排序；

2.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，其特征在于，步骤二所述深度级可分离卷积神经网络具体包括：

步骤2.1、深度卷积；

步骤2.2、批归一化；

步骤2.3、Relu激活；

步骤2.4、点卷积；

步骤2.5、批归一化；

步骤2.6、Relu激活。

3.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，其特征在于，步骤二所述特征图中的特征点包含12个人体关节点在该特征点存在的概率以及每个关节点在该点的偏移向量。

4.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，其特征在于，步骤三所述对关节点坐标分类采用深度级可分离卷积结构精简模型。

5.根据权利要求1所述的一种基于深度级可分离卷积网络的行人手势识别与交互方法，其特征在于，所述步骤五中，当同时检测到车辆周围有多个行人作出不同的手势的时候，根据行人手势的优先级不同，采用最保守策略作出行动决策。