CN110889306A

CN110889306A - 一种基于摄像头的车载手势识别方法及***

Info

Publication number: CN110889306A
Application number: CN201811042072.7A
Authority: CN
Inventors: 李彦琳; 石含飞; 何俏君; 郭继舜; 徐伟
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-17

Abstract

本发明提供一种基于摄像头的车载手势识别方法及***，所述方法包括自车内预定区域连续地获取一组手势图像，所述一组手势图像中相邻手势图像的获取时间差在预设时间阈值内，所述一组手势图像包括至少两张图像；通过所述卷积神经网络识别出所述一组手势类别及所述一组手势类别的顺序。本发明通过获取手势样本，建立卷积神经网络并使用手势样本对卷积神经网络进行训练，使得卷积神经网络能够将摄像头获取的手势图像进行识别，并根据手势确定对应的车辆装置的操作，解决了现有技术导致的在驾驶过程中佩戴传感器带来危险的问题。

Description

一种基于摄像头的车载手势识别方法及***

技术领域

本发明涉及汽车控制技术领域，尤其涉及一种基于摄像头的车载手势识别方法及***。

背景技术

现在的汽车功能日益增加，在进行汽车操作的时候，除了控制方向盘、档位以外，还可以需要操作相关辅助设备，例如说导航、雨刮、灯光等等，如果所有的这些操作都要靠手去操作，难免在驾驶过程中容易分散注意力并产生危险；现有的解决方法主要靠佩戴传感器来实现，但是传感器实现的方式体验并不好，而且在忘记佩戴传感器的时候，驾驶中佩戴传感器同样会带来危险。

发明内容

为解决上述技术问题，本发明提供一种基于摄像头的车载手势识别方法及***。

本发明提供的一种基于摄像头的车载手势识别方法，所述方法包括：

自车内预定区域连续地获取一组手势图像，所述一组手势图像中相邻手势图像的获取时间差在预设时间阈值内，所述一组手势图像包括至少两张图像；

通过卷积神经网络识别出所述一组手势类别及所述一组手势类别的顺序。

进一步地，建立卷积神经网络，输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练；

进一步地，所述建立卷积神经网络总共三十四层，从上到下依次设置有第一卷积层、最大值池化层、包含二个三层卷积层的第二卷积层、第三卷积层、第四卷积层、全局平均池化层和softmax层，任一上一层的输出至任一下一层输入之间均设置有批量归一化层和激活函数层。

进一步地，所述第一卷积层用于通过卷积核对原始图像进行卷积获得所述原始图形的图像特征，提取所述原始图像的图像特征形成第一特征图像，将所述第一特征图像输出至最大值池化层；

所述最大值池化层用于根据池化尺寸和步长确定划定区域，在所述第一特征图像中根据所述划定区域获得每一划定区域最大值，根据所述每一划定区域最大值形成第二特征图像；

所述第二卷积层为多层卷积层，用于从所述最大值池化层输出的所述第二特征图像中获取所述第二特征图像的图像特征形成第三特征图像；

所述第三卷积层和所述第四卷积层用于根据预设通道数，将所述第三特征图像分成与预设通道数相等的类别；

所述全局平均池化层用于对所述分类后的第三特征图形赋予类别；

所述softmax层用于求取第三特征图像属于每一类别的概率，取概率大于预设阈值的类别作为所述第三特征图像的类别。

进一步地，所述输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练具体为：

获取多个包含手势的第一图像；

将所述多个包含手势的第一图像中与手势不相关的特征除去，形成多个第二图像；

根据所述多个第二图像中的手势，对所述多个第二图像进行手势类别标识；

根据所述手势类别设置卷积神经网络的预设通道数，所述预设通道数等于所述手势类别数量，所述卷积神经网络取手势属于每一类别概率最大且大于预设阈值的类别作为手势类别；

使用所述多个第二图像对所述卷积神经网络进行训练，使得全局学习率和准确率分别达到第一预设阈值和第二预设阈值。

进一步地，将所述多个包含手势的第一图像中与手势不相关的特征除去，形成多个第二图像具体为:

通过图像二值化将多个包含手势的第一图像中的与手势不相关特征除去，形成多个第二图像。

进一步地，在将所述多个包含手势的第一图像中与手势不相关的特征除去，形成多个第二图像之后还包括：

将多个第二图像随机平移、旋转以及以预设概率进行水平翻转形成的图像纳入所述多个第二图像，扩充所述多个第二图像的数量。

进一步地，所述方法还包括：

以预设尺寸对所述多个第二图像进行裁剪。

进一步地，使用所述多个第二图像对所述卷积神经网络进行训练具体为：

将多个第二图像根据手势类别进行分类，随机等量从每一分类中抽取图像构成多个批次图像，使用所述多个批次图像对卷积神经网络进行训练。

进一步地，所述方法还包括：

根据所述一组手势类别及所述一组手势类别的顺序与控制车辆装置对应关系，通知车载控制器对所述车辆装置进行控制。

本发明提供的一种基于摄像头的车载手势识别***，所述***包括：

获取单元，用于自车内预定区域连续地获取一组手势图像，所述一组手势图像中相邻手势图像的获取时间差在预设时间阈值内，所述一组手势图像包括至少两张图像；

识别单元，用于通过卷积神经网络识别出所述一组手势类别及所述一组手势类别的顺序。

进一步地，所述***还包括：

设置单元，用于建立卷积神经网络。

进一步地，所述***还包括：

训练单元，用于输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练；

进一步地，所述***还包括：

控制单元，用于根据所述一组手势类别及所述一组手势类别的顺序与控制车辆装置对应关系，通知车载控制器对所述车辆装置进行控制。

实施本发明，具有如下有益效果：

本发明通过获取手势样本，建立卷积神经网络并使用手势样本对卷积神经网络进行训练，使得卷积神经网络能够将摄像头获取的手势图像进行识别，并根据手势确定对应的车辆装置的操作，解决了现有技术导致的在驾驶过程中佩戴传感器带来危险的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于摄像头的车载手势识别方法的流程图。

图2是本发明实施例提供的卷积神经网络的模型结构图。

图3是本发明实施例提供的训练卷积神经网络的方法流程图。

图4是本发明实施例提供的基于摄像头的车载手势识别***的结构图。

具体实施方式

本专利核心内容为通过获取的手势对卷积神经网络进行训练，利用训练过的卷积神经网络来识别司机的手势，根据司机的手势对车辆装置进行操作，以下结合附图和实施例对该方法和***具体实施方式做进一步说明。

下面将详细描述本发明提供的一种基于摄像头的车载手势识别方法及***的实施例。

如图1所示，本发明实施例提供了一种基于摄像头的车载手势识别方法，所述方法包括：

步骤S101、建立卷积神经网络，输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练。

步骤S102、自车内预定区域连续地获取一组手势图像，所述一组手势图像中相邻手势图像的获取时间差在预设时间阈值内，所述一组手势图像包括至少两张图像。

需要说明的是，只有当相邻手势图像的获取时间差在预设时间阈值内，才能将相邻的手势图像归为一组手势图像，否则不能判断为一组手势图像，目的是避免出现误判断；连续获取一组手势图像的方式是在车内装置有摄像头，方位角度可以拍摄到驾驶员的手势，也因此要求驾驶员做出的手势在车内预定区域。

还需要说明的是，步骤S101用于建立和训练卷积神经网络，一旦步骤S101执行完成后，步骤S102可以随时执行，即使多次执行步骤S102也不用再执行步骤S101。

步骤S103、通过卷积神经网络识别出所述一组手势类别及所述一组手势类别的顺序。

进一步地，根据所述一组手势类别及所述一组手势类别的顺序与对车辆装置控制方法的对应关系，通知车载控制器对所述车辆装置进行控制。

需要说明的是，一组手势类别完全相同，但是该组手势的先后顺序不同，会导致对车辆装置控制方法不一样，也就是说当一组手势类别都确定了，而且它们的先后顺序都定下来了，那么对车辆装置控制方法就唯一确定了；具体可以参照下表：

	石头	剪刀	布
				空调开	1	2
空调关	2	1
				雨刮开	1		2
雨刮关	2		1
				车窗开		1	2
车窗关		2	1

例如第一个手势为石头，第二手势为剪刀，此时车辆装置控制方法为空调开，当车载摄像头获取到一组手势为石头、剪刀的图像后，通过卷积神经网络识别出来该一组手势，并查找出该一组手势对应的车辆装置控制方法，通知车载控制器；同样是石头、剪刀一组手势，但是因为先后顺序变更为剪刀、石头，则对应的车载装置控制方法为空调关闭，因此手势类别和手势类别的顺序在这里构成了控制方法唯一对应关系。

在本实施例中，所使用到的卷积神经网络是经过建立和训练的，因此在实施基于手势控制车辆装置的方法还包括建立和训练卷积神经网络，在后续实施例中将对卷积神经网络的结构和训练卷积神经网络的方法进行说明。

如图2所示，本发明实施例提供了卷积神经网络的模型，在本实施例中该卷积神经网络主要解决图像处理问题，因此采用卷积神经网络作为其主要部分；由于手势识别类别较少，采用小网络设计思想。

需要说明的是，在网络中，Conv代表卷积层，Max_pooling代表最大值池化层，stride表示跨步程度，5x5表示卷积核的大小为5x5，其它3x3,1x1的意义也为卷积核大小，连接concatenate函数表示两个张量tensor在最后一个维度上进行连接，output_channels表示输出通道数，global_avgpooling表示全局平均池化层，softmax函数表示最终分类输出。Block x n表示黑色框内的结构重复n次。Softmax的输出层即是手势属于每一类的概率，概率和为1，取概率最大且大于一定阈值的类别作为该手势的最终类别。每层的输出（softmax层除外）都要经过批量归一化层和激活函数层。由于样本间有一定的相似性，因此训练过程中引入随机删除dropout，对模型进行平均化，抑制过拟合。

具体地，在本实施例中，卷积神经网络总共有三十四层，从上到下依次设置有第一卷积层、最大值池化层、包括二个三层卷积层的第二卷积层、第三卷积层、第四卷积层、全局平均池化层和softmax层，任一上一层的输出至任一下一层输入之间均设置有批量归一化层和激活函数层；

需要说明的是，softmax层的输出并不设置有批量归一化层和激活函数层，任一上一层的输出至任一下一层输入之间均设置有批量归一化层和激活函数层没有在图2中展示。

进一步需要说明的是，在本实施例中第二卷积层包括二个三层卷积层，图2中黑色方框21中仅设置有一个三层的卷积层，另一个三层的卷积层在图2中未展示；第一个三层卷积层的输出输入至第二个三层卷积层的输入，第二个三层卷积层的输出输入至第三卷积层的输入，当然在任一三层卷积层中每相邻二层中间都设置有批量归一化层和激活函数层，第一个三层卷积层的输出至第二个三层卷积层的输入中间设置有批量归一化层和激活函数层，同样最大值池化层的输出至第一个三层卷积层的输入中间同样设置有批量归一化层和激活函数层，以及第二个三层卷积层的输出至第三卷积层的输入中间也设置有批量归一化层和激活函数层；根据实际需要可以设置n个三层卷积层,n大于1即可，在本实施例中第二卷积层包括二个三层卷积层，两个三层卷积层共计为六层。

第一卷积层用于通过卷积核对原始图像进行卷积获得所述原始图形的图像特征，提取所述原始图像的图像特征形成第一特征图像，将所述第一特征图像输出至最大值池化层，原始图像是指输入到卷积神经网络中的图像；

最大值池化层用于根据池化尺寸和步长确定划定区域，在所述第一特征图像中根据所述划定区域获得每一划定区域最大值，根据所述每一划定区域最大值形成第二特征图像，采用最大值池化层的目的是为了提取每一划定区域最大值，实际上就是获取图像的在每一划定区域最显著特征，最大值池化层可以起到简化特征图像，减小计算量的作用；例如本实施例对应的卷积神经网络中输入像素为200 x 200的灰度图，卷积核即感受野为5 x 5，下一层所得到的特征图为200 x 200，最大值池化层在每一个区域中寻找最大值，经过3 x 3的filter，步长stride为2，得到的特征图为100 x 100，因为池化层的目的就是缩小特征图便于计算；

所述第二卷积层为多层卷积层，用于从所述最大值池化层输出的所述第二特征图像中获取所述第二特征图像的图像特征形成第三特征图像，采用多个卷积层构建多层卷积层的目的是为了获取更深层次的特征；

所述批量归一化层用于将每个图像特征在所有样本上的值转归一化成均值；

所述激活函数层用于加入非线性因素；

如图3所示，本发明实施例提供了一种训练卷积神经网络的方法，所述方法概括为输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练，具体方法包括：

步骤S301、获取多个包含手势的第一图像。

需要说明的是，这里第一并不用于表示顺序，而是为了与第二图像进行区分；第一图像即可以从外部接收，也可以拍摄手势获取，获取的过程中总会在获取手势的同时获取背景以及其他无关物品；第一图像中可以只包括手势，也可以即包括背景和手势，还可以包括其他无关物品。

在本实施例中，手势可以是剪刀、石头、布这样的手势，并且可以是来自不同的人，采用不同的姿态，呈现多个角度都是可以的，例如竖直、左倾、右倾等都可以，而且手势样本越多样性，越有利于后续的准确性。

步骤S302、将多个包含手势的第一图像中与手势不相关的特征除去，形成多个第二图像。

具体地，通过图像二值化将多个包含手势的第一图像中与手势不相关特征除去，形成多个第二图像。

需要说明的是，通过图像二值化将第一图像中与手势不相关特征除去，形成第二图像；这里不相关特征包括背景或者其他无关物品，近似于对手势的边缘轮廓进行一个初步的提取。

进一步需要说明的是，如果获取的多个第二图像总数量比较少的时候，对于后期进行卷积神经网络训练是有一定限制的，可以在步骤S202之后，将多个第二图像随机平移、旋转以及以预设概率进行水平翻转形成的图像纳入所述多个第二图像，扩充所述多个第二图像的数量。

进一步地，在进行多个第二图像随机平移、旋转以及以预设概率进行水平翻转后，可以以预设尺寸对多个第二图像进行裁剪，例如图像经过一系列变换后，再以一定方式将300x300图像裁剪至200x200像素，大尺寸图像变换后再裁剪为小图像，主要是防止裁剪后的图像出现小范围局部黑色框（图像边缘处）。

步骤S303、根据多个第二图像中的手势，对所述多个第二图像进行手势类别标识。

需要说明的是，例如多个第二图像中的手势包括剪刀、石头、布等，不论它们如何倾斜或者角度如何，都根据剪刀、石头、布将多个第二图像中的每一图像分别标识，属于剪刀的标识为剪刀，其它的也同理进行标识。

步骤304、根据手势类别建立卷积神经网络，所述卷积神经网络取手势属于每一类别概率最大且大于预设阈值的类别作为手势类别。

需要说明的是，建立卷积神经网络一般基于卷积层、池化层、连接层组成，也可以不需要连接层，在本实施例中我们增加来softmax函数作为分类器来输出分类的概率；因此建立对手势分类的卷积神经网络以后，根据概率最大且大于预设阈值的类别作为手势类别。

步骤S305、使用多个第二图像对所述卷积神经网络进行训练，使得全局学习率和准确率分别达到第一预设阈值和第二预设阈值。

具体地，将多个第二图像根据手势类别进行分类，随机等量从每一分类中抽取图像构成多个批次图像，使用所述多个批次图像对卷积神经网络进行训练。

需要说明的是，训练的目的是为了卷积神经网络具备通用的特征提取能力，在程序运行之初一次性载入图像的手势类别标识，根据手势类别标识对图像中的手势进行识记，在构建批次时，依据图像的手势类别标识再读入图像数据，样本的批次尺寸一般采用32，也就是每个批次32张图像。基于张量流tensorflow框架建立网络模型，然后批量读取数据对模型进行迭代训练，为了防止意外导致训练程序中断，设定每训练一定批次就保存一次模型的训练结果。模型训练采用自适应学习率方法（An Adaptive Learning RateMethod，Adadelta）作为优化器，全局学习率为0.01，训练结束后，模型在测试集上的准确率达到98%左右，这里即第一预设阈值为0.01，第二预设阈值为98%；需要说明的是，全局学习率是一个重要的超参数，它控制着我们基于损失梯度调整神经网络权值的速度，全局学习率越小，沿着损失梯度下降的速度越慢，如果需要获得更小的全局学习率以及获得准确率，唯一有效地方式是进行多次和大数据量的迭代训练。

如图4所示，本发明实施例提供了基于摄像头的车载手势识别***，所述***包括：

设置单元41，用于建立卷积神经网络；

训练单元42，用于输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练；

获取单元43，用于自车内预定区域连续地获取一组手势图像，所述一组手势图像中相邻手势图像的获取时间差在预设时间阈值内，所述一组手势图像包括至少两张图像；

识别单元44，用于通过卷积神经网络识别出所述一组手势类别及所述一组手势类别的顺序。

进一步地，所述***还包括：

实施本发明，具有如下有益效果：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于摄像头的车载手势识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

建立卷积神经网络，输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练。

3.如权利要求1所述的方法，其特征在于，所述卷积神经网络总共三十四层，从上到下依次设置有第一卷积层、最大值池化层、包含二个三层卷积层的第二卷积层、第三卷积层、第四卷积层、全局平均池化层和softmax层，任一上一层的输出至任一下一层输入之间均设置有批量归一化层和激活函数层。

4.如权利要求3所述的方法，其特征在于，所述第一卷积层用于通过卷积核对原始图像进行卷积获得所述原始图形的图像特征，提取所述原始图像的图像特征形成第一特征图像，将所述第一特征图像输出至最大值池化层；

所述激活函数层用于加入非线性因素；

5.如权利要求2所述的方法，其特征在于，所述输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练具体为：

获取多个包含手势的第一图像；

6.如权利要求5所述的方法，其特征在于，将所述多个包含手势的第一图像中与手势不相关的特征除去，形成多个第二图像具体为:

通过图像二值化将多个包含手势的第一图像中与手势不相关特征除去，形成多个第二图像。

7.如权利要求6所述的方法，其特征在于，在将所述多个包含手势的第一图像中与手势不相关的特征除去，形成多个第二图像之后还包括：

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

以预设尺寸对所述多个第二图像进行裁剪。

9.如权利要求5所述的方法，其特征在于，使用所述多个第二图像对所述卷积神经网络进行训练具体为：

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

11.一种基于摄像头的车载手势识别***，其特征在于，所述***包括：

12.如权利要求11所述的***，其特征在于，所述***还包括:

设置单元，用于建立卷积神经网络。

13.如权利要求11所述的***，其特征在于，所述***还包括：

训练单元，用于输入包含手势和手势类别标识的图像对所述卷积神经网络进行训练。

14.如权利要求11所述的***，其特征在于，所述***还包括：