CN106598226B

CN106598226B - 一种基于双目视觉和深度学习的无人机人机交互方法

Info

Publication number: CN106598226B
Application number: CN201611030533.XA
Authority: CN
Inventors: 侯永宏; 叶秀峰; 侯春萍; 刘春源; 陈艳芳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2019-05-21
Anticipated expiration: 2036-11-16
Also published as: CN106598226A

Abstract

本发明涉及一种基于双目视觉和深度学***台及双目摄像头，该嵌入式图像处理平台通过接口连接飞行控制器，无人机与地面通过该平台通信，平台带有图形处理器，运行卷积神经网络深度学***台上，通过并行计算进行加速从而加快了运行速度。

Description

一种基于双目视觉和深度学习的无人机人机交互方法

技术领域

本方法属于多媒体信息处理领域，具体涉及计算机视觉、深度学习、人机交互等技术，尤其是一种基于双目视觉和深度学习的无人机人机交互方法。

背景技术

人机交互技术伴随着着计算机的诞生而产生并且随着计算机软硬件的发展而逐渐发展，新技术的出现，不断的简化着人机交互的流程。近年来，随着人工智能技术的出现和发展，相关软硬件技术的不断进步和创新，如何实现更为便利的人机交互成为研究热点，各种新型人机交互技术不断涌现。与此同时，低成本小型无人机(UAV)等相关行业的兴起与普及，迫切需要一些更为便捷的人与无人机的交互控制方式降低无人机操作的门槛，使得无人机得到越来越广泛的应用。

无人机的人机交互表现在主要利用遥控器、摇杆、地面站软件等专用设备进行控制。其中最为主要的是利用遥控器进行操作，虽然遥控器的操作难度随着无人机技术的发展大大被降低，然而，笨重的遥控器仍然给操作者带来了非常大的不便。由手机、电脑和专用软件构成的地面站在许多情况下，从一定层度上使得人机交互更方便。近年来，新的人机交互方法层出不穷，出现了佩戴特殊辅助设备，利用身体部位运动的测量值或是脑电信号作为控制信号，来简化无人机的控制方式。然而依赖特殊辅助设备的控制方式仍然面临花费高、使用麻烦的问题。

在市面上普及的无人机当中，大多都搭载了摄像头。摄像头的价格低廉，使得视觉解决方案成为航拍，计算机视觉导航，视觉避障的首选。充分利用这些摄像头的功能，利用计算机视觉，通过图像识别手势进行无人机交互方法更具有普适性。现有的基于计算机视觉人机交互方法，由于软硬件的限制，往往不能够在足够远的范围内进行交互，并且容易受到环境干扰，无法在室外场景中应用。为了提高在室外环境无人机的手势识别算法的识别精度，本发明首次利用深度学习的方法进行手势识别，用手势控制无人机的运动，简化了无人机操控难度。

传统的动作识别算法计算复杂度高、由于缺少必要的加速算法，识别速度慢、准确率低。

发明内容

本发明基于双目摄像头，通过在无人机上搭载嵌入式平台，构建了一个基于计算机视觉及深度学习的无人机人机交互***，***提供了可以根据在地面上指定的领航员的手势控制飞机的飞行方向。

1.硬件***构成

本***由搭载地理位置获取模块的无人机平台、嵌入式图像处理平台、摄像头、地面站4个部分构成。

无人机平台为多旋翼无人机，无人机通过地理位置获取模块进行定位，飞行控制器可以控制无人机在室外自主悬停。无人机上搭载嵌入式图像处理平台和摄像头，本***中的摄像头捕捉用来后续处理的高分辨率图像。

嵌入式平台为带有图形处理器(GPU)，能够为图像处理提供足够运算能力的平台。此平台负责图像的采集处理和动作识别，实际应用当中，可由高性能移动终端处理器充当，该***通过接口连接飞行控制器，无人机与地面的通信由此平台充当。平台搭载操作***运行处理程序。

地面站负责监测四轴飞行器的状态，用于指定领航员并且查看实时运算的结果，可由笔记本或智能终端充当。

2.动作识别框架

动作识别框架主要包括：视频预处理、生成彩色纹理图和卷积神经网络模型的训练及分类。

1)根据无人机回传的单视点图像，选择无人机领航员，方法为利用鼠标或者触摸屏幕，将领航员的身体(上身)所在区域圈出来；

2)将所选取区域根据人身体比例扩大框选出人整个身体所在区域，同时从另一个视点当中，选取出相应区域的人身体所在区域，并且利用跟踪算法在视频序列中逐帧提取出领航员所在区域并且对领航员进行跟踪，并且根据设定区域的所在位置，将整个人体所在区域的图像分割出来；

3)立体匹配，根据基于块匹配的立体匹配算法，将分割出来的左右视点间的图像进行匹配，得到分割后的立体视差图，视差图当中包含领航员的人物以及背景；

4)将得到的视差图进行归一化。并且用阈值滤除背景。得到干净的人物图像；

5)将相邻两帧的人物图像进行差分，得到差分图像序列。

6)按照生成的图片顺序，依次利用不同颜色代表不同时刻的差分图像，进行编码，将大约2s左右的图片产生的人物图像叠加成彩色纹理图。采用滑动窗口的方法，每隔5帧取大约2s左右的图片；

7)采集大量的，由不同操作者在不同环境下做选定动作的彩色纹理图对神经网络进行训练。训练在专用工作站进行。训练完成后，将训练参数上传至嵌入式图像处理平台。

8)在嵌入式图像处理平台上，利用训练好的参数对实时采集并且生成的彩色纹理图进行分类。

9)在嵌入式图像处理平台上，跟踪，分割，立体匹配，求取彩色纹理图，分类分别在不同的线程同时进行，从而最大化地利用处理器的处理能力。同时，将有关图像的计算，利用图形处理器进行加速，使得处理速度满足实时性的要求。

本发明的优点及有益效果：

1、本发明将卷积神经网络移植到配置了具有专用图形处理器(GPU)的嵌入式平台上，通过并行计算进行加速从而加快了运行速度。

2、本发明利用目标跟踪算法从视频序列中提取出操作者所在区域，有效解决了无人机飞行中相机漂移以及复杂背景干扰等问题，同时减少了运算量。该方法与别的方法相比较，具有工作范围广、准确率高的特点。

3、本发明将有关图像的计算利用图形处理器进行加速，使得处理速度满足实时性的要求。

附图说明

图1为本方法的硬件***连接示意图；

图2为实施例中步骤2立体匹配效果图；

图3为实施例中步骤3滤除背景后的图像；

图4为彩色纹理图合成原理图；

图5为本方法的处理流程图。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

一种基于双目视觉和深度学习的无人机人机交互方法，具体步骤如下：

1)***启动时，根据摄像机显示内容，通过地面站显示的单一视点框选领航员，利用快速跟踪算法对领航员进行跟踪，根据跟踪结果在较高分辨率的视频中提取出以领航员为中心的低分辨率视频序列。

2)利用基于块匹配的立体匹配算法，对低分辨率的部分进行立体匹配，这一部分立体匹配，由图形处理器进行加速。同时这一步的参数提供最大最小视差值D_max与D_min。立体匹配效果见附图2。

3)对立体匹配的结果进行处理：这个步骤主要用于滤除背景噪声。首先将立体匹配后的图像逐像素归一化，这一步运算量大，利用图形处理器(gpu)加速，利用多个gpu计算核的多线程加速完成。归一化公式如下：

其中D_max和D_min分别表示灰度值的最大和最小值，d为当前像素的灰度值。d'取不大于右边的最大值。

其次，用阈值化的方法，将背景噪声滤除：

其中threadhold为阈值，阈值的选择与摄像机分辨率和相机间距有关，需要通过对视差分布进行统计确定。在本发明的实验演示***当中，我们根据实验，确定取值为225。经过阈值化的图像只有人物信息的人物图像。滤除后的图像见附图3。

4)将经过阈值化的人物图像序列前后两帧之间做差分，得到差分的视频序列。假设具有n帧的深度视频序列为:d₁,d₂,…,d_n，其中d_i表示第i帧的深度图。由于深度图像上像素点的值表示该像素位置相对于镜头的距离，因此对于相邻的两帧深度图像，可以通过计算相同像素位置的像素点值的差，来描述动作信息。在这里，将相邻两帧做差分后得出的结果表示为：m₁,m₂,…,m_n-1。

5)为了在一张图中同表示出动作的时间特征，本发明利用颜色来编码深度图序列，通过在HSV彩色空间更改色度H，用不同的颜色表示差分深度的不同时刻。假设h_max和h_min表示实验中在HSV彩色空间中色度的取值范围。则第i个深度图中，所有计算出差分深度的像素位置均用色度H_i来进行编码：

6)叠加过程中，对于一个像素位置p(x,y)，设其在深度差分得出的m_i上具有深度变化值z_i，根据整个视频序列中该像素位置的深度变化值序列z₁,z₂,…,z_i可求出最大的深度变化值z_max＝z_k从而指定该像素位置的最终色彩分配H_k。在对整张图片上的所有像素位置做以上操作后，能够在将整个视频序列压缩成一张色彩丰富的彩色纹理图片，其中像素点值的空间位置描述了动作序列的空间特征，像素点对应的颜色值为动作序列的时间特征。合成的彩色原理图见附图4。

7)得到彩色纹理图后，通过卷积神经网络(CNN)对图片进行学习和分类来完成动作的识别(实验所采用网络结构为Alexnet)。

为了达到实时性的要求，本发明利用了摄像机捕捉视频时的时间间隔，以及嵌入式***的并行处理能力，在捕捉视频的同时对图像进行并行计算。在图像处理和神经网络的识别过程当中，均利用图形处理器进行加速。本发明中采用的跟踪算法为了提高运行速度，跟踪范围只限于操作者人脸部分，后续处理中，再根据跟踪区域截取更大区域。而深度图计算方面，采用了速度较快的基于块匹配的算法，立体匹配帧率能达到约16帧每秒。最终生成分类结果可以以每秒2帧的速度。***软件结构见附图5。

无人机捕捉的画面相比于静态相机捕捉的画面而言，往往伴随相机漂移和晃动。本发明根据使用环境，需要在不同的环境下采集并且生成的相应数据集。本发明的演示***生成的训练数据集，伴有相机漂移、晃动和背景人物走动，通过采集了5个动作的视频若干，为每个动作生成了约2000张彩色纹理图片，另外，还生成了一类包含3000张彩色纹理图的非控制指令。

下面为本发明在数据集上的实验结果及说明：将动作手势转换为动作指令。首先利用大型的工作站训练神经网络并且将训练结果上传至嵌入式图像处理平台。在室外环境下，操作者在距离无人机6-13米范围内每隔一定距离对每一控制指令分别做20次，共100个操作指令，期间伴随左右走动及干扰动作。对***的测试表明，在10m范围内，***识别的准确率可以达到百分之九十以上，识别效果可靠有效。识别结果见附表1。

表1

在训练集用的的彩色纹理图的采集过程当中，为了避免过拟合造成人物动作的时间长短不一而不能正确的被识别。彩色纹理图需要以不同的时间长短的动作都做合成。具体为取不同的帧数。在本发明的演示***当中，我们采用的方法是分别以30，40，50帧为长度进行合成。同时为了避免过拟合情况，还利用旋转图片和分辨率变换的方法对训练数据集进行扩展。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于双目视觉和深度学***台及双目摄像头，该嵌入式图像处理平台通过接口连接飞行控制器，无人机与地面通过该平台通信，平台带有图形处理器，运行卷积神经网络深度学习算法，在摄像头捕捉视频的同时对图像进行并行计算，该交互方法的具体步骤为：

1)根据无人机回传的单视点图像，选择无人机领航员，利用鼠标或者触摸屏幕，将领航员的身体上身所在区域圈出来；

4)将得到的视差图进行归一化，并且用阈值滤除背景，得到干净的人物图像；

5)将相邻两帧的人物图像进行差分，得到差分图像序列；

6)按照生成的图片顺序，依次利用不同颜色代表不同时刻的差分图像，进行编码，将大约2s左右的图片产生的人物图像叠加成彩色纹理图；采用滑动窗口的方法，每隔5帧取大约2s左右的图片；

7)采集大量的由不同操作者在不同环境下做选定动作的彩色纹理图对神经网络进行训练，训练在专用工作站进行，训练完成后，将训练参数上传至嵌入式图像处理平台；

8)在嵌入式图像处理平台上，利用训练好的参数对实时采集并且生成的彩色纹理图进行分类、识别；

9)将识别出的动作指令发送给飞行控制器，指导无人机运动。

2.根据权利要求1所述的基于双目视觉和深度学习的无人机人机交互方法，其特征在于：所述步骤2)跟踪算法的跟踪范围只限于操作者人脸部分。

3.根据权利要求1所述的基于双目视觉和深度学习的无人机人机交互方法，其特征在于：所述步骤3)立体匹配算法由图形处理器加速。

4.根据权利要求1所述的基于双目视觉和深度学习的无人机人机交互方法，其特征在于：所述步骤4)归一化由图形处理器加速。

5.根据权利要求1所述的基于双目视觉和深度学习的无人机人机交互方法，其特征在于：所述步骤8)分类、识别由图形处理器加速。

6.根据权利要求1所述的基于双目视觉和深度学习的无人机人机交互方法，其特征在于：所述步骤7)训练采集的彩色纹理图分别以30，40，50帧为长度进行合成。

7.根据权利要求1所述的基于双目视觉和深度学习的无人机人机交互方法，其特征在于：所述步骤7)利用旋转图片和分辨率变换的方法对训练数据集进行扩展。