CN105528082B

CN105528082B - 三维空间及手势识别追踪交互方法、装置和***

Info

Publication number: CN105528082B
Application number: CN201610012018.2A
Authority: CN
Inventors: 古鉴; 王雷; 方维; 伊威
Original assignee: Beijing Storm Mirror Technology Co Ltd
Current assignee: Beijing Storm Mirror Technology Co Ltd
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2018-11-06
Anticipated expiration: 2036-01-08
Also published as: CN105528082A

Abstract

本发明公开了一种三维空间及手势识别追踪交互方法、装置和***，属于增强现实领域，该方法包括：采集现实场景的原始二维图像数据；根据原始二维图像数据生成深度图像，根据深度图像生成三维点云数据；提取原始二维图像数据的特征点数据，并进行特征点的匹配，得到匹配后的数据，特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云，稀疏三维点云对应于二维图像上的特征描述子；将特征点的匹配后的数据与三维点云数据进行场景配准，得到现实场景对应虚拟场景的变换矩阵；将虚拟物体与现实场景对应虚拟场景的变换矩阵进行叠加。本发明能够在移动终端上对场景进行识别、跟踪，给予用户良好增强现实应用体验，且内容丰富，操作简单。

Description

三维空间及手势识别追踪交互方法、装置和***

技术领域

本发明涉及增强现实领域，特别是指一种基于双目摄像头的三维空间及手势识别追踪交互方法、装置和***。

背景技术

增强现实(AR)是通过信息技术，将虚拟的信息应用到真实世界，真实的环境和虚拟的物体实时地叠加到了同一个画面或在同一空间同时存在。增强现实技术将动态的、背景专门化的信息加在用户的视觉域之上，它借助计算机图形图像与可视化技术产生虚拟对象，并通过传感技术将它们准确地“放置”于真实环境中，使之借助显示设备与真实环境融为一体。

增强现实具有以下特点：一是有一个输入设备:增强现实的***必须有一个图像输入设备,它可以获取真实世界的图像。现在普遍采用的是摄像头，包括单目摄像头，双目摄像头，深度摄像头等。二是识别追踪算法:追踪算法的作用是可以把虚拟物体和真实摄像头图像实现无缝的叠加,使得人们可以感觉一个虚拟的物体就在真实世界里面。追踪算法是增强现实最核心的部分。三是实时交互:它使交互从精确的位置扩展到整个环境，从简单的人面对屏幕交流发展到将自己融合于周围的空间与对象中。运用信息***不再是自觉而有意的独立行动，而是和人们的当前活动自然而然地成为一体。交互性***不再是具备明确的位置，而是扩展到整个环境。

传统的增强现实应用一般是通过台式电脑(PC)来实现人机交互。这种交互方式适用于相对固定的环境。移动设备在生活中应用日益广泛，在移动设备应用环境中使用PC交互不是很方便，移动设备提供了触控、摇动、语音、图像输入等多种交互手段。因此把移动设备的交互手段和增强现实应用结合不仅能给用户带来更好的交互体验，同时也可以让增强现实得到更广泛的应用。现在的移动设备可以包括：手机，增强现实眼镜，虚拟现实头盔。

发明内容

本发明提供一种三维空间及手势识别追踪交互方法、装置和***，本发明能够在移动终端上对场景进行识别、跟踪，给予用户良好增强现实应用体验，且内容丰富，操作简单。

为解决上述技术问题，本发明提供技术方案如下：

一方面，提供一种三维空间及手势识别追踪交互方法，包括如下步骤：

采集现实场景的原始二维图像数据；

在移动端，根据所述原始二维图像数据生成深度图像，进而根据所述深度图像生成三维点云数据；

在移动端，提取所述原始二维图像数据的特征点数据，并进行特征点的匹配，得到特征点的匹配后的数据，所述特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云，所述稀疏三维点云对应于二维图像上的特征描述子；

在移动端，将特征点的匹配后的数据与三维点云数据进行场景配准，得到现实场景对应虚拟场景的变换矩阵；

在移动端，将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加。

进一步的，还包括如下步骤：

将特征点匹配后的数据传输到服务器，服务器根据所述特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

进一步的，还包括如下步骤：

根据所述原始二维图像数据获取手指的坐标；

根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。

进一步的，还包括如下步骤：对虚拟物体与现实场景对应虚拟场景的变换矩阵，以及手势变换矩阵进行叠加。

另一方面，提供一种三维空间及手势识别追踪交互装置，包括：

深度数据采集模块，用于根据所述原始二维图像数据生成深度图像，进而根据所述深度图像生成三维点云数据；

特征点匹配模块，用于提取所述原始二维图像数据的特征点数据，并进行特征点的匹配，得到特征点的匹配后的数据，所述特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云，所述稀疏三维点云对应于二维图像上的特征描述子；

虚拟场景配准模块，用于将特征点的匹配后的数据与三维点云数据进行场景配准，得到现实场景对应虚拟场景的变换矩阵；

虚拟场景叠加模块，用于将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加。

进一步的，还包括：

数据传输模块，用于将特征点匹配后的数据传输到服务器，使得服务器根据所述特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

进一步的，还包括：

手指坐标获取模块，用于根据所述原始二维图像数据获取手指的坐标；

手势变换矩阵计算模块，用于根据预先给予的手指坐标和从原始二维图像数据获取的手指坐标计算出手势变换矩阵。

进一步的，所述虚拟场景叠加模块还用于：

对虚拟物体与现实场景对应虚拟场景的变换矩阵，以及手势变换矩阵进行叠加。

在一方面，提供一种三维空间及手势识别追踪交互***，包括双目的图像采集设备和上述任一的三维空间及手势识别追踪交互装置，所述双目的图像采集设备用于采集现实场景的原始二维图像数据。

进一步的，还包括服务器，所述服务器用于：

接收所述三维空间及手势识别追踪交互装置传输的特征点匹配后的数据，根据所述特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

本发明具有以下有益效果：

与现有技术相比，本发明的三维空间及手势识别追踪交互方法能够在移动终端上对场景(尤其是室内场景)进行识别、跟踪，给予用户良好增强现实应用体验，且内容丰富，操作简单。

附图说明

图1为本发明的三维空间及手势识别追踪交互方法的一个实施例的流程图；

图2为本发明的三维空间及手势识别追踪交互装置的一个实施例的示意图；

图3为本发明的图像采集设备的一个实施例的示意图；

图4为本发明的三维空间及手势识别追踪交互方法的优选实施例的流程图；

图5为本发明中的室内小范围环境示意图；

图6为本发明中的室内大范围环境示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供一种三维空间及手势识别追踪交互方法，如图1所示，包括：

步骤101：采集现实场景的原始二维图像数据。并发送给移动端；图像采集设备一般为双目摄像头、TOF摄像头或深度摄像头等。

具体的，以双目摄像头为例。从双目摄像头硬件设备获取对应的摄像头图像，包括左侧摄像头图像，右侧摄像头图像。

步骤102：在移动端，根据原始二维图像数据生成深度图像，进而根据深度图像生成三维点云数据。

根据原始二维图像数据生成深度图像，深度图像为一张8位深度的位图，以每个像素的灰度值来描述该像素下的点到摄像头的距离。

步骤103：在移动端，提取原始二维图像数据的特征点数据，并进行特征点的匹配，得到特征点的匹配后的数据，特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云，稀疏三维点云对应于二维图像上的特征描述子。

步骤104：在移动端，将特征点的匹配后的数据与三维点云数据进行场景配准，得到现实场景对应虚拟场景的变换矩阵。

步骤105：在移动端，将虚拟物体与现实场景对应虚拟场景的变换矩阵进行叠加，并显示等。

虚拟物体可以是事先已经得到的虚拟数据，也可以是实时生成的游戏画面，图像、视频等。

本发明实施例的三维空间及手势识别追踪交互方法能够在移动终端上对场景(尤其是室内场景)进行识别、跟踪，给予用户良好增强现实应用体验，且内容丰富，操作简单。

作为本发明实施例的三维空间及手势识别追踪交互方法的一种改进，还包括如下步骤：

将特征点匹配后的数据传输到服务器，服务器根据特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

因服务器具有更强大的计算能力，能更高效的实现大规模矩阵运算，因此该三维场景跟踪数据使用服务器进行精配准计算，主要用稀疏三维点云及其对应描述子，获取2.5D点云间转换矩阵的精确值，实现三维场景的融合，以保证被测三维场景的高精度再现。

服务器可以是单独的服务器，也可以是集成在移动端的服务器模块。

更进一步的，还包括如下步骤：

根据原始二维图像数据获取手指的坐标；

如果调用了手掌追踪模块，取出手掌对应的摄像头姿态，然后和场景取出的摄像头姿态进行融合，最后最后形成一个姿态信息。也就是两个坐标系进行整合，得到一个坐标系，这样才能在建立虚拟物体从手掌到小范围或大范围场景的准确切换。

此时，还包括如下步骤：对虚拟物体与现实场景对应虚拟场景的变换矩阵，以及手势变换矩阵进行叠加。

获取相机姿态矩阵实现虚拟场景和现实场景的叠加，最终结果进行渲染，根据手势互动的结果，更新渲染结果。

另一方面，本发明实施例提供一种三维空间及手势识别追踪交互装置，如图2所示，包括：

深度数据采集模块11，用于根据原始二维图像数据生成深度图像，进而根据深度图像生成三维点云数据；

特征点匹配模块12，用于提取原始二维图像数据的特征点数据，并进行特征点的匹配，得到特征点的匹配后的数据，特征点的匹配后的数据包括不同视点下的2.5D点云数据和稀疏三维点云，稀疏三维点云对应于二维图像上的特征描述子；

虚拟场景配准模块13，用于将特征点的匹配后的数据与三维点云数据进行场景配准，得到现实场景对应虚拟场景的变换矩阵；

虚拟场景叠加模块14，用于将虚拟物体与现实场景对应虚拟场景的变换矩阵进行叠加。

本发明实施例的三维空间及手势识别追踪交互装置能够在移动终端上对场景(尤其是室内场景)进行识别、跟踪，给予用户良好增强现实应用体验，且内容丰富，操作简单。

作为本发明实施例的三维空间及手势识别追踪交互装置的一种改进，还包括

数据传输模块，用于将特征点匹配后的数据传输到服务器，使得服务器根据特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

更进一步的，还包括：

手指坐标获取模块，用于根据原始二维图像数据获取手指的坐标；

此时，虚拟场景叠加模块还用于：

再一方面，本发明实施例提供一种三维空间及手势识别追踪交互***，包括双目的图像采集设备和上述任一的三维空间及手势识别追踪交互装置，双目的图像采集设备用于采集现实场景的原始二维图像数据。

作为本发明实施例的三维空间及手势识别追踪交互***德一种改进，还包括服务器，服务器用于：

接收三维空间及手势识别追踪交互装置传输的特征点匹配后的数据，根据特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

下面以一个优选的实施例对本发明进行阐述：

本发明实施例的主要技术内容在于：

图3系本发明实施例的硬件设备组成，在该实施方案中，该***设备可包括：

双目摄像头模组，它包括：

右眼摄像头，右眼摄像头用于采集用户右侧图像信息。

左眼摄像头，左眼摄像头用于采集用户左侧图像信息

深度数据采集模块，用来与上述双目摄像头连接，该模块能实时处理左右摄像机采集的图像，并自动生成深度图像及三维点云数据；

输出连接设备，把数据处理模块通讯连接，用于获取手势三维信息，并进行实时信息传输到移动设备。

图4系本发明实施例的软件组成，以下仅以基于双目摄像头的三维空间及手势识别追踪交互***为例对本发明进行增强现实的过程做简要说明：

001.双目摄像头采集图像。

002.用户进入程序后，会先进入一个选择界面，这个界面上提供两个选项：

室内小范围场景是室内大范围场景，根据用户的选择程序会采取不同的跟踪方式。

003.用户扫描三维场景,得到不同视点下2.5D点云，及其的稀疏三维点云对应于二维图像上的特征描述子，把这些数据以文件的形式上传到服务器(服务器加数据库的模式)。

004.服务器对比该三维场景跟踪数据所对应的数据文件是否存在。对比的是稀疏三维点间的对应描述子。

005.若该描述子在场景数据库中已存在，则取出该描述子对应的三维场景数据。

006.若该描述子在场景数据库中不存在，则存储该描述子及其对应的三维场景信息。

007.因服务器具有更强大的计算能力，能更高效的实现大规模矩阵运算，因此该三维场景跟踪数据使用服务器进行精配准计算。主要用稀疏三维点云及其对应描述子，获取2.5D点云间转换矩阵的精确值，实现三维场景的融合，以保证被测三维场景的高精度再现。

008.使用从005取出的三维场景数据，开始计算小范围的场景变换矩阵(002中如果用户选择了小范围场景)。

009.使用从005取出的三维场景数据，结合更新的场景，开始计算大范围的场景变换矩阵(002中如果用户选择了大范围场景)。

010.得到三维场景数据(一系列相机姿态矩阵，该姿态下对应的三维场景点云信息。同时连接服务器时，该三维场景信息及其对应的特征描述子更新到服务器。

011.是否调用了手掌追踪模块。如果不需要手掌追踪，直接使用从011获取相机姿态矩阵实现虚拟场景和现实场景的叠加。

012.如果调用了手掌追踪模块，取出手掌对应的摄像头姿态，然后和小范围或大范围场景取出的摄像头姿态进行融合，最后最后形成一个姿态信息。也就是两个坐标系进行整合，得到一个坐标系，这样才能在建立虚拟物体从手掌到小范围或大范围场景的准确切换。

013.利用012得到的虚拟场景的坐标系矩阵，实现虚拟场景和现实场景的叠加；(虚拟场景由游戏制作人员制作，真实场景即为摄像头获取的图像；)。

0014.获取相机姿态矩阵实现虚拟场景和现实场景的叠加，最终结果进行渲染，根据手势互动的结果，更新渲染结果。

0015.计算获得的手掌变换矩阵，用于手势交互模块的计算。

以下仅以基于双目摄像头的三维空间及手势识别追踪交互***为例对本发明进行增强现实的过程做详细说明：

步骤001提到的双目摄像头采集图像，即从双目摄像头硬件设备获取对应的摄像头图像，包括左侧摄像头图像，右侧摄像头图像和从芯片(芯片的作用计算两个图像通过视差得到的深度图像)获取的深度图像，深度图像为一张8位深度的位图，以每个像素的灰度值来描述该像素下的点到摄像头的距离。

步骤002中用户需要选择两种场景中的某一个开启跟踪，室内小范围跟踪环境，或者室内大范围跟踪环境。室内小范围跟踪的方式，指室内一个相对较小(2-4平方米)的空间，包括屋里的一个角落，一个桌面，茶几，饭桌等。室内大范围跟踪环境指室内一个相对较大(10-30平方米)的空间，包括一个房间，或几个房间组成的环境。如图5和图6所示，虚线为虚拟物体。图5室内小范围跟踪环境，图6室内大范围跟踪环境.

步骤003－007是指用户利用双目视觉***，扫描并重建三维场景信息。具体是在扫描三维场景时，得到不同视点下的三维点云数据，以及其二维图像和2.5D场景信息间的对应关系。同时将该2.5D场景信息和特征描述子上传至服务器，并与服务器中已有的数据库进行比对。若该场景信息已经存在于服务器中，则直接下载该场景信息，并将该2.5D场景信息与服务器中的3D场景进行高精度配准，实时计算得到该时刻下摄像头在场景中对应的位置；若服务器上不完全存在该视点下的2.5D场景信息，则需要将该视点下获取的2.5D场景与服务器上已有的3D场景进行配准。具体实现过程是将该视点下获取的2.5D场景信息和对应的描述子上传至服务器，根据特征描述子在已有3D场景中寻找匹配点并实现配准，同时拓展数据库中已有的场景信息，并得到该时刻下摄像头的位置。整个与服务器连接交互的过程，主要目的是利用服务器高性能的计算能力，通过数据的实时交互传输，实现大规模的配准优化计算，以保证快速、高效、稳定的跟踪。

增强现实的难度就是如何把现实世界和虚拟世界进行完美的叠加，让你感觉到真实和虚拟同时的存在。识别追踪算法是增强现实里面最重要的部分，也是区别虚拟现实的核心。追踪算法的原理是当摄像头识别到该图片，即能通过图像在画面中的畸变、姿态等信息计算出相应的矩阵。用于对虚拟物体的定位。现在的追踪算法包括：2D图像识别，3D物体识别，室内追踪，室外追踪，手掌追踪等。这些都是增强现实识别追踪算法的组成部分。我们的追踪算法主要基于室内追踪SLAM算法。SLAM(simultaneous localization andmapping)，即时定位与地图构建。它最早是指机器人在未知的环境中，从一个位置开始移动，在移动过程中根据位置估计和传感器数据进行自身定位，同时构建未知环境地图的过程。其主要可分为定位和建图两个部分。增强现实把SLAM和视觉结合，让虚拟物体可以实时的在房间里面的任意一个位置，而且非常精准。我们的算法在已有的算法上进行了改进，主要体现在两点：1、传感器参数标定方面，充分实现并应用Visual+IMU的融合技术。传统基于RGB_Camera的SLAM技术，对于光照变化、弱纹理、动态场景等情况鲁棒性较差，为此，我们提出了结合IMU的定位技术，通过对IMU的准确矫正，减少了整体的误差漂移，并通过对IMU和Camera的整体标定，很大程度上克服了传统基于视觉建图和定位失败的问题。2、实现基于移动端的实时SLAM技术。当前的RGB_SLAM由于运算量较大的原因，传统的SLAM技术几乎都是只能在PC机上运行实时运行，我们通过将定位和建图过程分配在不同的线程中运行，并执行相应的优化加速策略，最终实现其在Andorid***上实时的SLAM。

步骤008-010是增强现实室内场景追踪的核心部分。通过摄像头获取的左图像，右图像和深度图像，结合起来，以实现场景的快速鲁棒的重建。其基本的技术方案如下：

1、在某一视点下，用双目视觉***获取场景的深度图，结合已知的相机参数，可将深度图中的各像素转化为对应的2.5D点云图，该2.5D点云图一般具有较大的噪声。

2、对双目视觉***同时获取的两幅二维图像进行特征检测，该特征检测一般具有较高的定位精度，根据左右图像的特征点位置，结合相机参数可以得到高精度的稀疏三维点坐标。

3、建立高精度基于特征的稀疏三维点和粗糙基于深度图2.5D点云间的关联。

4、当双目立体相机位置变换至下一视点时，根据不同视点下二维图像间的特征匹配，进而得到稀疏三维点间的对应关系，从而实现不同视点稀疏三维点的配准。

5、根据不同视点下稀疏三维点间的变换关系，结合稀疏三维点和2.5D点云间的关联，实现被测场景稠密的配准。依次类推，即可得到被测场景完整的三维点云。

虽然不同场景对应的技术路线大体相同，但由于具体应用目标的不同，使得其在具体实施方案的要求上却不大相同：

对于小范围的场景重建，如桌面、墙角等。该情况下数据量相对较小，一般具有较好的实时性和相对稳定的特征描述子。但其小范围的尺度决定了其对场景重建误差的高度敏感，且其一般需要利用重建的三维场景信息，拟合平面等实体形状，并基于该拟合实体进行二次应用开发，因此在具体优化调整上，需要使用更为严格的约束阈值，如为实现桌面的在空间的准确拟合，可以对定位过程中的特征数目和IMU标定误差赋予更苛刻的参数要求，以保障小空间的定位重建精度。

对于大范围的场景重建，如开阔的房间等。该情况下的场景信息具有更多的不可预测性，如光照变换，场景动态变化等，都会很大程度上影响该技术方案的顺利进行，因此在大范围的场景重建中，需更加侧重于场景三维重建和配准的稳定性，而对于精度的要求是相对次要的因素。因此，可以在图像间定位的特征数目阈值上进行适当的放松，并通过后续的整体优化策略实现定位的连续稳定。

步骤012提到的手掌追踪的实现方法：从摄像头获得对应的二维图像上使用离线训练好的级联分类器进行相应手势的识别，从而定位出手掌的区域。然后在手掌区域内使用大津阈值自适应分割算法，提取出手掌的二值掩膜图。基于掩膜图，找到手掌的轮廓。使用距离变换的方法，找到手掌轮廓内距离轮廓边缘半径最大的点，作为手掌的质心。紧接着，沿着轮廓线，采用曲率最大的方法，将包络五个手指指尖的候选点提取出来。从而拟合出一个椭圆，根据椭圆长短轴的位置和方向，确定候选的指尖点的位置。最终指尖点的确定如下，通过比较包络指尖点的位置和方向的平均值得到的点,与拟合椭圆长短轴边上的点。如果拟合椭圆算出的点与平局值算出的点距离差别较大，就采用平局值算出的点；否则使用椭圆拟合算出的点。同时为了进一步确定五个指尖的点，将候选的点与手掌质心作比较，根据它们的相对位置，从而排除手掌以下的候选点。接着，对于手指指尖的五个点，按照坐标位置的进行排序，并通过大拇指距离质心距离最远的特性确定大拇指的顺序，从而确定手掌是正面还是反面。

第一帧检测到五个手指后，后续帧同样采用距离变换和曲率最大的方式找到候选的手指点和手掌质心。然后采用像素距离最近的方法将当前候选点与之前的指尖点进行匹配，从而跟踪得到当前对应排序的手指点。

在确定了当前帧五个手指的二维图像点坐标之后，就开始计算摄像机的姿态。计算姿态之前，预先给予五个手指指尖对应的物理坐标中的参考位置，并采用标定的方式获取相机内参和矫正参数。通过二维图像上匹配的五个手指点，和五个手指实际物理中的坐标点，采用张正友摄像机外参计算的方式计算出手指的姿态，包括平移和旋转矩阵。为了防止噪声干扰，对计算出来的平移和旋转矩阵使用了kalman滤波对其进行平滑。在此之后，每帧平移和旋转矩阵的数据都利用了前八帧的数据进行平均，从而最终确定平移和旋转矩阵的大小，保证了计算出来的姿态的平滑和稳定性。

步骤013提到的场景信息融合模块：综合得到的三种矩阵变换信息(由于用户每次只能在小范围与大范围空间跟踪中二选其一，所以在程序实际运行时，加上手势的矩阵，只有2种矩阵信息)，则可以用来对虚拟物体与现实场景进行叠加，叠加的具体实现方式是在三维场景世界坐标系下，结合三维场景和相机间的变换矩阵，以及相机和手势间的变换矩阵，共同实现三维场景、相机和手势坐标系的统一，然后将其与虚拟场景之间进行矩阵变换，最终实现虚实场景的完美统一。如下面描述的那样：一个虚拟场景首先出现在手掌中，此时它使用了手势的矩阵进行叠加处理，当另一只手点击一下该虚拟场景，它会掉落到桌面，此时它使用了室内小范围桌面矩阵进行叠加。

步骤014提到的虚拟场景叠加模块：增强现实的核心功能之一就是将虚拟场景准确、合适的放置在真实场景中。比如，将一个虚拟的茶壶放置在真实的桌面上。虚拟的茶壶若想看起来“就在真实的桌面上”，需要令茶壶的矩阵信息与我们在之前步骤得到的“平面矩阵信息”保持一致。这种一致通常只需要简单的矩阵乘法来实现。当获取到从010或013得到的矩阵，我们就可以通过游戏引擎渲染的方式把虚拟物体渲染到真实场景中。

几乎所有的游戏引擎，采用opengl或者directX进行渲染部分的编程。无论哪种渲染方式，大体的流程是没有区别的。最终的片段颜色与一系列的矩阵乘法相关：顶点坐标与MVP矩阵相乘，即能得到最终位于显示器平面上的坐标。由于之前的010或013步骤会导致M矩阵发生变化，因此最终的渲染，会将虚拟模型的顶点坐标发生变换，看起来，像是在计算获得的平面矩阵之上。

015提到的手势交互模块：手势交互模块的主要任务之一就是确定矩阵的变化，用以满足游戏逻辑。

下面的场景描述了手势交互模块的工作方式：

天空飞行着一只蝴蝶(蝴蝶为虚拟对象，此时蝴蝶使用了一个世界的全局矩阵，该矩阵为默认)，当用户将手掌摊开时，手势交互模块会发出消息，“通知”蝴蝶落到手掌中，会跟随手掌移动，蝴蝶此时将使用手势矩阵进行叠加处理。当另一只手试图使用“捏拿操作”捉住蝴蝶时，手势交互模块会发出消息，“通知”蝴蝶飞走，脱离手掌控制(蝴蝶回到默认矩阵)。

手势事件包括但不仅限于：

捏拿操作：通过食指和大拇指合拢动作对空间中虚拟物体进行拿捏操作。

释放操作：通过由食指和大拇指合拢状态到食指和大拇指分开动作可将拿起的虚拟物体释放到当前位置。

拖拽操作：通过食指按下并保持按住动作向其他位置移动可将空间中虚拟物体进行拖拽操作。

点击操作：通过手指按下并弹起动作可将空间中虚拟物体进行点击操作。

小范围来回移动：通过手指按下，并在小范围来回运动，模拟一种摩擦，擦拭的操作。

五指张开：通过手掌五指张开动作，可将虚拟按钮置于五根手指肚，或者手掌中心，并可跟随五指移动和旋转。

五指张开并旋转：通过手掌的手背面向摄像头五指张开并旋转，可将空间中虚拟物体进行旋转操作。通常这可以用来操作一些需要旋转打开的门。

握拳：大多数情况下，可以用来描述抓握操作，如天空有一只蝴蝶时，可通过该握拳操作将蝴蝶抓住。在手掌摊开时，蝴蝶出现，再握拳时，蝴蝶消失。

在虚拟对象与真实场景进行合理的叠加操作之后。我们将进行渲染并输出。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种三维空间及手势识别追踪交互方法，其特征在于，包括如下步骤：

采集现实场景的原始二维图像数据；

在移动端，将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加；

还包括如下步骤：

将特征点的匹配后的数据传输到服务器，服务器根据所述特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

2.根据权利要求1所述的三维空间及手势识别追踪交互方法，其特征在于，还包括如下步骤：

根据所述原始二维图像数据获取手指的坐标；

3.根据权利要求2所述的三维空间及手势识别追踪交互方法，其特征在于，还包括如下步骤：对虚拟物体与现实场景对应虚拟场景的变换矩阵，以及手势变换矩阵进行叠加。

4.一种三维空间及手势识别追踪交互装置，其特征在于，包括：

深度数据采集模块，用于根据原始二维图像数据生成深度图像，进而根据所述深度图像生成三维点云数据；

虚拟场景叠加模块，用于将虚拟物体与所述现实场景对应虚拟场景的变换矩阵进行叠加；

还包括：

数据传输模块，用于将特征点的匹配后的数据传输到服务器，使得服务器根据所述特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。

5.根据权利要求4所述的三维空间及手势识别追踪交互装置，其特征在于，还包括：

6.根据权利要求5所述的三维空间及手势识别追踪交互装置，其特征在于，所述虚拟场景叠加模块还用于：

7.一种三维空间及手势识别追踪交互***，其特征在于，包括双目的图像采集设备和权利要求4-6任一所述的三维空间及手势识别追踪交互装置，所述双目的图像采集设备用于采集现实场景的原始二维图像数据。

8.根据权利要求7所述的三维空间及手势识别追踪交互***，其特征在于，还包括服务器，所述服务器用于：

接收所述三维空间及手势识别追踪交互装置传输的特征点的匹配后的数据，根据所述特征描述子进行匹配，若在与服务器连接的数据库中找到已存的虚拟场景的变换矩阵，则将所找到已存的虚拟场景的变换矩阵返回，替代上述将特征点的匹配后的数据与三维点云数据进行场景配准所得到的虚拟场景的变换矩阵；若没有找到，则将特征描述子和三维点云数据上传至服务器，服务器进行高精度配准计算，生成高精度的现实场景对应虚拟场景的变换矩阵，并存入数据库。