CN108334199A

CN108334199A - 基于增强现实的移动式多模态交互方法及装置

Info

Publication number: CN108334199A
Application number: CN201810144421.XA
Authority: CN
Inventors: 杜广龙; 陈晓丹; 张平; 李方
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-07-27

Abstract

本发明公开了一种基于增强现实的移动式多模态交互方法及装置，该方法包括以下步骤：通过增强现实方式显示人机交互界面，增强现实虚拟场景包括虚拟物体等交互信息；用户通过手势和语音的方式发送交互指令，通过多模态融合方法，理解不同模态语义，并融合手势与语音的模态数据，产生多模态融合交互指令；用户交互指令作用后，其作用结果返回增强现实虚拟场景中，通过场景的变化进行信息反馈。本发明的装置包括手势传感器、PC机、麦克风、光学透过式增强现实显示设备、WiFi路由器。本发明提供了一种结合增强现实技术与多模态交互的方法及装置，体现以人为中心的思想，自然直观，降低了学习负荷，提高了交互效率。

Description

基于增强现实的移动式多模态交互方法及装置

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于增强现实的移动式多模态交互方法及装置。

背景技术

随着计算机技术的飞速发展，近些年增强现实技术(Augmented Reality，AR)在消费市场上引起了巨大的关注，各种产品层出不穷，掀起了一股视觉革命的浪潮。增强现实技术是一种将真实场景同虚拟场景融合的技术，它的目的是通过计算机图形、图像处理技术实现实景(显示环境或用户影像)与虚景(计算机生成的虚拟环境或虚拟物体)的合成。

同样地，多模态人机交互技术也是目前人机交互领域被广泛研究地研究。多模态人机交互方式应用多个自然交互方式，使人的感知模态得到充分利用，多个交互模态以不同的交互方式协同操作实现更加自由和自然的通信。多模态交互并不是单纯地使用多个通道独立地完成任务，而是通过多通道整合技术将用户不同通道之间的交互信息整合，通过多个通道之间的相互作用形成最终的交互意图，正确地完成任务。

然而，目前的增强现实技术虽然拥有与传统不同的视觉显示方式，以全息的方式提供更多的信息，穿戴式的AR设备也具备了良好的移动性和便携性，但其缺乏自然直观、高效的交互方式，通常只能通过控制器或者简单的语音或手势进行交互，使得用户体验不佳。而目前的多模态交互方式能够统一不同感官模态实现自然直观、高效地交互，但只应用于桌面设备，缺乏良好的便携性和移动性。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于增强现实的移动式多模态交互方法及装置，融合多个感知模态，通过增强现实技术实现信息反馈，将增强现实技术的增强性、便携性和多模态交互的交互性有机结合，实现自然直观、低学习负荷、高交互效率同时具有便携性、移动性的人机交互方式。

根据公开的实施例，本发明的第一方面公开了一种基于增强现实的移动式多模态交互方法，所述的多模态交互方法包括以下步骤：

S1、通过增强现实方式显示人机交互界面，增强现实虚拟场景的交互信息；

S2、用户通过手势和语音的多模态交互方式与增强现实虚拟场景中的虚拟交互对象进行交互；

S3、通过多模态融合方法，理解不同模态语义，并融合手势与语音的模态数据，产生多模态融合交互指令；

S4、用户交互指令作用后，其作用结果返回增强现实虚拟场景中，通过场景的变化进行信息反馈。

进一步地，步骤S1中所述的现实虚拟场景包括虚拟交互对象和虚拟信息对象，其中，所述的虚拟交互对象，拥有多模态交互能力和信息表现能力；所述的虚拟信息对象，拥有信息表现能力。

进一步地，步骤S2中通过手势发送交互指令操作，其中，手势的交互对象为增强现实虚拟场景中的虚拟交互对象，交互方式包括：对虚拟交互对象实施点击、拖动或者触碰操作。

进一步地，步骤S2中要实现用户通过手势与增强现实虚拟场景中的虚拟交互对象互动，需要实现手势传感器坐标系与增强现实虚拟场景坐标系之间的配准，得到两者之间的坐标转换关系，采用张正友标定法计算手势传感器与增强现实显示设备的内参与外参，张正友标定法的透镜模型如下：

其中，s为尺度因子，[u,v,1]^T为像素平面坐标，[X_w,Y_w,Z_w,1]^T为世界坐标系的坐标点，[R,T]即矩阵为外参数，R为旋转矩阵，t为平移向量，T表示矩阵的转置，为内参数K， f为摄像机的焦距，[u₀,v₀]^T为摄像机坐标系原点在图像坐标系中的坐标，dx和dy为像素的边长，单位为mm，K＝K₁K₂；

根据单应性映射，平面标定板与摄像机所得图像之间的关系如下：

其中r₁、r₂、r₃为旋转矩阵R在x、y、z方向的展开，假设平面标定板上的点在世界坐标系中的Z坐标为0，则式(2)单应性映射关系简化如下：

其中，K[r₁r₂t]即为单应性矩阵H，令上述式子可以简化为其中：

H＝[h₁ h₂ h₃]＝λK[r₁ r₂ t] (10)

根据旋转矩阵的特性，得到如下约束：和‖r₁‖＝‖r₂‖＝1，根据式(4)可知：

将式(5)代入上述约束可得：

即每个单应性矩阵能提供2个方程，而内参矩阵包含5个参数，要求解，至少需要3个单应性矩阵，因此需要三幅平面标定板的图片得出三组式(6)用以计算出内参，再根据式(5)内参与外参的关系计算外参数。

进一步地，步骤S3中所述的多模态融合方法采用面向任务的分层融合模型。

进一步地，其特征在于，所述的面向任务的分层融合模型的实现过程如下：通过词法层统一不同通道的输入形式，使用同一原语表达不同通道的同一内容；把来自词法层的原语信息按照语法规范分成表示命令的原语、表示对象的原语、表示对象属性的原语；语义层利用任务驱动机制，最终将原语组合成各种具体的任务。

进一步地，步骤S4中通过增强现实虚拟场景进行信息反馈方法包括：通过虚拟信息对象显示文本和图形信息；通过虚拟交互对象的状态表现。

根据公开的实施例，本发明的第二方面公开了一种基于增强现实的移动式多模态交互装置，所述的多模态交互装置包括手势传感器、PC机、麦克风、增强现实显示设备，其中，所述的势传感器通过支撑结构安装在所述的增强现实显示设备上，其数据接口通过USB数据线的方式与所述的PC机相连，用于捕获控制者的手势位置和姿态；

所述的麦克风，安装在所述的增强现实显示设备上，其数据接口通过USB数据线与PC机相连，用于捕获控制者的语音控制指令；

所述的增强现实显示设备用于渲染和显示增强现实虚拟场景，通过增强现实技术，在真实环境上叠加虚拟场景，提供真实世界无法获取的辅助信息，增强用户对真实世界的感知能力和与真实世界的交互能力；

所述的PC机，用于识别来自手势模态和语音模态的数据并进行多模态融合，所述的PC机将多模态融合指令的交互结果通过无线网络传输至所述的增强现实显示设备，通过增强现实虚拟场景中的虚拟对象实现交互信息的反馈。

进一步地，所述的多模态交互装置还包括WiFi路由器，所述的PC机通过WiFi路由器与所述的增强现实显示设备之间进行无线网络通信。

进一步地，所述的手势传感器采用Leap Motion，所述的增强现实显示设备采用HoloLens。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提供一种基于增强现实的移动式多模态交互方法，能够有效地组织手势模态和语音模态，与传统串行的交互方式不同，实现不同模态之间的并行和协作运行，实现更加自然直观的交互方式。

2、通过手势传感器与增强现实显示设备之间的坐标系配准，能够实现手势与虚拟场景之间的直接交互，无需借助控制器等额外设备，实现用户与增强现实的高效交互。

3、将多模态融合交互的执行结果通过增强现实技术反馈至虚拟场景中，利用增强现实技术的增强性提供立体、直观的反馈信息。

4、本发明提供的一种基于增强现实的移动式多模态交互装置，采用光学透过式增强现实头戴式显示器HoloLens和手势传感器Leap Motion，通过连接机构将两者结合，实现了所述交互设备的便携性和移动性，使得用户在户外、移动工作环境下也能正常实施交互。

附图说明

图1是本发明实施例中的一种基于增强现实的移动式多模态交互方法的交互流程图；

图2是本发明实施例中的一种具体实施场景的交互流程图；

图3是本发明实施例中分层任务模型结构图；

图4是本发明实施例中一般性任务槽结构图；

图5是本发明实施例中多模态融合算法流程图；

图6是本发明实施例中分层任务模型的体系结构图；

图7是本发明实施例中一种基于增强现实的移动式多模态交互装置的组成图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例中分别提供一种基于增强现实的移动式多模态交互方法及装置，实现了自然直观、低学习负荷、高交互效率同时具有便携性、移动性的人机交互方式。通过增强现实方式显示人机交互界面，增强现实虚拟场景包括虚拟物体等交互信息；用户通过手势和语音的方式发送交互指令，通过多模态融合方法，理解不同模态语义，并融合手势与语音的模态数据，产生多模态融合交互指令；用户交互指令作用后，其作用结果返回增强现实虚拟场景中，通过场景的变化进行信息反馈。

如图7所示，本实施例中提供的一种基于增强现实的移动式多模态交互装置包括手势传感器、PC机、麦克风、光学透过式增强现实显示设备、WiFi路由器，其中：

手势传感器，手势传感器(即附图7中Leap Motion)通过支撑结构安装在增强现实显示设备上，其数据接口通过USB数据线的方式与PC机相连，用于捕获控制者的手势位置和姿态。

PC机，通过USB数据线与手势传感器、麦克风相连，用于识别来自手势模态和语音模态的数据并进行多模态融合；将多模态融合指令的交互结果通过无线网络传输至光学透过式增强现实显示设备，通过增强现实虚拟场景中的虚拟对象实现交互信息的反馈；并通过WiFi路由器与增强现实显示设备之间进行通信。

麦克风，安装在增强现实显示设备上，其数据接口通过USB数据线与PC机相连，用于捕获控制者的语音控制指令；

增强现实显示设备，增强现实显示设备(即附图7中HoloLens)负责渲染和显示增强现实虚拟场景，通过增强现实技术，在真实环境上叠加虚拟场景，提供真实世界无法获取的辅助信息，增强用户对真实世界的感知能力和与真实世界的交互能力；

WiFi路由器，提供PC机与增强现实显示设备之间通信的无线网络环境。

所述的装置按照功能特点又可以分为以下功能模块：增强现实显示模块、手势输入模块、语音输入模块和多模态理解与融合模块。

增强现实显示模块：负责渲染和显示增强现实虚拟场景，主要由光学透过式增强现实眼镜组成，本实施例中采用微软HoloLens设备。通过增强现实技术，在真实环境上叠加虚拟场景，提供真实世界无法获取的辅助信息，增强用户对真实世界的感知能力和与真实世界的交互能力；其自身拥有并维持一个虚拟场景坐标系，同于渲染和处理虚拟场景对象；同时由于所述基于增强现实的移动式多模态交互装置应具备便携性和移动性，增强现实显示模块采用头戴式增强现实显示设备。

手势输入模块：负责手势交互数据的获取和进一步的处理，本实施例采用LeapMotion手势传感器。手势输入模块基于双目摄像机深度成像，用于实现以下步骤：收集获取手部图像。对图像进行手势分割，将手势从图像背景中分割出来。建立手势模型，通过一系列的参数描述手势。提取手势特征，根据建立的模型从手势中提取相应的特征参数参数；其自身拥有手势输入模块坐标系，用于描述手势及手势特征数据；由于所述基于增强现实的移动式多模态交互装置应具备便携性和移动性，手势输入模块采用的手势传感器将安装至增强现实显示模块的头戴式增强现实显示设备上部，其感应范围跟随头戴式增强现实显示设备移动，确保在移动情况下的正常工作。

语音输入模块：负责语音交互数据的获取和进一步的处理，主要由麦克风组成。对语音进行预加重、端点检测等预处理后，去除语音数据中的冗余，提取其特征如梅尔倒谱系数，并以此对统计模型训练，得到语音库，最后通过模式匹配得到识别结果。同样，为了保证所述基于增强现实的移动式多模态交互装置的便携性与移动性，语音输入模块采用的麦克风安装在增强现实显示设备上。

多模态理解和融合模块：多模态理解部分负责将来自设备层的原始信息进行统一处理，把意义相同而形式不同的输入同一为相同的信息表示，从而向语法层提供与设备无关的信息，即交互原语；而多模态融合部分则是基于分层的任务模型，根据用户所策划的任务将不同通道的交互原语填充至对应的任务槽中，最终融合成目标任务。多模态理解和融合模块主要在PC机上实现。

基于上述装置与功能模块的基于增强现实的移动式多模态交互方法的工作流程如图1所示，包括以下步骤：

S1、通过增强现实方式显示人机交互界面，增强现实虚拟场景包括虚拟物体等交互信息。

该步骤S1通过增强现实显示模块将信息以虚拟场景的虚拟交互对象和虚拟显示对象的方式展示；

S2、用户通过手势和语音的多模态交互方式与增强现实虚拟场景中的虚拟交互对象进行交互。

该步骤通过手势输入模块和语音输入模块采用多通道交互方式与增强现实虚拟场景中的虚拟交互对象进行交互；

在步骤S2中，用户的手势直接在虚拟场景中与虚拟交互对象交互，需要将手势数据从手势输入模块的坐标系转换至增强现实虚拟场景坐标系。

要实现用户通过手势与增强现实虚拟场景中的虚拟交互对象互动，需要实现手势传感器坐标系与增强现实虚拟场景坐标系之间的配准，得到两者之间的坐标转换关系。

本实施例中采用张正友标定法计算手势输入模块与增强现实显示模块的内参与外参，张正友标定法的透镜模型如下：

其中，s为尺度因子，[u,v,1]^T为像素平面坐标，[X_w,Y_w,Z_w,1]^T为世界坐标系的坐标点，[R,T]即矩阵为外参数，R为旋转矩阵，t为平移向量，T表示矩阵的转置，为内参数K， f为摄像机的焦距，[u₀,v₀]^T为摄像机坐标系原点在图像坐标系中的坐标，dx和dy为像素的边长，单位为mm，K＝K₁K₂。

由于张正友标定法是一种基于平面棋盘格的标定，其变换为一个平面到另一个平面的投影映射，即为单应性映射。

其中，K[r₁ r₂ t]即为单应性矩阵H，令上述式子可以简化为其中：

H＝[h₁ h₂ h₃]＝λK[r₁ r₂ t] (4)

根据旋转矩阵的特性，容易得到如下约束：和‖r₁‖＝‖r₂‖＝1，根据式(4)容易知道：

将式(5)代入上述约束可得：

即每个单应性矩阵能提供2个方程，而内参矩阵包含5个参数，要求解，至少需要3个单应性矩阵，因此需要三幅平面标定板的图片用以计算出内参，再根据内参与外参的关系计算外参数。

得到增强现实显示模块与手势传感器的内参与外参后，即可以算出两者坐标系之间的转换关系。

设P_vs为增强现实显示模块中某点的空间坐标，p_vs为该点在像平面上的投影坐标，H_vs为增强现实显示模块的内参，根据小孔成像模型可得：

p_vs＝H_vsP_vs (7)

同理，可以得到：

p_h＝H_hP_h (8)

其中设P_h为手势传感器中某点的空间坐标，p_h为该点在像平面上的投影坐标，H_h为手势传感器的内参。设点p_vs和点p_h为空间中同一点，因此可以通过坐标旋转和平移变换实现该点在两个坐标系之间的变换，记为P_vs＝RP_h+T，其中R为旋转变换，T为平移变换。同时该点的P_vs和P_h的表示可以根据全局坐标系即标定板坐标通过坐标变换得到，如式子P_vs＝R_vsP+T_vs和P_h＝R_hP+T_h，其中R_vs、R_h、T_vs和T_h分别是从全局坐标系到增强现实显示设备摄像机与手势传感器的旋转变换和平移变换，其值可从标定外参矩阵中得到。根据上两式稍加变换可以得到：

根据目标坐标变换关系P_vs＝RP_h+T可得：

根据式(10)可以得到变换关系，最终能够将坐标从手势传感器坐标系转换到增强现实显示设备摄像机坐标系中，实现两者坐标系的配准。

S3、通过多模态融合方法，理解不同模态语义，并融合手势与语音的模态数据，产生多模态融合交互指令。

该步骤将手势输入模块与语音输入模块的原始数据交由多模态理解和融合模块进行处理和融合，根据多通道信息生成用户的交互任务；

在步骤S3中，需要对来自不同输入模块各模态数据进行处理并转换成交互原语，根据语义将原语进行分类和组合，形成最终的交互任务。

语音输入模块语音识别的设备层表示是字符串，而手势输入模块设备层则是坐标信息和点击信息，通过多模态理解处理，将不同模态的信息使用共同的数据结构表示，形成交互原语。

如图3所示，多模态融合部分采用分层的任务模型，任务模型是通过任务的桥梁作用，人以任务规划者的身份来有机地组织计算机的行为，从而将计算机的无目的的功能转变成针对目标的实现方法，简单讲就是把人的意图通过任务这种形式传达给计算机，而分层的思想则是将模态信息从具体的设备信息到最终的要填充的语义抽象为设备层、词法层、语法层和语义层4层。

由于采用的为面向任务的多模态融合模型，需要定义一定的结构用以描述交互任务。如图4所示，一般性的任务结构由任务动作和一系列的任务参数组成，而本实施例根据具体实施场景将任务结构定义为任务动作、对象属性结构和参数的形式，某一类任务结构称为任务槽。对象属性结构用于指代所要交互的对象，如本实施例中的交互过程中：语音输入“测量这里到那里的距离”中，“这里”和“那里”即为表示对象属性结构的原语，用于表示对象的位置信息。任务动作是任务结构的核心，以连接不同对象属性和参数，如本实施例中语音输入的“测量”就为任务动作。参数为任务动作所需要的信息，如本实施例中的“测量”需要“距离”参数补充，通过修改参数可以组合不同的任务。需要注意的是不同的任务动作可能对应不同的任务结构，如本实施例中的“测量这里到那里的距离”需要填充一个任务动作、两个对象属性结构和一个参数，而任务“标记这个位置”则只需要填充一个任务和一个对象属性结构即可。根据任务槽的填充状态可以判断一个任务是否应该提交执行，若任务槽仍需要其他信息则等待用户的进一步输入，若任务槽已经填充完毕则立即提交解释执行。

参见图5，图5示出多模态融合算法流程，其步骤包括：

步骤S31，对接收到的输入事件分类，若提取出任务关键字，则转步骤S32。否则，按输入通道分别填入语音时间队列或手势事件队列，并形成参数栈；

步骤S32，根据任务关键字产生相应的任务槽，放入交互上下文中；

步骤S33，在事件队列中以时间相关性、当前交互上下文中的任务的语法规则为约束进行任务槽填充，判断是否填充完整，若完整，则提交解释执行，否则返回等待进一步填充；

步骤S34，对任务进行解释执行，并清空上下文。若解释失败，任务无法执行，抛出异常并记录上下文。

参见图6，图6示出本实施例中采用的分层任务模型的体系结构，其结构包括：事件管理子***，负责接收和管理输入模块的输入信息；工作事件队列，负责用户输入的事件；事件动作转化表，负责将工作事件队列的事件与动作映射；事件参数转化表；事件对象属性转化表；交互上下文，负责管理当前和历史任务槽信息；命令整合器，负责将填充任务槽，整合成任务。

为了更好地描述本发明提出的基于增强现实的移动式多模态交互方法，下面将具体介绍本发明方法在具体的应用场景中的步骤。图2示出本实施例的一种具体实施场景的交互流程，所述具体实施场景描述了通过本发明所述交互方法获取地图上两点之间距离，其主要步骤包括：

步骤R1，增强现实显示模块将信息以虚拟场景的虚拟交互对象和虚拟显示对象的方式展示。具体的，本实施例的所述具体实施场景的增强现实虚拟场景包括虚拟地图和信息概况。虚拟地图为虚拟交互对象，用户能够通过多模态交互方式进行交互。而信息概况为虚拟信息对象，用于显示该地图显示区域所在的地区、天气、交通情况等；

步骤R2，用户通过语音说出：“测量这里到那里的距离”，同时用户用手点击虚拟场景的虚拟地图的两个位置，分别作为起点和终点；

步骤R3，语音输入模块和手势输入模块将步骤R2的用户的语音和手势原始数据传入多模态理解和融合模块，将原始数据转换为交互原语，并根据语法规则分成不同类别的原语，最后利用任务驱动机制将不同原语组合，形成最终的交互任务，交由***执行；

步骤R4，***完成距离测量任务后，将距离测量返回至虚拟场景中。具体的，信息反馈方式可以为虚拟信息对象以文本的方式显示，或者通过语音播报的方式反馈用户。

本实施例提出的一种基于增强现实的移动式多模态交互方法包括以下步骤：通过增强现实方式显示人机交互界面，增强现实虚拟场景包括虚拟物体等交互信息；用户通过手势和语音的方式发送交互指令，通过多模态融合方法，理解不同模态语义，并融合手势与语音的模态数据，产生多模态融合交互指令；用户交互指令作用后，其作用结果返回增强现实虚拟场景中，通过场景的变化进行信息反馈。本实施例提出的一种基于增强现实的移动式多模态交互装置包括手势传感器、PC机、麦克风、光学透过式增强现实显示设备、WiFi路由器。

本实施例中，通过增强现实技术将信息以虚拟场景的虚拟交互对象和虚拟显示对象的方式展示。用户通过手势输入模块和语音输入模块采用多通道交互方式与增强现实虚拟场景中的虚拟交互对象进行交互。根据交互产生的原始数据，多模态理解和融合模块进行实现多模态通道交互的融合，生成用户的交互任务。交互任务交由***执行完后，其执行结果返回增强现实虚拟场景，实现交互的反馈。通过利用增强现实技术的信息增强性，扩展用户获取信息的维度。同时又通过多模态融合技术实现多种效应通道的并行和协作，提供了集成而灵活的自然交互方式。依托于增强现实技术的增强性和多模态交互的交互性，提供了一种自然直观、高效的交互方式。

同时又因为本发明提供的一种基于增强现实的移动式多模态交互装置，采用光学透过式增强现实头戴式显示器HoloLens和手势传感器Leap Motion，通过连接机构将两者结合，实现了所述交互设备的便携性和移动性，使得用户在户外、移动工作环境下也能正常实施交互，提供了良好的便携性和移动性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于增强现实的移动式多模态交互方法，其特征在于，所述的多模态交互方法包括以下步骤：

2.根据权利要求1所述的基于增强现实的移动式多模态交互方法，其特征在于，步骤S1中所述的增强现实虚拟场景包括虚拟交互对象和虚拟信息对象，其中，所述的虚拟交互对象，拥有多模态交互能力和信息表现能力；所述的虚拟信息对象，拥有信息表现能力。

3.根据权利要求1所述的基于增强现实的移动式多模态交互方法，其特征在于，步骤S2中通过手势发送交互指令操作，其中，手势的交互对象为增强现实虚拟场景中的虚拟交互对象，交互方式包括：对虚拟交互对象实施点击、拖动或者触碰操作。

4.根据权利要求3所述的基于增强现实的移动式多模态交互方法，其特征在于，步骤S2中要实现用户通过手势与增强现实虚拟场景中的虚拟交互对象互动，需要实现手势传感器坐标系与增强现实虚拟场景坐标系之间的配准，得到两者之间的坐标转换关系，采用张正友标定法计算手势传感器与增强现实显示设备的内参与外参，张正友标定法的透镜模型如下：

H＝[h₁ h₂ h₃]＝λK[r₁ r₂ t] (4)

将式(5)代入上述约束可得：

5.根据权利要求1所述的基于增强现实的移动式多模态交互方法，其特征在于，步骤S3中所述的多模态融合方法采用面向任务的分层融合模型。

6.根据权利要求5所述的基于增强现实的移动式多模态交互方法，其特征在于，所述的面向任务的分层融合模型的实现过程如下：通过词法层统一不同通道的输入形式，使用同一原语表达不同通道的同一内容；把来自词法层的原语信息按照语法规范分成表示命令的原语、表示对象的原语、表示对象属性的原语；语义层利用任务驱动机制，最终将原语组合成各种具体的任务。

7.根据权利要求1所述的基于增强现实的移动式多模态交互方法，其特征在于，步骤S4中通过增强现实虚拟场景进行信息反馈方法包括：通过虚拟信息对象显示文本和图形信息；通过虚拟交互对象的状态表现。

8.一种基于增强现实的移动式多模态交互装置，其特征在于，所述的多模态交互装置包括手势传感器、PC机、麦克风、增强现实显示设备，其中，所述的势传感器通过支撑结构安装在所述的增强现实显示设备上，其数据接口通过USB数据线的方式与所述的PC机相连，用于捕获控制者的手势位置和姿态；

9.根据权利要求8所述的基于增强现实的移动式多模态交互装置，其特征在于，所述的多模态交互装置还包括WiFi路由器，所述的PC机通过WiFi路由器与所述的增强现实显示设备之间进行无线网络通信。

10.根据权利要求8所述的基于增强现实的移动式多模态交互装置，其特征在于，所述的手势传感器采用Leap Motion，所述的增强现实显示设备采用HoloLens。