CN106569613A

CN106569613A - 一种多模态人机交互***及其控制方法

Info

Publication number: CN106569613A
Application number: CN201610999277.9A
Authority: CN
Inventors: 陈玥同; 陈杰; 朱双华; 赵海峰; 王峻科
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2017-04-19

Abstract

本发明公开了一种多模态人机交互***及其控制方法，主要交互过程为交互信息采集，交互动作识别，交互指令映射，逻辑处理单元，交互动作响应。突破语音、触摸手势、体感手势交互的识别算法，包括触点动态跟踪和运动轨迹匹配算法、物理参数模型匹配算法、多用户交互队列机制。设定触控/体感手势交互映射指令、逻辑处理、协同/互斥访问机制，将用户操控指令转化为应用***调度执行的服务指令，支持多人交互，***有较强的抗干扰能力与识别效率。

Description

一种多模态人机交互***及其控制方法

技术领域

本发明属于人工智能技术领域，特别涉及一种多模态人机交互***及其控制方法。

背景技术

随着传感器技术、智能计算技术、云计算、大数据等新兴技术的发展，人机交互朝着以人为本、增强感知、方便用户的方向不断发展。传统的鼠标、键盘等交互方式已经不能满足人机交互的需求，新型、高效、便捷的人机交互环境亟需建立，以实现人与***的自然高效互动、用户意图的准确理解。

目前较为成熟的交互方式有如下几种：(1)语音交互。用户通过语音向目标程序发出指令，***理解用户意图，做出相应动作。见文献1：G.Potamianos，C.Neti，J.Luetlin，J.Matthews.Audio-Visual automatic speech recognition：an overview.In：E.Vatikiotis-Bateson.P.Perrier.Issues in Visual and Audio-Visual SpeechProcessing MIT Press，2004.(2)手势控制。用户直接使用肢体、手势、动作与周边的装备或环境互动，身临其境与目标程序交互。见文献2：Kun Qian，JieNiu，HongYang.Developinga Gesture Based Remote Human-Robot Interaction System UsingKinect[J].International Journal of Smart Home，July，2013，7(4).(3)触觉交互。用户通过手指触点、手势与外在物理物体接触而达到直接人机交互的目的。见文献3：M.Benali-Khoudja，M.Hafez，J.M.Alexandre，A.Kheddar.Tactile interfaces：astate-of-the-artsurvey，International Symposium on Robotics.2004.(4)眨眼检测及眼跟踪技术。该技术利用眼动跟踪结果，了解用户的浏览习惯，合理安排***界面的结构布局。见文献4：K.Grauman，M.Betke，J.Lombardi，J.Gips，G.Bradski.Communication via eye blinksand eyebrow raises：Video-based human-computer interfaces，Universal Access inthe Information Society.2(4)，2003，359-373.(5)人脸检测及跟踪。

单一模态的人机交互方式不再满足以人为中心的自然、和谐、高效的人机交互需求，越来越多的研究学者选用多种模态融合的方式。如文献5：南貌.多模态人机交互技术及其应用[J].科技信息，2012，27.文中选用语音、唇读、人脸、人体动作四个方面进行多模态人机交互的融合。在文献6中：Z.Li，R.Jarvis.A multi-modal gesture recognitionsystem in a human-robot interaction scenario[A].Proceedings of IEEEInternational Workshop on Robotic and Sensors Environments[C].Lecco，Italy：IEEE Instrumentation and Measurement Society，2009.41-46.Li和Jarvis选用手势和身体姿态，获取用户三维信息并估计人眼注视方向。但用户的三维信息并不可靠，且计算复杂。Karpov等人基于语音识别和光流头部跟踪实现双模态人机交互，但光流计算量大，受场景光照变化影响明显。见文献7：A.Karpov，A.Ronzhin，I.Kipyatkova.An assistive bi-modal user interface integrating multi-channel speech recognition andcomputer vision[A].Proceedings of HCI[C].0rlando，UnitedStates：SpringerVerlag，2011.454-463.Carrino等人基于穿戴视觉的指示和图标以及语音命令实现多模态人机交互，但很大程度制约了人机交互的自由性和灵活性。见文献8：S.Carrino，A.Péclat，E.Mugellini.Humans and smart environments：a novel multimodal interactionapproach[A].Proceedings of International Conference on Multimodal Interaction[C].Alicante，Spain：Association for Computing Machinery，2011，105-112.目前多模态的人机交互整合方法还不能兼顾所有的交互方式，且用户的自由度与自然度受到一定程度的制约，并不能根据用户的习惯或偏好自主选择与调节。

发明内容

发明目的：为了克服现有技术中存在的问题，本发明提供了一种能够满足人机交互自然、高效、便捷、和谐的交互需求的多模态人机交互***。

技术方案：本发明提供了一种多模态人机交互***，包括物理设备层、交互词法层、交互语法层、交互语义层和应用接口层，所述物理设备层用于交互信息的采集，通过各交互通道的信息采集器获取原始信号；所述交互词法层中分别采用不同的识别算法对各通道的交互动作进行识别，得到语音、体感/触控手势的识别结果；所述交互语法层中通过定义体感/触控手势的交互映射指令，将体感手势、触控手势映射为用户可以理解的交互指令，得到具体的动作含义；所述交互语义层中，将识别到的语音单词与映射的体感/触控手势指令，按照逻辑划分、优先级设定组合成为有意义的短语或句子；所述应用接口层中将具有逻辑的交互指令转换成为目标程序响应的服务指令，在目标程序中做出相关行为响应。

本发明还提供了一种基于上述多模态人机交互***的控制方法，包括以下步骤：

步骤1：通过物理设备层对用户的各种信息进行采集；所述用户的各种信息包括用户身份、语音指令、体感动作、触摸手势；

步骤2：物理设备层将采集到的信息传输到交互词法层中进行处理和识别，得到每个用户身份、语音指令、体感动作和触摸手势的识别结果；

步骤3：在交互语法层定义语音指令、体感动作和触摸手势的交互映射指令，将步骤2中得到每个语音指令、体感动作和触摸手势的识别结果输入到交互语法层根据定义的交互映射指令转为控制指令；

步骤4：在语音识别、自定义体感/触控手势的交互映射指令的基础上，按照逻辑划分及优先级，将语音、动作含义按照一定顺序排列，组合成为逻辑短语或逻辑句子的交互指令；其中，优先级的高低是按照交互语法层识别到指令的先后顺序排列的，其中先识别到的指令的优先级高，随着识别到的时间优先级逐渐降低；

步骤5：将步骤4中得到的逻辑短语或逻辑句子的交互指令转化为应用***调度执行的服务指令，使得***根据用户动作做出相关的响应，完成人机交互。具备整合语音、触控/体感手势的多模态人机交互的能力。

进一步，所述步骤2中的触摸手势的识别方法：首先采集触点信息，然后根据触点的坐标判断手势动作。

进一步，所述步骤2中的体感动作识别方法：定义人体关节点的三维信息，设定每个动作与三维信息之间映射的条件，将采集的三维信息与设定的映射的条件进行匹配然后识别出体感动作。

进一步，所述步骤4中逻辑划分及优先级主要包括三种情况：(1)相辅相成型，即触控/体感手势与语音表示相同或相近的意思，两者可相互替代，则响应优先级最高的消息；(2)互补型，体感/触控与语音表达的意思互为补充，均不能单独表示完整意思，两者缺一不可，此时识别出的体感/触控、语音指令与***响应指令集中的指令进行比配，匹配成功的放入响应集进行相应，匹配不成功的列为辅助信息，辅助信息即***无法单独执行或执行后画面无显著变化的交互指令；(3)互斥型，即手势与语音表达的意思相互排斥，相应优先级最低的消息。

进一步，所述辅助信息包括方位信息和程度信息，所述方位信息为指令响应的位置，所述程度信息为指令响应的程度。

进一步，所述步骤2中对体感动作进行识别时，还包括多人同时进行体感动作识别，主要包括以下步骤：定义了4种用户状态，分别是位置跟踪状态、骨骼跟踪状态、预交互状态、交互状态；所述位置跟踪状态表示当前用户被***发现，且识别出用户当前的位置；骨骼跟踪状态是指用户的整个身体骨架被***识别，所有关节上的三维坐标都可以标出；预交互状态是指***对用户的跟踪识别已经就位，等待用户发起交互请求，用户可以请求进入交互，可以请求退出交互；当***识别出用户的交互请求时，用户进入到交互状态，用户获得完全控制权，可以与***进行无限制互动，直到发出退出请求；根据每个用户被***发现的先后顺序在每个状态下进行列队，根据列队顺序依次响应从而实现多人多人同时进行体感动作的识别。采用这种方法能够更加便捷的实现多人在应用***前进行交互。

进一步，所述步骤2中对体感动作进行识别时，加入了动作速度和加速度的判断条件。这样能够更加准确的识别出体感动作。

工作原理：本发明解决语音、图像、动作、手势等多模态手段人机交互***的方案是：研究分析各通道的交互特点、***组成、结构、交互方式和信息关系等，构建一种基于五层架构的多模态输入整合框架和综合集成方法。首先在各交互通道上得到原始的识别内容；然后根据交互映射指令，逐步将计算机识别的结果转换成为用户可以理解的动作含义；按照三种逻辑划分及优先级的设定，将语音及动作含义组合成为具有意义的交互指令；最后利用协同、互斥访问机制，将用户交互指令转为应用***调度执行的服务指令，使得***具备整合语音、触摸、体感等多模态的能力与机制，提高人机交互自然度与交互效率。其中，开展语音指令交互、触摸手势交互、体感手势交互等手段的识别算法研究；面向立体式大屏与触摸屏，主要以体感、触摸两种交互方式，辅助以语音交互方式，开展自然流畅人机交互的操作需求研究：(1)设定触摸/体感手势+语音的交互方式的逻辑组合与整合机理，(2)设计交互映射指令，(3)设定***动作响应顺序；针对体感手势交互开展多人协同交互研究。

有益效果：与现有技术相比，本发明具有以下优点：(1)本文综合利用语音、手势、体感等新型人机交互控制手段，通过图像、动画、文字、视频等表现方法，解决了各种交互手段在交互方式、交互机制、交互特点、交互接口的差异所带来的上层应用复杂问题；(2)建立交互指令映射、逻辑处理单元及***动作响应机制，实现了交互动作在语义层的一致性描述和响应；(3)将语音指令识别、触摸手势、体感手势三种人机交互手段整合与集成应用，建立一套面向立体式大屏与触摸屏的多样化人机交互的集成框架和标准规范，极大提高用户与***的互动性与交互的自然程度。

附图说明

图1为多模态人机交互***结构图；

图2为多模态人机交互***工作过程流程图；

图3为本发明中语音识别方法示意图；

图4为本发明中触控手势动作的定义与描述；

图5为本发明中触控手势识别算法流程图；

图6为本发明中多用户交互队列机制示意图；

图7为多用户交互队列事例图；

图8为体感/触控与语音交互指令的整合过程示意图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

如图1～2所示，本发明提供了一种多模态人机交互***，包括物理设备层、交互词法层、交互语法层、交互语义层和应用接口层，物理设备层用于交互信息的采集，通过各交互通道的信息采集器获取原始信号；交互词法层中分别采用不同的识别算法对各通道的交互动作进行识别，得到语音、体感/触控手势的识别结果；交互语法层中通过定义体感/触控手势的交互映射指令，将体感手势、触控手势映射为用户可以理解的交互指令，得到具体的动作含义；交互语义层中，将识别到的语音单词与映射的体感/触控手势指令，按照逻辑划分、优先级设定组合成为有意义的短语或句子；应用接口层中将具有逻辑的交互指令转换成为目标程序响应的服务指令，在目标程序中做出相关行为响应。

本发明还提供了一种基于上述多模态人机交互***的人机交互方法，具体包括以下步骤：

步骤1：通过物理设备层对用户的各种信息进行采集；用户的各种信息包括用户身份、语音指令、体感动作、触摸手势。

步骤2：物理设备层将采集到的信息传输到交互词法层中进行处理和识别，得到每个用户身份、语音指令、体感动作和触摸手势的识别结果。

步骤3：在交互语法层定义语音指令、体感动作和触摸手势的交互映射指令，将步骤2中得到每个语音指令、体感动作和触摸手势的识别结果输入到交互语法层并根据定义的交互映射指令转为用户理解的动作含义；

1)语音指令的含义识别：

如图3所示，语音识别的方法包括语音信号的预处理、端点检测、特征提取、训练语音模型、待测语音与训练模型的匹配。

(1)语音信号的预处理包括对原始语音信号的预加重、分帧和加窗。预加重是为了加重语音信号的高频部分，传递函数为FIR高通滤波器，一般采用差分方程实现预加重；分帧是为了得到语音信号的短时平稳性，将语音信号分割为一段一段进行分析，为使帧之间平滑过渡，通常采用交叠分段法；加窗使得主瓣尖锐、旁瓣更低，一般加窗函数采用汉明窗。

(2)语音信号的端点检测，旨在判断与检测原始语音信号中有意义的起止端点，即区分语音/非语音信号。在有噪声的环境中，单纯使用短时能量或者短时过零率不能准确检测出有效语音信号，为了提高算法的鲁棒性，一般采用两者结合的方式。

(3)语音信号的特征提取，Mel频率倒谱系数(Mel-Frequency CepstralCoefficients，简称MFCCs)是最为常见的语音信号特征之一，该特征可以尽可能降低环境噪声、信道、说话人等因素对其造成的影响。MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。

(4)训练语音模型，包括声学模型和语言模型，分别对应语音到音节概率的计算和音节到字概率的计算。声学建模的目标是提供一种有效的方法，计算语音的特征矢量序列与每个发音模板之间的距离，每一个音素均采用隐马尔科夫模型(简称HMM)表示；语言模型是为了在语音识别过程中有效结合语法和语义的知识，提高识别率，主要分为基于规则的语言模型和基于统计的语言模型。本专利中采用科大讯飞语义开放平台——abnf文法规范<Version 3.0>，其中ABNF(扩充巴科斯-瑙尔范式)是BNF的扩充，主要包含文档头部和文档正文。

(5)语音识别的最终目的是从各种可能的音素模型状态序列形成的网络中找出最优的词序列(即最优路径)，属于解码算法或搜索算法的范畴。将待测语音采用基于动态规划的Viterbi算法，在每个时间点的各个状态上，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法本质上是一种动态规划算法，该算法遍历HMM状态网络并保留每一帧语音在某个状态的最优路径得分。

2)触摸手势含义识别：

触摸手势交互是通过识别人手在触摸屏上产生的各种姿势，及其在模型参数空间里的运动轨迹和随时间的变化，捕捉用户交互意图的人机交互方式。触摸手势含义识别方法主要包括触点信息的获取与触摸手势识别、触摸手势定义、触摸手势含义识别。

(1)触点信息的获取与触摸手势识别

本实施例是基于红外多触点触摸屏，在PDP(等离子显示板)显示单元上面安装红外多触点触摸框，触摸框里有电路板，在X、Y方向排布均匀红外发射管和红外接收管，一一对应形成横竖交叉的红外线矩阵，当有手势触摸时，手指会遮挡该点的横竖红外线，多路并行，可以实时采集到触点信息。触点信息的获取具体的实现步骤如下：(11)获得当前显示单元的显示分辨率W×H，红外触摸屏的物理分辨率由框架中能容纳的红外管数目决定，以及多触点红外定位框的定位范围w×h，完成模块初始化；(12)通过USB接口以10次/秒的速度读入当前触点的多触点红外定位框扫描坐标(x_i，y_i)，i＝1，2，3…，其中，i表示读入的次数编号；(13)按以下公式进行坐标转换重复执行(12)，不断获取当前坐标并进行坐标转换。然后为每一个触点分配唯一的ID号，记录每个触点的坐标变化及触点的生命周期，在获得了触点信息之后，采用触点动态跟踪和运动轨迹匹配算法得到触摸手势。

(2)触摸手势定义

本实施例中在交互语法层定义了5种触摸手势动作，如图4所示。单手五指表明场景切换，用于切换三种基本场景，每种场景的精细度不同，显示画面的纹理粗细不同；单手单指表明单击或平移；单手双指表明切换画面视角，即漫游/旋转状态；双手单指相向/背移动表明缩/放画面。

(3)触摸手势含义识别

将识别到的触摸手势与定义的触摸手势进行对应得到对应的含义。

如图5所示，触摸手势含义识别具体的步骤为：

步骤一：以10次/秒的频率通过USB接口读取红外框感应到的触点位置和触点数量，并转换为屏幕坐标之后，如果当前获得的是单触点，则执行步骤二；如果当前获得两个触点的信息，则执行步骤三；如果当前获得的是五个触点的信息，则执行步骤五；如果当前触点数量为其他，则不响应，并重复步骤一；

步骤二：判断前一扫描周期是否为单触点，如果前一扫描周期内是单触点，表明单手单指移动，向***发出“平移”消息，并转向步骤一；如果前一扫描周期内获得的不是单触点，那么向***发出“单击”消息，并转向步骤一；

步骤三：判断前一扫描周期是否为两个触点，如果前一扫描周期内是两个触点，有两种可能：单手双指与双手单指，则需要进一步计算两点之间像素的欧氏距离，根据公式计算两点之间像素的欧氏距离，(x₁，y₁)和(x₂，y₂)分别为亮点的坐标，然后并转向步骤四；如果前一扫描周期内不是两个触点，则不响应，并转向步骤一；

步骤四：判断欧氏距离d是否大于50，如果d≤50，则表明为单手双指，向***发出“旋转”消息，并转向步骤一；如果d≥50，则表明为双手单指，进一步计算前一扫描周期两点之间的欧氏距离d′。如果d＞d′，表明双手单指向背移动，则向***发出“放大”画面消息，并转向步骤一；如果d≤d′，表明双手单指相向移动，则向***发出“缩小”画面消息，并转向步骤一；

步骤五：表明单手五指，向***发出“切换”画面消息，并转向步骤一。

3)体感手势含义识别：

本发明采用的体感手势识别算法是基于Kinect SDK骨骼数据和深帧数据的追踪***，包括手势参数模型的建立、模型匹配两大部分。其中，手势参数模型的建立主要就是设定体感姿势参数，以及体感姿势与其表示的含义之间的映射关系；模型匹配将采集到的人体的手指、手掌、手肘等关节点的三维信息与设定的体感姿势参数模型匹配，判断当前姿势运动状态，从而识别体感姿势，然后根据映射关系判断其含义。

在本实施例中定义8种基本的交互体感姿势，左右手单独/同时上下左右挥动、举手、张手、握拳、缩放、单击、双击。其中，右臂举过头顶，五指张开，表明用户请求与***交互；双手握拳相向/背移动表明用户缩放画面；右手握拳左右移动，表示平移画面；左手握拳上下移动，表示旋转画面，即漫游状态；单手五指抓取一次是单击；单手五指抓取两次是双击；左臂举过头顶，五指张开，表明用户请求退出交互***。

以挥动左手手臂为例，本发明将左手举至胸前，由左挥至右定义为一套完整的动作，其中左手抬起、胳膊摆至左边最远处、迅速挥手、胳膊摆至右边最远处、手放下，一共五个关键点，分别对每个关键点建模分析。定义几个关键部位的坐标点：(1)手掌(x_hand，y_hand，z_hand)；(2)手腕(x_wrist，y_wrist，z_wrist)；(3)手肘(x_elbow，y_elbow，z_elbow)；(4)脊椎(x_spine，y_spine，z_spine)；(5)肩膀中间(x_{shouldercenter}，y_{shouldercenter}， z_{shouldercenter})。对于抬手动作，手掌比手腕高，手腕比手肘高，手掌与胸持平，满足以下不等式组：y_hand＞y_wrist，y_wrist＞y_elbow，y_hand＜y_{shouldercenter}，，z_hand＜z_elbow，z_elbow＞z_spine。挥手至身体最左边，手掌比手腕远，手腕比手肘远，用以下不等式组表示：x_hand＜x_wrist，x_wrist＜x_elbow，x_elbow＜x_spine，|x_hand-x_spine|＞T_xs。其中T_xs是阈值，表示胳膊需要向左摆动的最小幅度。从左至右挥手时，随时间变化，当前时刻t比前一时刻t-1右移一点，即其中，表示t时刻手掌在x轴上的坐标，表示t-1时刻手掌在x轴上的坐标。由于并不能保证平行挥手，所以在竖直方向会有稍许偏移，即ε_yw是竖直方向上允许移动的最大距离，表示t时刻手掌在y轴上的坐标，表示t-1时刻手掌在y轴上的坐标。挥手停止至身体最右边时，x_hand-x_spine＞T_xe，T_xe表示挥手停止时手掌在身体右侧的最小距离。手放下后，胳膊竖直向下，参数模型为：y_hand＜y_wrist，y_wrist＜y_elbow，y_hand＜y_spine，x_hand＜x_spine。当几个关键部位的坐标点满足上述一系列的条件时说明此时的动作是挥动左手手臂。

按照此方式，本发明还定义了其他手势的运动状态：手由右挥至左、向上挥动、向下挥动、双手握拳向内移动、双手握拳向外移动、单手握拳任意方向移动。在建立手势参数模型之后，获得当前用户手指、手掌、手肘等关节点的三维坐标，代入手势参数模型并与之做匹配，判断当前用户的骨架状态。

本发明在传统模板匹配的基础上，加入了速度、加速度物理属性，提出基于物理参数模型的匹配算法，增加识别度。在定义的8种体感手势动作中，张手、握拳、单击、双击属于小幅度移动，速度较慢，即一段时间Δt内移动的距离较小，且速度变化不大，加速度近似为零；挥手、举手、缩/放属于大幅度挥动手臂，速度较快，其中举手动作加速度较小，几乎匀速；挥手、缩/放动作中加速度较大，且利用正负值可判断手势运动方向。

当多人同时进行手势操作或者一人操作多人观看，本实施例中采用的多用户交互队列方法，较好地避免了因多人协同交互而导致的易受干扰、遮挡、跟踪失败、识别出错等问题，大幅提升人机交互的舒适度与自然度。如图6所示，本发明定义了4种用户状态，分别是位置跟踪状态、骨骼跟踪状态、预交互状态、交互状态。位置跟踪状态表示当前用户被***发现，且识别出用户当前的位置。骨骼跟踪状态是指用户的整个身体骨架被***识别，所有关节上的三维坐标都可以标出。预交互状态是指***对用户的跟踪识别已经就位，等待用户发起交互请求，用户可以请求进入交互，可以请求退出交互。当***识别出用户的交互请求时，用户进入到交互状态，用户获得完全控制权，可以与***进行无限制互动，直到发出退出请求。根据4种用户交互状态，多用户交互的问题转变为排队问题，即根据每个用户的交互状态进行排队。状态优先级从左至右依次递增，用户不断地从低优先级状态升级到高优先级状态。当交互完毕后，退出高优先级状态，重新回到最低优先级状态。当交互状态与预交互状态同时有用户退出交互时，***最先响应高优先级状态的用户，即交互状态的用户首先退出到位置跟踪状态，预交互状态的用户其次。将所有用户放在状态队列中，维护这样一个队列，可以解决多用户交互问题。在应用中，增加支持多人交互的响应，可以达到多人在应用***前进行交互的目的，如图7所示，有5个用户进行交互，用户1～5按照时间顺序进入交互***，并按照时间发展的顺序依次分别进入位置跟踪状态、骨骼跟踪状态、预交互状态、交互状态。t1时刻，5个用户按照时间先后顺序被***识别，用户1～5均处于位置跟踪队列。t2时刻，用户1的整个身体骨架上所有的关节三维坐标被标出，进入骨骼跟踪队列，用户2～5依然处于位置跟踪队列。t3时刻，用户1进入预交互队列，此时他可以选择申请进入交互或者退出交互，本实施例中用户1选择进入交互队列。用户2进入骨骼跟踪队列，用户3～5依然处于位置跟踪队列。t4时刻，***识别出用户1的交互请求，进入交互队列中，可以与***任意交互。用户2进入预交互队列，他选择申请退出交互。用户3进入骨骼跟踪队列，用户4与用户5处于位置跟踪队列。t5时刻，用户1依然与***交互中。***识别到用户2申请的退出交互请求，回到位置跟踪队列。用户3进入预交互队列，他选择进入交互。用户4进入骨骼跟踪队列，用户5依然处于位置跟踪队列。t6时刻，用户1提出退出交互的请求，用户3进入交互队列中，用户4进入预交互队列中，用户5进入骨骼跟踪队列，用户2依然处于位置跟踪队列。t7时刻，***识别到用户1提出的退出请求，回退到位置跟踪队列。用户3提出退出交互请求，用户4进入交互队列并提出退出交互请求。用户5进入预交互状态且申请退出交互。用户2进入骨骼跟踪队列。t8时刻，此时***收到用户3～5提出的退出请求，用户3与用户4的所处级别高于用户5，所以用户3与用于4先回退到位置跟踪队列，用户5其次。又由于用户3进入交互队列的时间早于用户4，所以用户3较用户4先回退到位置跟踪队列。用户2进入预交互队列，用户1进入骨骼跟踪队列；以此类推。

步骤4：在语音识别、自定义体感/触控手势的交互映射指令的基础上，按照逻辑划分及事先定义的优先级，将语音、动作含义按照一定顺序排列，组合成为逻辑短语或逻辑句子的交互指令；其中优先级的高低是按照交互语法层识别到指令的先后顺序排列的，其中先识别到的指令的优先级高，随着识别到的时间优先级逐渐降低。

步骤5：将步骤4中得到的逻辑短语或逻辑句子的交互指令转化为应用***调度执行的服务指令，使得***根据用户动作做出相关的响应。具备整合语音、触控/体感手势的多模态人机交互的能力。

下面结合步骤4与步骤5阐述逻辑划分与***响应：

本实施例将固定时间Δt内发生的一系列动作称为一组动作指令，一组动作指令的整合过程如图8所示，主要分为三种情况：

(1)相辅相成型，即触控/体感手势与语音表示相同或相近的意思，两者可相互替代，比如：语音“放大”与体感手势手臂的相背运动同时进行，前者与后者意思相同，选择一种即可，此时选择排在队列最前面的指令，目标程序响应优先级最高的消息。

(2)互补型，即手势与语音表达的意思互为补充，均不能单独表示完整意思，两者缺一不可，此时识别出的体感/触控、语音指令与***响应指令集中的指令进行比配(指令集以文本形式存储)，匹配成功的放入响应集，匹配不成功的列为辅助信息，辅助信息即***无法单独执行或执行后画面无显著变化的交互指令。本文设定两种辅助型信息：一是方位信息，比如：语音“放大这里”与触控手势单指点击触摸屏同时进行，“这里”即为方位信息，需要先聚焦到“这里”再执行“放大”指令；二是程度信息，比如：语音“五倍”与体感手势缩小操作同时进行，“五倍”即为程度信息，需要先确定“五倍”再执行体感手势“缩小”操作；除此之外的语音识别内容为其他信息，***不响应。***在响应互补型指令时，先确定辅助信息，即先确定方位或程度，然后执行交互指令。

(3)互斥型，即手势与语音表达的意思相互排斥，一般是口误或手误，需要定义优先级确定最终响应。比如语音“旋转”与体感手势右手握拳左右移动同时进行，前者表示“旋转”画面，后者表示“移动”画面，目标程序只响应排在消息队列最后的消息，即优先级最低的消息。

Claims

1.一种多模态人机交互***，其特征在于：包括物理设备层、交互词法层、交互语法层、交互语义层和应用接口层，所述物理设备层用于交互信息的采集，通过各交互通道的信息采集器获取原始信号；所述交互词法层中分别采用不同的识别算法对各通道的交互动作进行识别，得到语音、体感/触控手势的识别结果；所述交互语法层中通过定义体感/触控手势的交互映射指令，将体感手势、触控手势映射为用户可以理解的交互指令，得到具体的动作含义；所述交互语义层中，将识别到的语音单词与映射的体感/触控手势指令，按照逻辑划分、优先级设定组合成为有意义的短语或句子；所述应用接口层中将具有逻辑的交互指令转换成为目标程序响应的服务指令，在目标程序中做出相关行为响应。

2.一种基于权利要求1所述的多模态人机交互***的控制方法，其特征在于：包括以下步骤：

步骤3：在交互语法层定义语音指令、体感动作和触摸手势的交互映射指令，将步骤2中得到的每个语音指令、体感动作和触摸手势的识别结果输入到交互语法层，根据定义的交互映射指令转为控制指令；

3.根据权利要求2所述的多模态人机交互***的控制方法，其特征在于：所述步骤2中的触摸手势的识别方法：首先采集触点信息，然后根据触点的坐标判断手势动作。

4.根据权利要求2所述的多模态人机交互***的控制方法，其特征在于：所述步骤2中的体感动作识别方法：定义人体关节点的三维信息，设定每个动作与三维信息之间映射的条件，将采集的三维信息与设定的映射的条件进行匹配然后识别出体感动作。

5.根据权利要求2所述的多模态人机交互***的控制方法，其特征在于：所述步骤4中逻辑划分及优先级主要包括三种情况：(1)相辅相成型，触控/体感手势与语音表示相同或相近的意思，两者可相互替代，则响应优先级最高的消息；(2)互补型，体感/触控与语音表达的意思互为补充，均不能单独表示完整意思，两者缺一不可，此时识别出的体感/触控、语音指令与***响应指令集中的指令进行比配，匹配成功的放入响应集进行响应，匹配不成功的列为辅助信息，辅助信息即***无法单独执行或执行后画面无显著变化的交互指令；(3)互斥型，手势与语音表达的意思相互排斥，响应优先级最低的消息。

6.根据权利要求5所述的多模态人机交互***的控制方法，其特征在于：所述辅助信息包括方位信息和程度信息，所述方位信息为指令响应的位置，所述程度信息为指令响应的程度。

7.根据权利要求2所述的多模态人机交互***的控制方法，其特征在于：所述步骤2中对体感动作进行识别时，还包括多人同时进行体感动作识别，主要包括以下步骤：定义了4种用户状态，分别是位置跟踪状态、骨骼跟踪状态、预交互状态、交互状态；所述位置跟踪状态表示当前用户被***发现，且识别出用户当前的位置；骨骼跟踪状态是指用户的整个身体骨架被***识别，所有关节上的三维坐标都可以标出；预交互状态是指***对用户的跟踪识别已经就位，等待用户发起交互请求，用户可以请求进入交互，可以请求退出交互；当***识别出用户的交互请求时，用户进入到交互状态，用户获得完全控制权，可以与***进行无限制互动，直到发出退出请求；根据每个用户被***发现的先后顺序在每个状态下进行排队，根据列队顺序依次响应从而实现多人同时进行体感动作的识别。

8.根据权利要求2所述的多模态人机交互***的控制方法，其特征在于：所述步骤2中对体感动作进行识别时，加入了动作速度和加速度的判断条件。