CN104965592A

CN104965592A - 基于语音和手势识别的多模态非触摸人机交互方法及***

Info

Publication number: CN104965592A
Application number: CN201510396954.3A
Authority: CN
Inventors: 周伟达; 梅微星; 俞凯; 朱苏
Original assignee: Suzhou Speech Information Technology Co Ltd
Current assignee: AI Speech Ltd; Suzhou Speech Information Technology Co Ltd
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2015-10-07

Abstract

本发明公开了一种基于语音和手势识别的多模态非触摸人机交互方法及***，在基本的语音识别、手势识别的基础上，通过定义语音和手势的联合语义表示，基于语音识别和手势识别进行语义理解、融合以及多通道信息冲突处理，基于领域先验知识和对话上下文信息优化语音识别和手势识别的语义空间搜索空间，最终基于多轮次交互对用户意图进行理解，提供非常便利、自然的人机交互方式，具有可靠性高、交互成功率高和资源消耗低的优点。

Description

基于语音和手势识别的多模态非触摸人机交互方法及***

技术领域

本发明属于人机交互领域，具体涉及一种基于语音和手势识别的多模态非触摸人机交互方法及***。

背景技术

在当前的高速发展的移动互联网技术领域，人与移动终端(比如手机)的接触越来越多，移动终端在人们的生活中也变得越来越不可或缺。随着移动互联网的发展，更加自然的人机交互方法的需求将会非常强烈。

在移动终端领域，现有的人机交互方法主要包括按键、触摸屏等接触式的交互手段以及基于语音的非触摸的交互方法。而在传统人机交互领域，多通道的人机交互方法正在兴起[1]。这类多通道人机交互界面整合了语音及手势的多通道输入，降低了用户的认知负荷，弥补了单一交互模式给用户带来的限制和负担。但是这类方法采用的是单轮次的命令式交互，缺乏对多轮次对话式人机交互的支持。而多轮次对话式的交互正是更加自然、贴近生活的交互方式。

发明内容

本发明的目的旨在针对上述现有技术中的不足之处，提供一种能给用户提供非常自然的交互体验的基于语音和手势识别的多模态非触摸人机交互方法及***。

本发明的目的可以通过以下技术方案来达到：

本发明第一方面提供一种基于语音和手势识别的多模态非触摸人机交互方法，包括以下步骤：

S1、解析用户输入的语音或手势，确定用户意图；

S2、根据用户意图制定语音与手势的联合语义表示，建立语义搜索空间和手势搜索空间的映射；

S3、当语音和手势多路输入同时存在时，融合语音和手势识别的语义，根据对话的状态切换两种不同的输入通道，处理多路输入冲突时的语义解析；

S4、优化缩小语音识别和手势识别的语义搜索空间，最终得到用户的真实意图。

进一步地，步骤S2包括：

使用对话过程中的用户语义和***反馈语义的联合分布定义***状态；

根据不同的***状态以及语音语义和手势语义的交并集处理，对两种输入的语义作语义映射。

进一步地，步骤S3包括：

支持语音输入和手势输入的双通道识别，并在特定的***状态下自动开启手势识别；

将语音和手势作为互斥输入源，一旦接收到其中一路有效输入后就立即关闭另外一路的输入信息。

在处理多路输入冲突时的语义解析时，步骤S3亦可以采取基于统计机器学习、以分类器的置信度或者概率输出进行通道选择判断以及融合的方法处理多路输入冲突。分类器以语音输入和手势输入的信号数字特征、识别中间结果、识别置信度等作为输入特征，通过数据学习，对语音和手势输入输出信号通道的选择置信度或者概率。若其中一方通道的置信度或者概率值大于设置好的阈值时，则关闭另外一路的输入信息；否则以概率整合的形式合并两路输入的语义解析结果。

进一步地，步骤S4包括：

使用语义槽和对应值的方法进行用户意图理解，使用户的一句话可以被解析为许多的语义槽-对应值对；

对于有歧义的语义槽，使用领域先验知识和对话上下文信息作为先验知识，再通过后验概率的加权，优化缩小语音识别和手势识别的语义搜索空间，修改语音识别和手势识别的语义备选项的置信度或概率值，最终得到用户的真实意图。

本发明第二方面提供一种基于语音和手势识别的多模态非触摸人机交互***，包括语音输入和手势输入模块、多通道输入的语义融合、切换以及冲突解析模块和语义搜索空间优化模块。

所述语音输入和手势输入模块用于接收和识别输入的语音信号与手势信号。

所述多通道输入的语义融合、切换以及冲突解析模块用于根据当前***状态以及使用通道判别分类器进行多通道输入的融合、切换和冲突解决。

所述语义搜索空间优化模块用于根据领域信息和对话上下文内容提供语义搜索空间的优化。

所述语音输入和手势输入模块、多通道输入的语义融合、切换以及冲突解析模块与语义搜索空间优化模块依次串联组成流水过程，用于实现上述的一种基于语音和手势的多模态非接触人机交互方法。

本发明提供的所述于语音和手势识别的多模态非触摸人机交互方法及***定义了语音及手势的联合语义，动态整合语音及手势的语义结果，并基于对话的领域先验知识和上下文信息，通过多轮语音或者手势的混合交互手段对用户的意图进行理解，从而提供给用户一种非常自然的交互体验。

附图说明

图1是本发明提供的基于语音和手势识别的多模态非触摸人机交互方法的流程示意图。

具体实施方式

下面将结合附图对本发明的技术方案作进一步详述：

请参照图1，一种基于语音和手势识别的多模态非触摸人机交互方法，包括以下步骤：

S1、解析用户输入的语音或手势，确定用户意图；

在建立语义搜索空间和手势搜索空间的映射时，先使用对话过程中的用户语义和***反馈语义的联合分布定义***状态，然后根据不同的***状态以及语音语义和手势语义的交并集处理，对两种输入的语义作语义映射。比如在机器给用户提供一个二选一的语义反馈的时候，如“确认还是取消？”，手向左移动表示“确认”，向右移动表示“取消”。具体语义函数表示为，机器反馈＝select(slot1,slot2)，左移＝affirm(slot1)，右移＝affirm(slot2)。其中select(slot1,slot2)表示机器请求用户在两个语义槽slot1和slot2中做选择，affirm(slot)表示确定选择其中一个slot。

在处理多路输入冲突时的语义解析时，首先在特定的***状态下自动开启手势识别，再将语音和手势作为互斥输入源，一旦接收到其中一路有效输入后就立即关闭另外一路的输入信息，两路输入通道可以互相打断，语音输入可以打断手势输入，手势输入可以打断语音输入。比如简单地，在机器给出一个二选一的反馈(比如“拨打座机还是手机？”)时，***同时开启语音输入和手势输入通道。一旦检测到有效的手势输入，则丢弃已有的不完整的语音输入。

在处理多路输入冲突时的语义解析时，亦可以采取基于统计机器学习、以分类器的置信度或者概率输出进行通道选择判断以及融合的方法处理多路输入冲突。分类器以语音输入和手势输入的信号数字特征、识别中间结果、识别置信度等作为输入特征，通过数据学习，对语音和手势输入输出信号通道的选择置信度或者概率。若其中一方通道的置信度或者概率值大于设置好的阈值时，则关闭另外一路的输入信息；否则以概率整合的形式合并两路输入的语义解析结果。基于通道选择置信度的不确定性，可以将语音输入的语义结果和手势输入的语义结果以概率整合的方式融合在一起，最后产生带概率的多候选语义结果(所有候选结果的概率和等于一)。该方法可以处理语音和手势输入的不确定性误差。此外，基于上下文模态的先验概率模型也被考虑进来，增强对当前对话轮次的输入通道预测能力。

在优化缩小语音识别和手势识别的语义搜索空间时，首先使用语义槽(slot)和对应值(value)的方法进行用户意图理解，用户的一句话可以被解析为许多的slot-value对，比如：“打电话给小明”的语义是contact＝小明；在此基础上，对于有歧义的value(即有多个可能的语义槽)，根据领域先验知识缩小语义搜索空间。在指定领域中，value对应多个可能的语义槽slot1,slot2,…,slotk,并有在训练数据中统计的value属于某个slot的先验概率p1,p2,…,p k,则在一般情况下对value进行领域先验解析得到:sloti＝value,(i＝1,…,k)。

对于有歧义的语义槽，还可根据上下文信息缩小语义搜索空间。在上一句机器询问用户并向用户请求某个slot的时候(比如：“请说联系人名字”，slot为“联系人名”)，用户回答的内容解析出该slot对应的value的后验概率加大(比如用户回复“移动”，解析得“联系人名＝移动”的可能性加大)，最终得到用户的真实意图。

在上一句机器询问用户并请求用户在多个某个slot下的多个value之间做选择时(比如机器询问“您是要拨打给小明还是移动？”)，用户回答的内容解析出该slot对应的某个value的后验概率加大，最终得到用户的真实意图。

对应上述基于语音和手势识别的多模态非触摸人机交互方法，可构建一种基于语音和手势识别的多模态非触摸人机交互***，包括语音输入和手势输入模块、多通道输入的语义融合、切换以及冲突解析模块和语义搜索空间优化模块。

本发明提供的所述基于语音和手势识别的多模态非触摸人机交互方法及***定义了语音及手势的联合语义，动态整合语音及手势的语义结果，并基于对话的领域先验知识和上下文信息，通过多轮语音或者手势的混合交互手段优化缩小语音识别和手势识别的语义搜索空间，对用户的意图进行理解。

综上，本发明所述的基于语音和手势识别的多模态非触摸人机交互方法及***具有如下有益效果：

1、使用语音和手势的多模态非接触式交互方法，提供了更加便利、自然的人机交互方式；

2、提供了语音和手势的多模态输入的融合、通道切换以及冲突语义解析方案，可靠性高；

3、使用领域知识和对话上下文信息，降低语义的歧义性，交互成功率高。

4、优化缩小语义搜索空间，资源消耗低。

上面结合附图对本发明进行了示例性的描述，显然本发明的实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1.一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，包括以下步骤：

S1、解析用户输入的语音或手势，确定用户意图；

2.根据权利要求1所述的一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，步骤S2包括：

3.根据权利要求1所述的一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，步骤S3包括：

4.根据权利要求1所述的一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，步骤S3采取基于统计机器学习、以分类器的置信度或者概率输出进行通道选择判断以及融合的方法处理多路输入冲突。

5.根据权利要求4所述的一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，分类器以语音输入和手势输入的信号数字特征、识别中间结果、识别置信度等作为输入特征，通过数据学习，对语音和手势输入输出信号通道的选择置信度或者概率。

6.根据权利要求5所述的一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，若其中一方通道的置信度或者概率值大于设置好的阈值时，则关闭另外一路的输入信息；否则以概率整合的形式合并两路输入的语义解析结果。

7.根据权利要求1所述的一种基于语音和手势识别的多模态非触摸人机交互方法，其特征在于，步骤S4包括：

8.一种基于语音和手势识别的多模态非触摸人机交互***，其特征在于，包括：

语音输入和手势输入模块，用于接收和识别输入的语音信号与手势信号；

多通道输入的语义融合、切换以及冲突解析模块，用于根据当前***状态以及使用通道判别分类器进行多通道输入的融合、切换和冲突解决；

语义搜索空间优化模块，用于根据领域信息和对话上下文内容提供语义搜索空间的优化；

所述语音输入和手势输入模块、多通道输入的语义融合、切换以及冲突解析模块与语义搜索空间优化模块依次串联组成流水过程，用于实现如上述权利要求1至权利要求7所述的一种基于语音和手势的多模态非接触人机交互方法。