CN104410883B

CN104410883B - 一种移动可穿戴非接触式交互***与方法

Info

Publication number: CN104410883B
Application number: CN201410712639.2A
Authority: CN
Inventors: 徐向民; 许望
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2014-11-29
Filing date: 2014-11-29
Publication date: 2018-04-27
Anticipated expiration: 2034-11-29
Also published as: CN104410883A

Abstract

本发明公开了一种移动可穿戴非接触式交互***与方法。该***具体包含图像采集模块、手势识别模块、嵌入式微控制器模块、语音采集模块、语音处理模块和骨传声模块，它们在物理上集成为用户可头戴设备或便携式可穿戴整体。该***集成了手势检测与跟踪、语音识别等交互功能，所述交互方法并能够将交互信息转换为终端所需的控制指令并通过网络传输到终端实现对终端的控制，另外又创造性地增加骨传导技术，为用户提供个性化服务，同时也为听障人群提供享受电视娱乐的新平台；也对现有机顶盒进行改造，使得***的使用范围大大拓宽，降低***成本，也为用户带来了极大的便捷。

Description

一种移动可穿戴非接触式交互***与方法

技术领域

本发明属于计算机视觉与人机交互技术领域，具体涉及一种移动可穿戴非接触式交互***与方法。

背景技术

随着科学技术的发展，人们的生活越来越便利，家电的功能越来越强大，提供多种个性化服务；目前对家电的控制主要依赖于键盘和键盘按钮，随着越来越多的功能；繁琐的用户学习机制使得交互更加困难。为了使人与计算机的交流更加自然，使人与计算机的交流变得像人与人交流一样自然，应该充分调用人本身的各个感觉信息通道，如语音、手势、肢体动作等。

目前智能电视已经极为普及，与此同时智能电视控制技术也已经如火如荼，现有技术中，与智能电视的人机交互方案主要是通过智能电视机体上的固定摄像头和麦克风，而用户在观看电视时与电视往往有一定的距离，因此，该方案不仅缺乏可移动性而且存在资源浪费的弊端。

同时，智能电视的高清视频资源来自于电视机顶盒，随着用户需求的不断提升，机顶盒的功能越来越丰富，传统的遥控方案存在按键多操作复杂等影响用户交互的弊端，用户也越来越不满足于这一传统的交互方式。

因此，对于智能电视等智能家电，需要有一种能为用户提供个性化，更能贴近自然习惯的人机交互方式。

发明内容

为了克服现有技术存在的上述不足，本发提出一种移动可穿戴非接触式交互***与方法，以增加用户体验。

本发明至少通过如下技术方案之一实现。

一种移动可穿戴非接触式交互***，该***包括图像采集模块、手势识别模块、嵌入式微控制器模块、语音采集模块、语音采集模块和骨传声模块，其中，

图像采集模块，捕获用户在操作移动可穿戴非接触式交互***即本***时做出的肢体动作信息，并将所述肢体动作信息发送到手势识别模块；

手势识别模块将上述肢体动作信息转化成动态图像序列，并对图像进行预处理，全屏搜索和识别用户手势，同时对手势进行肤色自适应跟踪，并将跟踪结果发送到嵌入式微处理器模块；

嵌入式微处理器模块将上述手势跟踪结果准确反映出手势位置并映射为控制指令，并通过网络实时将本***的操作界面与上述手势位置和控制指令发送到功能终端；

语音采集模块用于实时捕获用户的语音输入信息，并将所述语音输入信息发送到语音处理模块；

语音处理模块对上述语音输入信息进行降噪处理，通过关键字识别出固定的控制指令语句，并将上述控制指令语句发送到嵌入式微处理器模块；

嵌入式微处理器模块进一步根据上述控制指令语音转化为相应的控制指令，并通过网络实时将上述控制指令发送到功能终端；

嵌入式微处理器模块还进一步根据用户和本***的交互结果，将需向用户传达的语音提示信息发送到骨传声模块；

骨传声模块根据上述语音提示信息向用户播放相应的语音。

进一步的，所述嵌入式微处理器模块为移动终端或者计算机，尤其是一种基于可穿戴的移动终端或者计算机。

进一步的，功能终端包括USB控制器、电视机顶盒和电视机显示器，其中：

USB控制器包含WiFi发射接收模块和STM32主控制器，WiFi发射接收模块用于发射WiFi无线信号，与嵌入式微处理器模块建立连接，并将从嵌入式微处理器模块接收到的手势位置与控制指令信息发送到STM32主控制器；

所述STM32主控制器用于将上述手势位置与控制指令信息转化为相应的鼠标光标移动信息，然后再通过USB接口将所述光标移动信息发送至电视机顶盒；

电视机顶盒用于接收上述光标移动信息，并将上述上述信息发送到电视机显示器；

电视机显示器用于显示本***的操作界面，并接收上述光标移动信息，并将光标显示出来。

进一步的，所述图像采集模块、手势识别模块、嵌入式微控制器模块、语音采集模块、语音处理模块、骨传声模块在物理上集成为用户可头戴设备或便携式可穿戴整体。

进一步的，所述图像采集模块为便携式可穿戴设备，固定于用户头部可捕获用户动作位置处。

进一步的，嵌入式微处理器模块根据用户手势位置和形态信息，确定对应于该用户手势位置和形态信息的交互操作命令，并实时发送至USB控制器；

所述USB控制器实时接收用户手势位置和形态信息，并实时向电视机显示器输出对应于用户手的指针元素的图像信号，从而使电视机显示器界面上的指针元素的运动轨迹与用户手运动轨迹保持同步。

一种移动可穿戴非接触式交互方法，其包括：

S1：图像采集模块捕获用户操作该***时的肢体动作信息，肢体动作信息包括手势信息；

S2：手势识别模块在上述手势信息中进行全屏搜索用户手势信息，获取手势位置和形态信息；

S3：嵌入式微处理器模块确定对应于手势位置和形态信息的交互操作命令，并实时提供对应于执行该交互操作命令后的电视机显示器界面上的显示信号。

进一步的，该方法进一步包括：

S4：***初始化，***进行肤色感知与记录；

S5：手势识别模块识别五指张开手势，***进入控制模式；

S6：手势识别模块识别用户的固定手势；

S7：嵌入式微处理器模块根据所述用户手势位置和形态信息确定相应的交互操作命令；

S8：实时在电视机显示器界面上显示对应于用户手的指针元素图像信号。

进一步的，该方法进一步包括：该方法进一步包括：

S9：语音采集模块实时捕获用户的语音输入信息；

S10：语音处理模块根据上述语音输入信息转化为相应的控制指令；

S11：嵌入式微处理器根据S10中控制指令在电视机显示器界面上显示对应于控制指令的用户交互界面；

S12：骨传声模块通过骨传声耳机向用户播放***提供的语音提示信息；

S13：骨传声模块通过骨传声耳机向用户播放电视机的声音信息。

进一步的，所述捕获用户手势信息为：捕获用户在与该***进行交互时做出的精确定位操作和非精确定位操作；

所述精确定位操作包括：用户的手在空间中移动控制电视机显示器界面上虚拟指针在二维方向上自由移动；识别出用户手的三种不同状态以及状态变化时对应手的虚拟指针元素在电视节显示器界面中的位置，其中所述手的状态包括五指张开状态、只伸出食指状态和握拳状态；五指张开状态表示进入手势控制模式；只伸出食指状态表示对应于显示器界面上鼠标的移动；握拳状态表示选定特定图标并确定；

所述非精确定位操作包括对固定动态手势的识别，该动态手势为：用户只伸出食指并用食指在空中顺时针画一设定半径的完整圆，该动态手势表示在当前页面基础上选择后退操作；

所述非精确定位操作还包括对固定动态手势的识别，该动态手势为：用户只伸出食指并用食指在空中顺时针画一设定半径的完整圆，该动态手势表示在当前页面基础上选择后退操作。

与现有技术相比，本发明具有如下优点和技术效果：

从上述技术方案可以看出，本发明提出了一种移动可穿戴非接触式交互***与方法。该***具体为一套包含手势识别与跟踪、语音识别的综合人机交互***。用户可以通过该穿戴式***的普通摄像头以及双麦克风，通过手势控制加语音控制的自然人机交互方式完成对现有电视机顶盒的控制。

同时，该***还采用骨传导技术对正常用户提供个性化服务，对聋哑残疾人和老年人提供助听服务。***采用普通摄像头和双麦克风，成本明显低于目前市场上热门的Kinect 和 LeapMotion 等深度摄像头方案。

本发明一种移动可穿戴非接触式交互***不限制具体穿戴方式，可以是头箍、眼镜、帽子、头盔等头戴式物件。

本发明功能终端可以为任意的显示设备以及交互界面，在交互界面上加入与用户手势实时对应指针的方案可以方便用户进行一系列非接触式交互操作。而且这种交互方式更贴近人们的自然习惯，降低了用户对操作设备的学习成本，增加了用户在使用该***时的操作舒适度。并且，本发明一种可穿戴非接触式交互***和方法还可以对多终端设备进行控制，进一步提高控制端资源的利用率。

附图说明

图1为一种移动可穿戴非接触式交互***结构示意图；

图2为一种移动可穿戴非接触式交互***功能终端示意图；

图3为一种移动可穿戴非接触式交互***手势检测与跟踪算法流程图；

图4为一种移动可穿戴非接触式交互***基于HMM语音识别流程图；

图5a~图5c分别为一种移动可穿戴非接触式交互***操的五指张开、食指伸出和握拳手势示意图；

图6为一种移动可穿戴非接触式交互***流程图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。

下面参考附图描述根据本发明实施例的一种移动可穿戴非接触式交互***与方法。

图1为本发明一种可穿戴非接触式交互***机构示意图。

如图1所示，该***包括图像采集模块103、手势识别模块102和嵌入式微处理器模块101，其中：

图像采集模块103，通过该可穿戴***上方摄像头104捕获用户在操作该***时做出的肢体动作信息，并将所述肢体动作信息发送到手势识别模块102；

手势识别模块102将上述肢体动作信息转化成动态图像序列，并采用平滑滤波、直方图均衡等图像预处理方法对上述图像序列进行预处理，主要通过已有的先验条件结合采集完整部分图像来填补或滤除失真的噪声部分，并全屏搜索和识别用户手势，同时对手势进行肤色自适应跟踪，并将跟踪结果发送到嵌入式微处理器模块101；

上述手势识别模块102采用AdaBoost学习算法，具体为根据事先计算出的手势样本特征，再进行分类器训练，从而得出识别结果。

具体手势检测和跟踪算法流程图如图3所示。

算法主要步骤如下：

（1）对固定手型和人脸位置的检测，实现对手势和人脸的初步定位、获取手势的信息和相关初始化，为后面的跟踪提供足够的信息；

（2）由检测时提供的初始信息，结合运动信息和肤色信息并排除人脸肤色对手势跟踪的影响对视频序列中的人手逐帧进行跟踪，获得人手所在的位置信息；

（3）对步骤（2）中获得的人手位置信息进行Kalman滤波，去除噪声的干扰，利用Kalman Filter的预测和平滑得到更加精确的人手位置信息；

（4）结合运动信息和肤色信息评价跟踪所得的人手位置信息，判断目标是否跟踪错误。

嵌入式微处理器模块101将上述手势跟踪结果准确反映出手势位置并映射为控制指令，并通过网络实时将***操作界面与上述手势位置和控制指令发送到功能终端；

所述嵌入式未处理器模块101为移动终端或者计算机，尤其是一种基于可穿戴的移动终端或者计算机。

该***进一步包括语音采集模块106和语音处理模块105；

语音采集模块106用于通过麦克风107实时捕获用户的语音输入信息，并将所述语音输入信息发送到语音处理模块105；

语音处理模块105采用有源消声的原理，使用主动降噪（采用双麦克风，一个用来获取声源信号，另一个麦克风收集相位相反的声源信号，达到物理主动消除噪音的结果）的方法对上述语音输入信息进行降噪处理，通过关键字识别出固定的控制指令语句，并将上述控制指令语句发送到嵌入式微处理器模块101；

具体的，该***的语音识别算法为基于HMM模型的语音识别***，算法流程图如图4所示：

该基于HMM模型的语音识别***的实现分为两部分，第一部分为HMM模型的训练：

（1）采集训练语音信息。训练语音由小组内人员自行录制，语音为指令词汇，属于特定人的声音样本；

（2）经麦克风采样后使用MFCC算法提取特定人的指令词汇的特征参数；

（3）使用第2步的参数进行HMM模型的训练，并得到指令词汇集模型。

第二部分为算法的识别部分：

（1）由麦克风采集语音信号。可以是样本训练人也可为非样本训练人的录音；

（2）经数据采样后使用MFCC算法提取词汇特征参数；

（3）用第2步提取的特征参数进行HMM识别，与第一部分的指令模型进行匹配，得出识别的指令结果。

嵌入式微处理器模块101，进一步可根据上述控制指令语音转化为相应的控制指令，并通过网络实时将上述控制指令发送到功能终端。

该***进一步包括骨传声模块108；

嵌入式微处理器模块101，进一步可根据用户和***的交互结果，将需向用户传达的语音提示信息发送到骨传声模块108；

骨传声模块108根据上述语音提示信息通过骨传导耳机109向用户播放相应的语音。

所述摄像头104为普通的2D摄像头，参数指标为130万象素，但不限制于此，还可以为参数不同的普通2D摄像头、3D摄像头和广角摄像头等具备基本摄像功能的摄像元件。

所述麦克风107为双麦克风模块，采样率为8KHz，但不限制于此，还可以为不同采样率的单麦克风模块、不同采样率的双麦克风模块等。

所述骨传导耳机109为普通的骨传导耳机，但不限制于此，骨传声模块108和骨传导耳机109也可以为普通的音频传导模块和普通的耳机等。

更具体的，该***的功能终端包括USB控制器201、电视机顶盒204和电视机显示器206，其中：

USB控制器201包含WiFi发射接收模块202和STM32主控制器203，WiFi发射接收模块202用于发射WiFi无线信号，与嵌入式微处理器模块101建立连接，并将从嵌入式微处理器模块101接收到的手势位置与控制指令信息发送到STM32主控制器203；

所述STM32主控制器203用于将上述手势位置与控制指令信息转化为相应的鼠标光标移动信息，然后再通过USB接口将所述光标移动信息发送至电视机顶盒204；

电视机顶盒204用于接收上述光标移动信息，并将上述上述信息发送到电视机显示器206；

电视机显示器206用于显示该***的操作界面，并接收上述光标移动信息，并将其显示出来。

所述图像采集模块103、手势识别模块102、嵌入式微控制器模块101、语音采集模块106、语音处理模块105、骨传声模块108在物理上集成为用户可头戴设备或便携式可穿戴整体。

所述图像采集模块103为便携式可穿戴设备，或固定于用户头部可捕获用户动作位置处。

图像采集模块103，进一步用于实时捕获用户响应与该***界面而做出的用户手势位置和形态信息；

嵌入式微处理器模块101，用于根据用户手势位置和形态信息，确定对应于该用户手势位置和形态信息的交互操作命令，并实时发送至USB控制器201；

所述USB控制器201，实时接收用户手势位置和形态信息，并实时向电视机显示器输出对应于用户手的指针元素的图像信号，从而使电视机显示器界面上的指针元素的运动轨迹与用户手运动轨迹保持同步；

嵌入式微处理器模块101，进一步实时向用户提供执行对应于用户手势位置和形态信息的交互操作命令后的电视机显示器界面显示信号。

该移动可穿戴非接触式交互***的嵌入式微处理器模块上可以搭载Windows等嵌入式***，***的网络通信使用Socket接口实现。通信过程中***采用客户端与服务器模型，控制终端将发送的消息解释为函数调用。在客户端与服务器模型中，客户应用程序向服务器程序请求服务。服务器空闲时，连接建立，客户端将消息通过网络协议发送，接收端将消息解析为函数调用以实现发送方的远程控制。

具体的，该移动可穿戴非接触式交互***的控制指令由WiFi无线网络发送，网络发送模式采用CS架构的模式，可以实现对多种平台的控制，且指令传输速度快捷，用户操作***时，***实时性与交互性良好。

一种移动可穿戴非接触式交互方法，该方法包括：

捕获用户操作该***时的肢体动作信息，尤其是手势信息；

在上述手势信息中进行全屏搜索用户手势信息，获取手势位置和形态信息；

确定对应于手势位置和形态信息的交互操作命令，并实时提供对应于执行该交互操作命令后的电视机显示器界面上的显示信号。

所述捕获用户手势信息为：捕获用户在与该***进行交互时做出的精确定位操作和非精确定位操作。

所述精确定位操作包括：用户的手在空间中移动控制电视机显示器206界面上虚拟指针在二维方向上自由移动；识别出用户手的三种不同状态以及状态变化时对应手的虚拟指针元素在电视节显示器界面中的位置，其中所述手的状态包括五指张开状态（图5a）、只伸出食指状态（图5b）和握拳状态（图5c）；五指张开状态（图5a）表示进入手势控制模式；只伸出食指状态（图5b）表示对应于显示器界面上鼠标的移动；握拳状态（图5c）表示选定特定图标并确定。

所述非精确定位操作包括对手势趋势的控制：固定手势检测成功后，确定中心点，将光标的移动映射为手势移动的八个方向，光标的移动速度由手势偏离中心点的距离决定，分为两级速度。用户只需向单一方向移动就可以实现对鼠标的匀速移动。选择时采用悬停方式，悬停 3S 后将四个移动趋势转换为光标的选择。

所述非精确定位操作还包括对固定动态手势的识别，该动态手势为：用户只伸出食指并用食指在空中顺时针画一半径大约为10cm的完整圆，该动态手势表示在当前页面基础上选择后退操作。

该方法进一步包括***初始化，***进行肤色感知与记录。

该方法进一步包括识别五指张开手势，***进入控制模式。

该方法进一步包括：

识别用户的固定手势；

根据所述用户手势位置和形态信息确定相应的交互操作命令；

实时在电视机显示器界面上显示对应于用户手的指针元素图像信号。

该方法进一步包括：

实时捕获用户的语音输入信息；

根据上述语音输入信息转化为相应的控制指令；

根据上述控制指令在电视机显示器界面206上显示对应于控制指令的用户交互界面；

通过骨传声耳机向用户播放***提供的语音提示信息；

通过骨传声耳机向用户播放电视机的声音信息。

下面，根据该移动可穿戴非接触式交互***的工作流程图（图6）简要描述该***的运行流程：

***启动之后，便开始通过摄像头和麦克风进行视频数据和音频数据的采集。

对于视频数据，在对其进行预处理后进行全屏的检测和识别，结合人脸检测（排除肤色影响）提取手势分割，为用户提供控制权与可控信息，接着转入手势跟踪环节，将跟踪到的信息映射为控制信号通过网络发送到控制终端。

同时，语音信号也会实时采集音频数据，在识别为命令后发出中断并远程发送命令，从而实现控制远程终端的目的。

从上述技术方案以及***工作流程可以看出，在本发明实施方式中，提出了一种移动可穿戴非接触式交互***与方法。该***具体为一套包含手势识别与跟踪、语音识别的综合人机交互***。用户可以通过该穿戴式***的普通摄像头以及双麦克风，通过手势控制加语音控制的自然人机交互方式完成对现有电视机顶盒的控制。

本发明实施方式的功能终端可以为任意的显示设备以及交互界面，在交互界面上加入与用户手势实时对应指针的方案可以方便用户进行一系列非接触式交互操作。而且这种交互方式更贴近人们的自然习惯，降低了用户对操作设备的学习成本，增加了用户在使用该***时的操作舒适度。

并且，本发明一种可穿戴非接触式交互***和方法还可以对多终端设备进行控制，进一步提高控制端资源的利用率。

Claims

1.一种移动可穿戴非接触式交互***，其特征在于，该***包括图像采集模块、手势识别模块、嵌入式微处理器模块、语音采集模块、语音处理模块和骨传声模块，其中，

嵌入式微处理器模块进一步根据上述控制指令将语音转化为相应的控制指令，并通过网络实时将所述相应的控制指令发送到功能终端；

骨传声模块根据上述语音提示信息向用户播放相应的语音；功能终端包括USB控制器、电视机顶盒和电视机显示器，其中：

电视机顶盒用于接收上述光标移动信息，并将上述信息发送到电视机显示器；

电视机显示器用于显示本***的操作界面，并接收上述光标移动信息，并将光标显示出来；具体手势检测和跟踪算法主要步骤如下：

（3）对步骤（2）中获得的人手位置信息进行Kalman滤波，去除噪声的干扰，利用KalmanFilter的预测和平滑得到更加精确的人手位置信息；

（4）结合运动信息和肤色信息评价跟踪所得的人手位置信息，判断目标是否跟踪错误；

语音处理模块基于HMM模型的语音识别***，实现分为两部分，第一部分为HMM模型的训练：

（1）采集训练语音信息；训练语音由小组内人员自行录制，语音为指令词汇，属于特定人的声音样本；

（3）使用第（2）步提取得到的特征参数进行HMM模型的训练，并得到指令词汇集模型。

2.根据权利要求1所述的一种移动可穿戴非接触式交互***，其特征在于，所述嵌入式微处理器模块为移动终端或者计算机。

3.根据权利要求1所述的一种移动可穿戴非接触式交互***，其特征在于，所述图像采集模块、手势识别模块、嵌入式微处理器模块、语音采集模块、语音处理模块、骨传声模块在物理上集成为用户可头戴设备或便携式可穿戴整体。

4.根据权利要求1所述的一种移动可穿戴非接触式交互***，其特征在于，所述图像采集模块为便携式可穿戴设备，固定于用户头部可捕获用户动作位置处。

5.根据权利要求3所述的一种移动可穿戴非接触式交互***，其特征在于，嵌入式微处理器模块根据用户手势位置和形态信息，确定对应于该用户手势位置和形态信息的交互操作命令，并实时发送至USB控制器；

6.一种利用权利要求1~5任一项所述移动可穿戴非接触式交互***的移动可穿戴非接触式交互方法，其特征在于包括：

S1：图像采集模块捕获用户操作所述可穿戴非接触式交互***时的肢体动作信息，肢体动作信息包括手势信息；

S3：嵌入式微处理器模块确定对应于手势位置和形态信息的交互操作命令，并实时提供对应于执行该交互操作命令后的电视机显示器界面上的显示信号；该方法进一步包括：

S4：***初始化，***进行肤色感知与记录；

S5：手势识别模块识别五指张开手势，***进入控制模式；

S6：手势识别模块识别用户的固定手势；

S8：实时在电视机显示器界面上显示对应于用户手的指针元素图像信号；该方法进一步包括：

S9：语音采集模块实时捕获用户的语音输入信息；

S13：骨传声模块通过骨传声耳机向用户播放电视机的声音信息；所述捕获用户手势信息为：捕获用户在与该***进行交互时做出的精确定位操作和非精确定位操作；

所述非精确定位操作包括对固定动态手势的识别，该动态手势为：用户只伸出食指并用食指在空中顺时针画一设定半径的完整圆，该动态手势表示在当前页面基础上选择后退操作。