CN107798964A

CN107798964A - 一种实时识别手势的手语智能交互设备及其交互方法

Info

Publication number: CN107798964A
Application number: CN201711184055.2A
Authority: CN
Inventors: 郑军; 姜炎; 徐向棋; 孙少明; 王友运; 殷建
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-03-13

Abstract

本发明公开了一种实时识别手势的手语智能交互设备，它包括网络电视、处理器、显示器和摄像头，所述处理器包括获取单元、处理单元、编辑单元和解码单元，所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息和深度信息；所述处理单元用于将所述音频信息转化为文本信息；所述编辑单元用于区分所述音频信息的不同声源，并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画；所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息。本发明可帮助聋哑人理解电机节目，也可帮助聋哑人与电视节目的沟通。

Description

一种实时识别手势的手语智能交互设备及其交互方法

技术领域

本发明涉及人工智能领域，具体地说是一种实时识别手势的手语智能交互设备及其交互方法。

背景技术

手语作为一种可视化语言，它主要靠手及手臂的运动姿态辅以适当的表情和口型来表达语意，是聋哑人与外界交流的重要途径。

目前我国聋哑人口数量巨大，而相对电视节目而言，聋哑人可观看的节目相对单一，仅在一些新闻类节目中会出现手语主持人帮助残疾人了解新闻内容，在娱乐性节目方面，市场上缺乏帮助聋哑人理解节目内容的设备出现。

近几年，虽然手语编辑合成技术和虚拟人合成技术已相对成熟，但用于手语表达的多虚拟人合成技术的应用仍非常少。基于目前Kinect摄像头的手语识别技术日益成熟，本发明也利用Kinect摄像头及相关技术来获取手语手势的图像和深度信息，通过处理器处理、识别手语信息，并转化为文本，作为设备的反馈信息，实现人机交互的任务。

发明内容

本发明所要解决的技术问题是克服上述现有技术的缺陷，提供一种实时识别手势的手语智能交互设备及其交互方法，可协助聋哑人理解娱乐性节目内容。

为此，本发明采用如下的技术方案：一种实时识别手势的手语智能交互设备，它包括网络电视、处理器、显示器和摄像头，所述处理器分别与网络电视、显示器连接，它包括获取单元、处理单元、编辑单元和解码单元；

所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息与深度信息；

所述处理单元用于将所述音频信息转化为文本信息；

所述编辑单元用于区分所述音频信息的不同声源，并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画；

所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息；

所述显示器与处理器连接，用于显示虚拟人物手语动画；

所述网络电视用于向处理器发送信息，接收和显示处理器发送的信息；

所述摄像头与处理器连接，用于获取观看者手语手势的图像信息和深度信息并将所述图像信息和深度信息发送至处理器。

进一步地，所述声源为音色或音调。

进一步地，所述解码单元采用卷积神经网络算法进行处理和识别观看者手语手势的图像信息和深度信息。

进一步地，所述摄像头为Kinect摄像头。

本发明还提出了一种实时识别手势的手语智能交互方法，所述手语智能交互方法包括：

获取网络电视的音频信号并进行预处理；

对所述音频信号根据信号特点进行截取划分，得到有效声源；

根据声音特点对音频信号进行不同声源的区分，并判断所属声源的人物性别和形体形象，进而在虚拟人物库中选择相应的虚拟人物；

利用虚拟人物编辑技术和动画合成技术生成虚拟人物手语视频；

将所述虚拟人物手语视频在显示器上显示。

进一步地，所述手语智能交互方法还包括：

通过训练大量的手语手势图像信息和深度信息得到卷积神经网络模型；

获取人的实时手语手势图像信息和深度信息；

根据卷积神经网络模型将实时手语手势图像信息和深度信息解码处理转化为文本信息；

将所述文本信息并通过网络电视连接上传至网络。

与现有技术相比，本发明的有益效果是：

（1）基于Kinect的手语智能交互式平台设备，与一般基于Kinect的手语识别技术相比，首先对获取到的手语手势图像信息和深度信息进行预处理，再将预处理的结果输入到经过大量样本训练得到的卷积神经网络模型，通过该模型可将预处理结果进行分类，并将分类结果输出，并最终转化为文本信息。卷积神经网络法有效地提高了手势识别的正确率；

（2）基于Kinect的手语智能交互式平台设备，与一般虚拟人物编辑合成方法相比，提出根据音频信号进行声源识别的方法，在获取到网络电视音频信号之后，对音频信号进行不同声源的区分处理，并根据音色、音调等判断人物性别和大概的形体形象，进而在虚拟人物库中选择相应的虚拟人物，帮助聋哑人理解一些较为复杂的多人对话场景；

（3）基于Kinect的手语智能交互式平台设备，与其他手语设备连接Kinect摄像头，能够获取人的手语手势图像信息和深度信息，并传输至设备处理器中进行处理和识别，得到相应的文本信息作为反馈信息，并通过网络电视连接将反馈信息上传至网络；

（4）仅能方便聋哑人观赏更多娱乐性节目，还能加强聋哑人的社会参与度，极大地丰富聋哑人的娱乐生活。

附图说明

图1为实时识别手势的手语智能交互设备主要结构简图。

图2为基于语音识别的虚拟人物构造方法流程图。

附图标记说明：1-网络电视，2-处理器，3-显示器，4-观看者，5-摄像头。

具体实施方式

下面通过具体的实施例并结合附图对本发明做进一步的详细阐述。

如图1所示，本发明提供了一种实时识别手势的手语智能交互设备，它包括网络电视、处理器、显示器和摄像头，所述处理器分别与网络电视、显示器连接，它包括获取单元、处理单元、编辑单元和解码单元；所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息与深度信息；所述处理单元用于将所述音频信息转化为文本信息；所述编辑单元用于区分所述音频信息的不同声源，并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画；所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息，所述显示器与处理器连接，用于显示虚拟人物手语动画；所述网络电视用于向处理器发送信息，接收和显示处理器发送的信息；所述摄像头与处理器连接，用于获取观看者手语手势的图像信息和深度信息并将所述图像信息和深度信息发送至处理器。

优选地，所述声源为音色或音调。

优选地，所述解码单元采用卷积神经网络算法进行处理和识别观看者手语手势的图像信息和深度信息。

优选地，所述摄像头为Kinect摄像头。所述Kinect摄像头能够获取人的手语手势图像信息和深度信息，并传输至处理器中。

如图2所示，本发明还提供了一种实时识别手势的手语智能交互方法，所述手语智能交互方法包括：

获取网络电视的音频信号并进行预处理；

将所述虚拟人物手语视频在显示器上显示。

优选地，所述手语智能交互方法还包括：

获取人的实时手语手势图像信息和深度信息；

将所述文本信息并通过网络电视连接上传至网络。

本发明首先对获取到的手语手势图像信息和深度信息进行预处理，再将预处理的结果输入到经过大量样本训练得到的卷积神经网络模型，通过该模型可将预处理结果进行分类，并将分类结果输出，并最终转化为文本信息。卷积神经网络法有效地提高了手势识别的正确率。整个***不仅可以将（多人对话的）娱乐性节目的音频信号输出为手语视频显示，还可以利用Kinect摄像头获取人的手语手势信息，经过处理器处理得到反馈信息上传至网络平台。本发明能帮助聋哑人理解大多数电视节目内容，并能够将其反馈意见及时上传至网络平台，加强聋哑人的社会参与度，极大地丰富聋哑人的娱乐生活。

本发明能帮助聋哑人理解大多数电视节目内容，并能够将其反馈意见及时上传至网络平台，加强聋哑人的社会参与度，极大地丰富聋哑人的娱乐生活，还能够帮助聋哑人理解一些较为复杂的多人对话场景。

本发明的保护范围并不局限于上述描述，任何在本发明的启示下的其它形式产品，不论在形状或结构上作任何改变，凡是与本发明具有相同或相近的技术方案，均在本发明的保护范围之内。

Claims

1.一种实时识别手势的手语智能交互设备，其特征在于，它包括网络电视、处理器、显示器和摄像头，所述处理器分别与网络电视、显示器连接，它包括获取单元、处理单元、编辑单元和解码单元；

所述处理单元用于将所述音频信息转化为文本信息；

所述显示器与处理器连接，用于显示虚拟人物手语动画；

2.根据权利要求1所述的实时识别手势的手语智能交互设备，其特征在于，所述声源为音色或音调。

3.根据权利要求1所述的实时识别手势的手语智能交互设备，其特征在于，

所述解码单元采用卷积神经网络算法进行处理和识别观看者手语手势的图像信息和深度信息。

4.根据权利要求1所述的实时识别手势的手语智能交互设备，其特征在于，所述摄像头为Kinect摄像头。

5.一种实时识别手势的手语智能交互方法，其特征在于，所述手语智能交互方法包括：

获取网络电视的音频信号并进行预处理；

将所述虚拟人物手语视频在显示器上显示。

6.根据权利要求5所述的手语智能交互方法，其特征在于，所述手语智能交互方法还包括：

获取人的实时手语手势图像信息和深度信息；

将所述文本信息并通过网络电视连接上传至网络。