CN110070065A

CN110070065A - 基于视觉以及语音智能的手语***以及通讯方法

Info

Publication number: CN110070065A
Application number: CN201910359115.2A
Authority: CN
Inventors: 李冠津
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-30

Abstract

本发明目的提供了基于视觉以及语音智能的手语***及通讯方法，获取自然语音或通话状态下从网络端接收到的自然语音信息，并通过语音识别技术将得到语音的文本信息，使用语音的文本信息与自然手语3D动画库进行查询识别，形成连贯的自然手语3D动画，然后进行显示；获取使用者的手势动作视屏，并对视屏中的手势进行特征识别，通过识别到的手势特征与自然手语数据库进行查询识别，得到手语的文本信息，使用手语的文本信息与文字语音库进行查询识别，得到机器语音信息，然后将机器语音信息通过网络发送给对方终端；也可在同一终端进行实施语音或文本信息的翻译；实现手语与自然语言的双向翻译以及实时通讯。

Description

基于视觉以及语音智能的手语***以及通讯方法

技术领域

本发明属于语言沟通转换领域，具体涉及基于视觉以及语音智能的手语***以及通讯方法。

背景技术

现有2010年第六次人口普查数据显示，全中国大约有2075万听障人士，全世界大致有6500-7000万人为听障人士，并且这一数据还在以2-3万名的速度增长。听障人士之间用手语交流，正常人之间用有声语言沟通。正常人习得手语的人较少，加之缺乏专业的手语翻译培训，专业手语翻译人员匮乏，更缺乏某些专业领域的知识，如医疗、心理咨询、法律等专业知识，这不仅使正常人和听障人士之间沟通存在较大障碍，而且限制了听障人士群体的发展和生存质量的提高，阻碍了听障人士融入社会的步伐。

1.2手语翻译器的国内外现状为解决听障人士沟通困难问题，便于他们与社会交流国内外学者进行了一些尝试。中国清华大学、北航大学的学生利用“护腕”捕捉手部运动的肌电信号，通过“手音”APP与正常人交流；国内外都有学者研发利用传感器的“可穿戴”手套实时对手部信号进行翻译；同时利用leap motion技术做成的“项链”可以对手部移动进行视觉追踪并将追踪到的动作信息翻译成文字并展示在屏幕上；还有日本研制的手语机器人；以上方法优点是手势识别率高，但存在穿戴复杂和输入设备昂贵的缺点。

发明内容

本发明目提供了基于视觉以及语音智能的手语终端通讯***，解决了听障人士与正常人之间日常沟通交流以及打电话的问题。

本发明所采用的技术方案为：

基于视觉以及语音智能的手语***，包括手势采集模块、手势识别模块、语音采集模块、语音识别模块、通讯模块、语音合成模块、手语合成模块、显示模块，其中，

手势采集模块，用于采集使用人的手语手势信息；

手势识别模块，用于识别所述手语手势信息并转化为第一文本信息；

语音合成模块，用于查找第一文本信息中文字的语音库，获得第一文本信息对应的机器语音信息；

语音采集模块，用于采集自然语音信息或通话状态下从网络端接收到的自然语音信息；

语音识别模块，用于识别所述自然语音信息并转化为第二文本信息；

手语合成模块，用于查找第二文本信息中文本的手语动画库，获得第二文本信息对应的手语动画；同时用于直接根据文本信息查找手语动画库，获得文本信息的手语动画；

通讯模块，用于将所述机器语音信息通过网络发送到对方终端；以及接收对方终端通过网络发送的自然语音信息；

显示模块，用于显示所述手语动画、第一文本信息和/或第二文本信息。

当听障人士对健听人士进行交流时，听障人士打出手语，终端***通过手势采集模块获得听障人士的手语手势特征，手势识别模块利用图像和动作识别手语含义，进而翻译成文本，利用双屏显示技术，显示在屏幕上，同时利用语音合成模块翻译成语音，通过终端的音箱设备播放，使健听人士“听懂手语”；

当健听人士对听障人士进行交流时，健听人士说话，终端***通过语音采集模块采集健听人士发出的自然语音信息，通过语音识别模块识别成文本信息，再通过手语合成模块将文本信息转换成手语动画，然后将动画通过显示模块进行播放，另外，***通过手语合成模块可直接对终端内文本信息进行转换手语动画；手机语音或文本翻译成手语并动画表现出来，使听障人士“看懂声音”；

当在通话状态时，通讯模块接收对方终端发来的语音信息，进行上述语音转手语动画的过程，让听障人士能够知道通话对方的语言；通过同时，将听障人士的手势通过上述手语转语音信息的过程，然后通讯模块将语言信息通过网络发送给对方终端，使对方健听人士能够知道听障人士的手语表达的信息；

由此，解决听障人士与正常人之间日常沟通交流以及打电话的问题。

进一步地，手势采集模块采用Leap Motion体感控制器。Leap Motion体感控制器是一款采用红外成像技术来捕捉手势动作数据，所以受到自然环境因素，如光照强度、空气湿度等，影响较小，是μm级3D手动交互设备，可以追踪微小到0.01mm的动作，拥有150°视角，可跟踪一个人10个手指动作，最大频率为每秒290帧，延迟比显示器的刷新率还要低，交互方式简单，特别适合用作手语翻译。

基于视觉以及语音智能的手语通讯方法，包括以下步骤：

S1，选取手语动作视屏，对手语动作进行特征提取，根据手语特征对应的文本信息创建自然手语数据库；

S2，建立文本信息对应的自然手语3D动画库；

S3，获取通话状态下从网络端接收到的自然语音信息，并通过语音识别技术奖得到语音的文本信息，使用语音的文本信息与步骤S2中所述的自然手语3D动画库进行查询识别，形成连贯的自然手语3D动画，然后进行显示；

S4，获取使用者的手势动作视屏，并对视屏中的手势进行特征识别，通过识别到的手势特征与步骤S1中所述的自然手语数据库进行查询识别，得到手语的文本信息，使用手语的文本信息与文字语音库进行查询识别，得到机器语音信息，然后将机器语音信息通过网络发送给对方终端。

进一步地，在步骤S3将得到自然手语3D动画进行显示的同时，也将语音的文本信息和/或步骤S4中手语的文本信息进行分屏显示。一部手机，在进行听障人士的手语信息采集的同时，转化成语音和文本，再转给健听人士看，过程比较麻烦，为了方便使用，在面对面手语实时翻译过程中，采用双屏模式方便操作。

进一步地，步骤S2中所述自然手语3D动画库包括日常生活中的手语句子以及词汇的语义库，所述语义库包括同义词词典以及手语句子的文法信息，然后进行综合最大前向和最大后向的分词，在此基础上拼音和纠错；最后进行基于文法的句子含义自动匹配自然手语3D动画库，生成3D动画。通过语义库包括同义词词典以及手语句子的文法信息，然后进行综合最大前向和最大后向的分词，实现语义理解、纠错识别，使得转换更准确。

进一步地，步骤S2中所述自然手语3D动画库包括还包括的手语图片信息、手语动画信息、手语视频信息；自然手语的3D动画建模技术包括角色模型建设和手语动作以及面部表情建模，其建模方法是：建立了unity人物模型，进行动作建模；利用leap motion对手语专业人士的手语动作捕捉，生成原始动画并拍摄手语视频，对手语动画人工调优，形成可用动画；再将自然手语词汇序列的每一个自然手语词汇对应的手语动画自动拼接，形成完整的手语动画；通过修改uv坐标，达到角色表情变化。通过建立三种形式的资源库，资源库中的手语图片、手语动画、手语视频都是能够让听障人士100％理解的，日常对话300句的语义理解准确率达97％，对试验语料语义理解准确率达到84％。

进一步地，步骤S2中所述自然手语3D动画库位于云服务器端。由于数据库包含了大量的手语图片、3D手语动画、手语视频，占用存储较大，为此，把资源存储到云端，降低本地存储占用，在云端识别后，服务器把对应的3D手语动画推送到客户端，由此，不占用本地存储空间，使终端要求变低，实用性增强。

进一步地，步骤S3中，识别自然语音信息通过降噪算法，再经过讯飞语音云识别为文字，调用自然语言手语资源服务平台，提供自然语言处理功能，对自然语言文本进行处理，将符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列；进而通过动画自动生成功能，生成可播放的手语动画。通过对自然语言进行文本进行处理，通过符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列，使得转换手语动画时更加符合听障人士手语习惯，提高转换的准确率。

进一步地，步骤S4中，获取使用者的手势特征采用是采用LeapMotion作采集设备，当手语发出者在机器视觉所包含的视场范围内完成一个发话动作的时候，机器采集到听障人士的手部动作及其面部的表情方面等的信息，并且会从这些采集到的信息中进行提取手语特征，从而达到识别手语动作的目的。

进一步地，在步骤S4中，手语的识别过程包括前处理和模型匹配；前处理步骤主要包括结合深度图和彩色图的人手分割技术，整段视频的关键帧提取技术；模型匹配步骤采用融合了手型，轨迹和位置的多维度特征，并结合网状手语图模型来描述每个用于识别的手语词，进而计算其相似度，识别目标。通过采用结合网状手语图模型来描述每个用于识别的手语词，进而计算其相似度，网状手语图模型具有独创性，它能充分利用关键帧的优势，快速对每个手语词进行建模和相应的识别；从而进行有效动作的识别和无效动作的剔除。

本发明具有如下的优点和有益效果：

1、本发明基于视觉以及语音智能的手语***，携带方便，实现手语与自然语言的双向实时翻译，当听障人士对健听人士进行交流时，听障人士打出手语，终端***通过手势采集模块获得听障人士的手语手势特征，手势识别模块利用图像和动作识别手语含义，进而翻译成文本，利用双屏显示技术，显示在屏幕上，同时利用语音合成模块翻译成语音，通过终端的音箱设备播放，使健听人士“听懂手语”；当健听人士对听障人士进行交流时，健听人士说话，终端***通过语音采集模块采集健听人士发出的自然语音信息，通过语音识别模块识别成文本信息，再通过手语合成模块将文本信息转换成手语动画，然后将动画通过显示模块进行播放，另外，***通过手语合成模块可直接对终端内文本信息进行转换手语动画；手机语音或文本翻译成手语并动画表现出来，使听障人士“看懂声音”；当在通话状态时，通讯模块接收对方终端发来的语音信息，进行上述语音转手语动画的过程，让听障人士能够知道通话对方的语言；通过同时，将听障人士的手势通过上述手语转语音信息的过程，然后通讯模块将语言信息通过网络发送给对方终端，使对方健听人士能够知道听障人士的手语表达的信息；由此，解决听障人士与正常人之间日常沟通交流以及打电话的问题，***成本低廉，易于推广；

2、本发明基于视觉以及语音智能的手语通讯方法，实现普及自然手语，搭建自然手语资源服务平台；搭建自然手语资源库；进行自然语言处理分析文字语义；通过对自然语言进行文本进行处理，通过符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列，使得转换手语动画时更加符合听障人士手语习惯，提高转换的准确率；

3、本发明基于视觉以及语音智能的手语通讯方法，通过采用结合网状手语图模型来描述每个用于识别的手语词，进而计算其相似度，网状手语图模型具有独创性，它能充分利用关键帧的优势，快速对每个手语词进行建模和相应的识别；从而进行有效动作的识别和无效动作的剔除。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明的方法语音或文本信息转成动画的流程示意图。

图2是本发明中手势转换成文字或语音的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1：

本实施例提供了基于视觉以及语音智能的手语终端通讯***，包括手势采集模块、手势识别模块、语音采集模块、语音识别模块、通讯模块、语音合成模块、手语合成模块、显示模块，其中，

手势采集模块，用于采集使用人的手语手势信息；

当听障人士对健听人士进行交流时，听障人士打出手语，终端***通过手势采集模块获得听障人士的手语手势特征，手势识别模块利用图像和动作识别手语含义，进而翻译成文本，利用双屏显示技术，显示在屏幕上，同时利用语音合成模块翻译成语音，通过终端的音箱设备播放，使健听人士“听懂手语”；当健听人士对听障人士进行交流时，健听人士说话，终端***通过语音采集模块采集健听人士发出的自然语音信息，通过语音识别模块识别成文本信息，再通过手语合成模块将文本信息转换成手语动画，然后将动画通过显示模块进行播放，另外，***通过手语合成模块可直接对终端内文本信息进行转换手语动画；手机语音或文本翻译成手语并动画表现出来，使听障人士“看懂声音”；当在通话状态时，通讯模块接收对方终端发来的语音信息，进行上述语音转手语动画的过程，让听障人士能够知道通话对方的语言；通过同时，将听障人士的手势通过上述手语转语音信息的过程，然后通讯模块将语言信息通过网络发送给对方终端，使对方健听人士能够知道听障人士的手语表达的信息；由此，解决听障人士与正常人之间日常沟通交流以及打电话的问题

实施时，手势采集模块采用Leap Motion体感控制器。Leap Motion体感控制器是一款采用红外成像技术来捕捉手势动作数据，所以受到自然环境因素(如光照强度、空气湿度等)影响较小，是μm级3D手动交互设备，可以追踪微小到0.01mm的动作，拥有150°视角，可跟踪一个人10个手指动作，最大频率为每秒290帧，延迟比显示器的刷新率还要低，交互方式简单，特别适合用作手语翻译。

实施例2：

如图1、图2所示基于视觉以及语音智能的手语通讯方法，包括以下步骤：

S2，建立文本信息对应的自然手语3D动画库；

实施时，在步骤S3将得到自然手语3D动画进行显示的同时，也将语音的文本信息和/或步骤S4中手语的文本信息进行分屏显示。文本显示主要是将手势手语翻译成文本并即时显示，能更方便聋哑人和正常人之间交流，实现实时交谈。为了使该软件更具实用性，该***还加入了多语种翻译功能，可连接上云翻译服务平台，将文本显示的容易翻译成多种语言。

实施时，步骤S2中所述自然手语3D动画库包括日常生活中的手语句子以及词汇的语义库，所述语义库包括同义词词典以及手语句子的文法信息，然后进行综合最大前向和最大后向的分词，在此基础上拼音和纠错；最后进行基于文法的句子含义自动匹配自然手语3D动画库，生成3D动画。自然语言的处理。包括词法分析、依存句法分析、词义相似度、文本纠错、对话情绪识别等功能，并能完成汉语文字到自然手语词汇序列的翻译。要提高语音(或文字)转成动画手语的精确度，就要建立内容丰富的语义库。建立日常生活中的手语句子、词汇的语义库。语义库包括同义词词典等各种词典和手语句子的文法信息；之后进行综合最大前向和最大后向的分词，在此基础上拼音和纠错；最后进行基于文法的句子含义自动匹配和生成，同时情感倾向分析。三个资源库中的手语图片、手语动画、手语视频都是能够让听障人士100％理解的，日常对话300句的语义理解准确率达97％，对试验语料语义理解准确率达到84％。

步骤S2中所述自然手语3D动画库包括还包括的手语图片信息、手语动画信息、手语视频信息；自然手语的3D动画建模技术包括角色模型建设和手语动作以及面部表情建模，其建模方法是：建立了unity人物模型，进行动作建模；利用leap motion对手语专业人士的手语动作捕捉，生成原始动画并拍摄手语视频，对手语动画人工调优，形成可用动画；再将自然手语词汇序列的每一个自然手语词汇对应的手语动画自动拼接，形成完整的手语动画；为了让人物更加逼真有趣，通过修改uv坐标，达到角色表情变化。目前，手语翻译只能短小精悍，不能长篇大论，手语动画的聋人可读度在80％。

手语资源的接入和同步。步骤S2中所述自然手语3D动画库位于云服务器端。手语专家和听障人士建设的手语资源可以同步、无缝接入本平台，实现资源平台的开放性。由于数据库包含了大量的手语图片、3D手语动画、手语视频，占用存储较大，为此，我们把资源存储到云端，降低本地存储占用，在云端识别后，服务器把对应的3D手语动画推送到客户端。

在步骤S3中，识别自然语音信息通过降噪算法，再经过讯飞语音云识别为文字，调用自然语言手语资源服务平台，提供自然语言处理功能，对自然语言文本进行处理，将符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列；

例如：“青少年要好好学习科学文化知识。”

进行分词和句子成分标记：

“青少年”“要”“好好”“学习”“科学文化知识。”

分别是：主语能愿动词副词谓语宾语

根据语法规则，“主语+副词+谓语+宾语”转化为“主语+宾语+谓语+副词”和能愿动词置后原则调整词语顺序，变为“青少年”+“科学文化知识”+“学习”+“好好”+“要”。进而通过动画自动生成功能，生成可播放的手语动画，展示给对方用户。

在步骤S4中，获取使用者的手势特征采用是采用LeapMotion作采集设备，当手语发出者在机器视觉所包含的视场范围内完成一个发话动作的时候，机器采集到听障人士的手部动作及其面部的表情方面等的信息，并且会从这些采集到的信息中进行提取手语特征，从而达到识别手语动作的目的。

在步骤S4中，手语的识别过程包括前处理和模型匹配；前处理步骤主要包括结合深度图和彩色图的人手分割技术，整段视频的关键帧提取技术；模型匹配步骤采用融合了手型，轨迹和位置的多维度特征，并结合网状手语图模型来描述每个用于识别的手语词，进而计算其相似度，识别目标。

网状手语图模型具有独创性，它能充分利用关键帧的优势，快速对每个手语词进行建模和相应的识别。在手语识别中，特征维度高，单词数量大，因此计算代价一直是困扰我们的难题，在连续手语识别中尤为突出。常用的模板匹配方法计算一个词往往需要花费“秒”级别的时间，这意味着一个句子可能几秒就结束了，而识别却得花费几倍的时间，这样是不可能达到实时的。在参考隐马尔科夫模型之后，我们建立了基于关键帧的网状手语模型。这个模型对一个手语词的几个训练样本的信息进行统计，获得可变的状态数目，状态先验，跳转概率和似然值，它比传统的隐马尔科夫模型更加适合我们的基于关键帧的手语识别问题。在此算法基础上，***也顺利的实现了实时的目标。

语音播报使用微软科大讯飞免费提供的引擎和发音包。只需按部就班的初始化COM获取接口，调用接口完成相应功能，实现语音控制，程序结束时可释放资源。多语言离线翻译功能是用科大讯飞的离线语音识别dll实现离线识别的。进入讯飞开放平台，注册、创建应用，选择“离线命令词识别”，下载需要的SDK(包括动态库dll、静态库lib、头文件.h)

方案结合语音***，将手语翻译的结果以声音和文字的形式输出。同时整合语音识别***，将正常人的语音信号转化成可查询的手语信息，并在显示终端表达出来，最终形成手语翻译***。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于视觉以及语音智能的手语***，其特征在于：包括手势采集模块、手势识别模块、语音采集模块、语音识别模块、通讯模块、语音合成模块、手语合成模块、显示模块，其中，

手势采集模块，用于采集使用人的手语手势信息；

2.根据权利要求1所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：所述手势采集模块采用Leap Motion体感控制器。

3.基于视觉以及语音智能的手语通讯方法，包括其特征在于：包括以下步骤：

S2，建立文本信息对应的自然手语3D动画库；

4.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：在步骤S3将得到自然手语3D动画进行显示的同时，也将语音的文本信息和/或步骤S4中手语的文本信息进行分屏显示。

5.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：步骤S2中所述自然手语3D动画库包括日常生活中的手语句子以及词汇的语义库，所述语义库包括同义词词典以及手语句子的文法信息，然后进行综合最大前向和最大后向的分词，在此基础上拼音和纠错；最后进行基于文法的句子含义自动匹配自然手语3D动画库，生成3D动画。

6.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：步骤S2中所述自然手语3D动画库包括还包括的手语图片信息、手语动画信息、手语视频信息；自然手语的3D动画建模技术包括角色模型建设和手语动作以及面部表情建模，其建模方法是：建立了unity人物模型，进行动作建模；利用leap motion对手语专业人士的手语动作捕捉，生成原始动画并拍摄手语视频，对手语动画人工调优，形成可用动画；再将自然手语词汇序列的每一个自然手语词汇对应的手语动画自动拼接，形成完整的手语动画；通过修改uv坐标，达到角色表情变化。

7.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：步骤S2中所述自然手语3D动画库位于云服务器端。

8.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：在步骤S3中，识别自然语音信息通过降噪算法，再经过讯飞语音云识别为文字，调用自然语言手语资源服务平台，提供自然语言处理功能，对自然语言文本进行处理，将符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列；进而通过动画自动生成功能，生成可播放的手语动画。

9.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：在步骤S4中，获取使用者的手势特征采用是采用LeapMotion作采集设备，当手语发出者在机器视觉所包含的视场范围内完成一个发话动作的时候，机器采集到听障人士的手部动作及其面部的表情方面等的信息，并且会从这些采集到的信息中进行提取手语特征，从而达到识别手语动作的目的。

10.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***，其特征在于：在步骤S4中，手语的识别过程包括前处理和模型匹配；前处理步骤主要包括结合深度图和彩色图的人手分割技术，整段视频的关键帧提取技术；模型匹配步骤采用融合了手型，轨迹和位置的多维度特征，并结合网状手语图模型来描述每个用于识别的手语词，进而计算其相似度，识别目标。