CN110992783A

CN110992783A - 一种基于机器学习的手语翻译方法及翻译设备

Info

Publication number: CN110992783A
Application number: CN201911039201.1A
Authority: CN
Inventors: 黄昌正; 周言明; 陈曦; 王帅威; 陈永乐
Original assignee: Dongguan Yilian Interation Information Technology Co ltd
Current assignee: Dongguan Yilian Interation Information Technology Co ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-04-10

Abstract

本发明实施例涉及机器学习技术领域，公开了一种基于机器学习的手语翻译方法及翻译设备，该方法包括：控制深度摄像头拍摄初始影像；采用连续手势识别框架识别初始影像中听障人士的手语信息；采用算法匹配模型匹配得到手语信息对应的若干文字词组；将若干文字词组智能组合为文字语句；输出手语信息对应的文字语句。可见，将听障人士所做出的手语动作实时准确地翻译为文字信息，使普通人理解听障人士所做出手语的含义，方便了听障人士在社会上进行沟通交流。

Description

一种基于机器学习的手语翻译方法及翻译设备

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于机器学习的手语翻译方法及翻译设备。

背景技术

手语作为一种视觉语言，可协助聋哑人表达自身想法，在聋哑人与聋哑人之间、聋哑人与健全人之间构建起沟通途径，帮助聋哑人融入社会。

然而，不同于中文、英语等有声语言，手语在社会上的普及程度极低，通常只有聋哑人和从事相关工作的人员才掌握手语，普通人在未曾接触过手语的情况下难以获知聋哑人所做出手语的实际含义，聋哑人在社会上进行沟通交流始终存在巨大障碍；目前，市面上虽然存在多种翻译设备，但其通过存储的手语词组数据库对手语动作进行识别的方式，存在识别率低，使用不便的问题。

发明内容

本发明实施例公开了一种基于机器学习的手语翻译方法及翻译设备，能够将听障人士所做出的手语动作实时准确地翻译为文字信息，使普通人理解听障人士所做出手语的含义，方便了听障人士在社会上进行沟通交流。

本发明实施例第一方面公开了一种基于机器学习的手语翻译方法，包括：

控制深度摄像头拍摄初始影像；

采用连续手势识别框架识别所述初始影像中听障人士的手语信息；

采用算法匹配模型匹配得到所述手语信息对应的若干文字词组；

将所述若干文字词组智能组合为文字语句；

输出所述手语信息对应的文字语句。

作为一种可选的实施方式，在本发明实施例的第一方面中，在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前，所述方法还包括：

在所述初始影像中识别所述听障人士的人脸图像，根据所述人脸图像确定所述听障人士的位置信息；

根据所述位置信息检测所述听障人士是否进行手语表达；

若是，执行所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息的步骤。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息，包括：

采用二维卷积网络提取所述初始影像中包括的若干身体姿势信息与若干手势信息，作为所述初始影像的静态手语信息；

采用三维卷积网络提取每一所述手势信息对应的动作变换信息，作为所述初始影像的动态手语信息；

综合所述静态手语信息与所述动态手语信息，得到所述初始影像中听障人士的手语信息。

作为一种可选的实施方式，在本发明实施例的第一方面中，在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后，以及在所述采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前，所述方法还包括：

确定匹配于所述手语信息的地域特征；

获取与所述地域特征相对应的算法匹配模型。

作为一种可选的实施方式，在本发明实施例的第一方面中，所述方法还包括：

采集发言者的音频信息；

识别所述音频信息对应的文字信息；

将所述音频信息对应的文字信息处理为若干文字词组；

采用算法匹配模型匹配得到所述若干文字词组对应的手语动画；

输出所述若干文字词组对应的手语动画。

本发明实施例第二方面公开了一种翻译设备，包括：

拍摄单元，用于控制深度摄像头拍摄初始影像；

手语识别单元，用于采用连续手势识别框架识别所述初始影像中听障人士的手语信息；

词组匹配单元，用于采用算法匹配模型匹配得到所述手语信息对应的若干文字词组；

词组组合单元，用于将所述若干文字词组智能组合为文字语句；

文字输出单元，用于输出所述手语信息对应的文字语句。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述翻译设备还包括：

人脸识别单元，用于在所述手语识别单元采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前，在所述初始影像中识别所述听障人士的人脸图像，根据所述人脸图像确定所述听障人士的位置信息；

手语检测单元，用于根据所述位置信息检测所述听障人士是否进行手语表达；

所述手语识别单元，具体用于在所述手语检测单元检测到所述听障人士进行手语表达时，采用连续手势识别框架识别所述初始影像中听障人士的手语信息。

作为一种可选的实施方式，在本发明实施例的第二方面中，所述手语识别单元包括：

二维卷积子单元，用于采用二维卷积网络提取所述初始影像中包括的若干身体姿势信息与若干手势信息，作为所述初始影像的静态手语信息；

三维卷积子单元，用于采用三维卷积网络提取每一所述手势信息对应的动作变换信息，作为所述初始影像的动态手语信息；

数据综合子单元，用于综合所述静态手语信息与所述动态手语信息，得到所述初始影像中听障人士的手语信息。

特征识别单元，用于在所述手语识别单元采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后，以及在所述词组匹配单元采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前，识别与所述手语信息相匹配的地域特征；

模型选取单元，用于选取与所述地域特征相对应的算法匹配模型用于词组匹配。

音频采集单元，用于采集发言者的音频信息；

音频转换单元，用于识别所述音频信息对应的文字信息；

文字处理单元，用于将所述音频信息对应的文字信息处理为若干文字词组；

手语匹配单元，用于采用算法匹配模型匹配得到所述若干文字词组对应的手语动画；

手语输出单元，用于输出所述若干文字词组对应的手语动画。

本发明实施例第三方面公开了一种翻译设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的一种基于机器学习的手语翻译方法的部分步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于机器学习的手语翻译方法的全部或部分步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，控制深度摄像头拍摄初始影像；采用连续手势识别框架识别初始影像中听障人士的手语信息；采用算法匹配模型匹配得到手语信息对应的若干文字词组；将若干文字词组智能组合为文字语句；输出手语信息对应的文字语句。可见，通过采用连续手势识别框架识别听障人士的手语信息，并将手语信息转化为文字语句进行输出，可使普通人理解听障人士所做出手语的含义，方便了听障人士在社会上进行沟通交流。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于机器学习的手语翻译方法的流程示意图；

图2是本发明实施例公开的另一种基于机器学习的手语翻译方法的流程示意图；

图3是本发明实施例公开的一种翻译设备的结构示意图；

图4是本发明实施例公开的另一种翻译设备的结构示意图；

图5是本发明实施例公开的又一种翻译设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“ 第二”、“ 第三”和“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

请参阅图1，如图1所示，本发明实施例公开的一种基于机器学习的手语翻译方法可以包括以下步骤。

101、控制深度摄像头拍摄初始影像。

本发明实施例中，用于翻译手语的翻译设备配置有深度摄像头，深度摄像头用于拍摄包括听障人士的深度影像作为初始影像；相比于普通摄像头，深度摄像头所拍摄的深度影像可以获取到拍摄对象的深度信息，深度信息包括拍摄对象在三维坐标系中的位置与尺寸信息，因此，本发明实施例使用深度摄像头拍摄手语动作的深度影像，可为手语识别提供精确的手部深度信息。

102、采用连续手势识别框架识别初始影像中听障人士的手语信息。

本发明实施例中，将对初始影像中听障人士的手语信息进行识别，手语信息包括了听障人士的身体姿势信息、手势信息等静态手语信息，以及听障人士变换手势动作时的动态手语信息。

作为一种可选的实施方式，采用二维卷积网络提取初始影像中包括的若干身体姿势信息与若干手势信息，作为初始影像的静态手语信息；采用三维卷积网络提取每一手势信息对应的动作变换信息，作为初始影像的动态手语信息；综合静态手语信息与动态手语信息，得到初始影像中听障人士的手语信息。具体地，本发明实施例采用LS-HAN连续手势识别框架等机器学习框架对手语信息进行识别，传统的手势识别方法需要事先对初始影像进行时间分割以将初始影像分割为若干帧图像，再对图像进行手势识别，这个过程会耗费大量的时间；此外，若时间分割不准确，可能分割出听障人士变换手势时的图像，造成对手势的误判，并影响后续翻译步骤；因此，本方案采用机器学习算法中的LS-HAN连续手势识别框架，对初始影像中听障人士所做手势动作进行连续识别，其中，采用二维卷积网络可提取得到初始影像中听障人士的若干身体姿势信息（坐姿、站姿、头部姿态等）与手势信息（手臂、手掌、手指的位置）作为静态手语信息，以及采用三维卷积网络可提取到每一手势信息对应的动作变换信息（听障人士从当前所做出的静态手语变换到另一静态手语时产生的变换动作）作为动态手语信息，进而综合上述静态手语信息与动态手语信息，可得到初始影像中听障人士的手语信息。可见，采用连续手势识别框架可无需进行繁冗的时间分割与逐帧识别工作，加快了对手势动作的识别速度，且由于连续识别手势动作的过程可清楚地区分开每一手语动作与相邻手语动作间的变换动作，因此对手语动作的识别准确率极高。

本发明实施例中，深度影像的数据量巨大，对翻译设备的处理速率及数据带宽有较高的要求，若采用传统处理器对深度影像进行处理，则无法保证手语信息翻译为文字信息的实时性。

作为一种可选的实施方式，本发明实施例采用NPU（嵌入式神经网络处理器）来处理深度影像，相比传统处理器，NPU在处理海量的多媒体数据时具有极高的处理速率，可实时对连续的深度影像进行识别，相较传统的时间分割识别方法，其识别准确率高，且避免了传统处理器在进行影像识别时的延迟响应问题，为进行实时的手语翻译奠定了基础。

103、采用算法匹配模型匹配得到手语信息对应的若干文字词组。

本发明实施例中，算法匹配模型在采用大量相匹配的手语信息与文字词组进行机器学习后，可根据手语信息中静态手语信息及动态手语信息的特征匹配对应的文字词组，从而初步将手语信息转化为文字信息。

作为一种可选的实施方式，在步骤102采用连续手势识别框架识别初始影像中听障人士的手语信息之后，以及在步骤103采用算法匹配模型匹配得到手语信息对应的若干文字词组之前，确定匹配于手语信息的地域特征；获取与所述地域特征相对应的算法匹配模型；具体地，手语与有声语言一样，在不同国家与不同地区的有不同的表达形式，例如，在南方表达“1个月”的手语动作，在北方表达的则是“一月份”，因此，在手语翻译的过程中需要考虑地域因素，才能准确地将手语信息翻译为匹配的文字词组；本发明实施例设置有对应于不同地域的多个算法匹配模型，在采用连续手势识别框架识别得到手语信息之后，可根据手语信息中的地域特征，如静态手语信息中特殊的独有的手势信息或者动态手语信息中特殊的动作变换信息，来获取与其地域特征相对应的算法匹配模型。通过选取匹配于手语信息的地域特征的算法匹配模型，可避免由于手语的地域差异而使翻译得到的文字词组产生歧义。

104、将若干文字词组智能组合为文字语句。

本发明实施例中，翻译得到的文字词组相对简单，不符合普通人的日常用语习惯。

作为一种可选的实施方式，相对有声语言繁多的语法及句式，手语通常是采用与手势动作对应的多个简单的词组来进行表达，这就使得在将一连串的手语翻译成文字后，得到的是若干文字词组，而非一个用词准确、句式严谨的句子。因此，本发明实施例还将根据手语的使用规律，对翻译得到的若干文字词组进行智能组合，通过在文字词组间添加介词等方式，将若干文字词组只能组合为普通人可准确理解的文字语句。

105、输出手语信息对应的文字语句。

本发明实施例中，文字语句将向与听障人士进行沟通的一方进行输出。

作为一种可选的实施方式，在匹配得到手语信息对应的文字词组，并将文字词组智能组合为文字语句后，还将实时地把文字语句输出在翻译设备的显示屏等显示介质上，从而使正在与听障人士沟通的普通人可实时地理解听障人士所做手语的准确含义，方便了听障人士在社会上进行沟通交流。可以理解的是，文字语句也可通过音频等形式向与听障人士进行沟通的一方进行输出。

可见，实施图1所描述的基于机器学习的手语翻译方法，可将听障人士所做出的手语动作实时准确地翻译为文字信息，使普通人理解听障人士所做出手语的含义，方便了听障人士在社会上进行沟通交流。

实施例二

请参阅图2，图2是本发明实施公开的另一种基于机器学习的手语翻译方法，该方法可以包括以下步骤。

201、控制深度摄像头拍摄初始影像。

202、检测听障人士是否进行手语表达。

本发明实施例中，翻译设备的深度摄像头朝向听障人士进行拍摄其深度影像，为了确保对听障人士进行准确定位并对其手势动作进行识别，有必要对听障人士进行初步的定位检测。

作为一种可选的实施方式，在采用连续手势识别框架识别初始影像中听障人士的手语信息之前，在初始影像中识别听障人士的人脸图像，根据人脸图像确定听障人士的位置信息；根据位置信息检测听障人士是否进行手语表达；若是，则转向步骤203。具体地，在拍摄听障人士的深度影像期间，深度影像的画面中可能存在除听障人士以外的其他人，为了准确地获取并识别听障人士的手语信息，避免其他人的动作对手语翻译过程造成干扰，有必要对听障人士的人脸及位置信息进行检测；在此，可预先在翻译设备中录入听障人士的人脸数据，通过人脸数据在初始影像中识别听障人士的人脸图像，并根据识别到的听障人士的人脸图像对听障人士的躯干与肢体进行识别，确定出听障人士的位置信息，实现对深度影像中的听障人士进行定位；进而根据听障人士在深度影像中的位置信息，采用动作检测检测听障人士是否做出手势动作，进行手语表达；在检测到听障人士进行手语表达时，则转向步骤203，调用续手势识别框架识别手语信息。可见，通过对听障人士的位置信息及动作进行检测，确保了检测过程中可准确获取到听障人士的手语信息；而通过在检测到听障人士进行手语表达的动作后再调用连续手势识别框架进行识别，可排除干扰动作触发误翻译，还可节省功耗。

203、采用连续手势识别框架识别初始影像中听障人士的手语信息。

204、采用算法匹配模型匹配得到手语信息对应的若干文字词组。

205、将若干文字词组智能组合为文字语句。

206、输出手语信息对应的文字语句。

207、将发言者的音频信息翻译为手语动画并输出。

本发明实施例中，翻译设备除了可将听障人士的手语信息翻译为文字语句并输出，还可将发言者的音频信息翻译为手语动画，从而在听障人士与普通人进行交流的场景下，实现双向翻译的效果。

作为一种可选的实施方式，采集发言者的音频信息；识别音频信息对应的文字信息；将音频信息对应的文字信息处理为若干文字词组；采用算法匹配模型匹配得到若干文字词组对应的手语动画；输出若干文字词组对应的手语动画。具体地，翻译设备可通过深度摄像头采集听障人士的手语信息并翻译为对应的文字语句，供普通人查看；反之，翻译设备亦可采集发言者的音频信息，将音频信息翻译为听障人士所能理解的手语动画并输出给听障人士；翻译设备采集发言者的音频信息，通过处理器识别出音频信息对应的文字信息，并将文字信息拆分为若干表意明确的文字词组，此时，调用算法匹配模型匹配上述若干文字词组对应的手语动画，将手语动画输出至翻译设备上听障人士一侧的显示屏上，从而听障人士可在发言者发言之后，实时地查看音频信息对应的手语动画，实现了听障人士与普通人的双向无障碍交流。

可见，实施图2所描述的基于机器学习的手语翻译方法，听障人士的位置信息与手语信息将被准确地识别，避免无关的影像干扰翻译过程；而与听障人士进行交流的发言者，其发出的音频信息也将被翻译为手语动画并输出给听障人士，实现了听障人士与普通人实时的双向无障碍交流。

实施例三

请参阅图3，图3是本发明实施例公开的一种翻译设备的结构示意图。该***可以包括：

拍摄单元301，用于控制深度摄像头拍摄初始影像；

手语识别单元302，用于采用连续手势识别框架识别初始影像中听障人士的手语信息；

词组匹配单元303，用于采用算法匹配模型匹配得到手语信息对应的若干文字词组；

词组组合单元304，用于将若干文字词组智能组合为文字语句；

文字输出单元305，用于输出手语信息对应的文字语句；

特征识别单元306，用于在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之后，以及在词组匹配单元303采用算法匹配模型匹配得到手语信息对应的若干文字词组之前，识别与手语信息相匹配的地域特征；

模型选取单元307，用于选取与地域特征相对应的算法匹配模型用于词组匹配；

其中，手语识别单元302具体包括：

二维卷积子单元3021，用于采用二维卷积网络提取初始影像中包括的若干身体姿势信息与若干手势信息，作为初始影像的静态手语信息；

三维卷积子单元3022，用于采用三维卷积网络提取每一手势信息对应的动作变换信息，作为初始影像的动态手语信息；

数据综合子单元3023，用于综合静态手语信息与动态手语信息，得到初始影像中听障人士的手语信息。

本发明实施例中，手语识别单元302用于识别拍摄单元301所拍摄到的初始影像中的手语信息，词组匹配单元303与词组组合单元304将手语信息翻译为文字语句，并由文字输出单元305进行输出。

作为一种可选的实施方式，二维卷积子单元3021采用二维卷积网络提取初始影像中包括的若干身体姿势信息与若干手势信息，作为初始影像的静态手语信息；三维卷积子单元3022采用三维卷积网络提取每一手势信息对应的动作变换信息，作为初始影像的动态手语信息；数据综合子单元3023综合静态手语信息与动态手语信息，得到初始影像中听障人士的手语信息。具体地，翻译设备采用LS-HAN连续手势识别框架等机器学习框架对手语信息进行识别，传统的手势识别方法需要事先对初始影像进行时间分割以将初始影像分割为若干帧图像，再对图像进行手势识别，这个过程会耗费大量的时间；此外，若时间分割不准确，可能分割出听障人士变换手势时的图像，造成对手势的误判，并影响后续翻译步骤；因此，手语识别单元302采用机器学习算法中的LS-HAN连续手势识别框架，对初始影像中听障人士所做手势动作进行连续识别，其中，二维卷积子单元3021采用二维卷积网络可提取得到初始影像中听障人士的若干身体姿势信息（坐姿、站姿、头部姿态等）与手势信息（手臂、手掌、手指的位置）作为静态手语信息，以及三维卷积子单元3022采用三维卷积网络可提取到每一手势信息对应的动作变换信息（听障人士从当前所做出的静态手语变换到另一静态手语时产生的变换动作）作为动态手语信息，进而数据综合子单元3023综合上述静态手语信息与动态手语信息，可得到初始影像中听障人士的手语信息。可见，采用连续手势识别框架可无需进行繁冗的时间分割与逐帧识别工作，加快了对手势动作的识别速度，且由于连续识别手势动作的过程可清楚地区分开每一手语动作与相邻手语动作间的变换动作，因此对手语动作的识别准确率极高。

作为一种可选的实施方式，手语识别单元302采用NPU（嵌入式神经网络处理器）来处理深度影像，相比传统处理器，NPU在处理海量的多媒体数据时具有极高的处理速率，可实时对连续的深度影像进行识别，相较传统的时间分割识别方法，其识别准确率高，且避免了传统处理器在进行影像识别时的延迟响应问题，为进行实时的手语翻译奠定了基础。

作为一种可选的实施方式，在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之后，以及在词组匹配单元303采用算法匹配模型匹配得到手语信息对应的若干文字词组之前，特征识别子单元306确定匹配于手语信息的地域特征；模型选取子单元307获取与所述地域特征相对应的算法匹配模型；具体地，手语与有声语言一样，在不同国家与不同地区的有不同的表达形式，例如，在南方表达“1个月”的手语动作，在北方表达的则是“一月份”，因此，在手语翻译的过程中需要考虑地域因素，才能准确地将手语信息翻译为匹配的文字词组；翻译设备设置有对应于不同地域的多个算法匹配模型，在采用连续手势识别框架识别得到手语信息之后，模型选取子单元307可根据手语信息中的地域特征，如静态手语信息中特殊的独有的手势信息或者动态手语信息中特殊的动作变换信息，来获取与其地域特征相对应的算法匹配模型。通过选取匹配于手语信息的地域特征的算法匹配模型，可避免由于手语的地域差异而使翻译得到的文字词组产生歧义。

作为一种可选的实施方式，相对有声语言繁多的语法及句式，手语通常是采用与手势动作对应的多个简单的词组来进行表达，这就使得在将一连串的手语翻译成文字后，得到的是若干文字词组，而非一个用词准确、句式严谨的句子。因此，词组组合单元304还将根据手语的使用规律，对翻译得到的若干文字词组进行智能组合，通过在文字词组间添加介词等方式，将若干文字词组只能组合为普通人可准确理解的文字语句。

作为一种可选的实施方式，在词组匹配单元303匹配得到手语信息对应的文字词组，词组组合单元304将文字词组智能组合为文字语句后，文字输出单元305将实时地把文字语句输出在翻译设备的显示屏等显示介质上，从而使正在与听障人士沟通的普通人可实时地理解听障人士所做手语的准确含义，方便了听障人士在社会上进行沟通交流。可以理解的是，文字语句也可通过音频等形式向与听障人士进行沟通的一方进行输出.

可见，实施图3所描述的翻译设备，可将听障人士所做出的手语动作实时准确地翻译为文字信息，使普通人理解听障人士所做出手语的含义，方便了听障人士在社会上进行沟通交流。

实施例四

请参阅图4，图4是本发明实施例公开的另一种翻译设备的结构示意图。该***还包括：

人脸识别单元308，用于在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之前，在初始影像中识别听障人士的人脸图像，根据人脸图像确定听障人士的位置信息；

手语检测单元309，用于根据位置信息检测听障人士是否进行手语表达；

手语识别单元302，具体用于在手语检测单元309检测到听障人士进行手语表达时，采用连续手势识别框架识别初始影像中听障人士的手语信息；

音频采集单元310，用于采集发言者的音频信息；

音频转换单元311，用于识别音频信息对应的文字信息；

文字处理单元312，用于将音频信息对应的文字信息处理为若干文字词组；

手语匹配单元313，用于采用算法匹配模型匹配得到若干文字词组对应的手语动画；

手语输出单元314，用于输出若干文字词组对应的手语动画。

本发明实施例中，人脸识别单元308用于根据人脸图像确定听障人士的位置信息，手语检测单元309根据位置信息检测听障人士是否进行手语表达，在检测到听障人士进行手语表达时，触发手语识别单元302识别听障人士的手语信息；音频采集单元310及音频转换单元311采集并将音频信息转换为文字信息，文字处理单元312与手语匹配单元313将文字信息处理为对应的手语动画，由手语输出单元314进行输出。

作为一种可选的实施方式，在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之前，人脸识别单元308在初始影像中识别听障人士的人脸图像，根据人脸图像确定听障人士的位置信息；手语检测单元309根据位置信息检测听障人士是否进行手语表达；若是，触发手语识别单元302。具体地，在拍摄听障人士的深度影像期间，深度影像的画面中可能存在除听障人士以外的其他人，为了准确地获取并识别听障人士的手语信息，避免其他人的动作对手语翻译过程造成干扰，有必要对听障人士的人脸及位置信息进行检测；在此，可预先在翻译设备中录入听障人士的人脸数据，人脸识别单元308通过人脸数据在初始影像中识别听障人士的人脸图像，并根据识别到的听障人士的人脸图像对听障人士的躯干与肢体进行识别，确定出听障人士的位置信息，实现对深度影像中的听障人士进行定位；进而手语检测单元309根据听障人士在深度影像中的位置信息，采用动作检测检测听障人士是否做出手势动作，进行手语表达；在检测到听障人士进行手语表达时，触发手语识别单元302，调用续手势识别框架识别手语信息。可见，通过对听障人士的位置信息及动作进行检测，确保了检测过程中可准确获取到听障人士的手语信息；而通过在检测到听障人士进行手语表达的动作后再调用连续手势识别框架进行识别，可排除干扰动作触发误翻译，还可节省功耗。

作为一种可选的实施方式，音频采集单元310采集发言者的音频信息；音频转换单元311识别音频信息对应的文字信息；文字处理单元312将音频信息对应的文字信息处理为若干文字词组；手语匹配单元313采用算法匹配模型匹配得到若干文字词组对应的手语动画；手语输出单元314输出若干文字词组对应的手语动画。具体地，音频采集单元310采集发言者的音频信息，音频转换单元311、文字处理单元312及手语匹配单元313将音频信息翻译为听障人士所能理解的手语动画并由手语输出单元314输出给听障人士；音频采集单元310采集发言者的音频信息，音频转换单元311识别出音频信息对应的文字信息，文字处理单元312将文字信息拆分为若干表意明确的文字词组，此时，手语匹配单元313调用算法匹配模型匹配上述若干文字词组对应的手语动画，手语输出单元314将手语动画输出至翻译设备上听障人士一侧的显示屏上，从而听障人士可在发言者发言之后，实时地查看音频信息对应的手语动画，实现了听障人士与普通人的双向无障碍交流。

可见，实施图4所描述的翻译设备，听障人士的位置信息与手语信息将被准确地识别，避免无关的影像干扰翻译过程；而与听障人士进行交流的发言者，其发出的音频信息也将被翻译为手语动画并输出给听障人士，实现了听障人士与普通人实时的双向无障碍交流。

实施例五

请参阅图5，图5是本发明实施例公开的另一种翻译设备的结构示意图。如图5所示，该翻译设备可以包括：

存储有可执行程序代码的存储器501；

与存储器501耦合的处理器502；

其中，处理器502调用存储器501中存储的可执行程序代码，执行图1~图2所示的任意一种基于机器学习的手语翻译方法的部分步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1~图2所示的任意一种基于机器学习的手语翻译方法的全部或部分步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、一次可编程只读存储器（One-time Programmable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于机器学习的手语翻译方法及翻译设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于机器学习的手语翻译方法，其特征在于，包括：

控制深度摄像头拍摄初始影像；

将所述若干文字词组智能组合为文字语句；

输出所述手语信息对应的文字语句。

2.根据权利要求1所述的方法，其特征在于，在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前，所述方法还包括：

根据所述位置信息检测所述听障人士是否进行手语表达；

3.根据权利要求1所述的方法，其特征在于，所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息，包括：

4.根据权利要求1所述的方法，其特征在于，在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后，以及在所述采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前，所述方法还包括：

确定匹配于所述手语信息的地域特征；

获取与所述地域特征相对应的算法匹配模型。

5.根据权利要求1~4任一项所述的方法，其特征在于，所述方法还包括：

采集发言者的音频信息；

识别所述音频信息对应的文字信息；

将所述音频信息对应的文字信息处理为若干文字词组；

输出所述若干文字词组对应的手语动画。

6.一种翻译设备，其特征在于，包括:

拍摄单元，用于控制深度摄像头拍摄初始影像；

文字输出单元，用于输出所述手语信息对应的文字语句。

7.根据权利要求6所述的翻译设备，其特征在于，所述翻译设备还包括：

8.根据权利要求6所述的翻译设备，其特征在于，所述手语识别单元包括：

9.根据权利要求6所述的翻译设备，其特征在于，所述翻译设备还包括：

10.根据权利要求6~9任一项所述的翻译设备，其特征在于，所述翻译设备还包括：

音频采集单元，用于采集发言者的音频信息；

音频转换单元，用于识别所述音频信息对应的文字信息；