CN110992783A - 一种基于机器学习的手语翻译方法及翻译设备 - Google Patents
一种基于机器学习的手语翻译方法及翻译设备 Download PDFInfo
- Publication number
- CN110992783A CN110992783A CN201911039201.1A CN201911039201A CN110992783A CN 110992783 A CN110992783 A CN 110992783A CN 201911039201 A CN201911039201 A CN 201911039201A CN 110992783 A CN110992783 A CN 110992783A
- Authority
- CN
- China
- Prior art keywords
- sign language
- information
- hearing
- impaired person
- initial image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Social Psychology (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例涉及机器学习技术领域,公开了一种基于机器学习的手语翻译方法及翻译设备,该方法包括:控制深度摄像头拍摄初始影像;采用连续手势识别框架识别初始影像中听障人士的手语信息;采用算法匹配模型匹配得到手语信息对应的若干文字词组;将若干文字词组智能组合为文字语句;输出手语信息对应的文字语句。可见,将听障人士所做出的手语动作实时准确地翻译为文字信息,使普通人理解听障人士所做出手语的含义,方便了听障人士在社会上进行沟通交流。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于机器学习的手语翻译方法及翻译设备。
背景技术
手语作为一种视觉语言,可协助聋哑人表达自身想法,在聋哑人与聋哑人之间、聋哑人与健全人之间构建起沟通途径,帮助聋哑人融入社会。
然而,不同于中文、英语等有声语言,手语在社会上的普及程度极低,通常只有聋哑人和从事相关工作的人员才掌握手语,普通人在未曾接触过手语的情况下难以获知聋哑人所做出手语的实际含义,聋哑人在社会上进行沟通交流始终存在巨大障碍;目前,市面上虽然存在多种翻译设备,但其通过存储的手语词组数据库对手语动作进行识别的方式,存在识别率低,使用不便的问题。
发明内容
本发明实施例公开了一种基于机器学习的手语翻译方法及翻译设备,能够将听障人士所做出的手语动作实时准确地翻译为文字信息,使普通人理解听障人士所做出手语的含义,方便了听障人士在社会上进行沟通交流。
本发明实施例第一方面公开了一种基于机器学习的手语翻译方法,包括:
控制深度摄像头拍摄初始影像;
采用连续手势识别框架识别所述初始影像中听障人士的手语信息;
采用算法匹配模型匹配得到所述手语信息对应的若干文字词组;
将所述若干文字词组智能组合为文字语句;
输出所述手语信息对应的文字语句。
作为一种可选的实施方式,在本发明实施例的第一方面中,在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前,所述方法还包括:
在所述初始影像中识别所述听障人士的人脸图像,根据所述人脸图像确定所述听障人士的位置信息;
根据所述位置信息检测所述听障人士是否进行手语表达;
若是,执行所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息的步骤。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息,包括:
采用二维卷积网络提取所述初始影像中包括的若干身体姿势信息与若干手势信息,作为所述初始影像的静态手语信息;
采用三维卷积网络提取每一所述手势信息对应的动作变换信息,作为所述初始影像的动态手语信息;
综合所述静态手语信息与所述动态手语信息,得到所述初始影像中听障人士的手语信息。
作为一种可选的实施方式,在本发明实施例的第一方面中,在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后,以及在所述采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前,所述方法还包括:
确定匹配于所述手语信息的地域特征;
获取与所述地域特征相对应的算法匹配模型。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述方法还包括:
采集发言者的音频信息;
识别所述音频信息对应的文字信息;
将所述音频信息对应的文字信息处理为若干文字词组;
采用算法匹配模型匹配得到所述若干文字词组对应的手语动画;
输出所述若干文字词组对应的手语动画。
本发明实施例第二方面公开了一种翻译设备,包括:
拍摄单元,用于控制深度摄像头拍摄初始影像;
手语识别单元,用于采用连续手势识别框架识别所述初始影像中听障人士的手语信息;
词组匹配单元,用于采用算法匹配模型匹配得到所述手语信息对应的若干文字词组;
词组组合单元,用于将所述若干文字词组智能组合为文字语句;
文字输出单元,用于输出所述手语信息对应的文字语句。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述翻译设备还包括:
人脸识别单元,用于在所述手语识别单元采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前,在所述初始影像中识别所述听障人士的人脸图像,根据所述人脸图像确定所述听障人士的位置信息;
手语检测单元,用于根据所述位置信息检测所述听障人士是否进行手语表达;
所述手语识别单元,具体用于在所述手语检测单元检测到所述听障人士进行手语表达时,采用连续手势识别框架识别所述初始影像中听障人士的手语信息。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述手语识别单元包括:
二维卷积子单元,用于采用二维卷积网络提取所述初始影像中包括的若干身体姿势信息与若干手势信息,作为所述初始影像的静态手语信息;
三维卷积子单元,用于采用三维卷积网络提取每一所述手势信息对应的动作变换信息,作为所述初始影像的动态手语信息;
数据综合子单元,用于综合所述静态手语信息与所述动态手语信息,得到所述初始影像中听障人士的手语信息。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述翻译设备还包括:
特征识别单元,用于在所述手语识别单元采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后,以及在所述词组匹配单元采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前,识别与所述手语信息相匹配的地域特征;
模型选取单元,用于选取与所述地域特征相对应的算法匹配模型用于词组匹配。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述翻译设备还包括:
音频采集单元,用于采集发言者的音频信息;
音频转换单元,用于识别所述音频信息对应的文字信息;
文字处理单元,用于将所述音频信息对应的文字信息处理为若干文字词组;
手语匹配单元,用于采用算法匹配模型匹配得到所述若干文字词组对应的手语动画;
手语输出单元,用于输出所述若干文字词组对应的手语动画。
本发明实施例第三方面公开了一种翻译设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的一种基于机器学习的手语翻译方法的部分步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于机器学习的手语翻译方法的全部或部分步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,控制深度摄像头拍摄初始影像;采用连续手势识别框架识别初始影像中听障人士的手语信息;采用算法匹配模型匹配得到手语信息对应的若干文字词组;将若干文字词组智能组合为文字语句;输出手语信息对应的文字语句。可见,通过采用连续手势识别框架识别听障人士的手语信息,并将手语信息转化为文字语句进行输出,可使普通人理解听障人士所做出手语的含义,方便了听障人士在社会上进行沟通交流。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于机器学习的手语翻译方法的流程示意图;
图2是本发明实施例公开的另一种基于机器学习的手语翻译方法的流程示意图;
图3是本发明实施例公开的一种翻译设备的结构示意图;
图4是本发明实施例公开的另一种翻译设备的结构示意图;
图5是本发明实施例公开的又一种翻译设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“ 第二”、“ 第三”和“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种基于机器学习的手语翻译方法及翻译设备,能够将听障人士所做出的手语动作实时准确地翻译为文字信息,使普通人理解听障人士所做出手语的含义,方便了听障人士在社会上进行沟通交流。
实施例一
请参阅图1,如图1所示,本发明实施例公开的一种基于机器学习的手语翻译方法可以包括以下步骤。
101、控制深度摄像头拍摄初始影像。
本发明实施例中,用于翻译手语的翻译设备配置有深度摄像头,深度摄像头用于拍摄包括听障人士的深度影像作为初始影像;相比于普通摄像头,深度摄像头所拍摄的深度影像可以获取到拍摄对象的深度信息,深度信息包括拍摄对象在三维坐标系中的位置与尺寸信息,因此,本发明实施例使用深度摄像头拍摄手语动作的深度影像,可为手语识别提供精确的手部深度信息。
102、采用连续手势识别框架识别初始影像中听障人士的手语信息。
本发明实施例中,将对初始影像中听障人士的手语信息进行识别,手语信息包括了听障人士的身体姿势信息、手势信息等静态手语信息,以及听障人士变换手势动作时的动态手语信息。
作为一种可选的实施方式,采用二维卷积网络提取初始影像中包括的若干身体姿势信息与若干手势信息,作为初始影像的静态手语信息;采用三维卷积网络提取每一手势信息对应的动作变换信息,作为初始影像的动态手语信息;综合静态手语信息与动态手语信息,得到初始影像中听障人士的手语信息。具体地,本发明实施例采用LS-HAN连续手势识别框架等机器学习框架对手语信息进行识别,传统的手势识别方法需要事先对初始影像进行时间分割以将初始影像分割为若干帧图像,再对图像进行手势识别,这个过程会耗费大量的时间;此外,若时间分割不准确,可能分割出听障人士变换手势时的图像,造成对手势的误判,并影响后续翻译步骤;因此,本方案采用机器学习算法中的LS-HAN连续手势识别框架,对初始影像中听障人士所做手势动作进行连续识别,其中,采用二维卷积网络可提取得到初始影像中听障人士的若干身体姿势信息(坐姿、站姿、头部姿态等)与手势信息(手臂、手掌、手指的位置)作为静态手语信息,以及采用三维卷积网络可提取到每一手势信息对应的动作变换信息(听障人士从当前所做出的静态手语变换到另一静态手语时产生的变换动作)作为动态手语信息,进而综合上述静态手语信息与动态手语信息,可得到初始影像中听障人士的手语信息。可见,采用连续手势识别框架可无需进行繁冗的时间分割与逐帧识别工作,加快了对手势动作的识别速度,且由于连续识别手势动作的过程可清楚地区分开每一手语动作与相邻手语动作间的变换动作,因此对手语动作的识别准确率极高。
本发明实施例中,深度影像的数据量巨大,对翻译设备的处理速率及数据带宽有较高的要求,若采用传统处理器对深度影像进行处理,则无法保证手语信息翻译为文字信息的实时性。
作为一种可选的实施方式,本发明实施例采用NPU(嵌入式神经网络处理器)来处理深度影像,相比传统处理器,NPU在处理海量的多媒体数据时具有极高的处理速率,可实时对连续的深度影像进行识别,相较传统的时间分割识别方法,其识别准确率高,且避免了传统处理器在进行影像识别时的延迟响应问题,为进行实时的手语翻译奠定了基础。
103、采用算法匹配模型匹配得到手语信息对应的若干文字词组。
本发明实施例中,算法匹配模型在采用大量相匹配的手语信息与文字词组进行机器学习后,可根据手语信息中静态手语信息及动态手语信息的特征匹配对应的文字词组,从而初步将手语信息转化为文字信息。
作为一种可选的实施方式,在步骤102采用连续手势识别框架识别初始影像中听障人士的手语信息之后,以及在步骤103采用算法匹配模型匹配得到手语信息对应的若干文字词组之前,确定匹配于手语信息的地域特征;获取与所述地域特征相对应的算法匹配模型;具体地,手语与有声语言一样,在不同国家与不同地区的有不同的表达形式,例如,在南方表达“1个月”的手语动作,在北方表达的则是“一月份”,因此,在手语翻译的过程中需要考虑地域因素,才能准确地将手语信息翻译为匹配的文字词组;本发明实施例设置有对应于不同地域的多个算法匹配模型,在采用连续手势识别框架识别得到手语信息之后,可根据手语信息中的地域特征,如静态手语信息中特殊的独有的手势信息或者动态手语信息中特殊的动作变换信息,来获取与其地域特征相对应的算法匹配模型。通过选取匹配于手语信息的地域特征的算法匹配模型,可避免由于手语的地域差异而使翻译得到的文字词组产生歧义。
104、将若干文字词组智能组合为文字语句。
本发明实施例中,翻译得到的文字词组相对简单,不符合普通人的日常用语习惯。
作为一种可选的实施方式,相对有声语言繁多的语法及句式,手语通常是采用与手势动作对应的多个简单的词组来进行表达,这就使得在将一连串的手语翻译成文字后,得到的是若干文字词组,而非一个用词准确、句式严谨的句子。因此,本发明实施例还将根据手语的使用规律,对翻译得到的若干文字词组进行智能组合,通过在文字词组间添加介词等方式,将若干文字词组只能组合为普通人可准确理解的文字语句。
105、输出手语信息对应的文字语句。
本发明实施例中,文字语句将向与听障人士进行沟通的一方进行输出。
作为一种可选的实施方式,在匹配得到手语信息对应的文字词组,并将文字词组智能组合为文字语句后,还将实时地把文字语句输出在翻译设备的显示屏等显示介质上,从而使正在与听障人士沟通的普通人可实时地理解听障人士所做手语的准确含义,方便了听障人士在社会上进行沟通交流。可以理解的是,文字语句也可通过音频等形式向与听障人士进行沟通的一方进行输出。
可见,实施图1所描述的基于机器学习的手语翻译方法,可将听障人士所做出的手语动作实时准确地翻译为文字信息,使普通人理解听障人士所做出手语的含义,方便了听障人士在社会上进行沟通交流。
实施例二
请参阅图2,图2是本发明实施公开的另一种基于机器学习的手语翻译方法,该方法可以包括以下步骤。
201、控制深度摄像头拍摄初始影像。
202、检测听障人士是否进行手语表达。
本发明实施例中,翻译设备的深度摄像头朝向听障人士进行拍摄其深度影像,为了确保对听障人士进行准确定位并对其手势动作进行识别,有必要对听障人士进行初步的定位检测。
作为一种可选的实施方式,在采用连续手势识别框架识别初始影像中听障人士的手语信息之前,在初始影像中识别听障人士的人脸图像,根据人脸图像确定听障人士的位置信息;根据位置信息检测听障人士是否进行手语表达;若是,则转向步骤203。具体地,在拍摄听障人士的深度影像期间,深度影像的画面中可能存在除听障人士以外的其他人,为了准确地获取并识别听障人士的手语信息,避免其他人的动作对手语翻译过程造成干扰,有必要对听障人士的人脸及位置信息进行检测;在此,可预先在翻译设备中录入听障人士的人脸数据,通过人脸数据在初始影像中识别听障人士的人脸图像,并根据识别到的听障人士的人脸图像对听障人士的躯干与肢体进行识别,确定出听障人士的位置信息,实现对深度影像中的听障人士进行定位;进而根据听障人士在深度影像中的位置信息,采用动作检测检测听障人士是否做出手势动作,进行手语表达;在检测到听障人士进行手语表达时,则转向步骤203,调用续手势识别框架识别手语信息。可见,通过对听障人士的位置信息及动作进行检测,确保了检测过程中可准确获取到听障人士的手语信息;而通过在检测到听障人士进行手语表达的动作后再调用连续手势识别框架进行识别,可排除干扰动作触发误翻译,还可节省功耗。
203、采用连续手势识别框架识别初始影像中听障人士的手语信息。
204、采用算法匹配模型匹配得到手语信息对应的若干文字词组。
205、将若干文字词组智能组合为文字语句。
206、输出手语信息对应的文字语句。
207、将发言者的音频信息翻译为手语动画并输出。
本发明实施例中,翻译设备除了可将听障人士的手语信息翻译为文字语句并输出,还可将发言者的音频信息翻译为手语动画,从而在听障人士与普通人进行交流的场景下,实现双向翻译的效果。
作为一种可选的实施方式,采集发言者的音频信息;识别音频信息对应的文字信息;将音频信息对应的文字信息处理为若干文字词组;采用算法匹配模型匹配得到若干文字词组对应的手语动画;输出若干文字词组对应的手语动画。具体地,翻译设备可通过深度摄像头采集听障人士的手语信息并翻译为对应的文字语句,供普通人查看;反之,翻译设备亦可采集发言者的音频信息,将音频信息翻译为听障人士所能理解的手语动画并输出给听障人士;翻译设备采集发言者的音频信息,通过处理器识别出音频信息对应的文字信息,并将文字信息拆分为若干表意明确的文字词组,此时,调用算法匹配模型匹配上述若干文字词组对应的手语动画,将手语动画输出至翻译设备上听障人士一侧的显示屏上,从而听障人士可在发言者发言之后,实时地查看音频信息对应的手语动画,实现了听障人士与普通人的双向无障碍交流。
可见,实施图2所描述的基于机器学习的手语翻译方法,听障人士的位置信息与手语信息将被准确地识别,避免无关的影像干扰翻译过程;而与听障人士进行交流的发言者,其发出的音频信息也将被翻译为手语动画并输出给听障人士,实现了听障人士与普通人实时的双向无障碍交流。
实施例三
请参阅图3,图3是本发明实施例公开的一种翻译设备的结构示意图。该***可以包括:
拍摄单元301,用于控制深度摄像头拍摄初始影像;
手语识别单元302,用于采用连续手势识别框架识别初始影像中听障人士的手语信息;
词组匹配单元303,用于采用算法匹配模型匹配得到手语信息对应的若干文字词组;
词组组合单元304,用于将若干文字词组智能组合为文字语句;
文字输出单元305,用于输出手语信息对应的文字语句;
特征识别单元306,用于在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之后,以及在词组匹配单元303采用算法匹配模型匹配得到手语信息对应的若干文字词组之前,识别与手语信息相匹配的地域特征;
模型选取单元307,用于选取与地域特征相对应的算法匹配模型用于词组匹配;
其中,手语识别单元302具体包括:
二维卷积子单元3021,用于采用二维卷积网络提取初始影像中包括的若干身体姿势信息与若干手势信息,作为初始影像的静态手语信息;
三维卷积子单元3022,用于采用三维卷积网络提取每一手势信息对应的动作变换信息,作为初始影像的动态手语信息;
数据综合子单元3023,用于综合静态手语信息与动态手语信息,得到初始影像中听障人士的手语信息。
本发明实施例中,手语识别单元302用于识别拍摄单元301所拍摄到的初始影像中的手语信息,词组匹配单元303与词组组合单元304将手语信息翻译为文字语句,并由文字输出单元305进行输出。
作为一种可选的实施方式,二维卷积子单元3021采用二维卷积网络提取初始影像中包括的若干身体姿势信息与若干手势信息,作为初始影像的静态手语信息;三维卷积子单元3022采用三维卷积网络提取每一手势信息对应的动作变换信息,作为初始影像的动态手语信息;数据综合子单元3023综合静态手语信息与动态手语信息,得到初始影像中听障人士的手语信息。具体地,翻译设备采用LS-HAN连续手势识别框架等机器学习框架对手语信息进行识别,传统的手势识别方法需要事先对初始影像进行时间分割以将初始影像分割为若干帧图像,再对图像进行手势识别,这个过程会耗费大量的时间;此外,若时间分割不准确,可能分割出听障人士变换手势时的图像,造成对手势的误判,并影响后续翻译步骤;因此,手语识别单元302采用机器学习算法中的LS-HAN连续手势识别框架,对初始影像中听障人士所做手势动作进行连续识别,其中,二维卷积子单元3021采用二维卷积网络可提取得到初始影像中听障人士的若干身体姿势信息(坐姿、站姿、头部姿态等)与手势信息(手臂、手掌、手指的位置)作为静态手语信息,以及三维卷积子单元3022采用三维卷积网络可提取到每一手势信息对应的动作变换信息(听障人士从当前所做出的静态手语变换到另一静态手语时产生的变换动作)作为动态手语信息,进而数据综合子单元3023综合上述静态手语信息与动态手语信息,可得到初始影像中听障人士的手语信息。可见,采用连续手势识别框架可无需进行繁冗的时间分割与逐帧识别工作,加快了对手势动作的识别速度,且由于连续识别手势动作的过程可清楚地区分开每一手语动作与相邻手语动作间的变换动作,因此对手语动作的识别准确率极高。
作为一种可选的实施方式,手语识别单元302采用NPU(嵌入式神经网络处理器)来处理深度影像,相比传统处理器,NPU在处理海量的多媒体数据时具有极高的处理速率,可实时对连续的深度影像进行识别,相较传统的时间分割识别方法,其识别准确率高,且避免了传统处理器在进行影像识别时的延迟响应问题,为进行实时的手语翻译奠定了基础。
作为一种可选的实施方式,在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之后,以及在词组匹配单元303采用算法匹配模型匹配得到手语信息对应的若干文字词组之前,特征识别子单元306确定匹配于手语信息的地域特征;模型选取子单元307获取与所述地域特征相对应的算法匹配模型;具体地,手语与有声语言一样,在不同国家与不同地区的有不同的表达形式,例如,在南方表达“1个月”的手语动作,在北方表达的则是“一月份”,因此,在手语翻译的过程中需要考虑地域因素,才能准确地将手语信息翻译为匹配的文字词组;翻译设备设置有对应于不同地域的多个算法匹配模型,在采用连续手势识别框架识别得到手语信息之后,模型选取子单元307可根据手语信息中的地域特征,如静态手语信息中特殊的独有的手势信息或者动态手语信息中特殊的动作变换信息,来获取与其地域特征相对应的算法匹配模型。通过选取匹配于手语信息的地域特征的算法匹配模型,可避免由于手语的地域差异而使翻译得到的文字词组产生歧义。
作为一种可选的实施方式,相对有声语言繁多的语法及句式,手语通常是采用与手势动作对应的多个简单的词组来进行表达,这就使得在将一连串的手语翻译成文字后,得到的是若干文字词组,而非一个用词准确、句式严谨的句子。因此,词组组合单元304还将根据手语的使用规律,对翻译得到的若干文字词组进行智能组合,通过在文字词组间添加介词等方式,将若干文字词组只能组合为普通人可准确理解的文字语句。
作为一种可选的实施方式,在词组匹配单元303匹配得到手语信息对应的文字词组,词组组合单元304将文字词组智能组合为文字语句后,文字输出单元305将实时地把文字语句输出在翻译设备的显示屏等显示介质上,从而使正在与听障人士沟通的普通人可实时地理解听障人士所做手语的准确含义,方便了听障人士在社会上进行沟通交流。可以理解的是,文字语句也可通过音频等形式向与听障人士进行沟通的一方进行输出.
可见,实施图3所描述的翻译设备,可将听障人士所做出的手语动作实时准确地翻译为文字信息,使普通人理解听障人士所做出手语的含义,方便了听障人士在社会上进行沟通交流。
实施例四
请参阅图4,图4是本发明实施例公开的另一种翻译设备的结构示意图。该***还包括:
人脸识别单元308,用于在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之前,在初始影像中识别听障人士的人脸图像,根据人脸图像确定听障人士的位置信息;
手语检测单元309,用于根据位置信息检测听障人士是否进行手语表达;
手语识别单元302,具体用于在手语检测单元309检测到听障人士进行手语表达时,采用连续手势识别框架识别初始影像中听障人士的手语信息;
音频采集单元310,用于采集发言者的音频信息;
音频转换单元311,用于识别音频信息对应的文字信息;
文字处理单元312,用于将音频信息对应的文字信息处理为若干文字词组;
手语匹配单元313,用于采用算法匹配模型匹配得到若干文字词组对应的手语动画;
手语输出单元314,用于输出若干文字词组对应的手语动画。
本发明实施例中,人脸识别单元308用于根据人脸图像确定听障人士的位置信息,手语检测单元309根据位置信息检测听障人士是否进行手语表达,在检测到听障人士进行手语表达时,触发手语识别单元302识别听障人士的手语信息;音频采集单元310及音频转换单元311采集并将音频信息转换为文字信息,文字处理单元312与手语匹配单元313将文字信息处理为对应的手语动画,由手语输出单元314进行输出。
作为一种可选的实施方式,在手语识别单元302采用连续手势识别框架识别初始影像中听障人士的手语信息之前,人脸识别单元308在初始影像中识别听障人士的人脸图像,根据人脸图像确定听障人士的位置信息;手语检测单元309根据位置信息检测听障人士是否进行手语表达;若是,触发手语识别单元302。具体地,在拍摄听障人士的深度影像期间,深度影像的画面中可能存在除听障人士以外的其他人,为了准确地获取并识别听障人士的手语信息,避免其他人的动作对手语翻译过程造成干扰,有必要对听障人士的人脸及位置信息进行检测;在此,可预先在翻译设备中录入听障人士的人脸数据,人脸识别单元308通过人脸数据在初始影像中识别听障人士的人脸图像,并根据识别到的听障人士的人脸图像对听障人士的躯干与肢体进行识别,确定出听障人士的位置信息,实现对深度影像中的听障人士进行定位;进而手语检测单元309根据听障人士在深度影像中的位置信息,采用动作检测检测听障人士是否做出手势动作,进行手语表达;在检测到听障人士进行手语表达时,触发手语识别单元302,调用续手势识别框架识别手语信息。可见,通过对听障人士的位置信息及动作进行检测,确保了检测过程中可准确获取到听障人士的手语信息;而通过在检测到听障人士进行手语表达的动作后再调用连续手势识别框架进行识别,可排除干扰动作触发误翻译,还可节省功耗。
作为一种可选的实施方式,音频采集单元310采集发言者的音频信息;音频转换单元311识别音频信息对应的文字信息;文字处理单元312将音频信息对应的文字信息处理为若干文字词组;手语匹配单元313采用算法匹配模型匹配得到若干文字词组对应的手语动画;手语输出单元314输出若干文字词组对应的手语动画。具体地,音频采集单元310采集发言者的音频信息,音频转换单元311、文字处理单元312及手语匹配单元313将音频信息翻译为听障人士所能理解的手语动画并由手语输出单元314输出给听障人士;音频采集单元310采集发言者的音频信息,音频转换单元311识别出音频信息对应的文字信息,文字处理单元312将文字信息拆分为若干表意明确的文字词组,此时,手语匹配单元313调用算法匹配模型匹配上述若干文字词组对应的手语动画,手语输出单元314将手语动画输出至翻译设备上听障人士一侧的显示屏上,从而听障人士可在发言者发言之后,实时地查看音频信息对应的手语动画,实现了听障人士与普通人的双向无障碍交流。
可见,实施图4所描述的翻译设备,听障人士的位置信息与手语信息将被准确地识别,避免无关的影像干扰翻译过程;而与听障人士进行交流的发言者,其发出的音频信息也将被翻译为手语动画并输出给听障人士,实现了听障人士与普通人实时的双向无障碍交流。
实施例五
请参阅图5,图5是本发明实施例公开的另一种翻译设备的结构示意图。如图5所示,该翻译设备可以包括:
存储有可执行程序代码的存储器501;
与存储器501耦合的处理器502;
其中,处理器502调用存储器501中存储的可执行程序代码,执行图1~图2所示的任意一种基于机器学习的手语翻译方法的部分步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图2所示的任意一种基于机器学习的手语翻译方法的全部或部分步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于机器学习的手语翻译方法及翻译设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于机器学习的手语翻译方法,其特征在于,包括:
控制深度摄像头拍摄初始影像;
采用连续手势识别框架识别所述初始影像中听障人士的手语信息;
采用算法匹配模型匹配得到所述手语信息对应的若干文字词组;
将所述若干文字词组智能组合为文字语句;
输出所述手语信息对应的文字语句。
2.根据权利要求1所述的方法,其特征在于,在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前,所述方法还包括:
在所述初始影像中识别所述听障人士的人脸图像,根据所述人脸图像确定所述听障人士的位置信息;
根据所述位置信息检测所述听障人士是否进行手语表达;
若是,执行所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息的步骤。
3.根据权利要求1所述的方法,其特征在于,所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息,包括:
采用二维卷积网络提取所述初始影像中包括的若干身体姿势信息与若干手势信息,作为所述初始影像的静态手语信息;
采用三维卷积网络提取每一所述手势信息对应的动作变换信息,作为所述初始影像的动态手语信息;
综合所述静态手语信息与所述动态手语信息,得到所述初始影像中听障人士的手语信息。
4.根据权利要求1所述的方法,其特征在于,在所述采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后,以及在所述采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前,所述方法还包括:
确定匹配于所述手语信息的地域特征;
获取与所述地域特征相对应的算法匹配模型。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:
采集发言者的音频信息;
识别所述音频信息对应的文字信息;
将所述音频信息对应的文字信息处理为若干文字词组;
采用算法匹配模型匹配得到所述若干文字词组对应的手语动画;
输出所述若干文字词组对应的手语动画。
6.一种翻译设备,其特征在于,包括:
拍摄单元,用于控制深度摄像头拍摄初始影像;
手语识别单元,用于采用连续手势识别框架识别所述初始影像中听障人士的手语信息;
词组匹配单元,用于采用算法匹配模型匹配得到所述手语信息对应的若干文字词组;
词组组合单元,用于将所述若干文字词组智能组合为文字语句;
文字输出单元,用于输出所述手语信息对应的文字语句。
7.根据权利要求6所述的翻译设备,其特征在于,所述翻译设备还包括:
人脸识别单元,用于在所述手语识别单元采用连续手势识别框架识别所述初始影像中听障人士的手语信息之前,在所述初始影像中识别所述听障人士的人脸图像,根据所述人脸图像确定所述听障人士的位置信息;
手语检测单元,用于根据所述位置信息检测所述听障人士是否进行手语表达;
所述手语识别单元,具体用于在所述手语检测单元检测到所述听障人士进行手语表达时,采用连续手势识别框架识别所述初始影像中听障人士的手语信息。
8.根据权利要求6所述的翻译设备,其特征在于,所述手语识别单元包括:
二维卷积子单元,用于采用二维卷积网络提取所述初始影像中包括的若干身体姿势信息与若干手势信息,作为所述初始影像的静态手语信息;
三维卷积子单元,用于采用三维卷积网络提取每一所述手势信息对应的动作变换信息,作为所述初始影像的动态手语信息;
数据综合子单元,用于综合所述静态手语信息与所述动态手语信息,得到所述初始影像中听障人士的手语信息。
9.根据权利要求6所述的翻译设备,其特征在于,所述翻译设备还包括:
特征识别单元,用于在所述手语识别单元采用连续手势识别框架识别所述初始影像中听障人士的手语信息之后,以及在所述词组匹配单元采用算法匹配模型匹配得到所述手语信息对应的若干文字词组之前,识别与所述手语信息相匹配的地域特征;
模型选取单元,用于选取与所述地域特征相对应的算法匹配模型用于词组匹配。
10.根据权利要求6~9任一项所述的翻译设备,其特征在于,所述翻译设备还包括:
音频采集单元,用于采集发言者的音频信息;
音频转换单元,用于识别所述音频信息对应的文字信息;
文字处理单元,用于将所述音频信息对应的文字信息处理为若干文字词组;
手语匹配单元,用于采用算法匹配模型匹配得到所述若干文字词组对应的手语动画;
手语输出单元,用于输出所述若干文字词组对应的手语动画。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911039201.1A CN110992783A (zh) | 2019-10-29 | 2019-10-29 | 一种基于机器学习的手语翻译方法及翻译设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911039201.1A CN110992783A (zh) | 2019-10-29 | 2019-10-29 | 一种基于机器学习的手语翻译方法及翻译设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110992783A true CN110992783A (zh) | 2020-04-10 |
Family
ID=70082541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911039201.1A Pending CN110992783A (zh) | 2019-10-29 | 2019-10-29 | 一种基于机器学习的手语翻译方法及翻译设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110992783A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488744A (zh) * | 2020-04-12 | 2020-08-04 | 北京花兰德科技咨询服务有限公司 | 多模态语言信息ai翻译方法、***和终端 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN113407034A (zh) * | 2021-07-09 | 2021-09-17 | 呜啦啦(广州)科技有限公司 | 一种手语互译方法及*** |
CN114120770A (zh) * | 2021-03-24 | 2022-03-01 | 张银合 | 一种听障人员无障碍交流的方法 |
WO2022226919A1 (zh) * | 2021-04-29 | 2022-11-03 | 华为技术有限公司 | 与乘客交流的方法及相关装置 |
WO2023007213A1 (en) * | 2021-07-27 | 2023-02-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Translating sensory communications |
CN116386149A (zh) * | 2023-06-05 | 2023-07-04 | 果不其然无障碍科技(苏州)有限公司 | 一种手语信息处理方法及*** |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236986A (zh) * | 2010-05-06 | 2011-11-09 | 鸿富锦精密工业(深圳)有限公司 | 手语翻译***、手语翻译装置及手语翻译方法 |
CN107785017A (zh) * | 2016-08-24 | 2018-03-09 | 南京乐朋电子科技有限公司 | 一种基于手语识别的交互*** |
KR101839244B1 (ko) * | 2016-12-13 | 2018-03-15 | 한밭대학교 산학협력단 | 감정을 표현하는 수화보조 시스템 |
CN107977611A (zh) * | 2017-11-20 | 2018-05-01 | 深圳天珑无线科技有限公司 | 文字转换方法、终端和计算机可读存储介质 |
US20180129295A1 (en) * | 2016-08-15 | 2018-05-10 | Purple Communications, Inc. | Gesture-based control and usage of video relay systems |
CN108256458A (zh) * | 2018-01-04 | 2018-07-06 | 东北大学 | 一种针对聋人自然手语的双向实时翻译***及方法 |
CN108877408A (zh) * | 2018-06-25 | 2018-11-23 | 贵州东仪医疗器械有限公司 | 手语翻译装置及方法 |
CN108960158A (zh) * | 2018-07-09 | 2018-12-07 | 珠海格力电器股份有限公司 | 一种智能手语翻译的***和方法 |
CN108960126A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 手语翻译的方法、装置、设备及*** |
CN109637291A (zh) * | 2018-12-27 | 2019-04-16 | 深圳市赛亿科技开发有限公司 | 一种手语翻译方法及*** |
CN109993130A (zh) * | 2019-04-04 | 2019-07-09 | 哈尔滨拓博科技有限公司 | 一种基于深度图像动态手语语义识别***及方法 |
CN110008839A (zh) * | 2019-03-08 | 2019-07-12 | 西安研硕信息技术有限公司 | 一种自适应手势识别的智能手语交互***及方法 |
CN110070065A (zh) * | 2019-04-30 | 2019-07-30 | 李冠津 | 基于视觉以及语音智能的手语***以及通讯方法 |
CN110348420A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
-
2019
- 2019-10-29 CN CN201911039201.1A patent/CN110992783A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236986A (zh) * | 2010-05-06 | 2011-11-09 | 鸿富锦精密工业(深圳)有限公司 | 手语翻译***、手语翻译装置及手语翻译方法 |
US20180129295A1 (en) * | 2016-08-15 | 2018-05-10 | Purple Communications, Inc. | Gesture-based control and usage of video relay systems |
CN107785017A (zh) * | 2016-08-24 | 2018-03-09 | 南京乐朋电子科技有限公司 | 一种基于手语识别的交互*** |
KR101839244B1 (ko) * | 2016-12-13 | 2018-03-15 | 한밭대학교 산학협력단 | 감정을 표현하는 수화보조 시스템 |
CN107977611A (zh) * | 2017-11-20 | 2018-05-01 | 深圳天珑无线科技有限公司 | 文字转换方法、终端和计算机可读存储介质 |
CN108256458A (zh) * | 2018-01-04 | 2018-07-06 | 东北大学 | 一种针对聋人自然手语的双向实时翻译***及方法 |
CN108877408A (zh) * | 2018-06-25 | 2018-11-23 | 贵州东仪医疗器械有限公司 | 手语翻译装置及方法 |
CN108960126A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 手语翻译的方法、装置、设备及*** |
CN108960158A (zh) * | 2018-07-09 | 2018-12-07 | 珠海格力电器股份有限公司 | 一种智能手语翻译的***和方法 |
CN109637291A (zh) * | 2018-12-27 | 2019-04-16 | 深圳市赛亿科技开发有限公司 | 一种手语翻译方法及*** |
CN110008839A (zh) * | 2019-03-08 | 2019-07-12 | 西安研硕信息技术有限公司 | 一种自适应手势识别的智能手语交互***及方法 |
CN109993130A (zh) * | 2019-04-04 | 2019-07-09 | 哈尔滨拓博科技有限公司 | 一种基于深度图像动态手语语义识别***及方法 |
CN110070065A (zh) * | 2019-04-30 | 2019-07-30 | 李冠津 | 基于视觉以及语音智能的手语***以及通讯方法 |
CN110348420A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 手语识别方法、装置、计算机可读存储介质和计算机设备 |
Non-Patent Citations (1)
Title |
---|
JIE HUANG,WENGANG ZHOU,QILIN ZHANG,HOUQIANG LI,WEIPING LI: "《Video-based Sign Language Recognition without Temporal Segmentation》", 《32ND AAAI CONFERENCE ON ARTIFICAL INTELLIGENCE》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488744A (zh) * | 2020-04-12 | 2020-08-04 | 北京花兰德科技咨询服务有限公司 | 多模态语言信息ai翻译方法、***和终端 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN114120770A (zh) * | 2021-03-24 | 2022-03-01 | 张银合 | 一种听障人员无障碍交流的方法 |
WO2022226919A1 (zh) * | 2021-04-29 | 2022-11-03 | 华为技术有限公司 | 与乘客交流的方法及相关装置 |
CN113407034A (zh) * | 2021-07-09 | 2021-09-17 | 呜啦啦(广州)科技有限公司 | 一种手语互译方法及*** |
CN113407034B (zh) * | 2021-07-09 | 2023-05-26 | 呜啦啦(广州)科技有限公司 | 一种手语互译方法及*** |
WO2023007213A1 (en) * | 2021-07-27 | 2023-02-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Translating sensory communications |
CN116386149A (zh) * | 2023-06-05 | 2023-07-04 | 果不其然无障碍科技(苏州)有限公司 | 一种手语信息处理方法及*** |
CN116386149B (zh) * | 2023-06-05 | 2023-08-22 | 果不其然无障碍科技(苏州)有限公司 | 一种手语信息处理方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992783A (zh) | 一种基于机器学习的手语翻译方法及翻译设备 | |
US11847426B2 (en) | Computer vision based sign language interpreter | |
US10692480B2 (en) | System and method of reading environment sound enhancement based on image processing and semantic analysis | |
KR102167760B1 (ko) | 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템 | |
CN111325817A (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
KR20160124779A (ko) | 손글씨 및 제스처 인식을 위한 방법 및 시스템 | |
CN112784696A (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
TW201937344A (zh) | 智慧型機器人及人機交互方法 | |
CN110796101A (zh) | 一种嵌入式平台的人脸识别方法及*** | |
CN109993130A (zh) | 一种基于深度图像动态手语语义识别***及方法 | |
KR101187600B1 (ko) | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 | |
Shinde et al. | Real time two way communication approach for hearing impaired and dumb person based on image processing | |
CN112749646A (zh) | 一种基于手势识别的交互式点读*** | |
Ivanko et al. | Automatic lip-reading of hearing impaired people | |
CN112639964A (zh) | 利用深度信息识别语音的方法、***及计算机可读介质 | |
CN113822187A (zh) | 手语翻译、客服、通信方法、设备和可读介质 | |
KR20190121593A (ko) | 수화 인식 시스템 | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
KR20210018028A (ko) | 손동작 및 팔동작 학습기반 수화 번역 시스템 및 방법 | |
KR20200001902A (ko) | 수어 인식 인공신경망 학습데이터 생성방법과 시스템 및 변형 애니메이션 데이터 생성시스템 | |
Ivanko et al. | A novel task-oriented approach toward automated lip-reading system implementation | |
CN114630190A (zh) | 关节姿态参数的确定方法、模型训练方法及装置 | |
Tang et al. | Multimodal emotion recognition (MER) system | |
Mattos et al. | Towards view-independent viseme recognition based on CNNs and synthetic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |