CN110070065A - 基于视觉以及语音智能的手语***以及通讯方法 - Google Patents

基于视觉以及语音智能的手语***以及通讯方法 Download PDF

Info

Publication number
CN110070065A
CN110070065A CN201910359115.2A CN201910359115A CN110070065A CN 110070065 A CN110070065 A CN 110070065A CN 201910359115 A CN201910359115 A CN 201910359115A CN 110070065 A CN110070065 A CN 110070065A
Authority
CN
China
Prior art keywords
sign language
animation
language
natural
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910359115.2A
Other languages
English (en)
Inventor
李冠津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910359115.2A priority Critical patent/CN110070065A/zh
Publication of CN110070065A publication Critical patent/CN110070065A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明目的提供了基于视觉以及语音智能的手语***及通讯方法,获取自然语音或通话状态下从网络端接收到的自然语音信息,并通过语音识别技术将得到语音的文本信息,使用语音的文本信息与自然手语3D动画库进行查询识别,形成连贯的自然手语3D动画,然后进行显示;获取使用者的手势动作视屏,并对视屏中的手势进行特征识别,通过识别到的手势特征与自然手语数据库进行查询识别,得到手语的文本信息,使用手语的文本信息与文字语音库进行查询识别,得到机器语音信息,然后将机器语音信息通过网络发送给对方终端;也可在同一终端进行实施语音或文本信息的翻译;实现手语与自然语言的双向翻译以及实时通讯。

Description

基于视觉以及语音智能的手语***以及通讯方法
技术领域
本发明属于语言沟通转换领域,具体涉及基于视觉以及语音智能的手语***以及通讯方法。
背景技术
现有2010年第六次人口普查数据显示,全中国大约有2075万听障人士,全世界大致有6500-7000万人为听障人士,并且这一数据还在以2-3万名的速度增长。听障人士之间用手语交流,正常人之间用有声语言沟通。正常人习得手语的人较少,加之缺乏专业的手语翻译培训,专业手语翻译人员匮乏,更缺乏某些专业领域的知识,如医疗、心理咨询、法律等专业知识,这不仅使正常人和听障人士之间沟通存在较大障碍,而且限制了听障人士群体的发展和生存质量的提高,阻碍了听障人士融入社会的步伐。
1.2手语翻译器的国内外现状为解决听障人士沟通困难问题,便于他们与社会交流国内外学者进行了一些尝试。中国清华大学、北航大学的学生利用“护腕”捕捉手部运动的肌电信号,通过“手音”APP与正常人交流;国内外都有学者研发利用传感器的“可穿戴”手套实时对手部信号进行翻译;同时利用leap motion技术做成的“项链”可以对手部移动进行视觉追踪并将追踪到的动作信息翻译成文字并展示在屏幕上;还有日本研制的手语机器人;以上方法优点是手势识别率高,但存在穿戴复杂和输入设备昂贵的缺点。
发明内容
本发明目提供了基于视觉以及语音智能的手语终端通讯***,解决了听障人士与正常人之间日常沟通交流以及打电话的问题。
本发明所采用的技术方案为:
基于视觉以及语音智能的手语***,包括手势采集模块、手势识别模块、语音采集模块、语音识别模块、通讯模块、语音合成模块、手语合成模块、显示模块,其中,
手势采集模块,用于采集使用人的手语手势信息;
手势识别模块,用于识别所述手语手势信息并转化为第一文本信息;
语音合成模块,用于查找第一文本信息中文字的语音库,获得第一文本信息对应的机器语音信息;
语音采集模块,用于采集自然语音信息或通话状态下从网络端接收到的自然语音信息;
语音识别模块,用于识别所述自然语音信息并转化为第二文本信息;
手语合成模块,用于查找第二文本信息中文本的手语动画库,获得第二文本信息对应的手语动画;同时用于直接根据文本信息查找手语动画库,获得文本信息的手语动画;
通讯模块,用于将所述机器语音信息通过网络发送到对方终端;以及接收对方终端通过网络发送的自然语音信息;
显示模块,用于显示所述手语动画、第一文本信息和/或第二文本信息。
当听障人士对健听人士进行交流时,听障人士打出手语,终端***通过手势采集模块获得听障人士的手语手势特征,手势识别模块利用图像和动作识别手语含义,进而翻译成文本,利用双屏显示技术,显示在屏幕上,同时利用语音合成模块翻译成语音,通过终端的音箱设备播放,使健听人士“听懂手语”;
当健听人士对听障人士进行交流时,健听人士说话,终端***通过语音采集模块采集健听人士发出的自然语音信息,通过语音识别模块识别成文本信息,再通过手语合成模块将文本信息转换成手语动画,然后将动画通过显示模块进行播放,另外,***通过手语合成模块可直接对终端内文本信息进行转换手语动画;手机语音或文本翻译成手语并动画表现出来,使听障人士“看懂声音”;
当在通话状态时,通讯模块接收对方终端发来的语音信息,进行上述语音转手语动画的过程,让听障人士能够知道通话对方的语言;通过同时,将听障人士的手势通过上述手语转语音信息的过程,然后通讯模块将语言信息通过网络发送给对方终端,使对方健听人士能够知道听障人士的手语表达的信息;
由此,解决听障人士与正常人之间日常沟通交流以及打电话的问题。
进一步地,手势采集模块采用Leap Motion体感控制器。Leap Motion体感控制器是一款采用红外成像技术来捕捉手势动作数据,所以受到自然环境因素,如光照强度、空气湿度等,影响较小,是μm级3D手动交互设备,可以追踪微小到0.01mm的动作,拥有150°视角,可跟踪一个人10个手指动作,最大频率为每秒290帧,延迟比显示器的刷新率还要低,交互方式简单,特别适合用作手语翻译。
基于视觉以及语音智能的手语通讯方法,包括以下步骤:
S1,选取手语动作视屏,对手语动作进行特征提取,根据手语特征对应的文本信息创建自然手语数据库;
S2,建立文本信息对应的自然手语3D动画库;
S3,获取通话状态下从网络端接收到的自然语音信息,并通过语音识别技术奖得到语音的文本信息,使用语音的文本信息与步骤S2中所述的自然手语3D动画库进行查询识别,形成连贯的自然手语3D动画,然后进行显示;
S4,获取使用者的手势动作视屏,并对视屏中的手势进行特征识别,通过识别到的手势特征与步骤S1中所述的自然手语数据库进行查询识别,得到手语的文本信息,使用手语的文本信息与文字语音库进行查询识别,得到机器语音信息,然后将机器语音信息通过网络发送给对方终端。
进一步地,在步骤S3将得到自然手语3D动画进行显示的同时,也将语音的文本信息和/或步骤S4中手语的文本信息进行分屏显示。一部手机,在进行听障人士的手语信息采集的同时,转化成语音和文本,再转给健听人士看,过程比较麻烦,为了方便使用,在面对面手语实时翻译过程中,采用双屏模式方便操作。
进一步地,步骤S2中所述自然手语3D动画库包括日常生活中的手语句子以及词汇的语义库,所述语义库包括同义词词典以及手语句子的文法信息,然后进行综合最大前向和最大后向的分词,在此基础上拼音和纠错;最后进行基于文法的句子含义自动匹配自然手语3D动画库,生成3D动画。通过语义库包括同义词词典以及手语句子的文法信息,然后进行综合最大前向和最大后向的分词,实现语义理解、纠错识别,使得转换更准确。
进一步地,步骤S2中所述自然手语3D动画库包括还包括的手语图片信息、手语动画信息、手语视频信息;自然手语的3D动画建模技术包括角色模型建设和手语动作以及面部表情建模,其建模方法是:建立了unity人物模型,进行动作建模;利用leap motion对手语专业人士的手语动作捕捉,生成原始动画并拍摄手语视频,对手语动画人工调优,形成可用动画;再将自然手语词汇序列的每一个自然手语词汇对应的手语动画自动拼接,形成完整的手语动画;通过修改uv坐标,达到角色表情变化。通过建立三种形式的资源库,资源库中的手语图片、手语动画、手语视频都是能够让听障人士100%理解的,日常对话300句的语义理解准确率达97%,对试验语料语义理解准确率达到84%。
进一步地,步骤S2中所述自然手语3D动画库位于云服务器端。由于数据库包含了大量的手语图片、3D手语动画、手语视频,占用存储较大,为此,把资源存储到云端,降低本地存储占用,在云端识别后,服务器把对应的3D手语动画推送到客户端,由此,不占用本地存储空间,使终端要求变低,实用性增强。
进一步地,步骤S3中,识别自然语音信息通过降噪算法,再经过讯飞语音云识别为文字,调用自然语言手语资源服务平台,提供自然语言处理功能,对自然语言文本进行处理,将符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列;进而通过动画自动生成功能,生成可播放的手语动画。通过对自然语言进行文本进行处理,通过符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列,使得转换手语动画时更加符合听障人士手语习惯,提高转换的准确率。
进一步地,步骤S4中,获取使用者的手势特征采用是采用LeapMotion作采集设备,当手语发出者在机器视觉所包含的视场范围内完成一个发话动作的时候,机器采集到听障人士的手部动作及其面部的表情方面等的信息,并且会从这些采集到的信息中进行提取手语特征,从而达到识别手语动作的目的。
进一步地,在步骤S4中,手语的识别过程包括前处理和模型匹配;前处理步骤主要包括结合深度图和彩色图的人手分割技术,整段视频的关键帧提取技术;模型匹配步骤采用融合了手型,轨迹和位置的多维度特征,并结合网状手语图模型来描述每个用于识别的手语词,进而计算其相似度,识别目标。通过采用结合网状手语图模型来描述每个用于识别的手语词,进而计算其相似度,网状手语图模型具有独创性,它能充分利用关键帧的优势,快速对每个手语词进行建模和相应的识别;从而进行有效动作的识别和无效动作的剔除。
本发明具有如下的优点和有益效果:
1、本发明基于视觉以及语音智能的手语***,携带方便,实现手语与自然语言的双向实时翻译,当听障人士对健听人士进行交流时,听障人士打出手语,终端***通过手势采集模块获得听障人士的手语手势特征,手势识别模块利用图像和动作识别手语含义,进而翻译成文本,利用双屏显示技术,显示在屏幕上,同时利用语音合成模块翻译成语音,通过终端的音箱设备播放,使健听人士“听懂手语”;当健听人士对听障人士进行交流时,健听人士说话,终端***通过语音采集模块采集健听人士发出的自然语音信息,通过语音识别模块识别成文本信息,再通过手语合成模块将文本信息转换成手语动画,然后将动画通过显示模块进行播放,另外,***通过手语合成模块可直接对终端内文本信息进行转换手语动画;手机语音或文本翻译成手语并动画表现出来,使听障人士“看懂声音”;当在通话状态时,通讯模块接收对方终端发来的语音信息,进行上述语音转手语动画的过程,让听障人士能够知道通话对方的语言;通过同时,将听障人士的手势通过上述手语转语音信息的过程,然后通讯模块将语言信息通过网络发送给对方终端,使对方健听人士能够知道听障人士的手语表达的信息;由此,解决听障人士与正常人之间日常沟通交流以及打电话的问题,***成本低廉,易于推广;
2、本发明基于视觉以及语音智能的手语通讯方法,实现普及自然手语,搭建自然手语资源服务平台;搭建自然手语资源库;进行自然语言处理分析文字语义;通过对自然语言进行文本进行处理,通过符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列,使得转换手语动画时更加符合听障人士手语习惯,提高转换的准确率;
3、本发明基于视觉以及语音智能的手语通讯方法,通过采用结合网状手语图模型来描述每个用于识别的手语词,进而计算其相似度,网状手语图模型具有独创性,它能充分利用关键帧的优势,快速对每个手语词进行建模和相应的识别;从而进行有效动作的识别和无效动作的剔除。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明的方法语音或文本信息转成动画的流程示意图。
图2是本发明中手势转换成文字或语音的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1:
本实施例提供了基于视觉以及语音智能的手语终端通讯***,包括手势采集模块、手势识别模块、语音采集模块、语音识别模块、通讯模块、语音合成模块、手语合成模块、显示模块,其中,
手势采集模块,用于采集使用人的手语手势信息;
手势识别模块,用于识别所述手语手势信息并转化为第一文本信息;
语音合成模块,用于查找第一文本信息中文字的语音库,获得第一文本信息对应的机器语音信息;
语音采集模块,用于采集自然语音信息或通话状态下从网络端接收到的自然语音信息;
语音识别模块,用于识别所述自然语音信息并转化为第二文本信息;
手语合成模块,用于查找第二文本信息中文本的手语动画库,获得第二文本信息对应的手语动画;同时用于直接根据文本信息查找手语动画库,获得文本信息的手语动画;
通讯模块,用于将所述机器语音信息通过网络发送到对方终端;以及接收对方终端通过网络发送的自然语音信息;
显示模块,用于显示所述手语动画、第一文本信息和/或第二文本信息。
当听障人士对健听人士进行交流时,听障人士打出手语,终端***通过手势采集模块获得听障人士的手语手势特征,手势识别模块利用图像和动作识别手语含义,进而翻译成文本,利用双屏显示技术,显示在屏幕上,同时利用语音合成模块翻译成语音,通过终端的音箱设备播放,使健听人士“听懂手语”;当健听人士对听障人士进行交流时,健听人士说话,终端***通过语音采集模块采集健听人士发出的自然语音信息,通过语音识别模块识别成文本信息,再通过手语合成模块将文本信息转换成手语动画,然后将动画通过显示模块进行播放,另外,***通过手语合成模块可直接对终端内文本信息进行转换手语动画;手机语音或文本翻译成手语并动画表现出来,使听障人士“看懂声音”;当在通话状态时,通讯模块接收对方终端发来的语音信息,进行上述语音转手语动画的过程,让听障人士能够知道通话对方的语言;通过同时,将听障人士的手势通过上述手语转语音信息的过程,然后通讯模块将语言信息通过网络发送给对方终端,使对方健听人士能够知道听障人士的手语表达的信息;由此,解决听障人士与正常人之间日常沟通交流以及打电话的问题
实施时,手势采集模块采用Leap Motion体感控制器。Leap Motion体感控制器是一款采用红外成像技术来捕捉手势动作数据,所以受到自然环境因素(如光照强度、空气湿度等)影响较小,是μm级3D手动交互设备,可以追踪微小到0.01mm的动作,拥有150°视角,可跟踪一个人10个手指动作,最大频率为每秒290帧,延迟比显示器的刷新率还要低,交互方式简单,特别适合用作手语翻译。
实施例2:
如图1、图2所示基于视觉以及语音智能的手语通讯方法,包括以下步骤:
S1,选取手语动作视屏,对手语动作进行特征提取,根据手语特征对应的文本信息创建自然手语数据库;
S2,建立文本信息对应的自然手语3D动画库;
S3,获取通话状态下从网络端接收到的自然语音信息,并通过语音识别技术奖得到语音的文本信息,使用语音的文本信息与步骤S2中所述的自然手语3D动画库进行查询识别,形成连贯的自然手语3D动画,然后进行显示;
S4,获取使用者的手势动作视屏,并对视屏中的手势进行特征识别,通过识别到的手势特征与步骤S1中所述的自然手语数据库进行查询识别,得到手语的文本信息,使用手语的文本信息与文字语音库进行查询识别,得到机器语音信息,然后将机器语音信息通过网络发送给对方终端。
实施时,在步骤S3将得到自然手语3D动画进行显示的同时,也将语音的文本信息和/或步骤S4中手语的文本信息进行分屏显示。文本显示主要是将手势手语翻译成文本并即时显示,能更方便聋哑人和正常人之间交流,实现实时交谈。为了使该软件更具实用性,该***还加入了多语种翻译功能,可连接上云翻译服务平台,将文本显示的容易翻译成多种语言。
实施时,步骤S2中所述自然手语3D动画库包括日常生活中的手语句子以及词汇的语义库,所述语义库包括同义词词典以及手语句子的文法信息,然后进行综合最大前向和最大后向的分词,在此基础上拼音和纠错;最后进行基于文法的句子含义自动匹配自然手语3D动画库,生成3D动画。自然语言的处理。包括词法分析、依存句法分析、词义相似度、文本纠错、对话情绪识别等功能,并能完成汉语文字到自然手语词汇序列的翻译。要提高语音(或文字)转成动画手语的精确度,就要建立内容丰富的语义库。建立日常生活中的手语句子、词汇的语义库。语义库包括同义词词典等各种词典和手语句子的文法信息;之后进行综合最大前向和最大后向的分词,在此基础上拼音和纠错;最后进行基于文法的句子含义自动匹配和生成,同时情感倾向分析。三个资源库中的手语图片、手语动画、手语视频都是能够让听障人士100%理解的,日常对话300句的语义理解准确率达97%,对试验语料语义理解准确率达到84%。
步骤S2中所述自然手语3D动画库包括还包括的手语图片信息、手语动画信息、手语视频信息;自然手语的3D动画建模技术包括角色模型建设和手语动作以及面部表情建模,其建模方法是:建立了unity人物模型,进行动作建模;利用leap motion对手语专业人士的手语动作捕捉,生成原始动画并拍摄手语视频,对手语动画人工调优,形成可用动画;再将自然手语词汇序列的每一个自然手语词汇对应的手语动画自动拼接,形成完整的手语动画;为了让人物更加逼真有趣,通过修改uv坐标,达到角色表情变化。目前,手语翻译只能短小精悍,不能长篇大论,手语动画的聋人可读度在80%。
手语资源的接入和同步。步骤S2中所述自然手语3D动画库位于云服务器端。手语专家和听障人士建设的手语资源可以同步、无缝接入本平台,实现资源平台的开放性。由于数据库包含了大量的手语图片、3D手语动画、手语视频,占用存储较大,为此,我们把资源存储到云端,降低本地存储占用,在云端识别后,服务器把对应的3D手语动画推送到客户端。
在步骤S3中,识别自然语音信息通过降噪算法,再经过讯飞语音云识别为文字,调用自然语言手语资源服务平台,提供自然语言处理功能,对自然语言文本进行处理,将符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列;
例如:“青少年要好好学习科学文化知识。”
进行分词和句子成分标记:
“青少年”“要”“好好”“学习”“科学文化知识。”
分别是:主语能愿动词副词谓语宾语
根据语法规则,“主语+副词+谓语+宾语”转化为“主语+宾语+谓语+副词”和能愿动词置后原则调整词语顺序,变为“青少年”+“科学文化知识”+“学习”+“好好”+“要”。进而通过动画自动生成功能,生成可播放的手语动画,展示给对方用户。
在步骤S4中,获取使用者的手势特征采用是采用LeapMotion作采集设备,当手语发出者在机器视觉所包含的视场范围内完成一个发话动作的时候,机器采集到听障人士的手部动作及其面部的表情方面等的信息,并且会从这些采集到的信息中进行提取手语特征,从而达到识别手语动作的目的。
在步骤S4中,手语的识别过程包括前处理和模型匹配;前处理步骤主要包括结合深度图和彩色图的人手分割技术,整段视频的关键帧提取技术;模型匹配步骤采用融合了手型,轨迹和位置的多维度特征,并结合网状手语图模型来描述每个用于识别的手语词,进而计算其相似度,识别目标。
网状手语图模型具有独创性,它能充分利用关键帧的优势,快速对每个手语词进行建模和相应的识别。在手语识别中,特征维度高,单词数量大,因此计算代价一直是困扰我们的难题,在连续手语识别中尤为突出。常用的模板匹配方法计算一个词往往需要花费“秒”级别的时间,这意味着一个句子可能几秒就结束了,而识别却得花费几倍的时间,这样是不可能达到实时的。在参考隐马尔科夫模型之后,我们建立了基于关键帧的网状手语模型。这个模型对一个手语词的几个训练样本的信息进行统计,获得可变的状态数目,状态先验,跳转概率和似然值,它比传统的隐马尔科夫模型更加适合我们的基于关键帧的手语识别问题。在此算法基础上,***也顺利的实现了实时的目标。
语音播报使用微软科大讯飞免费提供的引擎和发音包。只需按部就班的初始化COM获取接口,调用接口完成相应功能,实现语音控制,程序结束时可释放资源。多语言离线翻译功能是用科大讯飞的离线语音识别dll实现离线识别的。进入讯飞开放平台,注册、创建应用,选择“离线命令词识别”,下载需要的SDK(包括动态库dll、静态库lib、头文件.h)
方案结合语音***,将手语翻译的结果以声音和文字的形式输出。同时整合语音识别***,将正常人的语音信号转化成可查询的手语信息,并在显示终端表达出来,最终形成手语翻译***。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于视觉以及语音智能的手语***,其特征在于:包括手势采集模块、手势识别模块、语音采集模块、语音识别模块、通讯模块、语音合成模块、手语合成模块、显示模块,其中,
手势采集模块,用于采集使用人的手语手势信息;
手势识别模块,用于识别所述手语手势信息并转化为第一文本信息;
语音合成模块,用于查找第一文本信息中文字的语音库,获得第一文本信息对应的机器语音信息;
语音采集模块,用于采集自然语音信息或通话状态下从网络端接收到的自然语音信息;
语音识别模块,用于识别所述自然语音信息并转化为第二文本信息;
手语合成模块,用于查找第二文本信息中文本的手语动画库,获得第二文本信息对应的手语动画;同时用于直接根据文本信息查找手语动画库,获得文本信息的手语动画;
通讯模块,用于将所述机器语音信息通过网络发送到对方终端;以及接收对方终端通过网络发送的自然语音信息;
显示模块,用于显示所述手语动画、第一文本信息和/或第二文本信息。
2.根据权利要求1所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:所述手势采集模块采用Leap Motion体感控制器。
3.基于视觉以及语音智能的手语通讯方法,包括其特征在于:包括以下步骤:
S1,选取手语动作视屏,对手语动作进行特征提取,根据手语特征对应的文本信息创建自然手语数据库;
S2,建立文本信息对应的自然手语3D动画库;
S3,获取通话状态下从网络端接收到的自然语音信息,并通过语音识别技术奖得到语音的文本信息,使用语音的文本信息与步骤S2中所述的自然手语3D动画库进行查询识别,形成连贯的自然手语3D动画,然后进行显示;
S4,获取使用者的手势动作视屏,并对视屏中的手势进行特征识别,通过识别到的手势特征与步骤S1中所述的自然手语数据库进行查询识别,得到手语的文本信息,使用手语的文本信息与文字语音库进行查询识别,得到机器语音信息,然后将机器语音信息通过网络发送给对方终端。
4.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:在步骤S3将得到自然手语3D动画进行显示的同时,也将语音的文本信息和/或步骤S4中手语的文本信息进行分屏显示。
5.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:步骤S2中所述自然手语3D动画库包括日常生活中的手语句子以及词汇的语义库,所述语义库包括同义词词典以及手语句子的文法信息,然后进行综合最大前向和最大后向的分词,在此基础上拼音和纠错;最后进行基于文法的句子含义自动匹配自然手语3D动画库,生成3D动画。
6.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:步骤S2中所述自然手语3D动画库包括还包括的手语图片信息、手语动画信息、手语视频信息;自然手语的3D动画建模技术包括角色模型建设和手语动作以及面部表情建模,其建模方法是:建立了unity人物模型,进行动作建模;利用leap motion对手语专业人士的手语动作捕捉,生成原始动画并拍摄手语视频,对手语动画人工调优,形成可用动画;再将自然手语词汇序列的每一个自然手语词汇对应的手语动画自动拼接,形成完整的手语动画;通过修改uv坐标,达到角色表情变化。
7.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:步骤S2中所述自然手语3D动画库位于云服务器端。
8.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:在步骤S3中,识别自然语音信息通过降噪算法,再经过讯飞语音云识别为文字,调用自然语言手语资源服务平台,提供自然语言处理功能,对自然语言文本进行处理,将符合自然语言文法的自然语言文本转化成符合自然手语文法的自然手语词汇序列;进而通过动画自动生成功能,生成可播放的手语动画。
9.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:在步骤S4中,获取使用者的手势特征采用是采用LeapMotion作采集设备,当手语发出者在机器视觉所包含的视场范围内完成一个发话动作的时候,机器采集到听障人士的手部动作及其面部的表情方面等的信息,并且会从这些采集到的信息中进行提取手语特征,从而达到识别手语动作的目的。
10.根据权利要求3所述的基于视觉以及语音智能的手语终端通讯***,其特征在于:在步骤S4中,手语的识别过程包括前处理和模型匹配;前处理步骤主要包括结合深度图和彩色图的人手分割技术,整段视频的关键帧提取技术;模型匹配步骤采用融合了手型,轨迹和位置的多维度特征,并结合网状手语图模型来描述每个用于识别的手语词,进而计算其相似度,识别目标。
CN201910359115.2A 2019-04-30 2019-04-30 基于视觉以及语音智能的手语***以及通讯方法 Pending CN110070065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910359115.2A CN110070065A (zh) 2019-04-30 2019-04-30 基于视觉以及语音智能的手语***以及通讯方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910359115.2A CN110070065A (zh) 2019-04-30 2019-04-30 基于视觉以及语音智能的手语***以及通讯方法

Publications (1)

Publication Number Publication Date
CN110070065A true CN110070065A (zh) 2019-07-30

Family

ID=67369683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910359115.2A Pending CN110070065A (zh) 2019-04-30 2019-04-30 基于视觉以及语音智能的手语***以及通讯方法

Country Status (1)

Country Link
CN (1) CN110070065A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491250A (zh) * 2019-08-02 2019-11-22 安徽易百互联科技有限公司 一种聋哑人教学***
CN110598576A (zh) * 2019-08-21 2019-12-20 腾讯科技(深圳)有限公司 一种手语交互方法、装置及计算机介质
CN110992783A (zh) * 2019-10-29 2020-04-10 东莞市易联交互信息科技有限责任公司 一种基于机器学习的手语翻译方法及翻译设备
CN111081120A (zh) * 2019-12-27 2020-04-28 南京芯视元电子有限公司 一种协助听说障碍人士交流的智能穿戴设备
CN111225237A (zh) * 2020-04-23 2020-06-02 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
CN111580614A (zh) * 2020-06-28 2020-08-25 江苏科技大学 一种可穿戴智能设备及手语学习方法
CN112052688A (zh) * 2020-09-09 2020-12-08 青岛大学 一种基于语义的行为生成方法
CN112506410A (zh) * 2020-12-09 2021-03-16 福州大学 一种聋哑人无障碍在线视频交互装置
CN112825125A (zh) * 2019-11-21 2021-05-21 京东数字科技控股有限公司 手语识别方法及装置、计算机存储介质、电子设备
CN113158736A (zh) * 2021-01-21 2021-07-23 景德镇学院 一种基于深度学习的手势识别辅助交流***
CN113407034A (zh) * 2021-07-09 2021-09-17 呜啦啦(广州)科技有限公司 一种手语互译方法及***
CN113660449A (zh) * 2021-10-20 2021-11-16 中兴通讯股份有限公司 手势通信方法、装置、存储介质及电子装置
CN113706977A (zh) * 2020-08-13 2021-11-26 苏州韵果莘莘影视科技有限公司 基于译语智能手语翻译软件的播放方法及***
CN113903224A (zh) * 2021-11-01 2022-01-07 浙江方泰显示技术有限公司 一种基于双向信号交互式显示***
CN115223428A (zh) * 2021-04-20 2022-10-21 美光科技公司 转换手语
CN116095233A (zh) * 2022-05-20 2023-05-09 荣耀终端有限公司 无障碍通话方法和终端设备
CN116151226A (zh) * 2022-12-19 2023-05-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004254218A (ja) * 2003-02-21 2004-09-09 Seiko Epson Corp 携帯電話、通信方法および通信プログラム
CN101527092A (zh) * 2009-04-08 2009-09-09 西安理工大学 特定会话场景下的计算机辅助手语交流方法
CN101594434A (zh) * 2009-06-16 2009-12-02 中兴通讯股份有限公司 移动终端的手语处理方法和手语处理移动终端
CN102939791A (zh) * 2010-05-17 2013-02-20 塔塔咨询服务有限公司 用于具有听觉、言语和视觉障碍的人的手持式通信辅助器
CN104966430A (zh) * 2015-06-09 2015-10-07 北京农业智能装备技术研究中心 葡萄绑藤仿真培训***及方法
CN107491648A (zh) * 2017-08-24 2017-12-19 清华大学 基于Leap Motion体感控制器的手部康复训练方法
CN107707726A (zh) * 2016-08-09 2018-02-16 深圳市鹏华联宇科技通讯有限公司 一种用于正常人与聋哑人通讯的终端和通话方法
CN108615009A (zh) * 2018-04-24 2018-10-02 山东师范大学 一种基于动态手势识别的手语翻译交流***
CN108877409A (zh) * 2018-07-24 2018-11-23 王钦 基于手势识别和vr显示的聋哑人辅助工具及其实现方法
CN108986189A (zh) * 2018-06-21 2018-12-11 珠海金山网络游戏科技有限公司 基于三维动画中实时多人动作捕捉并直播的方法和***
CN109597485A (zh) * 2018-12-04 2019-04-09 山东大学 一种基于双指角域特征的手势交互***及其工作方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004254218A (ja) * 2003-02-21 2004-09-09 Seiko Epson Corp 携帯電話、通信方法および通信プログラム
CN101527092A (zh) * 2009-04-08 2009-09-09 西安理工大学 特定会话场景下的计算机辅助手语交流方法
CN101594434A (zh) * 2009-06-16 2009-12-02 中兴通讯股份有限公司 移动终端的手语处理方法和手语处理移动终端
CN102939791A (zh) * 2010-05-17 2013-02-20 塔塔咨询服务有限公司 用于具有听觉、言语和视觉障碍的人的手持式通信辅助器
CN104966430A (zh) * 2015-06-09 2015-10-07 北京农业智能装备技术研究中心 葡萄绑藤仿真培训***及方法
CN107707726A (zh) * 2016-08-09 2018-02-16 深圳市鹏华联宇科技通讯有限公司 一种用于正常人与聋哑人通讯的终端和通话方法
CN107491648A (zh) * 2017-08-24 2017-12-19 清华大学 基于Leap Motion体感控制器的手部康复训练方法
CN108615009A (zh) * 2018-04-24 2018-10-02 山东师范大学 一种基于动态手势识别的手语翻译交流***
CN108986189A (zh) * 2018-06-21 2018-12-11 珠海金山网络游戏科技有限公司 基于三维动画中实时多人动作捕捉并直播的方法和***
CN108877409A (zh) * 2018-07-24 2018-11-23 王钦 基于手势识别和vr显示的聋哑人辅助工具及其实现方法
CN109597485A (zh) * 2018-12-04 2019-04-09 山东大学 一种基于双指角域特征的手势交互***及其工作方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491250A (zh) * 2019-08-02 2019-11-22 安徽易百互联科技有限公司 一种聋哑人教学***
CN110598576A (zh) * 2019-08-21 2019-12-20 腾讯科技(深圳)有限公司 一种手语交互方法、装置及计算机介质
CN110992783A (zh) * 2019-10-29 2020-04-10 东莞市易联交互信息科技有限责任公司 一种基于机器学习的手语翻译方法及翻译设备
CN112825125A (zh) * 2019-11-21 2021-05-21 京东数字科技控股有限公司 手语识别方法及装置、计算机存储介质、电子设备
CN111081120A (zh) * 2019-12-27 2020-04-28 南京芯视元电子有限公司 一种协助听说障碍人士交流的智能穿戴设备
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
CN111225237A (zh) * 2020-04-23 2020-06-02 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
US11972778B2 (en) 2020-04-23 2024-04-30 Tencent Technology (Shenzhen) Company Limited Sound-picture matching method of video, related apparatus, and storage medium
CN111225237B (zh) * 2020-04-23 2020-08-21 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
CN111580614A (zh) * 2020-06-28 2020-08-25 江苏科技大学 一种可穿戴智能设备及手语学习方法
CN113706977A (zh) * 2020-08-13 2021-11-26 苏州韵果莘莘影视科技有限公司 基于译语智能手语翻译软件的播放方法及***
CN112052688B (zh) * 2020-09-09 2022-12-02 青岛大学 一种基于语义的行为生成方法
CN112052688A (zh) * 2020-09-09 2020-12-08 青岛大学 一种基于语义的行为生成方法
CN112506410A (zh) * 2020-12-09 2021-03-16 福州大学 一种聋哑人无障碍在线视频交互装置
CN113158736A (zh) * 2021-01-21 2021-07-23 景德镇学院 一种基于深度学习的手势识别辅助交流***
CN115223428A (zh) * 2021-04-20 2022-10-21 美光科技公司 转换手语
CN113407034A (zh) * 2021-07-09 2021-09-17 呜啦啦(广州)科技有限公司 一种手语互译方法及***
CN113660449A (zh) * 2021-10-20 2021-11-16 中兴通讯股份有限公司 手势通信方法、装置、存储介质及电子装置
CN113660449B (zh) * 2021-10-20 2022-03-01 中兴通讯股份有限公司 手势通信方法、装置、存储介质及电子装置
CN113903224A (zh) * 2021-11-01 2022-01-07 浙江方泰显示技术有限公司 一种基于双向信号交互式显示***
CN116095233A (zh) * 2022-05-20 2023-05-09 荣耀终端有限公司 无障碍通话方法和终端设备
CN116151226A (zh) * 2022-12-19 2023-05-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN116151226B (zh) * 2022-12-19 2024-02-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质

Similar Documents

Publication Publication Date Title
CN110070065A (zh) 基于视觉以及语音智能的手语***以及通讯方法
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN112230772B (zh) 一种虚实融合的教具自动生成方法
CN110427472A (zh) 智能客服匹配的方法、装置、终端设备及存储介质
CN106710590A (zh) 基于虚拟现实环境的具有情感功能的语音交互***及方法
CN104777911B (zh) 一种基于全息技术的智能交互方法
CN109522835A (zh) 基于智能机器人的儿童读物阅读与交互方法及***
CN110532912B (zh) 一种手语翻译实现方法及装置
CN110110104B (zh) 一种自动生成虚拟三维空间内房屋讲解的方法及装置
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
CN106157956A (zh) 语音识别的方法及装置
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
US20240070397A1 (en) Human-computer interaction method, apparatus and system, electronic device and computer medium
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
CN107942695A (zh) 情感智能音响***
CN111046148A (zh) 智能交互***及智能客服机器人
CN108256458A (zh) 一种针对聋人自然手语的双向实时翻译***及方法
CN109741748A (zh) 一种基于深度学习的智能语音转写方法及***
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和***
CN117055724A (zh) 虚拟教学场景中生成式教学资源***及其工作方法
CN111797265A (zh) 一种基于多模态技术的拍照命名方法与***
CN111539408A (zh) 基于拍照识物的智能点读方案
CN111354362A (zh) 用于辅助听障者交流的方法和装置
CN104010014A (zh) 工作学习应用机器人
CN110133872A (zh) 一种能够实现多语言互译的智能眼镜

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication