CN107798964A - 一种实时识别手势的手语智能交互设备及其交互方法 - Google Patents
一种实时识别手势的手语智能交互设备及其交互方法 Download PDFInfo
- Publication number
- CN107798964A CN107798964A CN201711184055.2A CN201711184055A CN107798964A CN 107798964 A CN107798964 A CN 107798964A CN 201711184055 A CN201711184055 A CN 201711184055A CN 107798964 A CN107798964 A CN 107798964A
- Authority
- CN
- China
- Prior art keywords
- sign language
- information
- processor
- virtual portrait
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种实时识别手势的手语智能交互设备,它包括网络电视、处理器、显示器和摄像头,所述处理器包括获取单元、处理单元、编辑单元和解码单元,所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息和深度信息;所述处理单元用于将所述音频信息转化为文本信息;所述编辑单元用于区分所述音频信息的不同声源,并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画;所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息。本发明可帮助聋哑人理解电机节目,也可帮助聋哑人与电视节目的沟通。
Description
技术领域
本发明涉及人工智能领域,具体地说是一种实时识别手势的手语智能交互设备及其交互方法。
背景技术
手语作为一种可视化语言,它主要靠手及手臂的运动姿态辅以适当的表情和口型来表达语意,是聋哑人与外界交流的重要途径。
目前我国聋哑人口数量巨大,而相对电视节目而言,聋哑人可观看的节目相对单一,仅在一些新闻类节目中会出现手语主持人帮助残疾人了解新闻内容,在娱乐性节目方面,市场上缺乏帮助聋哑人理解节目内容的设备出现。
近几年,虽然手语编辑合成技术和虚拟人合成技术已相对成熟,但用于手语表达的多虚拟人合成技术的应用仍非常少。基于目前Kinect摄像头的手语识别技术日益成熟,本发明也利用Kinect摄像头及相关技术来获取手语手势的图像和深度信息,通过处理器处理、识别手语信息,并转化为文本,作为设备的反馈信息, 实现人机交互的任务。
发明内容
本发明所要解决的技术问题是克服上述现有技术的缺陷,提供一种实时识别手势的手语智能交互设备及其交互方法,可协助聋哑人理解娱乐性节目内容。
为此,本发明采用如下的技术方案:一种实时识别手势的手语智能交互设备,它包括网络电视、处理器、显示器和摄像头,所述处理器分别与网络电视、显示器连接,它包括获取单元、处理单元、编辑单元和解码单元;
所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息与深度信息;
所述处理单元用于将所述音频信息转化为文本信息;
所述编辑单元用于区分所述音频信息的不同声源,并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画;
所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息;
所述显示器与处理器连接,用于显示虚拟人物手语动画;
所述网络电视用于向处理器发送信息,接收和显示处理器发送的信息;
所述摄像头与处理器连接,用于获取观看者手语手势的图像信息和深度信息并将所述图像信息和深度信息发送至处理器。
进一步地,所述声源为音色或音调。
进一步地,所述解码单元采用卷积神经网络算法进行处理和识别观看者手语手势的图像信息和深度信息。
进一步地,所述摄像头为Kinect摄像头。
本发明还提出了一种实时识别手势的手语智能交互方法,所述手语智能交互方法包括:
获取网络电视的音频信号并进行预处理;
对所述音频信号根据信号特点进行截取划分,得到有效声源;
根据声音特点对音频信号进行不同声源的区分,并判断所属声源的人物性别和形体形象,进而在虚拟人物库中选择相应的虚拟人物;
利用虚拟人物编辑技术和动画合成技术生成虚拟人物手语视频;
将所述虚拟人物手语视频在显示器上显示。
进一步地,所述手语智能交互方法还包括:
通过训练大量的手语手势图像信息和深度信息得到卷积神经网络模型;
获取人的实时手语手势图像信息和深度信息;
根据卷积神经网络模型将实时手语手势图像信息和深度信息解码处理转化为文本信息;
将所述文本信息并通过网络电视连接上传至网络。
与现有技术相比,本发明的有益效果是:
(1)基于Kinect的手语智能交互式平台设备,与一般基于Kinect的手语识别技术相比,首先对获取到的手语手势图像信息和深度信息进行预处理,再将预处理的结果输入到经过大量样本训练得到的卷积神经网络模型,通过该模型可将预处理结果进行分类,并将分类结果输出,并最终转化为文本信息。卷积神经网络法有效地提高了手势识别的正确率;
(2)基于Kinect的手语智能交互式平台设备,与一般虚拟人物编辑合成方法相比,提出根据音频信号进行声源识别的方法,在获取到网络电视音频信号之后,对音频信号进行不同声源的区分处理,并根据音色、音调等判断人物性别和大概的形体形象,进而在虚拟人物库中选择相应的虚拟人物,帮助聋哑人理解一些较为复杂的多人对话场景;
(3)基于Kinect的手语智能交互式平台设备,与其他手语设备连接Kinect摄像头,能够获取人的手语手势图像信息和深度信息,并传输至设备处理器中进行处理和识别,得到相应的文本信息作为反馈信息,并通过网络电视连接将反馈信息上传至网络;
(4)仅能方便聋哑人观赏更多娱乐性节目,还能加强聋哑人的社会参与度,极大地丰富聋哑人的娱乐生活。
附图说明
图1为实时识别手势的手语智能交互设备主要结构简图。
图2为基于语音识别的虚拟人物构造方法流程图。
附图标记说明:1-网络电视,2-处理器,3-显示器,4-观看者,5-摄像头。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细阐述。
如图1所示,本发明提供了一种实时识别手势的手语智能交互设备,它包括网络电视、处理器、显示器和摄像头,所述处理器分别与网络电视、显示器连接,它包括获取单元、处理单元、编辑单元和解码单元;所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息与深度信息;所述处理单元用于将所述音频信息转化为文本信息;所述编辑单元用于区分所述音频信息的不同声源,并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画;所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息,所述显示器与处理器连接,用于显示虚拟人物手语动画;所述网络电视用于向处理器发送信息,接收和显示处理器发送的信息;所述摄像头与处理器连接,用于获取观看者手语手势的图像信息和深度信息并将所述图像信息和深度信息发送至处理器。
优选地,所述声源为音色或音调。
优选地,所述解码单元采用卷积神经网络算法进行处理和识别观看者手语手势的图像信息和深度信息。
优选地,所述摄像头为Kinect摄像头。所述Kinect摄像头能够获取人的手语手势图像信息和深度信息,并传输至处理器中。
如图2所示,本发明还提供了一种实时识别手势的手语智能交互方法,所述手语智能交互方法包括:
获取网络电视的音频信号并进行预处理;
对所述音频信号根据信号特点进行截取划分,得到有效声源;
根据声音特点对音频信号进行不同声源的区分,并判断所属声源的人物性别和形体形象,进而在虚拟人物库中选择相应的虚拟人物;
利用虚拟人物编辑技术和动画合成技术生成虚拟人物手语视频;
将所述虚拟人物手语视频在显示器上显示。
优选地,所述手语智能交互方法还包括:
通过训练大量的手语手势图像信息和深度信息得到卷积神经网络模型;
获取人的实时手语手势图像信息和深度信息;
根据卷积神经网络模型将实时手语手势图像信息和深度信息解码处理转化为文本信息;
将所述文本信息并通过网络电视连接上传至网络。
本发明首先对获取到的手语手势图像信息和深度信息进行预处理,再将预处理的结果输入到经过大量样本训练得到的卷积神经网络模型,通过该模型可将预处理结果进行分类,并将分类结果输出,并最终转化为文本信息。卷积神经网络法有效地提高了手势识别的正确率。整个***不仅可以将(多人对话的)娱乐性节目的音频信号输出为手语视频显示,还可以利用Kinect摄像头获取人的手语手势信息,经过处理器处理得到反馈信息上传至网络平台。本发明能帮助聋哑人理解大多数电视节目内容,并能够将其反馈意见及时上传至网络平台,加强聋哑人的社会参与度,极大地丰富聋哑人的娱乐生活。
本发明能帮助聋哑人理解大多数电视节目内容,并能够将其反馈意见及时上传至网络平台,加强聋哑人的社会参与度,极大地丰富聋哑人的娱乐生活,还能够帮助聋哑人理解一些较为复杂的多人对话场景。
本发明的保护范围并不局限于上述描述,任何在本发明的启示下的其它形式产品,不论在形状或结构上作任何改变,凡是与本发明具有相同或相近的技术方案,均在本发明的保护范围之内。
Claims (6)
1.一种实时识别手势的手语智能交互设备,其特征在于,它包括网络电视、处理器、显示器和摄像头,所述处理器分别与网络电视、显示器连接,它包括获取单元、处理单元、编辑单元和解码单元;
所述获取单元用于获取网络电视的音频信息和观看者手语手势的图像信息与深度信息;
所述处理单元用于将所述音频信息转化为文本信息;
所述编辑单元用于区分所述音频信息的不同声源,并根据所述声源利用虚拟人物手语编辑技术编辑相应的虚拟人物手语动画;
所述解码单元用于将所述图像信息和深度信息进行解码处理转化为文本信息;
所述显示器与处理器连接,用于显示虚拟人物手语动画;
所述网络电视用于向处理器发送信息,接收和显示处理器发送的信息;
所述摄像头与处理器连接,用于获取观看者手语手势的图像信息和深度信息并将所述图像信息和深度信息发送至处理器。
2.根据权利要求1所述的实时识别手势的手语智能交互设备,其特征在于,所述声源为音色或音调。
3.根据权利要求1所述的实时识别手势的手语智能交互设备,其特征在于,
所述解码单元采用卷积神经网络算法进行处理和识别观看者手语手势的图像信息和深度信息。
4.根据权利要求1所述的实时识别手势的手语智能交互设备,其特征在于,所述摄像头为Kinect摄像头。
5.一种实时识别手势的手语智能交互方法,其特征在于,所述手语智能交互方法包括:
获取网络电视的音频信号并进行预处理;
对所述音频信号根据信号特点进行截取划分,得到有效声源;
根据声音特点对音频信号进行不同声源的区分,并判断所属声源的人物性别和形体形象,进而在虚拟人物库中选择相应的虚拟人物;
利用虚拟人物编辑技术和动画合成技术生成虚拟人物手语视频;
将所述虚拟人物手语视频在显示器上显示。
6.根据权利要求5所述的手语智能交互方法,其特征在于,所述手语智能交互方法还包括:
通过训练大量的手语手势图像信息和深度信息得到卷积神经网络模型;
获取人的实时手语手势图像信息和深度信息;
根据卷积神经网络模型将实时手语手势图像信息和深度信息解码处理转化为文本信息;
将所述文本信息并通过网络电视连接上传至网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711184055.2A CN107798964A (zh) | 2017-11-24 | 2017-11-24 | 一种实时识别手势的手语智能交互设备及其交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711184055.2A CN107798964A (zh) | 2017-11-24 | 2017-11-24 | 一种实时识别手势的手语智能交互设备及其交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107798964A true CN107798964A (zh) | 2018-03-13 |
Family
ID=61534724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711184055.2A Pending CN107798964A (zh) | 2017-11-24 | 2017-11-24 | 一种实时识别手势的手语智能交互设备及其交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798964A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776985A (zh) * | 2018-06-05 | 2018-11-09 | 科大讯飞股份有限公司 | 一种语音处理方法、装置、设备及可读存储介质 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN110020442A (zh) * | 2019-04-12 | 2019-07-16 | 上海电机学院 | 一种便携式翻译机 |
CN110730360A (zh) * | 2019-10-25 | 2020-01-24 | 北京达佳互联信息技术有限公司 | 视频上传、播放的方法、装置、客户端设备及存储介质 |
CN112328076A (zh) * | 2020-11-06 | 2021-02-05 | 北京中科深智科技有限公司 | 一种语音驱动人物手势的方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1532775A (zh) * | 2003-03-19 | 2004-09-29 | ���µ�����ҵ��ʽ���� | 可视电话终端 |
CN101794528A (zh) * | 2010-04-02 | 2010-08-04 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种手语语音双向翻译*** |
CN103956167A (zh) * | 2014-05-06 | 2014-07-30 | 北京邮电大学 | 一种基于Web的可视化手语翻译方法及设备 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
CN105868282A (zh) * | 2016-03-23 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 聋哑人进行信息交流的方法、装置及智能终端 |
CN107291348A (zh) * | 2017-05-31 | 2017-10-24 | 珠海市魅族科技有限公司 | 拍照方法及装置、计算机设备和计算机可读存储介质 |
-
2017
- 2017-11-24 CN CN201711184055.2A patent/CN107798964A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1532775A (zh) * | 2003-03-19 | 2004-09-29 | ���µ�����ҵ��ʽ���� | 可视电话终端 |
CN101794528A (zh) * | 2010-04-02 | 2010-08-04 | 北京大学软件与微电子学院无锡产学研合作教育基地 | 一种手语语音双向翻译*** |
CN103956167A (zh) * | 2014-05-06 | 2014-07-30 | 北京邮电大学 | 一种基于Web的可视化手语翻译方法及设备 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
CN105868282A (zh) * | 2016-03-23 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 聋哑人进行信息交流的方法、装置及智能终端 |
CN107291348A (zh) * | 2017-05-31 | 2017-10-24 | 珠海市魅族科技有限公司 | 拍照方法及装置、计算机设备和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
叶平: "基于Kinect的实时手语识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776985A (zh) * | 2018-06-05 | 2018-11-09 | 科大讯飞股份有限公司 | 一种语音处理方法、装置、设备及可读存储介质 |
CN109446876A (zh) * | 2018-08-31 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
CN109446876B (zh) * | 2018-08-31 | 2020-11-06 | 百度在线网络技术(北京)有限公司 | 手语信息处理方法、装置、电子设备和可读存储介质 |
US11580983B2 (en) | 2018-08-31 | 2023-02-14 | Baidu Online Network Technology (Beijing) Co., Ltd. | Sign language information processing method and apparatus, electronic device and readable storage medium |
CN110020442A (zh) * | 2019-04-12 | 2019-07-16 | 上海电机学院 | 一种便携式翻译机 |
CN110730360A (zh) * | 2019-10-25 | 2020-01-24 | 北京达佳互联信息技术有限公司 | 视频上传、播放的方法、装置、客户端设备及存储介质 |
CN112328076A (zh) * | 2020-11-06 | 2021-02-05 | 北京中科深智科技有限公司 | 一种语音驱动人物手势的方法和*** |
CN112328076B (zh) * | 2020-11-06 | 2021-10-29 | 北京中科深智科技有限公司 | 一种语音驱动人物手势的方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798964A (zh) | 一种实时识别手势的手语智能交互设备及其交互方法 | |
CN105681920B (zh) | 一种具有语音识别功能的网络教学方法及*** | |
CN103369288B (zh) | 基于网络视频的即时通讯方法及*** | |
CN102271241A (zh) | 一种基于面部表情/动作识别的图像通信方法及*** | |
CN109118854A (zh) | 一种全景沉浸式直播互动教学*** | |
CN103650002A (zh) | 基于文本的视频生成 | |
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
CN103369289A (zh) | 一种视频模拟形象的通信方法和装置 | |
CN115209180A (zh) | 视频生成方法以及装置 | |
CN107808191A (zh) | 虚拟人多模态交互的输出方法和*** | |
CN107203149A (zh) | 一种虚拟人工智能伴侣 | |
CN113132741A (zh) | 一种虚拟直播***和方法 | |
CN111372113B (zh) | 基于数字人表情、嘴型及声音同步的用户跨平台交流方法 | |
CN104505089B (zh) | 口语纠错方法及设备 | |
CN116229311B (zh) | 视频处理方法、装置及存储介质 | |
CN116705038A (zh) | 基于语音分析的3d虚拟演讲者驱动方法及相关装置 | |
CN117152283A (zh) | 一种利用扩散模型的语音驱动人脸图像生成方法及*** | |
CN109977427A (zh) | 一种微型可佩戴的实时翻译装置 | |
CN114445529A (zh) | 一种基于动作及语音特征的人脸图像动画方法和*** | |
CN113254713B (zh) | 基于视频内容生成情感曲线的多源情感计算***及方法 | |
CN104980558A (zh) | 一种信息处理的方法、装置、手机宠物客户端及移动终端 | |
CN208335209U (zh) | 听障生融合教育课堂辅助***及装置 | |
CN112055167A (zh) | 一种基于5g云视频会议的远程协作三维建模***及方法 | |
CN117893649B (zh) | 一种相框、基于相框的展览方法 | |
CN108922526A (zh) | 一种可实现人机交互的智能家居语音控制*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180313 |
|
WD01 | Invention patent application deemed withdrawn after publication |