CN118072397A - 一种移动设备上的实时手语翻译*** - Google Patents
一种移动设备上的实时手语翻译*** Download PDFInfo
- Publication number
- CN118072397A CN118072397A CN202410310394.4A CN202410310394A CN118072397A CN 118072397 A CN118072397 A CN 118072397A CN 202410310394 A CN202410310394 A CN 202410310394A CN 118072397 A CN118072397 A CN 118072397A
- Authority
- CN
- China
- Prior art keywords
- sign language
- gesture
- real
- translation
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 60
- 230000009471 action Effects 0.000 claims abstract description 22
- 238000013136 deep learning model Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 230000002452 interceptive effect Effects 0.000 claims abstract description 4
- 230000035945 sensitivity Effects 0.000 claims abstract description 4
- 230000014616 translation Effects 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 208000016354 hearing loss disease Diseases 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于机器学习技术领域,提供了一种移动设备上的实时手语翻译***,包括:采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度;本发明通过采用轻量级深度学习模型,减少对计算资源的需求,使得手语识别***能够流畅地在移动设备上运行。
Description
技术领域
本发明属于机器学习技术领域,具体地说是一种移动设备上的实时手语翻译***。
背景技术
目前,手语翻译技术主要依赖于两类方式:基于传感器的手语识别和基于视觉(图像处理与计算机视觉)的手语识别;
基于传感器的手语识别:一般需要用户佩戴特定的传感器设备,如手套配备运动或压力传感器,通过捕捉手势动作的物理特性来识别手语。这种方式能够相对准确地识别手势,但存在显著的局限性,主要在于佩戴传感器的不便捷性和设备成本较高;
基于视觉的手语识别:利用摄像头捕捉手势图像,再通过图像处理和计算机视觉技术分析手势。近年来,随着深度学习技术的发展,基于视觉的手语识别取得了显著进步。尽管如此,现有技术在处理高解析度视频数据时往往需要较高的计算能力,这在移动设备上尤为突出。此外,对于复杂背景或低光照环境,识别准确率也会明显下降;
然而,对于基于深度学习的视觉手语识别,尽管准确率较高,但其通常需要显著的计算资源,这对移动设备来说是一个挑战,需要高昂的资源消耗;现有技术往往在背景复杂或光线不足的环境中表现不佳,限制了实际应用的场景,受到识别环境的限制;基于传感器的方案需要用户佩戴特定设备,这不利于日常使用和普及,便捷性不足;许多现有***在实时反馈手语识别结果方面存在延迟,影响用户体验,实时性差。为此,提出了一种移动设备上的实时手语翻译***。
发明内容
为了解决上述技术问题,本发明提供一种移动设备上的实时手语翻译***,以解决背景技术中所提出的问题。
一种移动设备上的实时手语翻译***,包括:
采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;
姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;
手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;
交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度。
优选的,所述姿态识别模块通过创建包含不同手语姿态的图像数据集,标注每个手语姿态的类别,并对数据集进行预处理,将预处理后的数据集对Mob i l eNet轻量级深度学习模型进行训练,学习手语姿态的特征,在训练过程中进行交叉验证和调参,将训练好的模型部署到移动设备上,通过采集模块捕捉用户手语动作,同时采用长短期记忆网络处理手语的时间序列数据,将图像输入模型进行推断,实时识别手语姿态。
优选的,所述轻量级深度学习模型训练过程具体包括:
S101、收集包含手语姿态的图像数据集,将数据集划分为训练集和验证集,采用80%的数据作为训练集,20%的数据作为验证集;
S102、对训练集进行数据增强,包括随机裁剪、旋转、翻转和缩放操作;
S103、使用训练集对Mobi l eNet模型进行训练,通过反向传播算法调整模型参数,并监控模型在验证集上的表现,根据验证集的性能调整模型超参数。
优选的,所述手语翻译模块具体实施过程是:
S201、通过使用训练好的轻量级深度学习模型对实时捕获的视频流进行手语姿态检测,即识别和跟踪手部和手指的位置和动作;
S202、基于检测到的手语姿态利用深度学习模型对手语动作进行识别,使用循环神经网络对手语动作特征进行学习和表示,捕捉手语动作的语义信息;
S203、构建手语词汇表,包括常见的手语动作或手势,每个手势对应唯一的标识符;
S204、构建Sep2Sep模型,基于编码器-解码器结构,用于将提取到的手语姿态序列映射到对应的手语词汇序列;
S205、引入注意力机制,使模型在翻译过程中关注手语姿态序列中重要部分;
S206、在解码器端设置生成模块,用于根据编码器的输出和注意力机制的信息生成对应手语翻译结果的文字描述。
优选的,所述手语翻译模块上当手语转换成文本后,进行文本转换成语音操作,具体步骤为:S301、对翻译的文本进行分词和词性标注处理;
S302、采用TTS模型,将文本转换为语音信号;
S303、使用声学模型捕捉语音的声音特征,使用TTS引擎将处理后的文本转换成语音。
优选的,所述手语翻译模块通过建立手语翻译数据库,包含手语姿态与对应翻译的映射关系,当姿态识别模块输出识别结果后,将其与手语翻译数据库中的数据进行匹配,找到对应的翻译结果,使用自然语言处理技术对手语识别结果进行翻译成目标语言文本。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过采用轻量级深度学习模型,减少对计算资源的需求,使得手语识别***能够流畅地在移动设备上运行,降低了资源消耗。
2、本发明通过利用现有的移动设备进行手语翻译,无需额外的硬件设备,大大提高了便携性,同时设计简洁直观的用户界面使得即使是手语新手或技术新手也能轻松上手,增强了***的易用性。
3、本发明通过提供有效的沟通桥梁,帮助听力障碍人士更容易地与他人进行交流,促进了听障人士与社会的更好融合,有助于推动手语的普及和公众对听障文化的认识。
附图说明
图1为本发明的整体***模块框图;
图2为本发明的轻量级深度学习模型训练过程步骤图;
图3为本发明的手语翻译模块实施过程步骤图;
图4为本发明的文本转换成语音过程步骤图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如附图1至附图4所示:
实施例一:本发明提供一种移动设备上的实时手语翻译***,包括:
采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;
姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;
手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;
交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度。
该高效、便携、用户友好的手语翻译***及其交互方法,主要面向移动设备用户,特别是听力障碍人士,以提高他们在日常生活中的沟通便利性和社交参与度,为其提供便捷的沟通方式,使其能够更好地融入社会。
姿态识别模块通过创建包含不同手语姿态的图像数据集,标注每个手语姿态的类别,并对数据集进行预处理,预处理包括裁剪、大小调整和数据增强,以增加模型的泛化能力,将预处理后的数据集对Mobi l eNet轻量级深度学习模型进行训练,学习手语姿态的特征,在训练过程中进行交叉验证和调参,用于优化模型性能,将训练好的模型部署到移动设备上,通过采集模块捕捉用户手语动作,同时采用长短期记忆网络处理手语的时间序列数据,将图像输入模型进行推断,实时识别手语姿态。
轻量级深度学习模型训练过程具体包括:
S101、收集包含手语姿态的图像数据集,确保数据集的质量和多样性,将数据集划分为训练集和验证集,采用80%的数据作为训练集,20%的数据作为验证集;
S102、对训练集进行数据增强,包括随机裁剪、旋转、翻转和缩放操作;以扩大数据集规模和增加模型的泛化能力;
S103、使用训练集对Mobi l eNet模型进行训练,通过反向传播算法调整模型参数以最小化损失函数,并监控模型在验证集上的表现,避免过拟合,根据验证集的性能调整模型超参数。
实施例二:手语翻译模块具体实施过程是:
S201、通过使用训练好的轻量级深度学习模型对实时捕获的视频流进行手语姿态检测,即识别和跟踪手部和手指的位置和动作;
S202、基于检测到的手语姿态利用深度学习模型对手语动作进行识别,使用循环神经网络对手语动作特征进行学习和表示,捕捉手语动作的语义信息;
S203、构建手语词汇表,包括常见的手语动作或手势,每个手势对应唯一的标识符;
S204、构建Sep2Sep模型,基于编码器-解码器结构,用于将提取到的手语姿态序列映射到对应的手语词汇序列;
S205、引入注意力机制,使模型在翻译过程中关注手语姿态序列中重要部分,提高翻译的准确性和流畅性;
S206、在解码器端设置生成模块,用于根据编码器的输出和注意力机制的信息生成对应手语翻译结果的文字描述。
手语翻译模块上当手语转换成文本后,进行文本转换成语音操作,具体步骤为:S301、对翻译的文本进行分词和词性标注处理;
S302、采用TTS模型,将文本转换为语音信号;
S303、使用声学模型捕捉语音的声音特征,使用TTS引擎将处理后的文本转换成语音。
通过将手语翻译结果转换成文本,再利用TTS技术将文本转换成语音,可以实现从手语翻译到语音输出的完整流程。
实施例三:本实施例与上一个实施例基本相同,区别在于,手语翻译模块通过建立手语翻译数据库,包含手语姿态与对应翻译的映射关系,当姿态识别模块输出识别结果后,将其与手语翻译数据库中的数据进行匹配,找到对应的翻译结果,使用自然语言处理技术对手语识别结果进行翻译成目标语言文本。
由上可知:通过采用优化的轻量级深度学习模型,本公开在减少移动设备计算负载的同时保证了手语识别的高准确性和速度,使得手语翻译过程更加流畅,减少了用户等待时间,提升了用户体验,可采用先进的图像预处理技术和深度学习模型的优化设计,提高***在不同环境条件下(如不同光照、复杂背景)的手语识别准确度,进一步扩展***的适用场景;利用现有的移动设备进行手语翻译,无需额外的硬件设备,大大提高了便携性;本公开还容易添加更多手语词汇、表达和支持更多目标语言的翻译,增加***的实用价值,为不同文化和语言背景的用户提供更多的方便。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或与实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种移动设备上的实时手语翻译***,其特征在于,包括:
采集模块,通过在移动设备内设置的摄像头捕捉用户手语动作,实时获取视频输入;
姿态识别模块,采用轻量级深度学习模型进行实时手语姿态分析和识别;
手语翻译模块,建立包含广泛手语词汇的数据库,支持多种手语和目标语言的翻译,使手语转换成文本以及文本转换成语音,输出文本和语音两种结果;
交互界面模块,用于提供用户操作界面,包括手语识别启动、停止按钮,实时视频预览,翻译结果展示,支持用户自定义设置,选择目标语言、调整识别灵敏度。
2.如权利要求1所述一种移动设备上的实时手语翻译***,其特征在于:所述姿态识别模块通过创建包含不同手语姿态的图像数据集,标注每个手语姿态的类别,并对数据集进行预处理,将预处理后的数据集对MobileNet轻量级深度学习模型进行训练,学习手语姿态的特征,在训练过程中进行交叉验证和调参,将训练好的模型部署到移动设备上,通过采集模块捕捉用户手语动作,同时采用长短期记忆网络处理手语的时间序列数据,将图像输入模型进行推断,实时识别手语姿态。
3.如权利要求2所述一种移动设备上的实时手语翻译***,其特征在于:所述轻量级深度学习模型训练过程具体包括:
S101、收集包含手语姿态的图像数据集,将数据集划分为训练集和验证集,采用80%的数据作为训练集,20%的数据作为验证集;
S102、对训练集进行数据增强,包括随机裁剪、旋转、翻转和缩放操作;
S103、使用训练集对Mobi leNet模型进行训练,通过反向传播算法调整模型参数,并监控模型在验证集上的表现,根据验证集的性能调整模型超参数。
4.如权利要求1所述一种移动设备上的实时手语翻译***,其特征在于:所述手语翻译模块具体实施过程是:
S201、通过使用训练好的轻量级深度学习模型对实时捕获的视频流进行手语姿态检测,即识别和跟踪手部和手指的位置和动作;
S202、基于检测到的手语姿态利用深度学习模型对手语动作进行识别,使用循环神经网络对手语动作特征进行学习和表示,捕捉手语动作的语义信息;
S203、构建手语词汇表,包括常见的手语动作或手势,每个手势对应唯一的标识符;
S204、构建Sep2Sep模型,基于编码器-解码器结构,用于将提取到的手语姿态序列映射到对应的手语词汇序列;
S205、引入注意力机制,使模型在翻译过程中关注手语姿态序列中重要部分;
S206、在解码器端设置生成模块,用于根据编码器的输出和注意力机制的信息生成对应手语翻译结果的文字描述。
5.如权利要求4所述一种移动设备上的实时手语翻译***,其特征在于:所述手语翻译模块上当手语转换成文本后,进行文本转换成语音操作,具体步骤为:S301、对翻译的文本进行分词和词性标注处理;
S302、采用TTS模型,将文本转换为语音信号;
S303、使用声学模型捕捉语音的声音特征,使用TTS引擎将处理后的文本转换成语音。
6.如权利要求4所述一种移动设备上的实时手语翻译***,其特征在于:所述手语翻译模块通过建立手语翻译数据库,包含手语姿态与对应翻译的映射关系,当姿态识别模块输出识别结果后,将其与手语翻译数据库中的数据进行匹配,找到对应的翻译结果,使用自然语言处理技术对手语识别结果进行翻译成目标语言文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410310394.4A CN118072397A (zh) | 2024-03-19 | 2024-03-19 | 一种移动设备上的实时手语翻译*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410310394.4A CN118072397A (zh) | 2024-03-19 | 2024-03-19 | 一种移动设备上的实时手语翻译*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118072397A true CN118072397A (zh) | 2024-05-24 |
Family
ID=91111029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410310394.4A Pending CN118072397A (zh) | 2024-03-19 | 2024-03-19 | 一种移动设备上的实时手语翻译*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118072397A (zh) |
-
2024
- 2024-03-19 CN CN202410310394.4A patent/CN118072397A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12002138B2 (en) | Speech-driven animation method and apparatus based on artificial intelligence | |
CN111754978B (zh) | 韵律层级标注方法、装置、设备和存储介质 | |
CN112151015B (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
Madhuri et al. | Vision-based sign language translation device | |
WO2015059976A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN111539408A (zh) | 基于拍照识物的智能点读方案 | |
CN112802460B (zh) | 一种基于语音处理的空间环境预报*** | |
Loeding et al. | Progress in automated computer recognition of sign language | |
CN114239610A (zh) | 多国语言语音辨识及翻译方法与相关的*** | |
Dhake et al. | Sign language communication with dumb and deaf people | |
Maitrey et al. | A Framework for Sign Language to Speech Conversion Using Hand Gesture Recognition Method | |
CN118072397A (zh) | 一种移动设备上的实时手语翻译*** | |
Dokhe et al. | Survey Paper: Image Reader For Blind Person | |
CN118248147B (zh) | 基于自监督学习的视听语音识别方法、设备和存储介质 | |
Sun et al. | Kinect-based visual communication system | |
Shambhuwani et al. | A Survey on Machine Learning Based Techniques for Sign Language Translation System | |
Veerraju et al. | Sign Detection for Deaf and Dumb People Using ML | |
Putcha et al. | Text Extraction and Translation Through Lip Reading using Deep Learning. | |
Saw et al. | Gesture Recognition in Sign Language Translation: A Deep Learning Approach | |
Jain et al. | A Review of Sign Language Recognition Approaches | |
Chandra et al. | Lip Reading Using Neural networks and Deep Learning | |
Piperakis et al. | SignTrack: Advancements in Real-Time Sign Language Processing for Inclusive Computing with optimized AI | |
Wyawahare et al. | ListenBot: Augmented Reality Based Speech To Sign Language Conversion | |
Sheth et al. | American Sign Language Recognition and Generation: A CNN-based Approach | |
Kavitha et al. | Real Time Automated Sign Language Recognition and Transcription with Audio Feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |