CN111832412A - 一种发声训练矫正方法及*** - Google Patents

一种发声训练矫正方法及*** Download PDF

Info

Publication number
CN111832412A
CN111832412A CN202010517909.XA CN202010517909A CN111832412A CN 111832412 A CN111832412 A CN 111832412A CN 202010517909 A CN202010517909 A CN 202010517909A CN 111832412 A CN111832412 A CN 111832412A
Authority
CN
China
Prior art keywords
lip
target object
sequence
standard
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010517909.XA
Other languages
English (en)
Other versions
CN111832412B (zh
Inventor
鲁远耀
杨棽尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202010517909.XA priority Critical patent/CN111832412B/zh
Publication of CN111832412A publication Critical patent/CN111832412A/zh
Application granted granted Critical
Publication of CN111832412B publication Critical patent/CN111832412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种发声训练矫正方法及***,所述方法包括:从待识别视频中提取目标对象的手势序列特征和唇形序列特征;从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。本发明提供的技术方案可以有效地矫正目标对象的发音唇形,并在没有其他人员帮助的情况下提高他们的言语能力。

Description

一种发声训练矫正方法及***
技术领域
本发明涉及康复训练领域,具体涉及一种发声训练矫正方法及***。
背景技术
听力受损和发音困难的人由于不正确的嘴形和不清楚的表达,导致无法像普通人那样进行交流,进而由于缺乏交流导致听障人士言语失用症的发生,因此,通过康复训练预防听障人士发生言语失用症十分必要。
然而,听力保健人员及相关资源的缺乏被认为是全球治疗听力障碍的主要障碍之一。近年来自动唇读技术在视觉感知方面起着至关重要的作用,尤其是利用自动唇读技术促进听力障碍者的社交互动是人工智能在医疗保健和康复方面最有前途的应用之一。自动唇读是指***通过自动检测来捕捉说话者的嘴唇动作,从而识别言语信息,它可以广泛应用于信息安全,嘈杂环境下的语音识别和辅助驾驶***中。目前的研究方向集中于如何提高嘴唇和手势提取特征的准确率和如何提高它们的识别率,如何利用自动唇读技术对听障人士进行康复训练对听障人士将有很大的帮助。
发明内容
为了解决现有技术中所存在的上述不足,本发明提供了一种发声训练矫正方法,包括:
从待识别视频中提取目标对象的手势序列特征和唇形序列特征;
从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;
基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。
优选的,所述语音训练数据库存储标准手语词汇以及与手语词汇对应的唇形。
优选的,所述从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征,包括:
从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇;
基于各手语词汇获得与各手语词汇对应的标准唇形;
将所述与各手语词汇对应的标准唇形生成标准唇形序列特征。
优选的,所述从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇之后,还包括:
基于各手语词汇向目标对象反馈识别结果;
基于所述目标对象的表达内容对所述识别结果进行修正,直到所述识别结果与所述目标对象的表达内容一致。
优选的,所述基于所述目标对象的表达内容对所述识别结果进行修正,包括:
当所述识别结果与所述目标对象的表达内容不一致时,则基于所述目标对象的表达内容重新录制待识别视频。
优选的,所述唇形的相似度,按下式计算:
Figure BDA0002530805650000021
式中,Similarityrate为唇形的相似度,X1为目标对象的唇形序列特征中的唇形,X2为唇形序列特征中的唇形,k为惩罚系数。
优选的,所述从待识别视频中提取目标对象的手势序列特征和唇形序列特征,包括:
通过ResNet50将手势标签与嘴唇标签一一匹配,得到手势序列特征;
使用MobileNet网络分割所述待识别视频中嘴唇图像区域以提取唇形特征;
将各唇形特征利用LSTM网络进行学习时间序列信息,得到唇形序列特征。
基于同一发明构思,本发明还提供了一种发声训练矫正***,包括:
提取模块,用于从待识别视频中提取目标对象的手势序列特征和唇形序列特征;
匹配模块,用于从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;
对比模块,用于基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。
基于同一发明构思,本发明还提供了一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现任意一项所述的发声训练矫正方法。
基于同一发明构思,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现任意一项所述的发声训练矫正方法。
与现有技术相比,本发明的有益效果为:
本发明提供的技术方案,从待识别视频中提取目标对象的手势序列特征和唇形序列特征;从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。本发明将手势特征与唇形特征相融合,利用手语识别辅助唇语识别,进而实现对目标对象的口型进行矫正,通过训练聋哑人以及发音不清楚的老年人的说话方式,帮助他们正确的表达,恢复他们与人沟通的说话能力,改善日常生活水平。
附图说明
图1为本发明中一种发声训练矫正方法的流程图;
图2为本发明的发明构思示意图;
图3为本发明实施例中的模拟测试结果示意图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
本发明针对听力障碍者和发音困难者提出了一种发声训练矫正方法,通过比较听力障碍人士和正常人的不同嘴型来训练他们的语音技能,如图1所示,该方案包括:
S1、从待识别视频中提取目标对象的手势序列特征和唇形序列特征;
S2、从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;
S3、基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。
如图2所示,本发明以帮助听障人士矫正正确发音唇形,并支持他们不断的进行自主训练为目标。通过利用目前先进的语音识别技术对摄像头获取的视频进行唇读识别,进而为听障人士提供帮助。
S1、从待识别视频中提取目标对象的手势序列特征和唇形序列特征,包括:
在即时录入的视频中通过MobileNet和长短期记忆网络(LSTM)的混合神经网络提取唇形序列特征;并利用ResNet50提取手势序列特征。
在实际提取的过程中由于唇部区域较小,所以需要在含有背景的人脸图像中寻找嘴唇出现的区域。然而在全景图中直接定位唇部具有很大难度,因此首先检测人脸,继而在人脸区域中搜索唇部。在提取手势特征时,先找到手部的位置区域,再对其进行定位,完成唇部和手部的定位后提取唇部与手部的图像特征。
本发明将ResNet50与MobileNet和LSTM的混合神经网络相结合,既保证了即便网络加深,准确率也不下降的优势,又减少了参数的使用,降低了模型的复杂度。
S2、从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征,包括:
预先创建一个语音训练数据库即多特征融合网络模型,该数据库存储标准的嘴形和相应的手语词汇。
从语音训练数据库中找到与所述手势序列特征匹配的手语词汇,以及与手语词汇匹配的正确唇形。
根据手语词汇输出该方法的识别结果,由目标对象对输出的识别结果进行判断:如果输出的识别结果与目标对象想传达的意思一致,则进行S3;如果目标对象认为输出的识别结果与自己想法由差距,则再次录入目标对象的唇读与手势序列,不断试错,直到输出的识别内容与目标对象内心所想相同为止。
S3、基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列,包括:
标准唇形序列特征与目标对象的唇形进行比较,并得出相似度,根据目标对象的发声嘴唇的大小,张开的嘴唇的角度以及不同嘴唇形状之间的差异绘制比较数据和相似度,并给出目标对象标准唇读序列以供其学习和训练。本发明根据各目标对象的比较结果将易出错的唇形构成发音训练模型库,其中包含具体的发音解析。
目标对象可以根据比较结果来分析、校正其声唇形状,并不断地进行自主训练以改善他们的嘴形相似度。
其中相似度按下式计算:
Figure BDA0002530805650000051
式中,X1,X2分别为目标对象的唇形和正确唇形,k为惩罚系数。
本发明提供的技术方案将手势特征与唇读特征相融合,利用构建的多特征融合网络模型同步进行手语识别和唇语识别,以手语来辅助***对唇语的捕捉,再对识别到的文字和表达者的口型进行矫正,并不断回传试错,直到表达者的口型正确。最后根据目标对象的对比结果构建发音训练模型库,该发音训练模型库包含发音唇形详解来训练聋哑人以及发音不清楚的老年人的说话方式,帮助他们正确的表达,恢复他们与人沟通的说话能力,改善日常生活水平。
本实施例模拟测试结果如图3所示,第一行是数字6的英文发音的标准唇形。第二行是测试者刻意改变发音唇形后的唇读序列,第三行是测试者模仿标准唇读图像,并正确发音数字6的唇读序列。根据***匹配结果显示,刻意改变发音后的匹配度为71.76%,而正确发音的匹配度为86.83%。实验表明,目标对象可以借助基于发声训练矫正方法的***进行自主训练,并根据标准唇读序列以及***给出的唇读比对结果有效的矫正其发音唇形,可以有效地矫正目标对象的发音唇形,并在没有其他人员帮助的情况下提高他们的言语能力。
本实施例中所述的目标对象包括听力障碍的人和发音困难的人。
基于同一发明构思,本发明还提供了一种发声训练矫正***,包括:
提取模块,用于从待识别视频中提取目标对象的手势序列特征和唇形序列特征;
匹配模块,用于从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;
对比模块,用于基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。
首先需要对动态视频进行预处理,将手势标签与嘴唇标签一一匹配,并利用ResNet50网络来保证准确率。其次,使用MobileNet网络分割嘴唇图像区域以提取特征。然后,利用LSTM网络来学习时间序列信息。由于目前科学人员主要是研究如何提高嘴唇和手势提取特征的准确率和如何提高它们的识别率,而本发明将ResNet50网络与MobileNet网络和LSTM网络相结合应用在康复训练中,为听障人士的康复训练做出了巨大贡献。
听力障碍人士可以根据自动唇读识别的比较结果来自主训练,校正并改善嘴形相似度。
本发明提供的***支持配合人工耳蜗等医疗器械,辅助听障人士学习如何正确地发音,从而帮助其恢复言语能力。
本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现本发明提供的任意一项所述的发声训练矫正方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现本发明提供的任意一项所述的发声训练矫正方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种发声训练矫正方法,其特征在于,包括:
从待识别视频中提取目标对象的手势序列特征和唇形序列特征;
从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;
基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。
2.如权利要求1所述的方法,其特征在于,所述语音训练数据库存储标准手语词汇以及与手语词汇对应的唇形。
3.如权利要求2所述的方法,其特征在于,所述从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征,包括:
从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇;
基于各手语词汇获得与各手语词汇对应的标准唇形;
将所述与各手语词汇对应的标准唇形生成标准唇形序列特征。
4.如权利要求3所述的方法,其特征在于,所述从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇之后,还包括:
基于各手语词汇向目标对象反馈识别结果;
基于所述目标对象的表达内容对所述识别结果进行修正,直到所述识别结果与所述目标对象的表达内容一致。
5.如权利要求4所述的方法,其特征在于,所述基于所述目标对象的表达内容对所述识别结果进行修正,包括:
当所述识别结果与所述目标对象的表达内容不一致时,则基于所述目标对象的表达内容重新录制待识别视频。
6.如权利要求1所述的方法,其特征在于,所述唇形的相似度,按下式计算:
Figure FDA0002530805640000011
式中,Similarityrate为唇形的相似度,X1为目标对象的唇形序列特征中的唇形,X2为唇形序列特征中的唇形,k为惩罚系数。
7.如权利要求1所述的方法,其特征在于,所述从待识别视频中提取目标对象的手势序列特征和唇形序列特征,包括:
通过ResNet50将手势标签与嘴唇标签一一匹配,得到手势序列特征;
使用MobileNet网络分割所述待识别视频中嘴唇图像区域以提取唇形特征;
将各唇形特征利用LSTM网络进行学习时间序列信息,得到唇形序列特征。
8.一种发声训练矫正***,其特征在于,包括:
提取模块,用于从待识别视频中提取目标对象的手势序列特征和唇形序列特征;
匹配模块,用于从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征;
对比模块,用于基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度,并为所述目标对象提供供训练的标准唇读序列。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的发声训练矫正方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的发声训练矫正方法。
CN202010517909.XA 2020-06-09 2020-06-09 一种发声训练矫正方法及*** Active CN111832412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010517909.XA CN111832412B (zh) 2020-06-09 2020-06-09 一种发声训练矫正方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010517909.XA CN111832412B (zh) 2020-06-09 2020-06-09 一种发声训练矫正方法及***

Publications (2)

Publication Number Publication Date
CN111832412A true CN111832412A (zh) 2020-10-27
CN111832412B CN111832412B (zh) 2024-04-09

Family

ID=72899322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010517909.XA Active CN111832412B (zh) 2020-06-09 2020-06-09 一种发声训练矫正方法及***

Country Status (1)

Country Link
CN (1) CN111832412B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758647A (zh) * 2021-07-20 2022-07-15 无锡柠檬科技服务有限公司 基于深度学习的语言训练方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882390A (zh) * 2010-06-12 2010-11-10 黑龙江新洋科技有限公司 三维唇语互动教学***及方法
CN104537358A (zh) * 2014-12-26 2015-04-22 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形训练数据库的生成方法
CN105047196A (zh) * 2014-04-25 2015-11-11 通用汽车环球科技运作有限责任公司 语音识别***中的语音假象补偿***和方法
CN107301863A (zh) * 2017-07-13 2017-10-27 江苏师范大学 一种聋哑儿童言语障碍康复方法及康复训练***
CN109389098A (zh) * 2018-11-01 2019-02-26 重庆中科云丛科技有限公司 一种基于唇语识别的验证方法以及***
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN110047511A (zh) * 2019-04-23 2019-07-23 赵旭 一种语音训练方法、装置、计算机设备及其存储介质
CN110059575A (zh) * 2019-03-25 2019-07-26 中国科学院深圳先进技术研究院 一种基于表面肌电唇语识别的辅助沟通***
CN110532850A (zh) * 2019-07-02 2019-12-03 杭州电子科技大学 一种基于视频关节点和混合分类器的跌倒检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882390A (zh) * 2010-06-12 2010-11-10 黑龙江新洋科技有限公司 三维唇语互动教学***及方法
CN105047196A (zh) * 2014-04-25 2015-11-11 通用汽车环球科技运作有限责任公司 语音识别***中的语音假象补偿***和方法
CN104537358A (zh) * 2014-12-26 2015-04-22 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形训练数据库的生成方法
CN107301863A (zh) * 2017-07-13 2017-10-27 江苏师范大学 一种聋哑儿童言语障碍康复方法及康复训练***
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN109389098A (zh) * 2018-11-01 2019-02-26 重庆中科云丛科技有限公司 一种基于唇语识别的验证方法以及***
CN110059575A (zh) * 2019-03-25 2019-07-26 中国科学院深圳先进技术研究院 一种基于表面肌电唇语识别的辅助沟通***
CN110047511A (zh) * 2019-04-23 2019-07-23 赵旭 一种语音训练方法、装置、计算机设备及其存储介质
CN110532850A (zh) * 2019-07-02 2019-12-03 杭州电子科技大学 一种基于视频关节点和混合分类器的跌倒检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758647A (zh) * 2021-07-20 2022-07-15 无锡柠檬科技服务有限公司 基于深度学习的语言训练方法及***

Also Published As

Publication number Publication date
CN111832412B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
Engwall Analysis of and feedback on phonetic features in pronunciation training with a virtual teacher
CN103838866B (zh) 一种文本转换方法及装置
CN103996155A (zh) 智能交互及心理慰藉机器人服务***
KR102167760B1 (ko) 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템
CN113657168B (zh) 基于卷积神经网络的学生学习情绪的识别方法
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练***及方法
Koller et al. Read my lips: Continuous signer independent weakly supervised viseme recognition
Hoque et al. Automated Bangla sign language translation system: Prospects, limitations and applications
CN115188074A (zh) 一种互动式体育训练测评方法、装置、***及计算机设备
CN111832412B (zh) 一种发声训练矫正方法及***
KR20190068841A (ko) 인공지능 음성인식 api를 활용한 영어 발음 훈련 및 평가 시스템
Krishnamoorthy et al. E-Learning Platform for Hearing Impaired Students
Nemani et al. Speaker independent VSR: A systematic review and futuristic applications
Chitu et al. Visual speech recognition automatic system for lip reading of Dutch
Mishra et al. Environment descriptor for the visually impaired
Datar et al. A Review on Deep Learning Based Lip-Reading
Janbandhu et al. Sign Language Recognition Using CNN
Idushan et al. Sinhala Sign Language Learning System for Hearing Impaired Community
Foysol et al. Vision-based Real Time Bangla Sign Language Recognition System Using MediaPipe Holistic and LSTM
Abreu Visual speech recognition for European Portuguese
Thahseen et al. Smart System to Support Hearing Impaired Students in Tamil
Godage Sign Language Recognition for Sentence Level Continuous Signings
Hsiao et al. A Text-Dependent End-To-End Speech Sound Disorder Detection and Diagnosis in Mandarin-Speaking Children
Bazaz et al. Real Time Conversion Of Sign Language To Text and Speech (For Marathi and English)
Ankith et al. Dactylology Interpretation Using Key-Points Detection and LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant