CN111832412A

CN111832412A - 一种发声训练矫正方法及***

Info

Publication number: CN111832412A
Application number: CN202010517909.XA
Authority: CN
Inventors: 鲁远耀; 杨棽尧
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-10-27
Anticipated expiration: 2040-06-09
Also published as: CN111832412B

Abstract

本发明提供了一种发声训练矫正方法及***，所述方法包括：从待识别视频中提取目标对象的手势序列特征和唇形序列特征；从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征；基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度，并为所述目标对象提供供训练的标准唇读序列。本发明提供的技术方案可以有效地矫正目标对象的发音唇形，并在没有其他人员帮助的情况下提高他们的言语能力。

Description

一种发声训练矫正方法及***

技术领域

本发明涉及康复训练领域，具体涉及一种发声训练矫正方法及***。

背景技术

听力受损和发音困难的人由于不正确的嘴形和不清楚的表达，导致无法像普通人那样进行交流，进而由于缺乏交流导致听障人士言语失用症的发生，因此，通过康复训练预防听障人士发生言语失用症十分必要。

然而，听力保健人员及相关资源的缺乏被认为是全球治疗听力障碍的主要障碍之一。近年来自动唇读技术在视觉感知方面起着至关重要的作用，尤其是利用自动唇读技术促进听力障碍者的社交互动是人工智能在医疗保健和康复方面最有前途的应用之一。自动唇读是指***通过自动检测来捕捉说话者的嘴唇动作，从而识别言语信息，它可以广泛应用于信息安全，嘈杂环境下的语音识别和辅助驾驶***中。目前的研究方向集中于如何提高嘴唇和手势提取特征的准确率和如何提高它们的识别率，如何利用自动唇读技术对听障人士进行康复训练对听障人士将有很大的帮助。

发明内容

为了解决现有技术中所存在的上述不足，本发明提供了一种发声训练矫正方法，包括：

从待识别视频中提取目标对象的手势序列特征和唇形序列特征；

从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征；

基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度，并为所述目标对象提供供训练的标准唇读序列。

优选的，所述语音训练数据库存储标准手语词汇以及与手语词汇对应的唇形。

优选的，所述从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征，包括：

从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇；

基于各手语词汇获得与各手语词汇对应的标准唇形；

将所述与各手语词汇对应的标准唇形生成标准唇形序列特征。

优选的，所述从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇之后，还包括：

基于各手语词汇向目标对象反馈识别结果；

基于所述目标对象的表达内容对所述识别结果进行修正，直到所述识别结果与所述目标对象的表达内容一致。

优选的，所述基于所述目标对象的表达内容对所述识别结果进行修正，包括：

当所述识别结果与所述目标对象的表达内容不一致时，则基于所述目标对象的表达内容重新录制待识别视频。

优选的，所述唇形的相似度，按下式计算：

式中，Similarityrate为唇形的相似度，X₁为目标对象的唇形序列特征中的唇形，X₂为唇形序列特征中的唇形，k为惩罚系数。

优选的，所述从待识别视频中提取目标对象的手势序列特征和唇形序列特征，包括：

通过ResNet50将手势标签与嘴唇标签一一匹配，得到手势序列特征；

使用MobileNet网络分割所述待识别视频中嘴唇图像区域以提取唇形特征；

将各唇形特征利用LSTM网络进行学习时间序列信息，得到唇形序列特征。

基于同一发明构思，本发明还提供了一种发声训练矫正***，包括：

提取模块，用于从待识别视频中提取目标对象的手势序列特征和唇形序列特征；

匹配模块，用于从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征；

对比模块，用于基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度，并为所述目标对象提供供训练的标准唇读序列。

基于同一发明构思，本发明还提供了一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现任意一项所述的发声训练矫正方法。

基于同一发明构思，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现任意一项所述的发声训练矫正方法。

与现有技术相比，本发明的有益效果为：

本发明提供的技术方案，从待识别视频中提取目标对象的手势序列特征和唇形序列特征；从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征；基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度，并为所述目标对象提供供训练的标准唇读序列。本发明将手势特征与唇形特征相融合，利用手语识别辅助唇语识别，进而实现对目标对象的口型进行矫正，通过训练聋哑人以及发音不清楚的老年人的说话方式，帮助他们正确的表达，恢复他们与人沟通的说话能力，改善日常生活水平。

附图说明

图1为本发明中一种发声训练矫正方法的流程图；

图2为本发明的发明构思示意图；

图3为本发明实施例中的模拟测试结果示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

本发明针对听力障碍者和发音困难者提出了一种发声训练矫正方法，通过比较听力障碍人士和正常人的不同嘴型来训练他们的语音技能，如图1所示，该方案包括：

S1、从待识别视频中提取目标对象的手势序列特征和唇形序列特征；

S2、从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征；

S3、基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度，并为所述目标对象提供供训练的标准唇读序列。

如图2所示，本发明以帮助听障人士矫正正确发音唇形，并支持他们不断的进行自主训练为目标。通过利用目前先进的语音识别技术对摄像头获取的视频进行唇读识别，进而为听障人士提供帮助。

S1、从待识别视频中提取目标对象的手势序列特征和唇形序列特征，包括：

在即时录入的视频中通过MobileNet和长短期记忆网络(LSTM)的混合神经网络提取唇形序列特征；并利用ResNet50提取手势序列特征。

在实际提取的过程中由于唇部区域较小，所以需要在含有背景的人脸图像中寻找嘴唇出现的区域。然而在全景图中直接定位唇部具有很大难度，因此首先检测人脸，继而在人脸区域中搜索唇部。在提取手势特征时，先找到手部的位置区域，再对其进行定位，完成唇部和手部的定位后提取唇部与手部的图像特征。

本发明将ResNet50与MobileNet和LSTM的混合神经网络相结合，既保证了即便网络加深，准确率也不下降的优势，又减少了参数的使用，降低了模型的复杂度。

S2、从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征，包括：

预先创建一个语音训练数据库即多特征融合网络模型，该数据库存储标准的嘴形和相应的手语词汇。

从语音训练数据库中找到与所述手势序列特征匹配的手语词汇，以及与手语词汇匹配的正确唇形。

根据手语词汇输出该方法的识别结果，由目标对象对输出的识别结果进行判断：如果输出的识别结果与目标对象想传达的意思一致，则进行S3；如果目标对象认为输出的识别结果与自己想法由差距，则再次录入目标对象的唇读与手势序列，不断试错，直到输出的识别内容与目标对象内心所想相同为止。

S3、基于所述标准唇形序列特征和所述目标对象的唇形序列特征获得对应唇形的相似度，并为所述目标对象提供供训练的标准唇读序列，包括：

标准唇形序列特征与目标对象的唇形进行比较，并得出相似度，根据目标对象的发声嘴唇的大小，张开的嘴唇的角度以及不同嘴唇形状之间的差异绘制比较数据和相似度，并给出目标对象标准唇读序列以供其学习和训练。本发明根据各目标对象的比较结果将易出错的唇形构成发音训练模型库，其中包含具体的发音解析。

目标对象可以根据比较结果来分析、校正其声唇形状，并不断地进行自主训练以改善他们的嘴形相似度。

其中相似度按下式计算：

式中，X₁，X₂分别为目标对象的唇形和正确唇形，k为惩罚系数。

本发明提供的技术方案将手势特征与唇读特征相融合，利用构建的多特征融合网络模型同步进行手语识别和唇语识别，以手语来辅助***对唇语的捕捉，再对识别到的文字和表达者的口型进行矫正，并不断回传试错，直到表达者的口型正确。最后根据目标对象的对比结果构建发音训练模型库，该发音训练模型库包含发音唇形详解来训练聋哑人以及发音不清楚的老年人的说话方式，帮助他们正确的表达，恢复他们与人沟通的说话能力，改善日常生活水平。

本实施例模拟测试结果如图3所示，第一行是数字6的英文发音的标准唇形。第二行是测试者刻意改变发音唇形后的唇读序列，第三行是测试者模仿标准唇读图像，并正确发音数字6的唇读序列。根据***匹配结果显示，刻意改变发音后的匹配度为71.76％，而正确发音的匹配度为86.83％。实验表明，目标对象可以借助基于发声训练矫正方法的***进行自主训练，并根据标准唇读序列以及***给出的唇读比对结果有效的矫正其发音唇形，可以有效地矫正目标对象的发音唇形，并在没有其他人员帮助的情况下提高他们的言语能力。

本实施例中所述的目标对象包括听力障碍的人和发音困难的人。

首先需要对动态视频进行预处理，将手势标签与嘴唇标签一一匹配，并利用ResNet50网络来保证准确率。其次，使用MobileNet网络分割嘴唇图像区域以提取特征。然后，利用LSTM网络来学习时间序列信息。由于目前科学人员主要是研究如何提高嘴唇和手势提取特征的准确率和如何提高它们的识别率，而本发明将ResNet50网络与MobileNet网络和LSTM网络相结合应用在康复训练中，为听障人士的康复训练做出了巨大贡献。

听力障碍人士可以根据自动唇读识别的比较结果来自主训练，校正并改善嘴形相似度。

本发明提供的***支持配合人工耳蜗等医疗器械，辅助听障人士学习如何正确地发音，从而帮助其恢复言语能力。

本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现本发明提供的任意一项所述的发声训练矫正方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现本发明提供的任意一项所述的发声训练矫正方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种发声训练矫正方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述语音训练数据库存储标准手语词汇以及与手语词汇对应的唇形。

3.如权利要求2所述的方法，其特征在于，所述从预先构建的语音训练数据库中提取与所述手势序列特征匹配的标准唇形序列特征，包括：

基于各手语词汇获得与各手语词汇对应的标准唇形；

4.如权利要求3所述的方法，其特征在于，所述从所述语音训练数据库中找到与所述手势序列特征匹配的各手语词汇之后，还包括：

基于各手语词汇向目标对象反馈识别结果；

5.如权利要求4所述的方法，其特征在于，所述基于所述目标对象的表达内容对所述识别结果进行修正，包括：

6.如权利要求1所述的方法，其特征在于，所述唇形的相似度，按下式计算：

7.如权利要求1所述的方法，其特征在于，所述从待识别视频中提取目标对象的手势序列特征和唇形序列特征，包括：

8.一种发声训练矫正***，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的发声训练矫正方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的发声训练矫正方法。