CN114387959A

CN114387959A - 一种基于语音的日语发音评测方法和***

Info

Publication number: CN114387959A
Application number: CN202011115349.1A
Authority: CN
Inventors: 穆德国
Original assignee: Beijing Aiyuba Technology Co ltd
Current assignee: Beijing Aiyuba Technology Co ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-04-22

Abstract

本发明提供了一种基于语音的日语发音评测方法和***，通过将目标用户对已知的句子文本的发音语音音频输入训练好的双层深度神经网络模型中完成对输入音频文件的日语发音评测。由语音采集***采集到的目标用户的音频文件首先输入用于实现输入语音文本和已知目标文本之间的对齐的第一层深度神经网络，对齐后的语音文本被拆分为以单词为单位的音频文件进行输出。将所述以单词为单位的音频文件输入到第二层深度神经网络中进行语音识别和测评的操作，得到目标句子单词的发音正确率；基于所述单词的发音正确率对目标用户的日语发音进行评分，得到目标分数。消除由于目标用户重读，连读等发音习惯的主观影响，大大提高了评分的准确率。

Description

一种基于语音的日语发音评测方法和***

技术领域

本发明属于语音识别领域，特别是一种基于语音的日语发音评分方法和***。

背景技术

随着全球化进程，越来越多的人开始学习外语。而口语练习在外语学习中具有很大的意义。但是，雇佣外教或者营造外语口语练习的氛围对大多数的外语学习者来说是比较昂贵并且不现实的，因此考虑寻找更加方便快捷且便宜的方式进行外语学习的口语发音练习。手机和计算机作为人们普及率较高的上网工具是较为理想的口语发音练习的训练工具。因此越来越多的研究人员开始进行基于上网工具的计算机辅助语音学习(CALL)来进行语音识别的研究。研究表明，日语作为在亚洲广泛使用的语言，有很多中国人正在进行日语的学习，若果可以方便而准确的对日语学习者的日语发音进行检测，评分，并进行早期的发音更正，可以大大提高日语学习的效率和有效性，因此针对日语学习的学习者的口语发音学习有着重要的意义。

目前常用的自动语音识别(ASR)技术是只负责直接输出语音识别的结果并可以通过语言模型和语料库纠正某些发音的错误。因此ASR并无法指出被试者哪些位置的发音存在问题以及对这些问题进行诊断和打分。同时，考虑到由于不同被试者发音***得到提高。

发明内容

为解决技术背景中存在的问题，针对现有的语音识别技术(ASR)对被试者日语发音的进行检测时，难以检测出语音评测时的诊断错误，且容易由于被试者的发音习惯从而丢失上下文信息，导致ASR技术难以对被试者的日语发音实现快速有效的测评。本发明提出了一种基于语音输入的日语发音评分方法和***，可以在已知目标文本的情况下，基于对被试者的文本语音输入文件，对该语音文件进行单词层面的对齐和音素层面的语音识别模型自动对目标用户进行综合评分，消除发音习惯因素的主观影响，大大提高了自动评分的准确率。

本发明实施例第一方面提供了一种基于语音的日语发音评测方法，所述方法包括：基于连接时间分类(CTC)算法和attention机制的不同的有益特征，使用双层深度神经网络模型(DDNN)对被试者的日语发音音频进行发音准确度的评测；第一层深度神经网络使用CTC和viterbi语音模型对输入语音序列和目标文本序列进行对齐操作。完成上述序列对齐操作后，在第二层深度神经网络中使用attention模型进行音素级别的日语单词识别和准确度评测。使用DDNN可最大限度的使用CTC和attention模型的优势，从而减少错误识别率。上述的双层深度神经网络模型均利用软件TensorFlow为基础进行深度训练。

本发明所述第一层深度神经网络首先将目标用户对已知日语目标文本的日语发音的音频文件进行基于编码器-解码器和对齐的操作实现对输入的语音文本的对齐操作。

所述MFCC特征提取之前首先进行信号的预处理，主要完成以下步骤：

对所述目标用户输入语音信号的高频部分进行预加重处理；

对所述高频部分预加重后的信号加窗，对信号进行平滑处理；

将所述平滑处理后的语音信号进行离散傅里叶变换；

接着进行MFCC特征提取，主要完成以下步骤：

完成所述预处理后的目标用户的语音信号输入使用时域Mel滤波器组对所述目标用户语音信号的频域信息进行过滤。计算所述每个带通滤波器的能量输出，得到Mel坐标上的能量光谱，作为所述目标用户输入信号的基本特征。

对经过所述滤波器组后得到的所述基本特征取log，然后进行倒谱分析，得到特征系数，然后对特征系数执行离散余弦变化和差分处理；

完成所述目标句子的语音信号的所述MFCC特征系数提取和特征谱绘制后，将所述的特征谱输入双向的BiLSTM进行处理。

由于此时的语音测评并非是一个实时的语音识别，因此本发明中使用BiLSTM对输入的特征谱进行双向编码操作，实现将所述语音信号特征谱编码到网络的隐藏层。

完成所述输入语音信号的编码后，进行基于连接时间分类(CTC)解码和viterbi强制对齐，最终完成第一层深度神经网络模型的以单词为单位的语音信号的输出。主要的步骤为：

根据日语的发音规则，对经所述BiLSTM编码后的输入语音序列进行处理：将所述整个输入序列的前后***空白符，同时在每个假名字符之间也都***一个空白符。也就是说，假设经所述BiLSTM编码后的所述输入语音序列的长度为N时，经过***空白符的操作后，此时输入序列的长度变为2N+1。

使用CTC的前向或后向算法对所述***空白符后的输入序列进行处理，使用迭代的方法计算不同输出序列路径对应的概率值。

所述空白符和文本假名字符在所述输出序列的路径连接上有区别：

如果所述输出序列路径上当前时刻的输出字符为空白符，则下一时刻的字符输出有两个可能：一个是仍然输出所述当前空白符，另一个是输出所述当前空白符在所述输入序列上对应的下一个假名字符。

如果所述输出序列路径上当前时刻的输出字符为假名字符，则下一时刻的输出有三个可能：一个是仍然输出所述当前输出假名字符，二个是所述当前输出假名字符在所述输入序列上对应的下一个空白符，三个是所述当前输出假名字符对应的所述输入序列上对应的下一个假名字符。

所述BiLSTM和CTC算法计算得到每一时刻和每一节点位置处的概率值，对所述权重执行softmax操作得到输出概率值，所述viterbi算法基于所述输出概率值对所述CTC算法完成后的输出结果执行动态解码输出。

通过所述CTC算法完成所有可能的输出序列路径的概率计算后，接着使用viterbi算法找到基于所述已知目标文本路径的情况下，所有所述输出语音序列路径中的概率最高的输出路径，从而实现所述输入语音序列和所述已知目标文本的对齐。

使用所述viterbi算法首先找到实现所有序列元素输出时的概率最大的最长输出路径，按照viterbi算法的原理，对于所述最长输出路径上的任一元素而言，从序列的起始位置到所述任一元素之间的概率最大的路径肯定是所述最长输出路径上的子路径，从而得到当所述目标用户未完成整句目标文本发音情况下的输出序列的对齐模型。

将与所述目标文本对齐后的所述输出语音序列分段，将整句目标文本句子的语音分割为以单词为单位的序列较短的语音序列。继续输出到第二层深度神经网络中进行语音识别的操作的后续的语音测评。

综上所述，本发明在目标文本已知的情况下，在经所述BiLSTM编码后的输入序列中寻找与所述已知目标文本的概率最大的最相似的输出路径。使用CTC解码器和viterbi对齐算法，实现了将所述输入语音信号和所述已知目标文本在单词假音发音的层面上的对齐。对齐的输出序列以单词为单位进行输出，进行后续的语音操作。

本发明所述的第二层深度神经网络是基于attention的端对端的语音识别模型，对经所述第一层深度神经网络对齐完成后的语音文件，进行基于单词层面的语音识别模型。所述第二层深度神经网络使用的编码器-解码器为：所述编码器模型使用CNN和BiLSTM，所述解码器模型是基于attention机制的RNN输出。所述输出是以单词为单位进行输出的。

所述第二层深度神经网络语音识别模型使用多个视觉和自然语言处理的标准组件，对输入的对齐后的wav文件使用完整的网格编码器，不仅支持数据的从粗糙到精细，且可以对数据按照所述语音文件的特点完成从左到右的编码。

所述第二层深度神经网络语音识别模型对经所述第一层深度神经网络处理后的对齐后的语音文件的处理过程为：

首先，对所述第一层深度神经网络输入的wav.文件进行MFCC特征向量转换绘制输入wav.文件的图像特征，采用的方法和第一层深度神经网络中使用的MFCC特征提取一致：使用时域Mel滤波器组对所述输入语音信号的频域信息进行过滤。计算所述每个带通滤波器的能量输出，得到Mel坐标上的能量光谱，作为所述输入信号的基本特征。对所述基本特征取log，然后进行倒谱分析，得到特征系数，然后对特征系数执行离散余弦变化和差分处理，从而完成所述单词分段的语音信号的所述MFCC特征系数提取和特征图像绘制。

然后MFCC转换绘制的图像特征输入与最大池层交错的多层卷积神经网络(CNN)，执行标准的CNN卷积和池化操作，提取所述图像特征并将所述特征排列在网格中。

使用所述CNN对所述MFCC特征图像进行处理后，从网络的非全连接层输出一系列矩形矢量，所述矩形矢量的顺序也是从左到右，与MFCC输入一致。

所述CNN编码的输出向量的长度和宽度均一致，实现将粗糙的语音信号转化为规则的特征向量。

接着，将基于所述MFCC视觉特征提取和CNN卷积操作后得到的网格特征谱输入BiLSTM中进行编码操作，由于此时输入BiLSTM编码器中的视觉特征谱网格包含有重要的相对顺序信息，因此需要使用BiLSTM编码器对所述视觉特征网格中的每一行进行重新编码。利用所述BiLSTM编码器递归的将所述视觉特征谱和隐藏状态映射到新的隐藏状态。

需要注意的是，所述第二层深度神经网络语音识别中使用的BiLSTM和所述第一层深度神经网络对齐模型中使用的BiLSTM之间的差异为：所述第一层深度神经网络对齐模型中使用的BiLSTM是在句子层面上进行编码的，而所述第二层深度神经网络语音识别模型中使用的BiLSTM是在单词层面进行编码的。因此，本发明中使用的所述第一层深度神经网络对齐模型中的BiLSTM和所述第二层深度神经网络语音识别模型中的BiLSTM需要分开来进行训练。

通过所述BiLSTM完成编码后，将隐藏层的编码结果输入attention机制的解码器中，所述编码结果记为源文本的语义表示h₁，h₂，…，h_T-1，h_T，此时，然后通过基于attention机制的解码器对所述语义表示h_i进行解码，获得单词层面的假名音素的序列，解码器解码的方式为每次对输入的一个单词进行解码，迭代进行。

所述attention机制实际上是计算当前从所述BiLSTM编码器的输出和基于attention的RNN解码器输入之间的匹配情况，计算得到的两个向量的相似程度使用u来表示。所述的相似程度u输入到softmax中进行归一化处理，得到相似程度α，相似程度α用于表明attention机制对于所述BiLSTM第i个隐藏层编码器状态给予的权重。

经softmax输出的归一化的所述相似程度α用来在所述BiLSTM编码器隐藏层当前状态的基础上建立attention掩码，用以给予关注的权重。

所述整个解码过程是不断更新所述解码器RNN的输入的过程，迭代的计算方法如下所示

其中，v，W₁和W₂是基于attention机制的解码模型的可训练参数，

长度为T(序列的长度为T)，其i值代表应该所述RNN解码器对所述BiLSTM第i个隐藏编码器状态h_i给予的关注值(运算权重)，c_t为当前时刻所述RNN解码器的输出。定时输出z_t由z_t-1和所述c_t-1共同决定，z₀为所述RNN解码器的初始向量。每次进行迭代时，将所述z_t代替所述z_t-1重新进行c_t的计算，直到循环结束。

在进行所述迭代求解attention机制输出时，使用z₀代表<开始>，使用z_T代表<结束>，所述z₀和z_t均不会参与到正式输出结果中发音正确率的计算。

当迭代循环到所述z_t时，代表语音识别任务的结束，每个单词语音片段识别的假名发音符号序列最终通过attention模型输出，通过计算语音的假名音标序列和参考假名音标序列之前的编辑距离，得到假名音素发音的准确度，将整个单词的所有假名音素发音的准确度综合计算以获得单词的正确发音率。

基于所述得到的单词的正确发音率对所述目标用户进行评分，得到发音的评测结果，所述的评测结果用于所述目标用户的发音练习。

综上所述，所述输入的以单词为单位的日语对齐音频文件通过所述第二层神经网络完成语音识别后以日语假名音标的序列输出，用于对所述目标用户的发音的评测。

本发明实施例第二方面提供了一种基于语音的日语发音评测***，所述***包括：语音采集装置，用于采集目标用户的语音数据；语音对齐装置，用于对采集到的语音进行预处理和对齐操作；语音评测装置，用于对对齐后的语音进行发音正确情况的评测，得到目标用户日语发音的不同得分等级。

本发明实施例第三方面提供了一种用于语音发音评测的计算机产品，其中，所述计算机产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序进而操作计算机执行本发明实施例第一方面中描述的任一部分或全部步骤。所述计算机程序可操作计算机执行本发明实施例第二方面中描述的任一或全部***步骤。所述计算机程序产品可以是一个软件安装包或小程序***。

本发明实施例中提供了一种或多个技术方案，至少具有以下有益效果：基于TensorFlow分别完成第一层深度神经网络和第二层深度神经网络的训练；在语音评测过程中以充分训练完成的模型为基础，对于输入的目标用户的语音音频文件，使用训练好的第一层深度神经网络实现语音文本和目标文本的对齐，以单词为单位将输入的句子序列分割为单个单词的音频文件；使用训练好的第二层深度神经网络对输入的所述单个单词的音频进行假名音素的发音识别，对于实时声音数据的发音的准确率进行测评，对输出的单词层面的准确率进行处理，输出总评分和详细评分。

附图说明

下面结合附图和实施例对本发明作进一步说明；

图1是本申请实施例提供的基于日语语音评测方法的***架构图；

图2是本发明实施例提供的一种日语语音评测方法的流程图；

图3是本发明实施例提供的日语语音评测的第一层深度神经网络实施语音文本和目标文本对齐的流程图；

图4是本发明实施例提供的日语语音评测的第二层深度神经网络实施对单词的假名音素识别的流程图；

具体实施方式

为使本技术领域的人员更好地理解本申请方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清除、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求及上述附图中的属于“第一”，“第二”等不仅是用于区别不同对象模型，而且是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法或***没有限定于已列出的步骤或单元，而是可选地还包括没有累出的步骤或单元，或可选的还包括对于这些过程、方法或***固有的其他步骤和单元。

在本文提及“实施例”意味着，结合实施例描述的特定特征、结构或特征可以包含在本发明的至少一个实施例中。在说明说各个位置出现的该短语不一定均是指相同的实施例，也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显示地和隐式地理解的是，本发明所描述的实施例可以与其他实施例相结合。

下面，结合图1对本发明实施例中基于语音的日语发音评测方法的***架构作详细说明，图1为本发明实施例提供的基于语音的日语发音评测方法的***架构图，包括输入信号采集器110，MFCC特征提取模块120，以及处理器130，其中，所述输入信号采集器110可以包括语音采集单元111和目标文本采集单元112，所述语音采集单元111可以为麦克风阵列，在接收到开始指令之后开始采集所述目标用户的语音数据，所述目标文本采集单元112在可以为通信接口，在接收到开始指令之后，将数据库中的目标文本作为输入文件。所述信号采集器110与MFCC特征提取模块120相互连接，所述MFCC特征提取模块120可以根据所述语音采集单元111发送的语音信号提取MFCC特征数据，所述处理器130与所述MFCC特征提取模块120相互连接，根据所述MFCC特征提取模块120输出的特征数据进行评分。所述处理器130可以包括第一层深度神经网络模型131，第二层深度神经网络模型132以及评分单元133。所述第一层深度神经网络模型131用于对MFCC特征提取模块120输入的特征数据进行语音文本和已知目标文本之间的对齐，最终输出以单词为单位的语音文件，所述第二层深度神经网络模型132用于对第一层深度神经网络模型131输入的以单词为单位的语音文件进行语音识别的操作，最终输出每个单词的假名发音的正确率，所述评分单元133用于对第二层深度神经网络模型132输入的单词的发音的正确进行综合考虑，最终输出对目标用户输入的语音发音的评测分数。

参照图2，本发明实施例的一种基于语音的日语发音评测的方法，包括以下步骤：

S1：获取目标用户对于已知文本的语音音频，进行预处理；

S2：将所述的语音音频输入训练好的第一层深度神经网络模型，完成语音文本和已知目标文本的对齐，将句子以单词为单位截断，输出以单词为单位的语音音频文件；

S3：将所述以单词为单位的语音音频文件输入训练好的第二层深度神经网络模型，对所述单词语音音频文件在假名音素的层面进行语音识别，得到单词发音的准确率，实现对目标用户的日语音频的发音的测评。

需要说明的是，本发明用于训练模型所使用的日语数据库是来自日语能力测试(JLPT)的单词书，包括几千个单词及其例句。以及六本经典的标准日语教科书，包括带句子的单词和课程中的句子。因此，所述数据库总共有26950个单词和19398条句子用于本发明的双层胜读神经网络模型的训练。所述的单词和句子均使用标准日语发音。

本发明用于训练的语音数据库集包括两部分：播音员对单词和例句的正确发音；以及所述被试者每天的单词和句子的发音经HMM模型打分后，判断为正确的语音数据样本，所述目标用户使用本发明申请的电子设备***，通过语音采集***，每天大概产生20000个句子的日语发音用于模型的训练。

本发明在所述双层深度神经网络模型中进行假名音素发音诊断时，使用的标准的日语五十音图中的80个假名发音。

通过对深度神经网络的训练先选择最合理的深度神经网络模型，以Tensorflow为基础进行深度训练；在测评过程中以充分训练完成的模型为基础，对实时的被测目标用户的日语单词发音数据的发音准确率进行测评，并对其整改句子的发音的正确率等级进行测评。

本发明实施例的一种基于语音的日语发音评测方法，使用双层神经网络模型，所述第一层神经网络模型使用BiLSTM，CTC和viterbi对齐模型，实现输入语音文本和已知目标文本的对齐，输出以单词为单位的语音音频文件。所述第二层神经网络模型使用BiLSTM和attention机制，实现对所述对齐后的单词语音音频文件在音素层面的发音识别和正确率测评。

在开始对目标用户输入的语音进行发音评测之前，本发明使用10000个数据库中的句子对第一层深度神经网络模型进行预训练。首先，对第一层深度神经网络模型进行训练，每一个输入的语音句子均使用CTC算法进行解码，使用viterbi文本对齐的方式获得最大的语音文本到一致目标文本之间概率最大的路径，根据得到的输出路径，对语音对齐文本进行以单词为单位的分割，最终以单词的语音形式输出。通过训练完成第一层深度神经网络的Mel尺度滤波器组系数和建议的音调特征的设置，完成BiLSTM编码器的相关增量特征的参数的设置。然后使用已经训练好的第一层深度神经网络的对齐模型对目标用户的输入语音实现对齐操作和单词语音单元的输出。接着使用7901254个训练学习参数对第二层深度神经网络模型进行训练。这大概是一天内的用户用于第二语言学习的数据。当句子的训练完成后，使用训练好的第一层深度神经网络模型对句子进行单词层面的截断，然后产生109716个日语单词音频。基于此数据集和数据库中播音员的正确发音，本发明使用GPU G2080Ti用于训练约40代的CTC模型和attention模型，通过训练，确定attention机制解码器模型的v，W₁和W₂等可训练参数。

其中，所述第一层深度神经网络中使用的BiLSTM和所述第二层深度神经网络中使用的BiLSTM在处理对象上有一定的区别：所述第一层神经网络中使用的BiLSTM是在句子层面上进行编码的，而所述第二层神经网络模型中使用的BiLSTM是在单词层面进行编码的。因此，本发明中使用的所述第一层神经网络中的BiLSTM和所述第二层神经网络模型中的BiLSTM需要分开来进行训练。

接着使用训练好的双层深度神经网络模型对目标用户的输入语音信号进行语音评测，评测方法参照图2。以“わたしはにほんじんです”为目标文本为例。

首先，目标用户对目标文本“わたしはにほんじんです”进行发音，本专利使用语音获取***录入目标用户对目标文本“わたしはにほんじんです”的语音发音，将获取的语音音频作为待评测的输入语音。在将输入语言输入到双层深度神经网络模型中进行语音发音评测之前，首先需要对输入语音进行预处理S1，对目标用户的输入语音音频信号的高频部分进行预加重处理，减小***对目标用户的输入音频的高频部分的抑制作用，从而突出高频范围的共振峰；预加重后的信号使用汉宁窗进行加窗处理，对信号进行平滑处理；最后，将平滑处理后的语音信号进行离散傅里叶变换，将采集目标用户的输入音频信号由时域转化到频域，方便后续的频率分析；

下面结合图3对本发明实施例中的基于第一层深度神经网络模型对输入语音音频文件进行文本对齐操作方法S2做详细说明，图2为本发明实施例提供的一种基于第一层深度神经网络中的CTC和viterbi对齐模型对语音文本进行对齐操作的流程图，具体包括以下步骤：

预处理后的输入语音信号进行MFCC变换S22，绘制对应的特征谱图像。MFCC提取语音信号的特征主要包括：使用时域Mel滤波器组对预处理后频域上的输入语音信号进行滤波S221。所述的Mel滤波器组为在信号的低频到高频的频带上，根据信号在不同频域上的临界带宽的不同从密集到稀疏排列一组带通滤波器，实现对目标用户的输入语音信号进行滤波。滤波器组包括40个线性排列的滤波器，计算所述每个带通滤波器的能量输出，得到Mel坐标上的能量光谱，作为所述目标用户对文本“わたしはにほんじんです”的输入语音信号的基本特征。经所述的Mel滤波器组过滤后的所述基本特征不受语音信号本身的音高和频率等性质的影响，因此对采集到的目标用户的音频信号没有限制，提高了本发明的语音识别的适用性。

基于Mel滤波器完成输入特征提取后S221，对所述基本特征取log，然后进行倒谱分析，得到特征系数S222。然后对所述倒谱分析后的特征系数执行离散余弦变化S223，使能量集中在低频部分，方便后续对图像进行压缩。同时，为了确保所述特征系数更好的反映其在时域上的连续性，还需对所述经离散余弦变化后的特征系数进行差分处理S223。

综上所述，对所述目标用户对“わたしはにほんじんです”句子的音频信号文件进行所述的MFCC特征提取，提取到的特征系数用于绘制特征谱图像。

完成对目标用户对句子“わたしはにほんじんです”的语音音频的所述特征系数提取和特征谱绘制后S23，将所述特征谱进行双向的BiLSTM，在图2中为S24。

所述BiLSTM是双向的长短期记忆网络(LSTM)，所述LSTM是一种特殊的RNN，主要用于解决长序列训练过程中梯度消失和梯度***问题。由于此时的语音测评并非是一个实时的语音识别，因此本发明中使用BiLSTM进行双向编码操作，将目标用户的输入语音信号的特征谱编码到神经网络的隐藏层。

完成所述输入语音信号的编码S24后，实现将所述输入语音音频文本和所述目标文本“わたしはにほんじんです”对齐的第一层深度神经网络的最后一步就是基于连接时间分类(CTC)解码和viterbi强制对齐完成输出S25和S26。主要的步骤为：

对编码后的语音文本进行CTC的解码S25，主要目的是根据所述已知的目标文本“わたしはにほんじんです”，从所述BiLSTM编码后的隐藏层的输出结果中找到输出和所述目标文本“わたしはにほんじんです”最大程度上一致的路径。

所述CTC方法的注意力是集中在从所述BiLSTM输入到CTC中的输入序列和从CTC输出后的输出序列的结果上，只关注根据所述输入序列预测的输出序列是否接近所述的已知的真实文本序列“わたしはにほんじんです”，而不关注所述输入序列的每个输出序列是否在时间点上与所述文本序列“わたしはにほんじんです”完全对齐。

根据日语的发音规则，对经BiLSTM编码后的输入语音序列进行处理：将所述整个输入序列的前后***空白符，同时在每个假名字符之间也都***一个空白符。也就是说，当目标文本序列的长度为N时，经过***空白符的操作后，此时目标文本序列的长度变为2N+1，例如当此时的目标文本为“わたしはにほんじんです”，此时的序列长度11为，经***空白符的操作后，此时的序列变为“∈わ∈た∈し∈は∈に∈ほ∈ん∈じ∈ん∈で∈す∈”(其中∈代表空白符)，此时的序列长度为23，为***空白符后的序列编号为x₁，x₂，…，x₂₃。

所述由BiLSTM输入到CTC中的输入序列使用CTC的前向或后向算法，利用迭代的方法计算不同输出序列路径对应的概率。

所述前向和后向算法的区别是：所述前向算法是沿着序列输出路径的方向进行迭代更新的，而所述后向算法是沿着系列输出路径的反方向进行迭代更新的。

所述的空白符∈和假名字符在所述输出序列的连接路径上有区别：

如果所述输出序列路径上当前时刻的输出为空白符∈，则下一时刻的输出有两个可能：一个是仍然输出所述当前空白符∈，另一个是输出所述当前空白符∈对应的所述输入序列上对应的下一个假名字符。

如果所述输出序列路径上当前时刻的输出为假名字符，则下一时刻的输出有三个可能：一个是仍然输出所述当前假名字符，一个是输出所述当前假名字符对应的所述输入序列上对应的下一个空白符∈，另一个是输出所述当前假名字符对应的所述输入序列上对应的下一个假名字符。

通过所述前向算法和后向算法计算出的概率值进行对数运算，从而将计算所述输出路径概率时的乘法运算改成加法运算，不仅避免了下溢，同时也简化了计算。

通过所述CTC算法完成所有可能输出文本路径的概率计算后，接着使用viterbi对齐算法找到所有已知目标文本输出路径中的概率最高的输出路径，从而实现所述输入语音序列和所述文本的对齐S26。

所述BiLSTM和CTC算法计算得到每一时刻和每一节点位置处的权重，对所述的权重执行softmax操作得到归一化的输出权重，所述viterbi算法基于所述输出权重对所述CTC算法完成后的输出结果执行动态解码输出。

使用所述viterbi算法首先得到实现所有序列元素输出时的概率最大的最长输出路径，按照viterbi算法，对于所述最长输出路径上的任一元素而言，从序列的起始位置到所述任一元素之间的路径肯定是所述最长输出路径上的子路径。因此在进行对齐时删除到所述任一元素的其余概率较小的路径，可以有效提高计算效率。

综上所述，本发明在目标文本“わたしはにほんじんです”已知的情况下，在经BiLSTM编码后的所述输入序列中寻找与所述目标文本“わたしはにほんじんです”一致的最可能的输出路径。使用CTC解码器和viterbi对齐算法，实现了将所述输入语音信号和所述目标文本“わたしはにほんじんです”在假名发音的层面上的对齐。

对齐后，将输出的语音序列文本分割为以单词为单位的语音片段S27，如实施例中将目标文本“わたしはにほんじんです”分割为“わたし”，“は”，“にほんじん”和“です”四个日语单词语音wav.文件。

接着结合图4，对所述第一层深度神经网络S2对齐后的输出单词语音文件进行基于单词层面的假名发音的语音识别。如图4所示为第二层深度神经网络对数据处理的流程图。所述第二层深度神经网络模型S3使用编码器-解码器基于序列到序列的学习技术解决输入序列和输出序列之间长度不相等的问题，所述编码器模型使用CNN和BiLSTM，所述解码器模型是基于attention机制的RNN，最终输出是以单词为单位的。

所述第二层深度神经网络语音识别模型使用多个视觉和自然语言处理的标准组件，对输入的对齐后的wav.文件使用完整的网格编码器，不仅支持数据的从粗糙到精细，且可以对数据按照所述语音文件的特点完成从左到右的编码。

所述第二层深度神经网络语音识别模型S3对由所述第一层深度神经网络S2输入的对齐后的以单词为单位的语音文件的处理过程为，每一次识别仅对一个日语单词的语音文件进行识别，如对“にほんじん”进行语音识别：

输入的单词音频文件首先被预处理为16000Hz的wav.文件，对完成对齐操作输出的wav.文件进行MFCC特征提取转换为向量数据S32，向量长度为13，例如：提取对目标用户对单词“にほんじん”的输入语音文件的特征向量，并绘制特征谱图像，所述特征谱图像输入与最大池层交错的多层卷积神经网络(CNN)，执行标准的CNN卷积和池化操作S33。所述MFCC特征向量转换的过程与所述第一层神经网络使用的MFCC过程一致。

提取的MFCC特征向量通过CNN进行卷积和最大池化时，在网络的非全连接层生成卷积结果，可以保留CNN功能的局部性实现将attention机制的历史过程可视化。所述CNN对所述特征向量进行卷积操作时，使用的局部卷积，池化，激活函数操作机器传递性均与标准的CNN一致。经CNN卷积运算后，输出的一系列从左到右的矩形矢量，组成所述输入的单词语音文件的网格特征谱S34，所述矢量的方向与MFCC的输入CNN的向量方向一致。实验在TensorFlow上运行，最大输出尺寸为780×30，最大输出假名元素的个数为60，梯度优化算法使用Adadelta。

所述CNN编码后的输出向量的长度和宽度一致，实现将粗糙的语音信号转化为规则的数据信息。

接着，将经卷积处理后的CNN隐藏层的网格特征谱输入到BiLSTM(特殊的RNN)中进行编码操作S35，由于输入BiLSTM编码器中的网格特征谱中包含有重要的相对顺序信息，因此所述网格特征谱不可直接输入BiLSTM编码器模块，而需要BiLSTM编码器对网格中的每一行向量进行重新编码。所述BiLSTM编码器递归的将所述输入网格特征谱和模型的隐藏状态进行编码映射到模型的新隐藏状态。

将经过BiLSTM编码后的隐藏层的编码结果输出，对于单词“にほんじん”，记为源文本的语义表示[h₁，h₂，h₃，h₄，h₅]，此时，使用基于attention机制的解码器对所述语义表示h_i进行解码，获得单词层面的假名序列，处理的方式为每次生成一个假名，迭代进行。

所述attention机制实际上是当前从所述BiLSTM编码器的输出和基于attention的RNN解码器输入之间的匹配情况，计算得到的两个向量的相似程度使用u来表示。所述的相似程度u输入到softmax中进行归一化处理，得到相似程度α，相似程度α用于表明attention机制对于所述BiLSTM第i个隐藏层编码器状态给予的权重。

经softmax输出的归一化的所述相似程度α用来在所述BiLSTM编码器隐藏层当前状态的基础上建立attention掩码(隐藏层的维度为256)，用以给予关注的权重。

所述整个解码过程是不断更新所述解码器RNN的输入z_t的过程，在求解attention机制的输出时，从z₀<开始>一致迭代到z_T<结束>，实现将目标用户对单词“にほんじん”的语音文本的语义表示[h₁，h₂，h₃，h₄，h₅]解码输出，从attention中输出目标用户的单词识别语音符号。

在进行所述迭代求解attention机制输出时，使用所述z₀和z_t均不会参与到正式输出结果中发音正确率的计算。

此时通过计算目标用户对单词“にほんじん”的发音的语音输入的假名音标序列和正确的参考假名音标序列之前的编辑距离，得到假名音素发音的准确度，将整个单词的所有假名音素发音的准确度综合计算以获得单词的正确发音率。

基于所述得到对四个单词“わたし”，“は”，“にほんじん”和“です”分别的正确发音率，然后综合4个单词的发音的正确率完成对所述目标用户对句子“わたしはにほんじんです”发音的正确率进行评分，得到发音的评测结果，所述的评测结果用于所述目标用户的发音练习。

本发明实施例HIA提供一种计算机介质，其中，该计算机存储介质存储于电子数据交换的计算机程序，该计算机程序使得计算机在执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本发明实施例还提供一种计算机程序产品，上述计算机程序吵闹包括存储了计算机程序的非瞬时性计算机可读介质，上述计算机程序可操作性来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以是一个软件安装包，也可以是一个小程序，上述计算机包括电子设备。

需要说明的是，对于前述的个方法实施例，为了简单描述，故将其都标书为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所通过的几个实施例中，应该理解到，所揭露的设备，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述流程中单元的划分，仅仅只是一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是典型或其他的形式。

本领域普通技术人员可以理解上述实施例的各个方法中的全部或部分步骤是可以通过程序啦指令相关的硬件来完成，该程序可以存储于一个计算机可读存储器中，存储器可以包括：磁盘、光盘、只读存储记忆体(Read Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一半技术人员，依据本发明的思想，在具体实施方法及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为本发明的限制。

Claims

1.一种基于语音的日语发音测评方法，其特征在于，所述方法包括：

将目标用户对已知日语文本的日语发音音频进行预处理，作为输入语音文件。

构件双层深度神经网络模型，对RNN中用于语音识别的可训练参数进行训练；

以已经训练完成的所述双层深度神经网络模型为基础，将预处理后的所述输入语音文件输入训练好的第一层深度神经网络模型，进行所述输入语音文本和所述已知目标文本之间的对齐操作，对齐后的语音文本序列被分割为以单词为单位的语音文件。以单词为单位的所述语音文件继续输入已训练好的第二层深度神经网络，对所述输入的单词语音文件进行假名音素发音上的语音识别，完成假名发音的准确度计算。

基于所有所述单词的发音准确度计算后，对所述目标用户的输入语音音频文件进行评分，得到目标分数，所述目标分数用于对所述目标用户的发音正确度进行评测。

2.根据权利要求1所述的一种基于语音的日语发音评测方法，其特征在于：所述双层深度神经网络模型由执行对齐操作的所述第一层深度神经网络模型和执行语音识别操作的所述第二层神经网络模型组成。

3.根据权利要求2所述的一种基于语音的日语发音评测方法，其特征在于：所述第一层深度神经网络模型使用BiLSTM作为编码器，CTC算法和viterbi对齐算法作为解码器。所述第二层深度神经网络模型使用CNN进行卷积操作，使用BiLSTM作为编码器，使用基于attention机制的RNN作为解码器。所述第一层深度神经网络模型和第二层深度神经网络模型在TensorFlow上进行训练。

4.根据权利要求1和2所述的一种基于语音的日语发音评测方法，其特征在于：所述双层深度神经网络模型结合了CTC算法和attention机制各自的优势，在单词层面上对齐输出的有效性要要远大于常规的ASR(自动语音识别)。因此对语音识别的准确度也高于ASR。

5.根据权利要求1-4所述的一种基于语音的日语发音评测方法，求特征在于：

所述预处理后的输入语音文件输入所述第一层深度神经网络模型实现语音文本和已知目标文本的排齐操作，具体包括以下步骤：

通过MFCC完成语音特征提取后绘制的特征谱图像输入双向的BiLSTM编码器进行编码，编码后可以实现将所述目标用户输入的语音信号特征谱编码到神经网络的隐藏层。

然后使用CTC模型对编码后的所述隐藏层语音向量进行解码操作，首先根据编码后的结果与已知的目标文本，计算所有可能的输出路径的概率。

接着使用viterbi对齐模型在CTC模型中输出的所有可能路径中寻找概率最高的输出路径，从而实现所述目标用户输入语音的文本序列和已知的目标文本序列的对齐。

完成对齐后的语音文本序列以单词为单位进行分割，最后第一层深度神经网络以单词语音文件输出。

6.根据权利要求1-4所述的一种基于语音的日语发音评测方法，其特征在于：

所述以单词为单位的语音文件输入所述第二层深度神经网络模型中执行语音识别和测评操作，具体包括以下步骤：

同样将所述的以单词为单位的语音信号进行MFCC转换，提取特征值，绘制特征谱图像。

所述特征谱图像输入CNN中记性卷积操作，得到网格特征谱。

所述网格特征谱输入双向BiLSTM编码器中，对每一行进行重新编码，实现将所述网格特征谱映射到隐藏层编码成为新的隐藏状态，完成编码操作。

所述编码后的隐藏层结果输入attention机制的RNN中实现解码，获得输入单词语音的假名序列。

根据attention机制输出的所述假名序列中的假名和参考单词序列中假名的之间的编辑距离，得到每个假名音素的发音正确率，从而得到单词的发音正确率，最终得到所述目标用户输入语音的发音正确率和日语发音评测。

7.根据权利要求3-6所述的一种基于语音的日语发音评测方法，其特征在于：

所述第一层深度神经网络模型和第二层深度神经网络模型需要分别进行训练，使用标准的日语播音员的正确发音和普通用户经HMM模型打分后的正确的发音作为模型的训练数据库。所有的单词和发音都使用标准日语平假名发音。使用数据库进行训练时，每个句子都是用日语分词***，完成日语句子的分词和对应的平假名序列的分割。所述双层深度神经网络模型训练次数为10000条句子。

所述目标用户每天可产生超过3000条句子和15000个单词的发音，对所述句子和单词数据的采集同样可以用于所述双层深度神经网络模型的训练，提高模型的语音识别效果。

8.根据权利要求1所述的一种基于语音的日语发音测评方法，其特征在于：

在将所述目标用户的语音文件输入双层深度神经网络中进行处理之前，需要进行对所述输入信号的预处理，主要包括以下步骤：

对所述目标用户输入语音信号的高频部分进行预加重处理；对所述高频部分预加重后的信号加窗，对信号进行平滑处理；将所述平滑处理后的语音信号进行离散傅里叶变换。

9.一种基于语音的日语发音评测***，其特征在于：

包括存储器和处理器，以及一个或多个程序，所述一个或多个程序被存储在所述的存储器中，并且被配置由所述处理器执行调用，所述程序包括用于执行如权利要求1～8任一项所述的方法中的步骤的指令。