CN110349567A

CN110349567A - 语音信号的识别方法和装置、存储介质及电子装置

Info

Publication number: CN110349567A
Application number: CN201910741238.2A
Authority: CN
Inventors: 韦林煊; 董文伟; 林炳怀; 张劲松
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY; Tencent Technology Shenzhen Co Ltd
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY; Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-10-18
Anticipated expiration: 2039-08-12
Also published as: CN110349567B

Abstract

本发明公开了一种语音信号的识别方法和装置、存储介质及电子装置。其中，该方法包括：在目标应用中获取与第一目的语的目标文本对应的第一目的语的第一语音信号；在目标应用中获取由目标识别模型对第一语音信号进行识别的识别结果，其中，目标识别模型中的目标声学模型是使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，目标声学模型用于输出第一语音信号中每一帧信号对应于第一目的语中的目标音素的概率；在识别结果表示第一语音信号中存在发音偏误的音素的情况下，在目标应用中标记目标文本中与发音偏误的音素对应的字符。本发明解决了相关技术中语音偏误检测不准确的技术问题。

Description

语音信号的识别方法和装置、存储介质及电子装置

技术领域

本发明涉及语音领域，具体而言，涉及一种语音信号的识别方法和装置、存储介质及电子装置。

背景技术

现有技术中，在语音偏误检测的应用程序中，使用单一预料中相应的音位来替代偏误的发音。由于语音发音存在着不同话者水平跨度大、声学差异显著的特点，在缺少数量充分的发音数据的条件下，自动偏误检测的声学模型鲁棒性较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音信号的识别方法和装置、存储介质及电子装置，以至少解决相关技术中语音偏误检测不准确的技术问题。

根据本发明实施例的一个方面，提供了一种语音信号的识别方法，包括：在目标应用中获取与第一目的语的目标文本对应的上述第一目的语的第一语音信号；在上述目标应用中获取由目标识别模型对上述第一语音信号进行识别的识别结果，其中，上述目标识别模型中的目标声学模型是使用上述第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，上述目标声学模型用于输出上述第一语音信号中每一帧信号对应于上述第一目的语中的目标音素的概率；在上述识别结果表示上述第一语音信号中存在发音偏误的音素的情况下，在上述目标应用中标记上述目标文本中与上述发音偏误的音素对应的字符。

根据本发明实施例的另一方面，还提供了一种语音信号的识别装置，包括：第一获取模块，用于在目标应用中获取与第一目的语的目标文本对应的上述第一目的语的第一语音信号；第二获取模块，用于在上述目标应用中获取由目标识别模型对上述第一语音信号进行识别的识别结果，其中，上述目标识别模型中的目标声学模型是使用上述第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，上述目标声学模型用于输出上述第一语音信号中每一帧信号对应于上述第一目的语中的目标音素的概率；标记模块，用于在上述识别结果表示上述第一语音信号中存在发音偏误的音素的情况下，在上述目标应用中标记上述目标文本中与上述发音偏误的音素对应的字符。

可选地，上述装置还包括：第三获取模块，用于在目标应用中获取与第一目的语的目标文本对应的上述第一目的语的第一语音信号之前，获取上述第一目的语的上述第一训练数据和上述第二目的语的上述第二训练数据，其中，上述第一训练数据包括上述第一目的语的第一真实训练数据和上述第一目的语的第一模拟训练数据，上述第二训练数据包括上述第二目的语的第二真实训练数据和上述第二目的语的第二模拟训练数据；第一确定模块，用于使用上述第一目的语的上述第一训练数据和上述第二目的语的上述第二训练数据对上述初始声学模型进行训练，得到上述目标声学模型。

可选地，上述第一确定模块包括：第一确定单元，用于将上述第一目的语的上述第一训练数据中的第一音素输入至上述初始声学模型中的全连接层，得到上述全连接层输出的上述第一训练数据中的上述第一音素为上述第一目的语中的第一目标音素的第一概率；第二确定单元，用于将上述第二目的语的上述第二训练数据中的第二音素输入至上述全连接层，得到上述全连接层输出的上述第二训练数据中的上述第二音素为上述第二目的语中的第二目标音素的第二概率；第一获取单元，用于在上述第一目标音素与上述第二目标音素相似、且上述第一概率大于第一阈值、上述第二概率大于第二阈值的情况下，获取上述第一音素和上述第二音素之间相同的第一特征；第三确定单元，用于在上述第一特征与第二特征之间的相似度大于第三阈值的情况下，将上述初始声学模型确定为上述目标声学模型，其中，上述第二特征为上述第一目标音素和上述第二目标音素之间相同的特征。

可选地，上述第三获取模块，包括：第二获取单元，用于获取第一对象以上述第一目的语发出的第一真实语音信息，其中，上述第一真实训练数据包括上述第一真实语音信息；第三获取单元，用于获取第二对象以上述第一目的语发出的第二真实语音信息，其中，上述第二真实语音信息的声道长度大于上述第一真实语音信息的声道长度；第四确定单元，用于利用声道长度归一化VTLN算法对上述第二真实语音信息的语音特征进行声道转化，得到上述第一模拟训练数据，其中，上述第一模拟训练数据中的语音信息的声道长度与上述第一真实语音信息的声道长度相等；第四获取单元，用于获取第三对象以上述第二目的语发出的第三真实语音信息，其中，上述第二真实训练数据包括上述第三真实语音信息；第五获取单元，用于获取第四对象以上述第二目的语发出的第四真实语音信息，其中，上述第四真实语音信息的声道长度大于上述第三真实语音信息的声道长度；第五确定单元，用于利用上述VTLN算法对上述第四真实语音信息的语音特征进行声道转化，得到上述第二模拟训练数据，其中，上述第二模拟训练数据中的语音信息的声道长度与上述第三真实语音信息的声道长度相等。

可选地，上述第二获取模块，包括：第六确定单元，用于对上述第一语音信号进行特征提取，得到上述第一语音信号的帧信号特征信息；第七确定单元，用于将上述帧信号特征信息输入上述目标声学模型中，得到上述目标声学模型输出的上述第一语音信号中每一帧信号对应后验概率，其中，上述后验概率用于表示上述每一帧信号对应于上述第一目的语中的目标音素的概率对应的目标音素的概率；第八确定单元，用于利用发音良好度GOP算法和上述第一语音信号中每一帧信号对应的后验概率确定上述第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到上述识别结果。

可选地，上述第六确定单元包括：第一确定子单元，用于按照预设算法对获取的当前语音信号的进行信号增强，得到第一增强语音信号；第二确定子单元，用于对上述第一增强信号进行加窗操作，得到第一加窗语音信号；第三确定子单元，用于对上述第一加窗语音信号中的每一帧语音信号进行快速傅氏FFT变换，得到与上述第一加窗语音信号对应的频域信号；第四确定子单元，用于对上述频域信号按帧进行滤波提取，得到上述第一语音信号的帧信号特征信息。

可选地，上述装置还包括：对齐模块，用于在利用发音良好度GOP算法和上述第一语音信号中每一帧信号对应的后验概率确定上述第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到上述识别结果之后，将上述识别结果中上述第一语音信号中每一帧信号对应的音素与上述目标音素对齐。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音信号的识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音信号的识别方法。

在本发明实施例中，采用在目标应用中获取与第一目的语的目标文本对应的第一目的语的第一语音信号；在目标应用中获取由目标识别模型对第一语音信号进行识别的识别结果，其中，目标识别模型中的目标声学模型是使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，目标声学模型用于输出第一语音信号中每一帧信号对应于第一目的语中的目标音素的概率；在识别结果表示第一语音信号中存在发音偏误的音素的情况下，在目标应用中标记目标文本中与发音偏误的音素对应的字符的方式，通过利用第一目的语和第二目的语对应的训练数据训练的目标声学模型对第一语音信号进行的识别，达到了训练数据比较多样的目的，从而实现了准确识别语音信号是否偏误的技术效果，进而解决了相关技术中语音偏误检测不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音信号的识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的语音信号的识别方法的流程图；

图3是根据本发明实施例的一种可选的语音信号偏误检测的软件应用示意图；

图4是根据本发明实施例的一种可选的训练声学模型的示意图；

图5是根据本发明实施例的一种可选的用户使用英语学习软件进行发音练习的交互框架图；

图6是根据本发明实施例的一种可选的语音信号转换的示意图；

图7是根据本发明实施例的一种可选的语音信号层级结构的示意图；

图8是根据本发明实施例的一种可选的语音信号的识别装置的结构示意图；

图9是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音信号的识别方法，可选地，作为一种可选的实施方式，上述语音信号的识别方法可以但不限于应用于如图1所示的环境中。

图1中用户设备102中可以运行目标应用，可以通过目标应用获取第一语音信号。用户设备102中包含有存储器104，用于存储第一语音信号、处理器106，用于处理第一语音信号。用户设备102与服务器112可以通过网络110进行数据交互。服务器112中包含有数据库114，用于存储运行数据、处理引擎116，用于处理运行数据。如图1所示，可以在用户设备102上安装的目标应用中获取第一语音信号，其中，第一语音信号使用的是第一目的语发出的。用户设备102在目标应用中获取由目标识别模型对第一语音信号进行识别的识别结果，其中，目标识别模型中的目标声学模型是使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，目标声学模型用于输出第一语音信号中每一帧信号对应于第一目的语中的目标音素的概率；用户设备102在识别结果表示第一语音信号中存在发音偏误的音素的情况下，在目标应用中标记目标文本中与发音偏误的音素对应的字符。

可选地，上述语音信号的识别方法可以但不限于应用于可以计算数据的用户设备102上所运行的客户端中，上述用户设备102可以为手机、平板电脑、笔记本电脑、PC机等，上述网络110可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

可选地，作为一种可选的实施方式，如图2所示，上述语音信号的识别方法包括：

S202：在目标应用中获取与第一目的语的目标文本对应的第一目的语的第一语音信号；

S204：在目标应用中获取由目标识别模型对第一语音信号进行识别的识别结果，其中，目标识别模型中的目标声学模型是使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，目标声学模型用于输出第一语音信号中每一帧信号对应于第一目的语中的目标音素的概率；

S206：在识别结果表示第一语音信号中存在发音偏误的音素的情况下，在目标应用中标记目标文本中与发音偏误的音素对应的字符。

可选地，上述语音信号的识别方法可以但不限于应用于语音识别的领域，如在发音偏误检测的领域中。可以适用于任何外语学习中的K12音素发音偏误检测场景中。

可选地，本实施例中的方法包括但不限于应用在计算机PC端、移动端(手机、平板、车载等***)。

可选地，上述中的第一目的语和第二目的语包括但不限于英语、汉语等等。例如，在目标应用中输入语音“my name is Linda”。

可选地，上述目标应用包括但不限于语音检测的应用程序。例如，英语学习软件、汉语学习软件等等。如图3所示，是英语学习软件中检测英文发音偏误过程。在使用英语发音软件进行发音练习的过程中，先对指定的文本进行发音朗读，然后英语学习软件的***后台会对学习者的语音进行发音偏误的检测，检测出来后，会反馈给发音者。其中，灰色音素的部分就是经过算法检测过后，发音者的发音偏误所在。

可选地，在本实施例中，目标声学模型包括但不限于是神经网络模型。在检测学***或高或低等特点。所以需要通过适当的技术手段来弥补训练数据的短缺。例如，可以通过以下理论影响目标声学模型的训练：

1)二语习得理论：学习者在学习二语(Second Language,简记为L2)发音时，对于L2中和学习者母语(First language，简记为L1)相似音素，会使用L1的音素进行替代，这是构成发音偏误的重要音素之一。

2)深度学习的迁移学习理论：不同的数据和任务可能存在内在的关联性，利用深度神经网络的隐含层级参数设法获取这种关联性，就可以把从一个任务中获得的知识运用到另外一个任务的解决中。

可选地，例如在英语的语音检测场景中，利用迁移学习方法，把与目标任务K12英语发音偏误检测具有较强关联性的数据尽量涵盖进来，构建出性能鲁棒的偏误检测技术。具体策略如下：

1)以时延神经网络(Time Delay Neural Network，简称为TDNN)模型为声学建模方法。

2)以声道长度归一化(Vocal Tract Length Normalization，简称为VTLN)方法对英语L1成人语音特征参数进行映射，生成模拟K12英语特征参数库。

3)以VTLN方法对汉语L1成人语音特征参数进行映射，生成模拟K12汉语普通话特征参数库。

4)采用多任务学习方法，在输入层引入汉语K12训练数据(含真实和模拟数据)，以及英语K12训练数据(含真实和模拟数据)，在输出层分别设置汉语及英语的语音识别任务，通过潜在的迁移学习机制，获得针对高度变异行K12的汉语/英语发音高鲁棒性的声学模型。

5)可以利用所获得的英语语音输出节点实施K12英语发音偏误检测。

6)对比所获得的表征英语语音输出节点以及中文语音输出节点，获得高鲁棒性的K12英语发音偏误检测。

可选地，为了实现鲁棒的K12英语发音偏误检测算法，本实施例声学模型建模方法的示意图如图4所示(训练部分)，将英语发音的第一训练数据和汉语发音的第二训练数据作为训练目标声学模型的语料。结合两种训练数据的特征对第一语音信号进行检测。

通过本实施例，通过利用使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到目标声学模型，训练预料使用的两种目的语，并不是单一的语料。增加了目标声学模型输出的准确性，提高了所获发音偏误检测模型的鲁棒性。

在一个可选的实施例中，在目标应用中获取与第一目的语的目标文本对应的第一目的语的第一语音信号之前，方法还包括：

S1，获取第一目的语的第一训练数据和第二目的语的第二训练数据，其中，第一训练数据包括第一目的语的第一真实训练数据和第一目的语的第一模拟训练数据，第二训练数据包括第二目的语的第二真实训练数据和第二目的语的第二模拟训练数据；

S2，使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练，得到目标声学模型。

可选地，如图4所示，例如在儿童英语学习的场景中，可以将儿童的英语发音作为第一目的语的第一真实训练数据，将成人的英语发音作为第一目的语的第一模拟训练数据。将儿童的汉语发音作为第二目的语的第二真实训练数据，将成人的汉语发音作为第二目的语的第二模拟训练数据。利用两种预料同时的共同特征训练得到目标声学模型。

通过本实施例，利用两种目的语的不同发音者的语音训练得到目标声学模型，可以提高目标声学模型的鲁棒性，增加语音发音偏误检测的准确性。更加适用于不同的发音对象。

在一个可选的实施例中，使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练，得到目标声学模型，包括：

S1，将第一目的语的第一训练数据中的第一音素输入至初始声学模型中的全连接层，得到全连接层输出的第一训练数据中的第一音素为第一目的语中的第一目标音素的第一概率；

可选地，初始声学模型中可以包括多个全连接层，例如6个，依次将第一训练数据中的音素输入至初始声学模型中。得到全连接层输出的每一个音素为第一目的语中的目标音素的概率。

S2，将第二目的语的第二训练数据中的第二音素输入至全连接层，得到全连接层输出的第二训练数据中的第二音素为第二目的语中的第二目标音素的第二概率；

可选地，依次将第二训练数据中的音素输入至初始声学模型中。得到全连接层输出的每一个音素为第二目的语中的目标音素的概率。

S3，在第一目标音素与第二目标音素相似、且第一概率大于第一阈值、第二概率大于第二阈值的情况下，获取第一音素和第二音素之间相同的第一特征；

S4，在第一特征与第二特征之间的相似度大于第三阈值的情况下，将初始声学模型确定为目标声学模型，其中，第二特征为第一目标音素和第二目标音素之间相同的特征。

可选地，在本实施例中，例如，第一目标音素和第二目标音素的相似(如“p”的发音)，第一音素的发音是“p”的发音的概率是90％，第二音素的发音是“p”的发音的概率是85％。则认为第一音素和第二音素之间存在相同的第一特征。并在相同的第一特征与第二特征之间的相似度达到第三阈值的情况下，确定目标声学模型已达到一定的迭代次数，已收敛，目标声学模型对第一语音信号的检测结果比较准确。

可选地，在第一特征与第二特征之间的相似度小于第三阈值的情况下，则说明目标声学模型未收敛，则继续利用训练数据进行训练，直到达到收敛。

通过本实施例，通过提取音素之间的相同的特征，训练得到目标声学模型，增加了目标声学模型的鲁棒性。

在一个可选的实施例中，获取第一目的语的第一训练数据和第二目的语的第二训练数据，包括：

S1，获取第一对象以第一目的语发出的第一真实语音信息，其中，第一真实训练数据包括第一真实语音信息；

S2，获取第二对象以第一目的语发出的第二真实语音信息，其中，第二真实语音信息的声道长度大于第一真实语音信息的声道长度；

S3，利用声道长度归一化VTLN算法对第二真实语音信息的语音特征进行声道转化，得到第一模拟训练数据，其中，第一模拟训练数据中的语音信息的声道长度与第一真实语音信息的声道长度相等；

S4，获取第三对象以第二目的语发出的第三真实语音信息，其中，第二真实训练数据包括第三真实语音信息；

S5，获取第四对象以第二目的语发出的第四真实语音信息，其中，第四真实语音信息的声道长度大于第三真实语音信息的声道长度；

S6，利用VTLN算法对第四真实语音信息的语音特征进行声道转化，得到第二模拟训练数据，其中，第二模拟训练数据中的语音信息的声道长度与第三真实语音信息的声道长度相等。

可选地，在本实施例中，例如在儿童英语学习的场景中，可以将儿童的英语发音作为第一目的语的第一真实训练数据，将成人的英语发音作为第一目的语的第一模拟训练数据。将儿童的汉语发音作为第二目的语的第二真实训练数据，将成人的汉语发音作为第二目的语的第二模拟训练数据。利用两种预料同时的共同特征训练得到目标声学模型。由于成人的发音声道长度长于儿童的发音声道长度，在针对儿童语音检测的场景中，需要将成人的真实发音声道转换为与儿童的发音声道长度相等的语音，以增加训练的数据数量。

通过本实施例，利用利用VTLN算法对成人的语音进行转换，可以将不同的发音对象的语音作为训练的预料，增加训练数据的数量，同时可以提高模型训练的准确性，提高目标声学模型的鲁棒性。

在一个可选的实施例中，在目标应用中获取由目标识别模型对第一语音信号进行识别的识别结果，包括：

S1，对第一语音信号进行特征提取，得到第一语音信号的帧信号特征信息；

S2，将帧信号特征信息输入目标声学模型中，得到目标声学模型输出的第一语音信号中每一帧信号对应后验概率，其中，后验概率用于表示每一帧信号对应于第一目的语中的目标音素的概率对应的目标音素的概率；

S3，利用发音良好度GOP算法和第一语音信号中每一帧信号对应的后验概率确定第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到识别结果。

可选地，在本实施例中，例如英语语音检测的场景中，如图5所示，为用户使用英语学习软件进行发音练习的交互框架图，分为客户端和服务端两个部分。客户端部分用于用户对着英语学习软件进行发音练习(如输入第一语音信号)。英语学习软件记录下用户发出的第一语音信号的音频后，将其传至服务器端，服务器进行发音偏误的检测后，将偏误进行回传给用户，并提示用户修改意见。服务器端描述了接收到用户发音练习的音频后，对用户发音进行音素级别的发音偏误检测的全过程，也同时说明了在服务器端检测出来发音偏误信息后，将其回传给客户端，以便用户进行下次练习。

可选地，服务器端的检测过程包括以下步骤：

S501：对第一语音信号进行特征抽取，帧级别的第一语音信号的帧信号特征信息。

S502：将帧信号特征信息输入目标声学模型中，得到目标声学模型输出的第一语音信号中每一帧信号对应后验概率，后验概率代表了学习者的每一帧发音最可能的想发表的音素。

由于目标声学模型常用母语者数据进行训练，所以也就可以当成是以母语者的视角来看学习者发成了什么样子，本实施例所采用的目标声学模型为一个基于HMM-TDNN的语音识别框架的模型，其原理如下：

其中，p(x|w)为目标声学模型部分，w为第一语音信号的发音文本，x为学习者当前的发音，概率p(x|w)则表征了若学习者是想发出当前文本所代表的音素发音的好坏程度。

S503：利用发音良好度GOP算法和第一语音信号中每一帧信号对应的后验概率确定第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到识别结果。

GOP算法是根据目标声学模型输出的帧层级的后验概率和音素级别的对齐信息(用户应该发哪些音)，把帧层级的后验概率合并成了音素层级的后验概率(用户实际发了哪些音)，经过对比用户本该发的音素和用户实际发的音素的概率大小，即可对每一个发音是否发生了偏误进行判断。本实施例中所采用的GOP算法的公知包括：

其中，o用于表示样本语音信号，p用于表示第一语音信号中的音素；ts和所述te分别用于表示音素开始和音素结束的音素索引；p(p)用于表示第一语音信号中的音素的后验概率；Q用于表示音素集。

在检测GOP打分之后，将当前发音哪个音素是偏误，误发成了什么样子返回给客户端的用户。

通过本实施例，通过图5中的流程，利用目标声学模型检测出第一语音信号是否存在偏误，增加了检测的准确性。

在一个可选的实施例中，对第一语音信号进行特征提取，得到第一语音信号的帧信号特征信息，包括：

S1，按照预设算法对获取的当前语音信号的进行信号增强，得到第一增强语音信号；

S2，对第一增强信号进行加窗操作，得到第一加窗语音信号；

S3，对第一加窗语音信号中的每一帧语音信号进行快速傅氏FFT变换，得到与第一加窗语音信号对应的频域信号；

S4，对频域信号按帧进行滤波提取，得到第一语音信号的帧信号特征信息。

可选地，在本实施例中，按照预设算法对获取的当前语音信号的进行信号增强，即是对当前语音信号进行的预加重处理。其主要是要对语音信号的高频进行一定程度的增强，去除口腔辐射的影响。包括如下公式：

y(n)＝x(n)-αx(n-1)；

其中，y(n)是第一语音信号，x(n)是当前语音信号，x(n-1)是获取当前语音信息的时间点的上一个时间点的语音信息的语音信号，α是预设参数(如0.98)。

可选地，对第一增强信号进行分帧操作，以25ms为帧长，10ms为帧移，将若干秒的第一增强信号分解成一组25ms长的语音段序列，并对此序列里的每一个小段语音进行加窗处理。一般加汉明窗。

可选地，对每一小段语音进行FFT变换，可以将语音信号从时域变换到频域，如图6所示。

可选地，对频域信号按帧进行滤波提取，即将这一组在频域上的语音帧序列分别按帧进行Mel滤波提取成后续模型可用的特征，本质是一个信息压缩和抽象的过程。这个阶段可抽取的特征多种多样，如频谱特征(mel频率倒谱系数(Mel Frequency CepstrumCoefficient，简称为MFCC)、FBANK、PLP等)、频率特征(基频、共振峰等)、时域特征(时长)、能量特征等等。本实施例所用特征为23维的FBANK特征加上3为的基频特征以及1维的能量特征。经过了这个模块之后，学习者一段发音便变成了一组能代表其发音的特征序列，如图7所示的帧层级的特征。

通过本实施，通过对第一语音信号的信号特征的处理，利用目标声学模型检测出第一语音信号是否存在偏误，增加了检测的准确性。

在一个可选的实施例中，利用发音良好度GOP算法和第一语音信号中每一帧信号对应的后验概率确定第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到识别结果之后，方法还包括：

S1，将识别结果中第一语音信号中每一帧信号对应的音素与目标音素对齐。

可选地，在本实施例中，可以基于语音识别框架和强制对齐技术，将第一语音信号中的文本进行音素级别的对齐，就可以知道语音段中每个音素的位置，以及在这个位置中，用户本该发的是什么音素。

综上所述，本实施例在多任务迁移学习的(Time Delay Neural Network，简称为TDNN)声学模型建模支持下，全面引入各种目的语的数据库，例如，美语儿童、美语成人、中国儿童和中国成人等四种母语语音库。可以适用于任何语言的K12发音偏误检测，并能有效缓解其任务相关数据不足的问题，从而进一步提高其检测性能。

此外，本实施例在检测中国K12儿童英语发音音素错误率指标上，相较于传统只使用一种目的语的儿童语料的***相对改善20％以上。可以有效克服在K12儿童发音偏误检测***中缺乏足量合适训练数据的问题，提高所获发音偏误检测模型的鲁棒性。

本实施例中的方法结合发音检测软件可以更精确地检测出来K12儿童发音中的对和错的发音，让基于发音质量的打分更有据可循。能够较准确地提示出K12儿童发音中最应该改正的音素偏误，从而让孩子们可以把有限的注意力集中在最重要的偏误改正上。这样他们就可以更为高效地更有信心地改善口语能力。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音信号的识别方法的语音信号的识别装置。如图8所示，该装置包括：

第一获取模块82，用于在目标应用中获取与第一目的语的目标文本对应的上述第一目的语的第一语音信号；

第二获取模块84，用于在上述目标应用中获取由目标识别模型对上述第一语音信号进行识别的识别结果，其中，上述目标识别模型中的目标声学模型是使用上述第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，上述目标声学模型用于输出上述第一语音信号中每一帧信号对应于上述第一目的语中的目标音素的概率；

标记模块86，用于在上述识别结果表示上述第一语音信号中存在发音偏误的音素的情况下，在上述目标应用中标记上述目标文本中与上述发音偏误的音素对应的字符。

可选地，上述装置还包括：

第三获取模块，用于在目标应用中获取与第一目的语的目标文本对应的上述第一目的语的第一语音信号之前，获取上述第一目的语的上述第一训练数据和上述第二目的语的上述第二训练数据，其中，上述第一训练数据包括上述第一目的语的第一真实训练数据和上述第一目的语的第一模拟训练数据，上述第二训练数据包括上述第二目的语的第二真实训练数据和上述第二目的语的第二模拟训练数据；

第一确定模块，用于使用上述第一目的语的上述第一训练数据和上述第二目的语的上述第二训练数据对上述初始声学模型进行训练，得到上述目标声学模型。

可选地，上述第一确定模块包括：

第一确定单元，用于将上述第一目的语的上述第一训练数据中的第一音素输入至上述初始声学模型中的全连接层，得到上述全连接层输出的上述第一训练数据中的上述第一音素为上述第一目的语中的第一目标音素的第一概率；

第二确定单元，用于将上述第二目的语的上述第二训练数据中的第二音素输入至上述全连接层，得到上述全连接层输出的上述第二训练数据中的上述第二音素为上述第二目的语中的第二目标音素的第二概率；

第一获取单元，用于在上述第一目标音素与上述第二目标音素相似、且上述第一概率大于第一阈值、上述第二概率大于第二阈值的情况下，获取上述第一音素和上述第二音素之间相同的第一特征；

第三确定单元，用于在上述第一特征与第二特征之间的相似度大于第三阈值的情况下，将上述初始声学模型确定为上述目标声学模型，其中，上述第二特征为上述第一目标音素和上述第二目标音素之间相同的特征。

可选地，上述第三获取模块，包括：

第二获取单元，用于获取第一对象以上述第一目的语发出的第一真实语音信息，其中，上述第一真实训练数据包括上述第一真实语音信息；

第三获取单元，用于获取第二对象以上述第一目的语发出的第二真实语音信息，其中，上述第二真实语音信息的声道长度大于上述第一真实语音信息的声道长度；

第四确定单元，用于利用声道长度归一化VTLN算法对上述第二真实语音信息的语音特征进行声道转化，得到上述第一模拟训练数据，其中，上述第一模拟训练数据中的语音信息的声道长度与上述第一真实语音信息的声道长度相等；

第四获取单元，用于获取第三对象以上述第二目的语发出的第三真实语音信息，其中，上述第二真实训练数据包括上述第三真实语音信息；

第五获取单元，用于获取第四对象以上述第二目的语发出的第四真实语音信息，其中，上述第四真实语音信息的声道长度大于上述第三真实语音信息的声道长度；

第五确定单元，用于利用上述VTLN算法对上述第四真实语音信息的语音特征进行声道转化，得到上述第二模拟训练数据，其中，上述第二模拟训练数据中的语音信息的声道长度与上述第三真实语音信息的声道长度相等。

可选地，上述第二获取模块，包括：

第六确定单元，用于对上述第一语音信号进行特征提取，得到上述第一语音信号的帧信号特征信息；

第七确定单元，用于将上述帧信号特征信息输入上述目标声学模型中，得到上述目标声学模型输出的上述第一语音信号中每一帧信号对应后验概率，其中，上述后验概率用于表示上述每一帧信号对应于上述第一目的语中的目标音素的概率对应的目标音素的概率；

第八确定单元，用于利用发音良好度GOP算法和上述第一语音信号中每一帧信号对应的后验概率确定上述第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到上述识别结果。

可选地，上述第六确定单元包括：

第一确定子单元，用于按照预设算法对获取的当前语音信号的进行信号增强，得到第一增强语音信号；

第二确定子单元，用于对上述第一增强信号进行加窗操作，得到第一加窗语音信号；

第三确定子单元，用于对上述第一加窗语音信号中的每一帧语音信号进行快速傅氏FFT变换，得到与上述第一加窗语音信号对应的频域信号；

第四确定子单元，用于对上述频域信号按帧进行滤波提取，得到上述第一语音信号的帧信号特征信息。

可选地，上述装置还包括：

对齐模块，用于在利用发音良好度GOP算法和上述第一语音信号中每一帧信号对应的后验概率确定上述第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到上述识别结果之后，将上述识别结果中上述第一语音信号中每一帧信号对应的音素与上述目标音素对齐。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音信号的识别方法的电子装置，如图9所示，该电子装置包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1：在目标应用中获取与第一目的语的目标文本对应的第一目的语的第一语音信号；

S2：在目标应用中获取由目标识别模型对第一语音信号进行识别的识别结果，其中，目标识别模型中的目标声学模型是使用第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，目标声学模型用于输出第一语音信号中每一帧信号对应于第一目的语中的目标音素的概率；

S3：在识别结果表示第一语音信号中存在发音偏误的音素的情况下，在目标应用中标记目标文本中与发音偏误的音素对应的字符。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的语音信号的识别方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音信号的识别方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于第一语音信号等信息。作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述语音信号的识别装置中的第一获取模块82、第二获取模块84、标记模块86。此外，还可以包括但不限于上述语音信号的识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器908，用于显示识别结果；和连接总线910，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音信号的识别方法，其特征在于，包括：

在目标应用中获取与第一目的语的目标文本对应的所述第一目的语的第一语音信号；

在所述目标应用中获取由目标识别模型对所述第一语音信号进行识别的识别结果，其中，所述目标识别模型中的目标声学模型是使用所述第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，所述目标声学模型用于输出所述第一语音信号中每一帧信号对应于所述第一目的语中的目标音素的概率；

在所述识别结果表示所述第一语音信号中存在发音偏误的音素的情况下，在所述目标应用中标记所述目标文本中与所述发音偏误的音素对应的字符。

2.根据权利要求1所述的方法，其特征在于，所述在目标应用中获取与第一目的语的目标文本对应的所述第一目的语的第一语音信号之前，所述方法还包括：

获取所述第一目的语的所述第一训练数据和所述第二目的语的所述第二训练数据，其中，所述第一训练数据包括所述第一目的语的第一真实训练数据和所述第一目的语的第一模拟训练数据，所述第二训练数据包括所述第二目的语的第二真实训练数据和所述第二目的语的第二模拟训练数据；

使用所述第一目的语的所述第一训练数据和所述第二目的语的所述第二训练数据对所述初始声学模型进行训练，得到所述目标声学模型。

3.根据权利要求2所述的方法，其特征在于，使用所述第一目的语的所述第一训练数据和所述第二目的语的所述第二训练数据对所述初始声学模型进行训练，得到所述目标声学模型，包括：

将所述第一目的语的所述第一训练数据中的第一音素输入至所述初始声学模型中的全连接层，得到所述全连接层输出的所述第一训练数据中的所述第一音素为所述第一目的语中的第一目标音素的第一概率；

将所述第二目的语的所述第二训练数据中的第二音素输入至所述全连接层，得到所述全连接层输出的所述第二训练数据中的所述第二音素为所述第二目的语中的第二目标音素的第二概率；

在所述第一目标音素与所述第二目标音素相似、且所述第一概率大于第一阈值、所述第二概率大于第二阈值的情况下，获取所述第一音素和所述第二音素之间相同的第一特征；

在所述第一特征与第二特征之间的相似度大于第三阈值的情况下，将所述初始声学模型确定为所述目标声学模型，其中，所述第二特征为所述第一目标音素和所述第二目标音素之间相同的特征。

4.根据权利要求2所述的方法，其特征在于，所述获取所述第一目的语的所述第一训练数据和所述第二目的语的所述第二训练数据，包括：

获取第一对象以所述第一目的语发出的第一真实语音信息，其中，所述第一真实训练数据包括所述第一真实语音信息；

获取第二对象以所述第一目的语发出的第二真实语音信息，其中，所述第二真实语音信息的声道长度大于所述第一真实语音信息的声道长度；

利用声道长度归一化VTLN算法对所述第二真实语音信息的语音特征进行声道转化，得到所述第一模拟训练数据，其中，所述第一模拟训练数据中的语音信息的声道长度与所述第一真实语音信息的声道长度相等；

获取第三对象以所述第二目的语发出的第三真实语音信息，其中，所述第二真实训练数据包括所述第三真实语音信息；

获取第四对象以所述第二目的语发出的第四真实语音信息，其中，所述第四真实语音信息的声道长度大于所述第三真实语音信息的声道长度；

利用所述VTLN算法对所述第四真实语音信息的语音特征进行声道转化，得到所述第二模拟训练数据，其中，所述第二模拟训练数据中的语音信息的声道长度与所述第三真实语音信息的声道长度相等。

5.根据权利要求1所述的方法，其特征在于，在所述目标应用中获取由目标识别模型对所述第一语音信号进行识别的识别结果，包括：

对所述第一语音信号进行特征提取，得到所述第一语音信号的帧信号特征信息；

将所述帧信号特征信息输入所述目标声学模型中，得到所述目标声学模型输出的所述第一语音信号中每一帧信号对应后验概率，其中，所述后验概率用于表示所述每一帧信号对应于所述第一目的语中的目标音素的概率对应的目标音素的概率；

利用发音良好度GOP算法和所述第一语音信号中每一帧信号对应的后验概率确定所述第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到所述识别结果。

6.根据权利要求5所述的方法，其特征在于，对所述第一语音信号进行特征提取，得到所述第一语音信号的帧信号特征信息，包括：

按照预设算法对获取的当前语音信号的进行信号增强，得到第一增强语音信号；

对所述第一增强信号进行加窗操作，得到第一加窗语音信号；

对所述第一加窗语音信号中的每一帧语音信号进行快速傅氏FFT变换，得到与所述第一加窗语音信号对应的频域信号；

对所述频域信号按帧进行滤波提取，得到所述第一语音信号的帧信号特征信息。

7.根据权利要求5所述的方法，其特征在于，利用发音良好度GOP算法和所述第一语音信号中每一帧信号对应的后验概率确定所述第一语音信号中每一帧信号对应的音素是否与目标音素存在偏差，得到所述识别结果之后，所述方法还包括：

将所述识别结果中所述第一语音信号中每一帧信号对应的音素与所述目标音素对齐。

8.一种语音信号的识别装置，其特征在于，包括：

第一获取模块，用于在目标应用中获取与第一目的语的目标文本对应的所述第一目的语的第一语音信号；

第二获取模块，用于在所述目标应用中获取由目标识别模型对所述第一语音信号进行识别的识别结果，其中，所述目标识别模型中的目标声学模型是使用所述第一目的语的第一训练数据和第二目的语的第二训练数据对初始声学模型进行训练得到的模型，所述目标声学模型用于输出所述第一语音信号中每一帧信号对应于所述第一目的语中的目标音素的概率；

标记模块，用于在所述识别结果表示所述第一语音信号中存在发音偏误的音素的情况下，在所述目标应用中标记所述目标文本中与所述发音偏误的音素对应的字符。

9.一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。