CN112017694B

CN112017694B - 语音数据的评测方法和装置、存储介质和电子装置

Info

Publication number: CN112017694B
Application number: CN202010862098.7A
Authority: CN
Inventors: 徐灿; 余浩; 鲁文斌
Original assignee: Tianjin Hongen Perfect Future Education Technology Co ltd
Current assignee: Tianjin Hongen Perfect Future Education Technology Co ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2021-08-20
Anticipated expiration: 2040-08-25
Also published as: CN112017694A

Abstract

本申请提供了一种语音数据的评测方法和装置、存储介质和电子装置，该方法包括：获取与目标对象的评测语音数据对应的评测语音特征，其中，所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征；使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到目标识别结果，其中，所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率；根据所述目标识别结果和评测发音信息进行发音评测，得到所述目标对象的目标评测结果，其中，所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元。

Description

语音数据的评测方法和装置、存储介质和电子装置

技术领域

本申请涉及计算机领域，尤其涉及一种语音数据的评测方法和装置、存储介质和电子装置。

背景技术

为了克服人工教学存在教师资源不足、时间地点受限等限制，可以采用机器辅助语言学习的方式为学生或者其他用户提供实时有效的语言学习指导。

在机器辅助口语学习中，可以通过机器对用户进行口语评测，判断用户的发音是否标准，给出文本对应的每个音素的发音质量分数，以便用户进行及时改正。

相关技术中，对于一个评测文本，可以通过查阅发音词典得到该文本对应的音素序列，通过声学模型识别待评测语音中的音素，根据识别出的待评测语音中的音素判断文本对应的每个音素的发音质量分数，从而完成发音评测。

上述方案中，声学模型一般是用母语为待学语言的说话人的语音来训练的。而在用户使用时，待评测的语音是用户试读的语音。待学语言一般不是该用户的母语，而是学生的第二或第三等语言。模型训练语音所涉及的说话人和待识别的语音对应的说话人是不同的，即，模型训练的过程和口语评测的过程存在说话人不匹配的情况。

由于不同说话人都有自己独特的说话习惯和发声方式，因此，在评测语音和训练语音的说话人不匹配时，通过上述方式进行发音评测时评测的准确性下降。

因此，相关技术中的发音评测方式存在由于说话人不同导致的发音评测的准确性低的问题。

发明内容

本申请提供了一种语音数据的评测方法和装置、存储介质和电子装置，以至少解决相关技术中的发音评测方式存在由于说话人不同导致的发音评测的准确性低的问题。

根据本申请实施例的一个方面，提供了一种语音数据的评测方法，包括：获取与目标对象的评测语音数据对应的评测语音特征，其中，该评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征；使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到目标识别结果，其中，所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率；根据所述目标识别结果和评测发音信息进行发音评测，得到所述目标对象的目标评测结果，其中，所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元。

可选地，使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到所述目标识别结果包括：将所述评测语音特征输入到目标声学模型，得到所述目标声学模型输出的所述目标识别结果，其中，所述目标声学模型用于抑制所述评测语音特征中的所述对象特征，并使用抑制了所述对象特征后的所述评测语音特征识别每个所述评测语音帧为所述各个参考发音单元的概率。

可选地，将所述评测语音特征输入到所述目标声学模型，得到所述目标声学模型输出的所述目标识别结果包括：将所述评测语音特征输入到所述目标声学模型的第一目标神经网络，得到所述第一目标神经网络输出的目标输出特征，其中，所述目标输出特征为抑制所述评测语音特征中的所述对象特征后得到的特征；将所述目标输出特征输入到所述目标声学模型的第二目标神经网络，得到所述第二目标神经网络输出的所述目标识别结果，其中，所述目标声学模型是使用标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据对初始网络模型进行训练得到的，所述初始网络模型包括所述初始声学模型和所述初始对象识别网络，所述初始声学模型包括第一初始神经网络和输入与所述第一初始神经网络的输出相连的第二初始神经网络，所述初始对象识别网络的输入与所述第一初始神经网络的输出的逆转相连，所述训练发音信息用于表示所述训练语音数据中的每个训练语音帧对应的训练发音单元。

可选地，在将所述评测语音特征输入到所述目标声学模型之前，所述方法还包括：获取所述初始网络模型的训练样本，其中，所述初始对象识别网络的输入通过梯度逆转层与所述第一初始神经网络的输出相连，所述训练样本为标注了与所述训练发音信息和所述训练对象的所述训练语音数据；使用所述训练样本对所述初始网络模型进行模型训练，得到目标网络模型，并从所述目标网络模型包含的所述目标声学模型和目标对象识别网络中提取出所述目标声学模型。

可选地，使用所述训练样本对所述初始网络模型进行模型训练，得到所述目标网络模型包括：以与所述训练语音数据对应的训练语音特征作为所述第一初始神经网络的输入，获取所述初始声学模型的第一输出结果，其中，所述训练语音特征包括每个所述训练语音帧的语音特征，所述第一输出结果用于指示每个所述训练语音帧对应的发音单元；以所述第一初始神经网络的输出经由所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的第二输出结果，其中，所述第二输出结果用于指示所述训练语音数据对应的发音对象；按照所述训练发音单元和所述训练对象调整所述初始网络模型的模型参数，得到所述目标网络模型，其中，所述目标声学模型输出的、与每个所述训练语音帧对应的发音单元为所述训练发音单元的概率大于或者等于第一概率，所述目标对象识别网络输出的第一目标对象为所述训练对象的概率大于或者等于第二概率。

可选地，以所述第一初始神经网络的输出经由所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的所述第二输出结果包括：以所述第一初始神经网络的输出经由目标池化层和所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的所述第二输出结果。

可选地，在使用所述训练样本对所述初始网络模型进行模型训练之前，所述方法还包括：构建所述初始网络模型的目标损失函数，其中，所述目标损失函数为对所述初始网络模型进行模型训练所使用的损失函数，所述目标损失函数为第一损失函数和第二损失函数的加权和，所述第一损失函数与所述训练发音单元关联的损失函数，所述第二损失函数为与所述训练对象关联的损失函数。

可选地，获取与所述目标对象的所述评测语音数据对应的所述评测语音特征包括：对所述评测语音数据进行分帧，得到所述评测语音数据包含的多个所述评测语音帧；提取每个评测语音帧的语音特征，得到与多个所述评测语音帧对应的语音特征序列，其中，所述评测语音特征为所述语音特征序列。

可选地，在使用所述目标识别结果和所述评测发音信息进行发音评测之前，所述方法还包括：获取所述评测资源，其中，所述评测资源用于对所述目标对象进行发音评测；按照所述评测资源中包含的每个评测词查找发音词典，得到与所述每个评测词对应的发音单元序列，其中，所述发音单元序列包含与所述每个评测词对应的一个或多个所述目标发音单元，所述评测发音信息用于指示与所述每个评测词对应的所述发音单元序列。

可选地，使用目标识别结果和所述评测发音信息进行发音评测，得到所述目标对象的所述目标评测结果包括：根据所述目标识别结果所指示的每个所述评测语音帧为各个所述参考发音单元的概率，确定与每个所述目标发音单元对应的评测语音段，其中，所述评测语音段包含一个或多个所述评测语音帧；使用所述评测语音段对每个所述目标发音单元进行发音评测，得到所述目标对象的所述目标评测结果。

根据本申请实施例的另一个方面，还提供了一种语音数据的评测装置，包括：第一获取单元，用于获取与目标对象的评测语音数据对应的评测语音特征，其中，所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征；识别单元，用于使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到目标识别结果，其中，所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率；评测单元，用于根据所述目标识别结果和评测发音信息进行发音评测，得到所述目标对象的目标评测结果，其中，所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元。

可选地，所述识别单元包括：输入模块，用于将所述评测语音特征输入到目标声学模型，得到所述目标声学模型输出的所述目标识别结果，其中，所述目标声学模型用于抑制所述评测语音特征中的所述对象特征，并使用抑制了所述对象特征后的所述评测语音特征识别每个所述评测语音帧为所述各个参考发音单元的概率。

可选地，所述输入模块包括：第一输入子模块，用于将所述评测语音特征输入到所述目标声学模型的第一目标神经网络，得到所述第一目标神经网络输出的目标输出特征，其中，所述目标输出特征为抑制所述评测语音特征中的所述对象特征后得到的特征；第二输入子模块，用于将所述目标输出特征输入到所述目标声学模型的第二目标神经网络，得到所述第二目标神经网络输出的所述目标识别结果，其中，所述目标声学模型是使用标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据对初始网络模型进行训练得到的，所述初始网络模型包括所述初始声学模型和所述初始对象识别网络，所述初始声学模型包括第一初始神经网络和输入与所述第一初始神经网络的输出相连的第二初始神经网络，所述初始对象识别网络的输入与所述第一初始神经网络的输出的逆转相连，所述训练发音信息用于表示所述训练语音数据中的每个训练语音帧对应的训练发音单元。

可选地，所述装置还包括：第二获取单元，用于在将所述评测语音特征输入到所述目标声学模型之前，获取所述初始网络模型的训练样本，其中，所述初始对象识别网络的输入通过梯度逆转层与所述第一初始神经网络的输出相连，所述训练样本为标注了与所述训练发音信息和所述训练对象的所述训练语音数据；训练单元，用于使用所述训练样本对所述初始网络模型进行模型训练，得到目标网络模型，并从所述目标网络模型包含的所述目标声学模型和目标对象识别网络中提取出所述目标声学模型。

可选地，所述训练单元包括：第一获取模块，用于以与所述训练语音数据对应的训练语音特征作为所述第一初始神经网络的输入，获取所述初始声学模型的第一输出结果，其中，所述训练语音特征包括每个所述训练语音帧的语音特征，所述第一输出结果用于指示每个所述训练语音帧对应的发音单元；第二获取模块，用于以所述第一初始神经网络的输出经由所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的第二输出结果，其中，所述第二输出结果用于指示所述训练语音数据对应的发音对象；调整模块，用于按照所述训练发音单元和所述训练对象调整所述初始网络模型的模型参数，得到所述目标网络模型，其中，所述目标声学模型输出的、与每个所述训练语音帧对应的发音单元为所述训练发音单元的概率大于或者等于第一概率，所述目标对象识别网络输出的第一目标对象为所述训练对象的概率大于或者等于第二概率。

可选地，第二获取模块包括：获取子模块，用于以所述第一初始神经网络的输出经由目标池化层和所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的所述第二输出结果。

可选地，所述装置还包括：构建单元，用于在使用所述训练样本对所述初始网络模型进行模型训练之前，构建所述初始网络模型的目标损失函数，其中，所述目标损失函数为对所述初始网络模型进行模型训练所使用的损失函数，所述目标损失函数为第一损失函数和第二损失函数的加权和，所述第一损失函数与所述训练发音单元关联的损失函数，所述第二损失函数为与所述训练对象关联的损失函数。

可选地，所述第一获取单元包括：分帧模块，用于对所述评测语音数据进行分帧，得到所述评测语音数据包含的多个所述评测语音帧；提取模块，用于提取每个评测语音帧的语音特征，得到与多个所述评测语音帧对应的语音特征序列，其中，所述评测语音特征为所述语音特征序列。

可选地，所述装置还包括：第三获取单元，用于在使用所述目标识别结果和所述评测发音信息进行发音评测之前，获取所述评测资源，其中，所述评测资源用于对所述目标对象进行发音评测；查找单元，用于按照所述评测资源中包含的每个评测词查找发音词典，得到与所述每个评测词对应的发音单元序列，其中，所述发音单元序列包含与所述每个评测词对应的一个或多个所述目标发音单元，所述评测发音信息用于指示与所述每个评测词对应的所述发音单元序列。

可选地，所述评测单元包括：确定模块，用于根据所述目标识别结果所指示的每个所述评测语音帧为各个所述参考发音单元的概率，确定与每个所述目标发音单元对应的评测语音段，其中，所述评测语音段包含一个或多个所述评测语音帧；评测模块，用于使用所述评测语音段对每个所述目标发音单元进行发音评测，得到所述目标对象的所述目标评测结果。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请实施例的又一个方面，还提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在本申请实施例中，采用抑制语音数据中的说话人信息的方式，获取与目标对象的评测语音数据对应的评测语音特征，其中，评测语音特征包括评测语音数据中的每个评测语音帧的语音特征；使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果，其中，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率；根据目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果，其中，评测发音信息用于指示与评测语音数据对应的评测资源包含的目标发音单元，由于抑制了评测语音特征中的目标对象的对象特征，可以实现抑制说话人信息弱化说话人信息对于识别结果的影响的目的，该声学模型在用于发音评测时，可以达到提高发音评测准确性的技术效果，进而解决了相关技术中的发音评测方式存在由于说话人不同导致的发音评测的准确性低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的语音数据的评测方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的语音数据的评测方法的流程图；

图3是根据本申请实施例的一种可选的声学模型训练方法的流程图；

图4是根据本申请实施例的另一种可选的声学模型训练方法的流程图；

图5是根据本申请实施例的另一种可选的语音数据的评测方法的流程图；

图6是根据本申请实施例的又一种可选的语音数据的评测方法的流程图；

图7是根据本申请实施例的又一种可选的语音数据的评测方法的流程图；

图8是根据本申请实施例的一种可选的语音数据的评测装置的结构框图；

图9是根据本申请实施例的一种可选的电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

音素：是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。

根据本申请实施例的一个方面，提供了一种语音数据的评测方法。可选地，在本实施例中，上述语音数据的评测方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端102进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端102并不限定于PC、手机、平板电脑等。本申请实施例的语音数据的评测方法可以由服务器104来执行，也可以由终端102来执行，还可以是由服务器104和终端102共同执行。其中，终端102执行本申请实施例的语音数据的评测方法也可以是由安装在其上的客户端来执行。

以运行在服务器侧(语音数据评测服务器)为例，图2是根据本申请实施例的一种可选的语音数据的评测方法的流程图，如图2所示，该方法的流程可以包括以下步骤：

步骤S202，获取与目标对象的评测语音数据对应的评测语音特征，其中，评测语音特征包括评测语音数据中的每个评测语音帧的语音特征；

步骤S204，使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果，其中，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率；

步骤S206，根据目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果，其中，评测发音信息用于指示与评测语音数据对应的评测资源包含的目标发音单元。

通过上述步骤S202至步骤S206，获取与目标对象的评测语音数据对应的评测语音特征，其中，评测语音特征包括评测语音数据中的每个评测语音帧的语音特征；使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果，其中，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率；根据目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果，其中，评测发音信息用于指示与评测语音数据对应的评测资源包含的目标发音单元，解决了相关技术中的发音评测方式存在由于说话人不同导致的发音评测的准确性低的问题，提高了发音评测准确性。

在步骤S202提供的技术方案中，获取与目标对象的评测语音数据对应的评测语音特征。

本实施例中的语音数据的评测方法可以应用于对说话人针对某一评测资源(评测文本)所输入的语音数据进行发音评测的场景。该评测资源使用的可以是某一种特定语言。

目标对象(对应于某一用户，目标说话人)可以使用帐号和密码、动态密码、关联应用登录等方式登录到其终端设备上运行的目标应用的客户端，并对客户端执行触发操作触发进入到发音评测界面。上述目标应用可以是具有语音评测功能的应用，上述触发操作可以是点击操作、滑动操作或者其组合，本实施例中对此不作具体限定。

发音评测可以包含多个评测资源，例如，多道题目，每个评测资源可以包含但不限于以下至少之一：评测内容的文字提示信息，评测内容的语音提示信息，评测内容的文字描述信息，评测内容的参考语音数据(也就是，标准答案)，其中，评测内容的文字提示信息和评测内容的文字描述信息可以通过客户端的发音评测界面显示，评测内容的语音提示信息和评测内容的参考语音数据可以通过终端设备的扬声器进行播放。

例如，在进行发音评测时，评测内容为“XXXX”(评测资源，可以是一句话，一段话等)，可以在发音评测界面中显示文字提示信息，文字提示信息可以提示：在什么时间进行语音输入、当前是第几道题目、进入上一道题目或者下一道题目的接口等等，还可以显示有该评测内容的文字信息，以方便用户获知需要输入的内容。此外，也可以通过扬声器播放语音提示，语音提示可以提示：在什么时间进行语音输入、当前是第几道题目等等。还可以通过扬声器播放标准答案，播放的次数可以是一次或多次。

在客户端的发音评测界面中上可以显示有开始语音输入的按钮、取消语音输入的按钮、暂停语音输入的按钮等等，此外，还可以显示有其他用于控制发音评测进度的按钮，本实施例中对此不作限定。

对于评测资源，目标对象可以根据客户端的提示进行语音输入，输入与该评测资源对应的评测语音数据，评测语音数据可以是对目标对象进行发音评测所使用的语音数据。客户端获取到用户输入的评测语音数据之后，可以将评测语音数据通过客户端与服务器之间的通信连接发送给服务器，以便服务器进行发音评测。

服务器可以接收客户端发送的评测语音数据，或者，从数据库中获取评测语音数据。不同对象的发音评测语音数据可以首先保存到数据库中，服务器可以按照发音评测语音数据的时间顺序或者其他顺序(例如，优先等级)从数据库中获取发音评测语音数据进行发音评测。

评测语音数据为当前待评测的目标对象的针对评测资源(评测文本)输入的语音数据，该评测语音数据可以包含多个评测语音帧，评测语音特征为每个评测语音帧的语音特征。评测语音帧有多个，评测语音特征也可以为多个，多个评测语音特征可以是评测语音特征序列。

例如，用户的评测语音数据可以转换为语音特征序列(评测语音特征序列)，为f＝[f₁,...,f_t,...,f_T]，其中，T为语音帧(评测语音帧)的个数。

在步骤S204提供的技术方案中，使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果。

在得到评测语音特征之后，可以根据得到的评测语音特征，识别出每个评测语音帧为各个参考发音单元的概率。

相关技术中，评测语音特征不仅包含了与发音单元关联的语音特征(用于区分不同的发音单元)，还包含了与目标对象关联的对象特征，上述对象特征可以用于区分不同的发音对象，例如，用于标识发音对象的音色的特征等。因此，在进行发音单元识别时，由于受到评测语音特征中与目标对象关联的对象特征的影响，发音单元识别的准确性较低。

在本实施例中，在识别每个评测语音帧为各个参考发音单元的概率之前，可以首先抑制评测语音特征中目标对象的对象特征，然后使用抑制了目标对象的对象特征后的评测语音特征来识别每个评测语音帧为各个参考发音单元的概率，得到目标识别结果。

上述发音单元为划分出来的语音单位，可以是音素、词语等等。本实施例中以发音单元为音素为例进行说明，对于其他发音单元，本实施例中的语音数据的评测方法同时适用。参考发音单元为标准发音单元，例如，某一语言下的标准语音单位。

例如，可以首先抑制前述语音特征序列f中与目标对象关联的对象特征之后，并使用抑制了对象特征之后的语音特征序列f识别该语音特征序列对应每个音素的概率p＝[p₁,...,p_t,...,p_T]。

在步骤S206提供的技术方案中，使用目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果。

在对使用评测语音数据对目标对象进行发音评测之前，可以首先获取该评测语音数据的评测发音信息，该评测发音信息用于指示与评测语音数据对应的评测资源的多个目标发音单元，也就是，评测资源中包含哪些发音单元，例如，评测文本中包含哪些因素。

目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率，在得到目标识别结果之后，可以以评测发音信息为标准，按照目标识别结果对目标对象进行发音评测，得到目标对象的目标评测结果。该目标评测结果可以是对各个目标发音单元的发音评测的综合结果。

作为一种可选的实施例，使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果包括：

S11，将评测语音特征输入到目标声学模型，得到目标声学模型输出的目标识别结果，其中，目标声学模型用于抑制评测语音特征中的对象特征，并使用抑制了对象特征后的评测语音特征识别每个评测语音帧为各个参考发音单元的概率。

进行发音单元识别可以由目标声学模型执行的。在得到评测语音特征之后，可以将评测语音特征输入到预先训练好的声学模型(即，目标声学模型)中，得到目标声学模型输出的目标识别结果，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率。

目标声学模型可以是抑制说话人信息的声学模型。目标声学模型可以为神经网络模型，包含一个或多个神经网络，例如，循环神经网络、长短时记忆网络、卷积神经网络，深度神经网络或者其组合。该目标声学模型可以具有抑制说明人信息的功能，该目标声学模型可以用来提取评测语音特征中能够用来识别发音单元、且与发音对象关联性较小的特征，并使用提取的特征识别每个评测语音帧为各个参考发音单元的概率。

例如，可以将前述语音特征序列f输入到预先训练好的声学模型中，得到与该语音特征序列对应每个音素的概率。

通过本实施例，通过训练好的具有抑制说话人信息的声学模型进行发音单元识别，可以提高发音单元识别的效率。

作为一种可选的实施例，将评测语音特征输入到目标声学模型，得到目标声学模型输出的目标识别结果包括：

S21，将评测语音特征输入到目标声学模型的第一目标神经网络，得到第一目标神经网络输出的目标输出特征，其中，目标输出特征为抑制评测语音特征中的对象特征后得到的特征；

S22，将目标输出特征输入到目标声学模型的第二目标神经网络，得到第二目标神经网络输出的目标识别结果，其中，目标声学模型是使用标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据对初始网络模型进行训练得到的，初始网络模型包括初始声学模型和初始对象识别网络，初始声学模型包括第一初始神经网络和输入与第一初始神经网络的输出相连的第二初始神经网络，初始对象识别网络的输入与第一初始神经网络的输出的逆转相连，训练发音信息用于表示训练语音数据中的每个训练语音帧对应的训练发音单元。

相关技术中的声学模型可以如图3所示，该声学模型可以用于识别与语音数据中的各个语音帧对应的音素(发音单元的一种)。语音数据可以是发音评测时用户时输入的语音数据。

声学模型的输入为可以为语音数据的特征序列f，输出为每帧语音f_t对应I个音素的概率p_t。该模型可以包括神经网络h和神经网络h_p，该神经网络h和h_p可以是循环神经网络、长短时记忆网络、卷积神经网络，深度神经网络等，或多种网络的组合。神经网络h的输出可以是embedding(嵌入)，可以理解为从原始数据提取出来的特征，也就是，通过神经网络映射之后的低维向量，可以实现高维稀疏特征向量向低维稠密特征向量的转换。

用某些说话人的语音来训练发音评测模型(声学模型)，模型训练完后用于评测另一些说话人的语音，存在说话人不匹配的情况。由于每个人的发音器官的形状和大小各不相同，使得声音在音高、音色等方面会存在差异。此外，每个人都有自己独特的说话习惯和发声技巧，特别是母语是待学语言的说话人和母语不是待学语言的说话人，这方面的区别更大。

上述说话人不同(称为说话人信息)引起的差异，会对发音评测模型造成影响，降低发音评测的准确性。而测试语音和训练语音的说话人不匹配时，会出现准确度降低的情况，这是因为没有去除说话人信息对发音评测的影响。

可选地，在本实施例中，为了去除说话人信息对发音评测的影响，可以使用具有抑制说话人信息功能的目标声学模型进行发音单元识别。该目标声学模型可以是使用训练样本对初始网络模型进行训练得到的，训练样本为标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据。

初始网络模型可以是在初始声学模型的基础上，增加额外的初始对象识别网络(说话人识别网络)。该初始对象识别网络的底层和声学模型共享，例如，都为神经网络h。初始声学模型用于识别语音数据的每个语音帧为各个参考发音单元的概率，初始对象识别网络用于识别语音数据的发音对象。

初始声学模型可以包括第一初始神经网络(如上述神经网络h)和第二初始神经网络(如上述神经网络h_p)，第二初始神经网络的输入和第一初始神经网络的输出相连。增加的初始对象识别网络(如上述说话人识别网络)的输入可以与第一初始神经网络的输出的逆转相连。

由于第一初始神经网络和第二初始神经网络被训练为尽可能地识别出发音单元，初始对象识别网络被训练为尽可能地识别说话人(发音对象)，由于存在输出逆转，相当于第一初始神经网络被训练成尽可能地抑制说话人信息，使得网络不能识别出不同说话人。

第一初始神经网络和第二初始神经网络可以是循环神经网络、长短时记忆网络、卷积神经网络，深度神经网络等，或多种网络的组合。初始对象识别网络可以深度神经网络。

目标声学模型可以包含与第一初始神经网络对应的第一目标神经网络和与第二初始神经网络对应的第二目标神经网络。在进行发音单元识别时，可以将评测语音特征输入到第一目标神经网络，得到第一目标神经网络输出的目标输出特征。该目标输出特征是抑制评测语音特征中的对象特征(说话人信息)后得到的特征。目标输出特征可以被输入到目标声学模型的第二目标神经网络，得到第二目标神经网络输出的目标识别结果。

通过本实施例，通过在模型训练时添加额外的说话人识别网络并进行输出逆转，可以提高声学模型抑制说话人信息的能力，保证发音单元识别的准确性。

作为一种可选的实施例，在将评测语音特征输入到目标声学模型之前，上述方法还包括：

S31，获取初始网络模型的训练样本，其中，初始对象识别网络的输入通过梯度逆转层与第一初始神经网络的输出相连，训练样本为标注了与训练发音信息和训练对象的训练语音数据；

S32，使用训练样本对初始网络模型进行模型训练，得到目标网络模型，并从目标网络模型包含的目标声学模型和目标对象识别网络中提取出目标声学模型。

为了训练一个对说话人不敏感的声学模型，以便可以使用该声学模型应用于如发音评测、语音识别等不需要确定说话人的场景，可以首先搭建好待训练的初始网络模型，在初始网络模型中，初始对象识别网络的输入通过梯度逆转层与第一初始神经网络的输出相连，上述梯度逆转层也称为梯度反转层(Gradient Reversal Layer，GRL)。

对于搭建好的初始网络模型，为了对其进行训练，可以获取该初始网络模型的训练样本。

相关技术中的声学模型在训练时，所采集的训练语音及标签为(x_i,l_i)，i＝1,...,I。其中，x_i表示第i帧语音的特征，l_i表示第i帧语音的音素标签，例如，该特征属于第1个音素，则对应的标签l_i＝[1,0,0,…,0]。训练语音共I帧。

可选地，在本实施例中，训练样本为标注了与训练发音信息和训练对象的训练语音数据，其中，训练发音信息与初始声学模型对应，用于表示训练语音数据中的每个训练语音帧对应的训练发音单元，训练对象也就是训练语音数据的发音对象。

训练样本的数量一般为多个。对于每个训练样本，该训练样本可以包含多个训练语音帧，对应地，训练语音帧的语音特征为训练语音特征，对应于一个训练发音单元。训练语音帧和训练发音单元之间的对应关系可以通过训练语音帧的语音帧标识和训练发音单元的发音单元标识之间的对应关系进行表示。

例如，模型的训练数据为(X_j，s_j)，j＝1,…,J。其中X_j表示第j条语音的特征，每条语音只含一个说话人；s_j表示第j条语音的说话人标签，若第j条语音属于第1个说话人，则s_i＝[1,0,0,…,0]。训练数据的总条数为J，训练数据的总说话人个数为K。

为第j条语音对应的音素标签，例如，该特征

属于第1个音素，则对应的标签

训练语音数据可以对应于一个训练对象，训练对象可以通过对象标识进行标识，训练语音数据和训练对象之间的对应关系可以通过训练语音数据的语音数据标识和训练对象的对象标识之间的对应关系进行表示。

在得到训练样本之后，可以使用训练样本对初始网络模型进行模型训练。在进行模型训练时，可以使用目标损失函数来限制模型参数调整的方向。损失函数(lossfunction)是用来估量模型的预测值与真实值的不一致程度，模型参数的调整方向为：损失函数值下降的方向。

训练样本可以有多个，可以采用轮询的方式依次使用各个训练样本对初始网络模型进行模型训练，在经过多轮迭代之后，目标损失函数的函数值与真实值之间的差异达到预期时，训练结束。训练结束之后，可以得到目标网络模型。

目标网络模型可以包括三组神经网络，第一目标神经网络、第二目标神经网络和目标对象识别网络，其中，第一目标神经网络和第二目标神经网络属于目标声学模型，第一目标神经网络、梯度逆转层和目标对象识别网络属于目标对象识别网络。目标网络模型中的目标声学模型为所需的声学模型。

由于第一初始神经网络的输出和第二初始神经网络的输入相连，又通过梯度逆转层与初始对象识别网络的输入相连，使得训练得到的第一目标神经网络提取的特征可以用来识别语音帧的发音单元，又与具体的发音对象关联不大，也就是，能够抑制说话人信息。

通过本实施例，通过使用训练样本对初始网络模型进行训练，并从训练好的目标网络模型提取出目标声学模型，可以提高模型训练的准确性。

作为一种可选的实施例，使用训练样本对初始网络模型进行模型训练，得到目标网络模型包括：

S41，以与训练语音数据对应的训练语音特征作为第一初始神经网络的输入，获取初始声学模型的第一输出结果，其中，训练语音特征包括每个训练语音帧的语音特征，第一输出结果用于指示每个训练语音帧对应的发音单元；

S42，以第一初始神经网络的输出经由梯度逆转层作为初始对象识别网络的输入，获取初始对象识别网络的第二输出结果，其中，第二输出结果用于指示训练语音数据对应的发音对象；

S43，按照训练发音单元和训练对象调整初始网络模型的模型参数，得到目标网络模型，其中，目标声学模型输出的、与每个训练语音帧对应的发音单元为训练发音单元的概率大于或者等于第一概率，目标对象识别网络输出的第一目标对象为训练对象的概率大于或者等于第二概率。

在进行模型训练时，可以首先获取与训练语音数据对应的训练语音特征，训练语音特征为每个训练语音帧的语音特征。如，每条语音

都包含I帧，其中，

为第j条语音的第i帧特征。

然后，以训练语音特征作为第一初始神经网络的输入，获取初始声学模型的第一输出结果，第一输出结果用于指示每个训练语音帧对应的发音单元，即，第一输出结果用于指示每个训练语音帧为各个参考发音单元的概率。

第一初始神经网络的输出同时经由梯度逆转层输入到初始对象识别网络，获取初始对象识别网络的第二输出结果，该第二输出结果用于指示训练语音数据对应的发音对象，即，第二输出结果用于指示训练语音数据为各个训练对象的概率。

例如，将训练语音

输入到初始网络模型中，得到每帧语音

对应的音素的概率

得到该条语音X_j对应每个说话人的概率z_j＝[z_j1,z_j2,...,z_jK]。

按照目标损失函数，可以确定第一输出结果和第二输出结果与实际的训练发音单元和训练对象之间的不一致程度(损失函数值)，并基于此调整初始网络模型的模型参数，初始网络模型的模型参数可以包括：第一初始神经网络的模型参数、第二初始神经网络的模型参数和初始对象识别网络的模型参数。通过多轮(一轮多次调整)调整，在满足收敛条件时，可以得到目标网络模型。

目标网络模型包括目标声学模型和目标对象识别网络，其中，目标声学模型输出的、与每个训练语音帧对应的发音单元为训练发音单元的概率大于或者等于第一概率，目标对象识别网络输出的第一目标对象为训练对象的概率大于或者等于第二概率。

第一概率和第二概率可以是基于收敛条件确定的值，也可以是预先设定的值，本实施例中对此不作限定。

通过本实施例，按照训练发音单元和训练对象调整初始网络模型的模型参数，可以保证模型参数调整的合理性。

作为一种可选的实施例，以第一初始神经网络的输出经由梯度逆转层作为初始对象识别网络的输入，获取初始对象识别网络的第二输出结果包括：

S51，以第一初始神经网络的输出经由目标池化层和梯度逆转层作为初始对象识别网络的输入，获取初始对象识别网络的第二输出结果。

除了梯度逆转层之外，在第一初始神经网络的输出与初始对象识别网络的输入之间，还可以配置目标池化层。第一初始神经网络的输出可以先经由目标池化层进行降维，然后，经由梯度逆转层进行梯度逆转，梯度逆转层的输出作为初始对象识别网络的输入，最终获取到初始对象识别网络的第二输出结果。

例如，如图4所示，神经网络h的输出，一方面输给神经网络h_p进行音素识别，得到每帧语音对应每个音素的概率；另一方面对一条的语音所有帧进行池化，梯度逆转，再经过神经网络h_s进行说话人识别，得到每条语音属于每个说话人的概率。

通过本实施例，通过对第一初始神经网络的输出进行池化后执行梯度逆转，可以降低梯度逆转所需处理的数据维度，提高模型训练效率。

作为一种可选的实施例，在使用训练样本对初始网络模型进行模型训练之前，上述方法还包括：

S61，构建初始网络模型的目标损失函数，其中，目标损失函数为对初始网络模型进行模型训练所使用的损失函数，目标损失函数为第一损失函数和第二损失函数的加权和，第一损失函数与训练发音单元关联的损失函数，第二损失函数为与训练对象关联的损失函数。

相关技术中，在将训练语音输入到声学模型中，可以得到每帧对应的音素的概率y_i＝[y_i1,y_i2,...,y_iM]。为了对模型进行训练，需要构建模型的损失函数，例如，交叉熵损失函数，构建的交叉熵损失函数可以如公式(1)所示：

其中，CE(y_i,l_i)表示y_i和l_i之间的交叉熵。通过最小化损失函数，可以完成声学模型的训练。

可选地，在本实施例中，由于初始网络模型包括两种神经网络模型(声学模型，对象识别模型)，构建的目标损失函数需要兼顾到两种神经网络模型。例如，可以分别构建两个模型的损失函数：第一损失函数和第二损失函数，第一损失函数与训练发音单元关联的损失函数，第二损失函数为与训练对象关联的损失函数，第一损失函数和第二损失函数可以是交叉熵损失函数。

例如，可以构建音素识别的交叉熵损失函数，如公式(2)所示：

其中，

表示

和

之间的交叉熵。

构建说话人识别的交叉熵损失函数，如公式(3)所示：

初始网络模型的目标损失函数为第一损失函数和第二损失函数的加权和。

例如，构建模型总体损失函数，如公式(4)所示：

L＝L_p+λL_s (4)

其中，λ为调节音素识别的交叉熵损失函数和说话人识别的交叉熵损失函数之间权重的参数。通过梯度下降法最小化L完成神经网络h，h_p和h_s的训练。模型训练完成后，可以取出其中的声学模型，应用于后续识别。

通过本实施例，通过对与训练发音单元关联的损失函数和与训练对象关联的损失函数进行加权求和，得到初始网络模型的损失函数，可以保证模型参数调整的合理性。

作为一种可选的实施例，获取与目标对象的评测语音数据对应的评测语音特征包括：

S71，对评测语音数据进行分帧，得到评测语音数据包含的多个评测语音帧；

S72，提取每个评测语音帧的语音特征，得到与多个评测语音帧对应的语音特征序列，其中，评测语音特征为语音特征序列。

为了获取到评测语音特征，可以首先对评测语音数据进行预处理。预处理可以包括但不限于：对评测语音数据进行分帧，得到评测语音数据包含的多个评测语音帧；提取每帧语音对应的特征(比如，梅尔倒谱特征)。预处理还可以包括：活动语音检测，本实施例中对此不作具体限定。

通过本实施例，通过对评测语音数据进行预处理，可以保证声学模型处理语音特征序列的准确性，进而提高语音评测的准确性。

作为一种可选的实施例，在使用目标识别结果和评测发音信息进行发音评测之前，上述方法还包括：

S81，获取评测资源，其中，评测资源用于对目标对象进行发音评测；

S82，按照评测资源中包含的每个评测词查找发音词典，得到与每个评测词对应的发音单元序列，其中，发音单元序列包含与每个评测词对应的一个或多个目标发音单元，评测发音信息用于指示与每个评测词对应的发音单元序列。

在使用目识别结果和评测发音信息对目标对象进行发音评测之前，可以首先获取评测资源，评测资源用于对目标对象进行发音评测。

评测资源中可以包含多个评测词，每个评测词具有一个标准的发音，该发音可以包含一个或多个目标发音单元。通过查找词典，可以得到与每个评测词对应的发音单元序列(一个或多个目标发音单元)，评测发音信息用于指示与每个评测词对应的发音单元序列。如果有多个评测词，则多个评测词的发音单元序列可以为每个评测词对应的发音单元序列的顺序叠加。

例如，根据文本，可以查阅发音词典，得到该文本对应的音素序列q＝[q₁,...,q_n,...,q_N]，其中，N为音素的个数。后续处理可以是检测这里的每个音素q_n(n＝1,...,N)是否被正确读出，并为每个音素打上对应的发音质量分数。

通过本实施例，通过查找发音词典得到评测文本对应的音素序列，可以提高发音评测的评测效率以及准确性。

作为一种可选的实施例，使用目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果包括：

S91，根据目标识别结果所指示的每个评测语音帧为各个参考发音单元的概率，确定与每个目标发音单元对应的评测语音段，其中，评测语音段包含一个或多个评测语音帧；

S92，使用评测语音段对每个目标发音单元进行发音评测，得到目标对象的目标评测结果。

目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率。可以根据概率阈值(评测语音帧为某一参考发音单元的概率大于或者概率阈值时，才可能为该发音单元)、以及评测语音帧之间的相邻关系，将评测语音数据划分为多个时间段，每个时间段对应于一个目标发音单元。

例如，可以根据得到的语音特征序列f，识别出语音特征序列对应每个音素的概率p＝[p₁,...,p_t,...,p_T]，其中，p_t＝[p_t1,...,p_tm,...,p_tM]，p_tm表示第t帧语音f_t属于第m个音素的概率，M为音素的总个数。

根据评测文本对应的音素序列q，构建该音素序列对应的隐马尔可夫模型。根据该隐马尔可夫模型以及上述概率p，利用Viterbi(维特比)算法计算出每帧语音属于文本对应的音素序列中的哪个音素。这样可以实现语音帧到音素的对应，也就是强制对齐。强制对齐后，整条输入语音被分为N段(评测语音段)，记为O＝[O₁,...,O_n,...,O_N]，其中O_n表示音素q_n对应的语音帧区间范围内的语音。

可以使用评测语音段对每个目标发音单元进行发音评测，得到目标对象的目标评测结果。例如，可以根据预先训练好的语言模型计算音素q_n产生语音O_n的概率p(O_n|q_n)和所有I个音素产生语音O_n的概率。再根据GOP(Goodness of Pronunciation，发音质量)打分得到每个音素对应的发音分数，从而完成发音评测。

通过本实施例，通过识别每个目标发音单元对应的评测语音段，并基于评测语音段对每个目标发音单元进行发音评测，可以提高发音评测的准确性和效率。

下面结合可选示例对本申请实施例中的语音数据的评测方法进行解释说明。在本实施例中，评测资源为评测文本，发音单元为音素。

相关技术中的发音质量评测方式如图5所示。发音质量评测***的输入可以包括两个部分，一个是待读的文本(评测文本，评测资源的一种)，另一个是用户试读的语音(评测语音数据)。***的输出是文本对应的每个音素的发音打分。

上述发音质量评测方式，测试语音和训练语音的说话人不匹配时，由于没有去除说话人信息对发音评测的影响，会造成发音评测的准确性下降。

在本示例中，如图4所示，在模型训练时，引入额外的说话人识别网络，该网络的帧级别和声学模型共享，片段级别独有。

在本示例中提供的是一种基于说话人信息抑制的发音评测方法。在训练声学模型时，额外多了一个说话人识别网络h_s。该说话人识别网络通过池化层和梯度逆转层和声学模型中的神经网络h相连接。梯度逆转层在网络前向传播时，相当于乘以1。在网络后向传播(也就是计算梯度时)，相当于乘以-1。所以在用梯度下降法最小化音素识别错误率L_p时，神经网络h和h_p都被训练尽可能地识别出音素。在用梯度下降法最小化说话人识别错误率L_s时，神经网络h_s被训练尽可能地识别出说话人。但是由于存在梯度逆转层，最小化说话人识别错误率L_s时，神经网络h相当于朝着最大化说话人识别错误率的方向优化，相当于神经网络h被训练成尽可能地抑制说话人信息，使得网络不能识别出不同说话人。

因此，当最小化音素识别错误率和说话人识别错误率之和L时，神经网络h一方面尽可能的识别出音素信息，另一方面尽可能地抑制说话人信息。神经网络h_p尽可能地识别出音素信息。最终由h和h_p组成的声学模型具有抑制说话人信息的功能。当该声学模型输入与训练数据不同的说话人的语音时，由于说话人信息会被抑制，不会降低声学模型的识别效果，也就不会影响后续强制对齐和GOP打分的效果。因此，本示例中在测试语音和训练语音的说话人不匹配时，能够提高发音评测的准确性。

本示例中的语音数据的评测方法可以如图6和图7所示，与相关技术相比，采用抑制说话人信息的声学模型代替现有技术的普通声学模型。该语音数据的评测方法可以包括以下步骤：

步骤S702，根据评测文本，查阅发音词典得到该文本对应的音素序列。

根据评测文本，可以查阅发音词典得到该评测文本对应的音素序列q＝[q₁,...,q_n,...,q_N]，其中，N为音素的个数。

步骤S704，对评测语音数据进行预处理，将评测语音数据转换为语音特征序列。

对评测语音数据进行预处理。预处理包括对语音进行分帧，提取每帧语音对应的特征(比如梅尔倒谱特征)、活动语音检测等。将评测语音数据转换为语音特征序列f＝[f₁,...,f_t,...,f_T]，其中，T为语音帧的个数。

步骤S706，根据语音特征序列，识别出该语音特征序列对应每个音素的概率。

根据语音特征序列f，使用训练好的目标声学模型识别出该语音特征序列对应每个音素的概率p＝[p₁,...,p_t,...,p_T]，其中，p_t＝[p_t1,...,p_tm,...,p_tM]，p_tm表示第t帧语音f_t属于第m个音素的概率，M为音素的总个数。

步骤S708，对语音帧和音素进行强制对齐，将整条输入语音被分成多个评测语音段。

根据评测文本对应的音素序列q，构建该音素序列对应的隐马尔可夫模型。根据该隐马尔可夫模型和得到的概率p，利用Viterbi算法计算出每帧语音属于文本对应的音素序列中的哪个音素，实现强制对齐。

强制对齐后，整条输入语音被分为N段(相当于N个评测语音段)，记为O＝[O₁,...,O_n,...,O_N]，其中O_n表示音素q_n对应的语音帧区间范围内的语音。

步骤S710，按照划分的评测语音段对每个音素进行打分，完成发音评测。

可以根据预先训练好的语言模型计算音素q_n产生语音O_n的概率p(O_n|q_n)和所有I个音素产生语音O_n的概率。再根据GOP打分得到每个音素对应的发音分数，从而完成发音评测。

最基本的GOP计算方式可以如公式(5)所示：

其中，I为整个音素集，p(i)为音素i出现的概率，NF(q_n)是O_n中包含的帧的个数。可选地，还可以采用其他的GOP计算方式计算每个音素对应的发音分数，在此不做赘述。

通过本示例，在模型训练时，通过额外的说话人识别网络和梯度逆转层，尽可能地使模型抑制说话人信息；使用具有抑制说话人信息功能的模型来进行发音评测，可以降低测试数据和训练数据说话人不匹配对发音评测的影响。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述语音数据的评测方法的语音数据的评测装置。图8是根据本申请实施例的一种可选的语音数据的评测装置的结构框图，如图8所示，该装置可以包括：

(1)第一获取单元802，用于获取与目标对象的评测语音数据对应的评测语音特征，其中，评测语音特征包括评测语音数据中的每个评测语音帧的语音特征；

(2)识别单元804，与第一获取单元802相连，用于使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果，其中，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率；

(3)评测单元806，与识别单元804相连，用于根据目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果，其中，评测发音信息用于指示与评测语音数据对应的评测资源包含的目标发音单元。

需要说明的是，该实施例中的第一获取单元802可以用于执行上述步骤S202，该实施例中的识别单元804可以用于执行上述步骤S204，该实施例中的评测单元806可以用于执行上述步骤S206。

通过上述模块，获取与目标对象的评测语音数据对应的评测语音特征，其中，评测语音特征包括评测语音数据中的每个评测语音帧的语音特征；使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果，其中，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率；根据目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果，其中，评测发音信息用于指示与评测语音数据对应的评测资源包含的目标发音单元，解决了相关技术中的发音评测方式存在由于说话人不同导致的发音评测的准确性低的问题，提高了发音评测准确性。

作为一种可选的实施例，识别单元804包括：

输入模块，用于将评测语音特征输入到目标声学模型，得到目标声学模型输出的目标识别结果，其中，目标声学模型用于抑制评测语音特征中的对象特征，并使用抑制了对象特征后的评测语音特征识别每个评测语音帧为各个参考发音单元的概率。

作为一种可选的实施例，输入模块包括：

第一输入子模块，用于将评测语音特征输入到目标声学模型的第一目标神经网络，得到第一目标神经网络输出的目标输出特征，其中，目标输出特征为抑制评测语音特征中的对象特征后得到的特征；

第二输入子模块，用于将目标输出特征输入到目标声学模型的第二目标神经网络，得到第二目标神经网络输出的目标识别结果，其中，目标声学模型是使用标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据对初始网络模型进行训练得到的，初始网络模型包括初始声学模型和初始对象识别网络，初始声学模型包括第一初始神经网络和输入与第一初始神经网络的输出相连的第二初始神经网络，初始对象识别网络的输入与第一初始神经网络的输出的逆转相连，训练发音信息用于表示训练语音数据中的每个训练语音帧对应的训练发音单元。

作为一种可选的实施例，上述装置还包括：

第二获取单元，用于在将评测语音特征输入到目标声学模型之前，获取初始网络模型的训练样本，其中，初始对象识别网络的输入通过梯度逆转层与第一初始神经网络的输出相连，训练样本为标注了与训练发音信息和训练对象的训练语音数据；

训练单元，用于使用训练样本对初始网络模型进行模型训练，得到目标网络模型，并从目标网络模型包含的目标声学模型和目标对象识别网络中提取出目标声学模型。

作为一种可选的实施例，训练单元包括：

第一获取模块，用于以与训练语音数据对应的训练语音特征作为第一初始神经网络的输入，获取初始声学模型的第一输出结果，其中，训练语音特征包括每个训练语音帧的语音特征，第一输出结果用于指示每个训练语音帧对应的发音单元；

第二获取模块，用于以第一初始神经网络的输出经由梯度逆转层作为初始对象识别网络的输入，获取初始对象识别网络的第二输出结果，其中，第二输出结果用于指示训练语音数据对应的发音对象；

调整模块，用于按照训练发音单元和训练对象调整初始网络模型的模型参数，得到目标网络模型，其中，目标声学模型输出的、与每个训练语音帧对应的发音单元为训练发音单元的概率大于或者等于第一概率，目标对象识别网络输出的第一目标对象为训练对象的概率大于或者等于第二概率。

作为一种可选的实施例，第二获取模块包括：

获取子模块，用于以第一初始神经网络的输出经由目标池化层和梯度逆转层作为初始对象识别网络的输入，获取初始对象识别网络的第二输出结果。

作为一种可选的实施例，上述装置还包括：

构建单元，用于在使用训练样本对初始网络模型进行模型训练之前，构建初始网络模型的目标损失函数，其中，目标损失函数为对初始网络模型进行模型训练所使用的损失函数，目标损失函数为第一损失函数和第二损失函数的加权和，第一损失函数与训练发音单元关联的损失函数，第二损失函数为与训练对象关联的损失函数。

作为一种可选的实施例，第一获取单元802包括：

分帧模块，用于对评测语音数据进行分帧，得到评测语音数据包含的多个评测语音帧；

提取模块，用于提取每个评测语音帧的语音特征，得到与多个评测语音帧对应的语音特征序列，其中，评测语音特征为语音特征序列。

作为一种可选的实施例，上述装置还包括：

第三获取单元，用于在使用目标识别结果和评测发音信息进行发音评测之前，获取评测资源，其中，评测资源用于对目标对象进行发音评测；

查找单元，用于按照评测资源中包含的每个评测词查找发音词典，得到与每个评测词对应的发音单元序列，其中，发音单元序列包含与每个评测词对应的一个或多个目标发音单元，评测发音信息用于指示与每个评测词对应的发音单元序列。

作为一种可选的实施例，评测单元806包括：

确定模块，用于根据目标识别结果所指示的每个评测语音帧为各个参考发音单元的概率，确定与每个目标发音单元对应的评测语音段，其中，评测语音段包含一个或多个评测语音帧；

评测模块，用于使用评测语音段对每个目标发音单元进行发音评测，得到目标对象的目标评测结果。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音数据的评测方法的电子装置，该电子装置可以是服务器、终端、或者其组合。

图9是根据本申请实施例的一种可选的电子装置的结构框图，如图9所示，该电子装置包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取与目标对象的评测语音数据对应的评测语音特征，其中，评测语音特征包括评测语音数据中的每个评测语音帧的语音特征；

S2，使用抑制了目标对象的对象特征后的评测语音特征进行发音单元识别，得到目标识别结果，其中，目标识别结果用于指示每个评测语音帧为各个参考发音单元的概率；

S3，根据目标识别结果和评测发音信息进行发音评测，得到目标对象的目标评测结果，其中，评测发音信息用于指示与评测语音数据对应的评测资源包含的目标发音单元。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的语音数据的评测方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述语音数据的评测方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902可以但不限于用于声学模型、网络模型等。

作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述语音数据的评测装置中的第一获取单元802、识别单元804、以及评测单元806。此外，还可以包括但不限于上述语音数据的评测装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：连接总线908，用于连接上述电子装置中的各个模块部件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图9所示的结构仅为示意，实施上述语音数据的评测方法或者的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，终端设备还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行语音数据的评测方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音数据的评测方法，其特征在于，包括：

获取与目标对象的评测语音数据对应的评测语音特征，其中，所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征；

使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到目标识别结果，其中，所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率，所述对象特征用于区分不同的发音对象；

根据所述目标识别结果和评测发音信息进行发音评测，得到所述目标对象的目标评测结果，其中，所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元；

其中，使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到所述目标识别结果包括：将所述评测语音特征输入到目标声学模型，得到所述目标声学模型输出的所述目标识别结果，其中，所述目标声学模型用于抑制所述评测语音特征中的所述对象特征，并使用抑制了所述对象特征后的所述评测语音特征识别每个所述评测语音帧为所述各个参考发音单元的概率。

2.根据权利要求1所述的方法，其特征在于，将所述评测语音特征输入到所述目标声学模型，得到所述目标声学模型输出的所述目标识别结果包括：

将所述评测语音特征输入到所述目标声学模型的第一目标神经网络，得到所述第一目标神经网络输出的目标输出特征，其中，所述目标输出特征为抑制所述评测语音特征中的所述对象特征后得到的特征；

将所述目标输出特征输入到所述目标声学模型的第二目标神经网络，得到所述第二目标神经网络输出的所述目标识别结果，其中，所述目标声学模型是使用标注了与初始声学模型对应的训练发音信息和与初始对象识别网络对应的训练对象的训练语音数据对初始网络模型进行训练得到的，所述初始网络模型包括所述初始声学模型和所述初始对象识别网络，所述初始声学模型包括第一初始神经网络和输入与所述第一初始神经网络的输出相连的第二初始神经网络，所述初始对象识别网络的输入与所述第一初始神经网络的输出的逆转相连，所述训练发音信息用于表示所述训练语音数据中的每个训练语音帧对应的训练发音单元。

3.根据权利要求2所述的方法，其特征在于，在将所述评测语音特征输入到所述目标声学模型之前，所述方法还包括：

获取所述初始网络模型的训练样本，其中，所述初始对象识别网络的输入通过梯度逆转层与所述第一初始神经网络的输出相连，所述训练样本为标注了与所述训练发音信息和所述训练对象的所述训练语音数据；

使用所述训练样本对所述初始网络模型进行模型训练，得到目标网络模型，并从所述目标网络模型包含的所述目标声学模型和目标对象识别网络中提取出所述目标声学模型。

4.根据权利要求3所述的方法，其特征在于，使用所述训练样本对所述初始网络模型进行模型训练，得到所述目标网络模型包括：

以与所述训练语音数据对应的训练语音特征作为所述第一初始神经网络的输入，获取所述初始声学模型的第一输出结果，其中，所述训练语音特征包括每个所述训练语音帧的语音特征，所述第一输出结果用于指示每个所述训练语音帧对应的发音单元；

以所述第一初始神经网络的输出经由所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的第二输出结果，其中，所述第二输出结果用于指示所述训练语音数据对应的发音对象；

按照所述训练发音单元和所述训练对象调整所述初始网络模型的模型参数，得到所述目标网络模型，其中，所述目标声学模型输出的、与每个所述训练语音帧对应的发音单元为所述训练发音单元的概率大于或者等于第一概率，所述目标对象识别网络输出的第一目标对象为所述训练对象的概率大于或者等于第二概率。

5.根据权利要求4所述的方法，其特征在于，以所述第一初始神经网络的输出经由所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的所述第二输出结果包括：

以所述第一初始神经网络的输出经由目标池化层和所述梯度逆转层作为所述初始对象识别网络的输入，获取所述初始对象识别网络的所述第二输出结果。

6.根据权利要求3所述的方法，其特征在于，在使用所述训练样本对所述初始网络模型进行模型训练之前，所述方法还包括：

构建所述初始网络模型的目标损失函数，其中，所述目标损失函数为对所述初始网络模型进行模型训练所使用的损失函数，所述目标损失函数为第一损失函数和第二损失函数的加权和，所述第一损失函数与所述训练发音单元关联的损失函数，所述第二损失函数为与所述训练对象关联的损失函数。

7.根据权利要求1所述的方法，其特征在于，获取与所述目标对象的所述评测语音数据对应的所述评测语音特征包括：

对所述评测语音数据进行分帧，得到所述评测语音数据包含的多个所述评测语音帧；

提取每个评测语音帧的语音特征，得到与多个所述评测语音帧对应的语音特征序列，其中，所述评测语音特征为所述语音特征序列。

8.根据权利要求1所述的方法，其特征在于，在使用所述目标识别结果和所述评测发音信息进行发音评测之前，所述方法还包括：

获取所述评测资源，其中，所述评测资源用于对所述目标对象进行发音评测；

按照所述评测资源中包含的每个评测词查找发音词典，得到与所述每个评测词对应的发音单元序列，其中，所述发音单元序列包含与所述每个评测词对应的一个或多个所述目标发音单元，所述评测发音信息用于指示与所述每个评测词对应的所述发音单元序列。

9.根据权利要求1至8中任一项所述的方法，其特征在于，使用所述目标识别结果和所述评测发音信息进行发音评测，得到所述目标对象的所述目标评测结果包括：

根据所述目标识别结果所指示的每个所述评测语音帧为各个所述参考发音单元的概率，确定与每个所述目标发音单元对应的评测语音段，其中，所述评测语音段包含一个或多个所述评测语音帧；

使用所述评测语音段对每个所述目标发音单元进行发音评测，得到所述目标对象的所述目标评测结果。

10.一种语音数据的评测装置，其特征在于，包括：

第一获取单元，用于获取与目标对象的评测语音数据对应的评测语音特征，其中，所述评测语音特征包括所述评测语音数据中的每个评测语音帧的语音特征；

识别单元，用于使用抑制了所述目标对象的对象特征后的所述评测语音特征进行发音单元识别，得到目标识别结果，其中，所述目标识别结果用于指示每个所述评测语音帧为各个参考发音单元的概率，所述对象特征用于区分不同的发音对象；

评测单元，用于根据所述目标识别结果和评测发音信息进行发音评测，得到所述目标对象的目标评测结果，其中，所述评测发音信息用于指示与所述评测语音数据对应的评测资源包含的目标发音单元；

其中，所述识别单元包括：输入模块，用于将所述评测语音特征输入到目标声学模型，得到所述目标声学模型输出的所述目标识别结果，其中，所述目标声学模型用于抑制所述评测语音特征中的所述对象特征，并使用抑制了所述对象特征后的所述评测语音特征识别每个所述评测语音帧为所述各个参考发音单元的概率。

11.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至9中任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至9中任一项中所述的方法。