CN110797049A

CN110797049A - 一种语音评测方法及相关装置

Info

Publication number: CN110797049A
Application number: CN201910987884.7A
Authority: CN
Inventors: 杨康; 吴奎; 朱群; 江勇军; 宋雪洁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-14
Anticipated expiration: 2039-10-17
Also published as: CN110797049B

Abstract

本申请实施例公开了一种语音评测方法及相关装置。其中，所述方法包括：获取用户朗读目标文本所得的目标语音，以及获取所述目标文本的基准语音；根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，其中，所述目标语音中的至少一个语音单元的发音混淆事件的评分容忍度不为零，所述发音混淆事件是指一语音单元混淆为其他语音单元的事件；输出所述评测得分。可见，通过实施本申请提供的技术方案，有利于提高电子设备进行语音评测的灵活性和兼容性。

Description

一种语音评测方法及相关装置

技术领域

本申请涉及电子设备技术领域，具体涉及一种语音评测方法及相关装置。

背景技术

由于不同国家和地区的人们存在的固有发音习惯，以及各地方言导致存在特有的易混淆发音单元，使得在特定的地区或人群中在言语交往中，人们对于难以区分的发音单元间的差别难以主观感受，同时也并不影响正常的言语交流，在一定程度上可以认为这些易混淆发音单元都是正确的发音。

然而，传统的朗读语音评测技术在实际应用中，并没有考虑到易混淆发音单元对评测结果的影响。传统的语音评测***对于所有地区和人群使用同一套评分标准，并不具有不同尺度要求的评测功能，因此经常出现传统语音评测***的评测结果和用户主观感受不符，存在不能自适应不同地区、不同人群、不同评测目标的问题。

发明内容

本申请实施例提供了一种语音评测方法及相关装置，以期提高设备进行语音评测的灵活性和兼容性。

第一方面，本申请实施例提供一种语音评测方法，包括：

获取用户朗读目标文本所得的目标语音，以及获取所述目标文本的基准语音；

根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，其中，所述目标语音中的至少一个语音单元的发音混淆事件的评分容忍度不为零，所述发音混淆事件是指一语音单元混淆为其他语音单元的事件；

输出所述评测得分。

第二方面，本申请实施例提供一种语音评测装置，包括：

获取单元，用于获取用户朗读目标文本所得的目标语音，以及获取所述目标文本的基准语音；

确定单元，用于根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，其中，所述目标语音中的至少一个语音单元的发音混淆事件的评分容忍度不为零，所述发音混淆事件是指一语音单元混淆为其他语音单元的事件；

输出单元，用于输出所述评测得分。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，电子设备能够根据朗读文本的基准语音，以及根据不同地区、不同人群预先设定的评分容忍度来确定被测的目标语音的评测得分，如此可以有效避免因使用同一套评分标准而无法依据不同地区、不同人群自由定制评分标准导致的评测结果和用户主观感受不符的问题，有利于提高电子设备进行语音评测的灵活性和兼容性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音评测***的架构示意图；

图2是本申请实施例提供的一种语音评测方法的流程示意图；

图3本申请实施例提供的一种电子设备的结构示意图；

图4本申请实施例提供的一种语音评测装置的功能单元组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为一个语音评测***100的示意图，所述语音评测***100包括语音获取装置101、语音处理装置102，所述语音获取装置101连接所述语音处理装置102，语音获取装置101用于获取语音数据并发给语音处理装置102进行处理，语音处理装置102用于对语音数据进行处理并输出处理结果，该语音评测***100可以包括集成式单体设备或者多设备，为方便描述，本申请将语音评测***100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(MobileStation，MS)，终端设备(terminal device)等等。

传统的朗读语音评测技术在实际应用中，并没有考虑到易混淆发音单元对评测结果的影响。传统的语音评测***对于所有地区和人群使用同一套评分标准，并不具有不同尺度要求的评测功能，因此经常出现传统语音评测***的评测结果和用户主观感受不符，存在不能自适应不同地区、不同人群、不同评测目标的问题。

基于此，本申请实施例提出一种语音评测方法以解决上述问题，下面对本申请实施例进行详细介绍。

请参阅图2，图2是本申请实施例提供的一种语音评测方法的流程示意图，应用于如图1所示的电子设备，如图2所示，所述语音评测方法包括：

S201、电子设备获取用户朗读目标文本所得的目标语音，以及获取所述目标文本的基准语音。

其中，所述电子设备通过所述语音获取装置获取用户朗读目标文本所得的目标语音，例如所述语音获取装置是一声音采集装置，用户对着所述声音电子设备朗读所述目标文本时，所述声音采集装置采集所述用户朗读时的语音，从而得到所述目标语音；或者外部设备通过接口将采集的语音导入所述电子设备，所述语音获取装置通过该接口获取到所述目标语音；或者还可以是其它方式，此处不做唯一限定。

其中，所述目标文本的基准语音可以是预先存储在所述电子设备中的，也可以是通过所述语音获取装置获取的，此处不做唯一限定。

另外，需要指出的是，所述目标文本的基准语音是指专业人员朗读所述目标文本或者朗读包括所述目标文本中的所有语音单元的其他文本所得的标准语音，所述基准语音中的每个语音单元的发音都是正确的。

S202、所述电子设备根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，其中，所述目标语音中的至少一个语音单元的发音混淆事件的评分容忍度不为零，所述发音混淆事件是指一语音单元混淆为其他语音单元的事件。

其中，所述语音单元包括音素、音节、字、词等。

其中，所述根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，包括：对所述目标语音进行语音单元边界切分，得到所述目标语音中每个第一语音单元的切分边界；根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵，所述权重系数矩阵包括预设的语音单元集合中第i个第二语音单元混淆为第j个第二语音单元时的权重系数ij，i和j为正整数；根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度；根据所述每个第一语音单元的发音准确度确定所述目标语音的评测得分。

其中，所述权重系数ij的数值与所述第i个第二语音单元混淆为所述第j个第二语音单元的语义准确度ij具有第一对应关系，所述权重系数ij的数值与所述第i个第二语音单元发音为所述第j个第二语音单元的发音准确度ij具有第二对应关系，所述第一对应关系和所述第二对应关系通过所述权重系数ij的数值得到如下对应关系：所述发音准确度ij与所述语义准确度ij成正比例关系。

其中，所述权重系数矩阵可以是音素权重系数矩阵、音节权重系数矩阵、字权重系数矩阵、词权重系数矩阵等。

其中，所述预设的语音单元集合可以是音素替换列表、音节替换列表、字替换列表、词替换列表等。

其中，所述语音单元混淆矩阵中的每个元素ij表示第i个第二语音单元混淆成第j个第二语音单元的概率，所述语音单元混淆矩阵可以是音素混淆矩阵、音节混淆矩阵、字混淆矩阵、词混淆矩阵等。

其中，所述评分容忍度是指某个语音单元混淆成其他语音单元时，人工主观感受对其设定的容忍程度。评分容忍度可以假定为n个等级，不同的语音单元对应不同等级的评分容忍度，分别为0～n-1等级，评分容忍度设置为0时，则为传统的测评方案，评分容忍度从1～n-1随着数值增大表示容忍度增加。在某些情况下，将目标语音单元发音成目标语音单元的易混淆语音单元时，认为发音是正确的，也即人为模糊了易混淆语音单元之间的区别。例如，英文朗读中的音素[I]和[i:]、

和[e]、[e]和[e_I]、

和

等是易混淆的音素，可以设定这些音素的发音的容忍度为n。

其中，所述语音单元混淆矩阵中的每个元素对应一个所述评分容忍度，所述根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵，包括：针对所述语音单元混淆矩阵中的每个元素，执行如下处理操作以得到所述权重系数矩阵：获取当前处理的元素对应的评分容忍度；根据所述当前处理的元素和所述当前处理的元素对应的评分容忍度确定所述当前处理的元素的权重系数。

举例来说，假设所述语音单元混淆矩阵是音素混淆矩阵PHCM(Phoneme confusionmatrix)，依据音素混淆矩阵PHCM与人工预先设置的评分容忍度可以计算得到所述音素混淆矩阵中每个音素混淆为其他音素的权重系数，从而构建得到音素权重系数矩阵。其中，可以定义第i个音素混淆为第j个音素的权重系数为

其计算公式如下：

其中，PHCM_ij表示音素混淆矩阵中第i个音素混淆为第j个音素的概率；PHCM_ij∈[0,1]，因此随着评分容忍度n的增加，易混淆音素对应的权重系数越小。

其中，对所述目标语音进行语音单元边界切分，得到所述目标语音中每个第一语音单元的切分边界，包括：根据所述目标文本、词典和所述声学模型搭建解码网络；提取所述目标语音的声学特征；根据所述声学特征进行前向计算，得到所述目标语音中每帧语音的帧状态得分；利用所述声学模型根据所述帧状态得分将所述目标文本和所述目标语音在所述解码网络中强制对齐后，进行语音单元边界切分得到所述目标语音中每个第一语音单元的切分边界。

S203、所述电子设备输出所述评测得分。

其中，可以理解的是，所述电子设备将获取到的目标语音进行处理得到所述目标语音的评测得分之后，将其输出给用户。例如，所述电子设备可以是通过语音播报的形式输出，或者可以是通过屏幕显示的形式输出，此处不做唯一限定。

在本申请可能的示例中，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵之前，所述方法还包括构建所述语音单元混淆矩阵。

具体实现中，所述构建所述语音单元混淆矩阵可以包括以下两种情况：

第一种，基于统计的语音单元混淆矩阵的构建。

其中，所述基于统计的语音单元混淆矩阵的构建包括：获取不同历史用户朗读历史文本所得的第一预设数量段历史语音，以及获取所述历史文本的基准语音；对所述第一预设数量段历史语音进行语音单元边界切分，得到所述第一预设数量段历史语音中每个第三语音单元的切分边界；计算所述每个第三语音单元在其切分边界内和所述每个第二语音单元的第三似然度，得到所述每个第三语音单元对应的多个第三似然度；将所述每个第三语音单元对应的多个第三似然度按照由大到小的顺序进行排列，并选出所述每个第三语音单元对应的最大第三似然度；将所述每个第三语音单元对应的最大第三似然度对应的第二语音单元和所述历史文本的基准语音中与所述每个第三语音单元对应的基准语音单元进行比对；根据所述比对结果构建所述语音单元混淆矩阵。

其中，所述根据所述比对结果构建所述语音单元混淆矩阵，包括：统计每个所述最大第三似然度对应的第二语音单元比对失败的结果，得到所述每个第二语音单元被错分为其他第二语音单元的次数；根据所有的所述第二语音单元和所述每个第二语音单元被错分为其他第二语音单元的次数构建第一矩阵；对所述第一矩阵的每行元素进行求和得到该行对应的第二语音单元在所述统计中出现的次数，并将所述第一矩阵的每个元素除以其所在行对应的第二语音单元在所述统计中出现的次数，得到所述语音单元混淆矩阵。

以构建音素混淆矩阵举例来说，基于各地区大批量获取朗读历史文本的朗读数据为训练集，经过强制切分后得到所述历史文本的朗读数据中每个音素的切分边界，和计算各音素在其切分边界内与预设的音素集合中每个音素的似然度，根据似然度降序排列得到每个音素在其边界内的最大似然度，将最大似然度对应的音素和历史文本中对应基准音素作比较，得到训练集中每个音素错分为其他音素个数，进而转化成音素混淆为其他音素的概率。假设发音基本单元个数为N，则根据统计将得到N×N的音素混淆矩阵PHCM(Phonemeconfusion matrix)，PHCM_ij定义为矩阵的第i行第j列，表示第i个音素混淆为第j个音素的概率。

下面以英文评测构建音素混淆矩阵为例，对上述基于统计的构建过程进行具体示例说明，其中，英文存在48个音素，先根据48个音素定义一个48×48的矩阵COUNT。

第一步：根据不同的地区、人群获取一批人工标注的特定单词的朗读语音训练集，在训练集上基于声学模型的强制切分得到所述朗读语音中每朗读音素对应的切分边界，并在切分边界内计算当前朗读音素和替换列表中的所有替换列表音素的似然度，将当前朗读音素与替换列表音素的似然度按降序排列，获取计算结果中似然度最大(TOP1)的替换列表音素，也即认为似然度最大的替换列表音素与朗读音素最相似，将当前朗读音素对应的似然度最大的替换列表音素和当前朗读音素对应的文本音素进行比对，如果比对结果是不相同，则在矩阵COUNT中似然度最大的替换列表音素对应位置上计数加1；

第二步：完成训练集中所有音素的统计，得到一个48×48的矩阵，也即COUNT。其中，COUNT_ij表示矩阵中第i个音素被错分为第j个音素的次数。将COUNT按行统计即得到每个音素在训练集中出现的总次数，例如统计第i个音素出现的总次数定义为Count_i，则

则第i个音素混淆为其他音素的概率为：PHCM_ij＝COUNT_i/_jCount_i，得到英文的48×48的音素混淆矩阵PHCM。

第二种，基于声学特征隐层输出的语音单元混淆矩阵的构建。

其中，所述基于声学特征隐层输出的语音单元混淆矩阵的构建包括：获取不同历史用户朗读历史文本所得的第二预设数量段历史语音，以及获取所述历史文本的基准语音；对所述第二预设数量段历史语音进行语音单元边界切分，得到所述第二预设数量段历史语音中每个第四语音单元的切分边界；根据预先建立的声学模型对所述每个第四语音单元进行前向计算，输出所述每个第四语音单元在其切分边界内的声学隐层特征；根据所述每个第四语音单元在其切分边界内的声学隐层特征构建所述语音单元混淆矩阵。

其中，所述根据所述每个第四语音单元在其切分边界内的声学隐层特征构建所述语音单元混淆矩阵，包括：将所述每个第四语音单元的所有声学隐层特征进行加权平均或Attention机制操作，得到所述每个第四语音单元对应的隐层输出向量；根据所述每个第四语音单元和其对应的隐层输出向量构建隐层输出矩阵；计算所述隐层输出矩阵中任意两个所述第四语音单元之间的欧式距离，得到语音单元距离矩阵；对所述语音单元距离矩阵中的每行做归一化操作，得到所述语音单元混淆矩阵。

其中，所述归一化操作可以包括SoftMax操作。

下面同样以英文评测构建音素混淆矩阵为例，对上述声学特征隐层输出的构建过程进行具体示例说明，其中，英文存在48个音素。

第一步：根据不同的地区、人群获取一批人工标注的特定单词的朗读语音训练集，在训练集上基于声学模型的强制切分得到所述朗读语音中每朗读音素对应的切分边界，并通过所述声学模型前向计算输出每个朗读音素在其对应边界内的所有帧的声学隐层特征；

第二步：对于每个朗读音素输出的所有隐层输出结果，假设隐层输出节点数为M，对每个朗读音素的所有隐层输出通过加权平均或者Attention机制，从而每个朗读音素对应得到一个一维的隐层输出向量(也即1×M大小的向量)，48个音素则得到48个一维的隐层输出向量，根据所述48个一维的隐层输出向量构建得到一个48×M的隐层输出矩阵；

第三步：通过每个朗读音素对应的一维的隐层输出向量计算任意两个朗读音素间的欧式距离，初步得到48×48的音素距离矩阵Dist，对音素距离矩阵Dist中的每行做SoftMax操作后，将音素间的欧式距离转换到[0,1]的空间范围内，得到音素混淆矩阵PHCM(Phone Confused Matrix)，PHCM_ij表示矩阵中第i个音素被混淆为第j个音素的概率。

可以看出，在本示例中，电子设备从不同地区、人群中获取朗读特定单词的朗读语音作为训练集，来构建语音单元混淆矩阵，从而能够支持自由配置和依据不同地区，不同人群自由定制评测标准，进而有利于提高电子设备进行语音评测的灵活性和兼容性。

在本申请可能的示例中，可以通过GOP度量方法(Goodness of Pronunciation，一种度量朗读语音单元准确度的方法)评价朗读文本中每个语音单元的发音准确度，在朗读语音单元的切分边界内利用预设的语音单元集合计算每个朗读语音单元的GOP，得到朗读文本中每个语音单元朗读发音好坏的评价特征。其中，传统的GOP计算方法如公式(2)和(3)所示：

其中，o表示朗读语音单元的声学MFCC特征或者FTBK特征，ph_i表示语音单元，若忽略语音单元先验，得到公式(3)；

其中，p(o|ph_i)表示当前朗读语音单元ph_i与文本语音单元的似然度，p(o|ph_k)表示当前朗读语音单元ph_i与预设的语音单元集合中的每个语音单元的似然度。

通过上述公式(2)和(3)可知，GOP度量方法是一个条件概率，它衡量在检测到用户语音的情况下，这段用户语音对应语音单元ph_i的概率。其中，这个概率越高，说明发音越准确；这个概率越低，说明发音越差。

其中，本申请对传统的GOP度量方法进行改进，基于权重系数矩阵进行朗读语音单元的GOP评分计算。

其中，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度，包括：根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

其中，所述根据所述每个第一语音单元的发音准确度确定所述目标语音的评测得分，包括：将计算得到的所述每个第一音素在其切分边界内的GOP评分输入预先建立的评分映射模型中，得到所述目标语音的评测得分。

其中，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分，包括：计算所述每个第一语音单元在其切分边界内和所述目标文本中对应的基准语音单元的第一似然度，以及计算所述每个第一语音单元在其切分边界内和所述每个第二语音单元的第二似然度，得到所述每个第一语音单元对应的多个第二似然度；根据所述第一似然度、所述多个第二似然度、所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

具体实现中，所述根据所述第一似然度、所述多个第二似然度、所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分可以包括以下两种情况：

第一种，基于分母调整法的GOP评分计算。

相对于传统的GOP评分计算，基于分母调整法的GOP评分计算增大目标朗读语音单元在GOP计算公式中分母计算中的比例，降低预设的语音单元中其他语音单元的权重，则基于分母调整法的GOP评分计算公式如下：

其中，p(o|ph_i)表示某个所述第一语音单元在其切分边界内和所述目标文本中对应的基准语音单元的第一似然度，p(o|ph_k)表示某个所述第一语音单元和每个所述第二语音单元的第二似然度，

表示某个所述第一语音单元对应的第二语音单元混淆为其他第二语音单元的权重系数，i和k为正整数。

第二种，基于分子调整法的GOP评分计算。

相对于传统的GOP评分计算，基于分子调整法的GOP评分计算依据评分容忍度模糊目标朗读语音单元与易混淆语音单元的相似程度，在GOP计算的分子中，在目标朗读语音单元与易混淆语音单元的似然度前乘以相应的权重系数，并且每个权重系数与似然度的大小排序有关，即认为把目标朗读语音单元读成易混淆语音单元在给定一定惩罚的基础上也是正确的，则基于分子调整法的GOP评分计算公式如下：

其中，p(o|ph_i)表示某个所述第一语音单元在其切分边界内和所述目标文本中对应的基准语音单元的第一似然度，p(o|ph_k)表示某个所述第一语音单元和每个所述第二语音单元的第二似然度，p(o|ph_Top1)表示某个所述第一语音单元对应的多个第二似然度按照似然度值由大到小排列在第一的第二似然度，p(o|ph_topN)表示某个所述第一语音单元对应的多个第二似然度按照似然度值由大到小排列在第N的第二似然度，

表示某个所述第一语音单元对应的第二语音单元混淆为所述第一语音单元对应的最大第二似然度对应的第二语音单元的权重系数，

表示某个所述第一语音单元对应的第二语音单元混淆为所述第一语音单元对应的第N大第二似然度对应的第二语音单元的权重系数，i、k和N为正整数。

可以看出，在本示例中，电子设备在利用GOP评分计算语音单元的发音准确度时，通过人工设定语音单元之间相互混淆的评分容忍度，依据评分容忍度模糊目标朗读语音单元与易混淆语音单元的相似程度，从而能够解决评分松严的问题，有利于提高电子设备进行语音评测的灵活性和兼容性。

与上述图2所示的实施例一致的，请参阅图3，图3是本申请实施例提供的一种电子设备300的结构示意图，如图3所示，所述电子设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321，其中，所述一个或多个程序321被存储在上述存储器320中，并且被配置由上述应用处理器310执行，所述一个或多个程序321包括用于执行以下步骤的指令：

获取用户朗读目标文本所得的目标语音，以及获取所述目标文本的基准语音；根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，其中，所述目标语音中的至少一个语音单元的发音混淆事件的评分容忍度不为零，所述发音混淆事件是指一语音单元混淆为其他语音单元的事件；输出所述评测得分。

在一个可能的示例中，所述根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分方面，所述程序中的指令具体用于执行以下操作：对所述目标语音进行语音单元边界切分，得到所述目标语音中每个第一语音单元的切分边界；根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵，所述权重系数矩阵包括预设的语音单元集合中第i个第二语音单元混淆为第j个第二语音单元时的权重系数ij，i和j为正整数；根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度；根据所述每个第一语音单元的发音准确度确定所述目标语音的评测得分。

在一个可能的示例中，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度方面，所述程序中的指令具体用于执行以下操作：根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

在一个可能的示例中，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分方面，所述程序中的指令具体用于执行以下操作：计算所述每个第一语音单元在其切分边界内和所述目标文本中对应的基准语音单元的第一似然度，以及计算所述每个第一语音单元在其切分边界内和所述每个第二语音单元的第二似然度，得到所述每个第一语音单元对应的多个第二似然度；

根据所述第一似然度、所述多个第二似然度、所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

在一个可能的示例中，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵方面，所述程序中的指令具体用于执行以下操作：获取不同历史用户朗读历史文本所得的第一预设数量段历史语音，以及获取所述历史文本的基准语音；对所述第一预设数量段历史语音进行语音单元边界切分，得到所述第一预设数量段历史语音中每个第三语音单元的切分边界；计算所述每个第三语音单元在其切分边界内和所述每个第二语音单元的第三似然度，得到所述每个第三语音单元对应的多个第三似然度；将所述每个第三语音单元对应的多个第三似然度按照由大到小的顺序进行排列，并选出所述每个第三语音单元对应的最大第三似然度；将所述每个第三语音单元对应的最大第三似然度对应的第二语音单元和所述历史文本的基准语音中与所述每个第三语音单元对应的基准语音单元进行比对；根据所述比对结果构建所述语音单元混淆矩阵。

在一个可能的示例中，所述根据所述比对结果构建所述语音单元混淆矩阵方面，所述程序中的指令具体用于执行以下操作：统计每个所述最大第三似然度对应的第二语音单元比对失败的结果，得到所述每个第二语音单元被错分为其他第二语音单元的次数；根据所有的所述第二语音单元和所述每个第二语音单元被错分为其他第二语音单元的次数构建第一矩阵；对所述第一矩阵的每行元素进行求和得到该行对应的第二语音单元在所述统计中出现的次数，并将所述第一矩阵的每个元素除以其所在行对应的第二语音单元在所述统计中出现的次数，得到所述语音单元混淆矩阵。

在一个可能的示例中，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵方面，所述程序中的指令具体用于执行以下操作：获取不同历史用户朗读历史文本所得的第二预设数量段历史语音，以及获取所述历史文本的基准语音；对所述第二预设数量段历史语音进行语音单元边界切分，得到所述第二预设数量段历史语音中每个第四语音单元的切分边界；根据预先建立的声学模型对所述每个第四语音单元进行前向计算，输出所述每个第四语音单元在其切分边界内的声学隐层特征；根据所述每个第四语音单元在其切分边界内的声学隐层特征构建所述语音单元混淆矩阵。

在一个可能的示例中，所述语音单元混淆矩阵中的每个元素对应一个所述评分容忍度，所述根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵方面，所述程序中的指令具体用于执行以下操作：针对所述语音单元混淆矩阵中的每个元素，执行如下处理操作以得到所述权重系数矩阵：获取当前处理的元素对应的评分容忍度；根据所述当前处理的元素和所述当前处理的元素对应的评分容忍度确定所述当前处理的元素的权重系数。

其中，需要指出的是，本实施例所述的电子设备可执行方法实施例中所述方法的所有步骤。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图4，图4是本申请实施例中所涉及的语音评测装置400的功能单元组成框图。所述语音评测装置400应用于电子设备，所述语音评测装置400包括：

获取单元401，用于获取用户朗读目标文本所得的目标语音，以及获取所述目标文本的基准语音；

确定单元402，用于根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，其中，所述目标语音中的至少一个语音单元的发音混淆事件的评分容忍度不为零，所述发音混淆事件是指一语音单元混淆为其他语音单元的事件；

输出单元403，用于输出所述评测得分。

其中，所述语音评测装置400还可以包括存储单元和通信单元；存储单元用于存储电子设备的程序代码和数据；所述存储单元可以是存储器，所述通信单元可以是内部通信接口。

在一个可能的示例中，所述根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分方面，所述确定单元402包括：

切分模块，用于对所述目标语音进行语音单元边界切分，得到所述目标语音中每个第一语音单元的切分边界；

构建模块，用于根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵，所述权重系数矩阵包括预设的语音单元集合中第i个第二语音单元混淆为第j个第二语音单元时的权重系数ij，i和j为正整数；

第一确定模块，用于根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度；

第二确定模块，用于根据所述每个第一语音单元的发音准确度确定所述目标语音的评测得分。

在一个可能的示例中，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度方面，所述第一确定模块具体用于：根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

在一个可能的示例中，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分方面，所述第一确定模块包括：

第一计算子模块，用于计算所述每个第一语音单元在其切分边界内和所述目标文本中对应的基准语音单元的第一似然度，以及计算所述每个第一语音单元在其切分边界内和所述每个第二语音单元的第二似然度，得到所述每个第一语音单元对应的多个第二似然度；

第二计算子模块，用于根据所述第一似然度、所述多个第二似然度、所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

在一个可能的示例中，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵方面，所述确定单元402还包括：

获取模块，用于获取不同历史用户朗读历史文本所得的第一预设数量段历史语音，以及获取所述历史文本的基准语音；

所述切分模块，还用于对所述第一预设数量段历史语音进行语音单元边界切分，得到所述第一预设数量段历史语音中每个第三语音单元的切分边界；

计算模块，用于计算所述每个第三语音单元在其切分边界内和所述每个第二语音单元的第三似然度，得到所述每个第三语音单元对应的多个第三似然度；

选取模块，用于将所述每个第三语音单元对应的多个第三似然度按照由大到小的顺序进行排列，并选出所述每个第三语音单元对应的最大第三似然度；

比对模块，用于将所述每个第三语音单元对应的最大第三似然度对应的第二语音单元和所述历史文本的基准语音中与所述每个第三语音单元对应的基准语音单元进行比对；

所述构建模块，还用于根据所述比对结果构建所述语音单元混淆矩阵。

在一个可能的示例中，所述根据所述比对结果构建所述语音单元混淆矩阵方面，所述构建模块包括：

统计子模块，用于统计每个所述最大第三似然度对应的第二语音单元比对失败的结果，得到所述每个第二语音单元被错分为其他第二语音单元的次数；

构建子模块，用于根据所有的所述第二语音单元和所述每个第二语音单元被错分为其他第二语音单元的次数构建第一矩阵；

所述构建子模块，还用于对所述第一矩阵的每行元素进行求和得到该行对应的第二语音单元在所述统计中出现的次数，并将所述第一矩阵的每个元素除以其所在行对应的第二语音单元在所述统计中出现的次数，得到所述语音单元混淆矩阵。

在一个可能的示例中，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵方面，所述确定单元402还包括：：

所述获取模块，还用于获取不同历史用户朗读历史文本所得的第二预设数量段历史语音，以及获取所述历史文本的基准语音；

所述切分模块，还用于对所述第二预设数量段历史语音进行语音单元边界切分，得到所述第二预设数量段历史语音中每个第四语音单元的切分边界；

输出模块，用于根据预先建立的声学模型对所述每个第四语音单元进行前向计算，输出所述每个第四语音单元在其切分边界内的声学隐层特征；

所述构建模块，还用于根据所述每个第四语音单元在其切分边界内的声学隐层特征构建所述语音单元混淆矩阵。

在一个可能的示例中，所述语音单元混淆矩阵中的每个元素对应一个所述评分容忍度，所述根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵方面，所述构建模块具体用于：

针对所述语音单元混淆矩阵中的每个元素，执行如下处理操作以得到所述权重系数矩阵：

获取当前处理的元素对应的评分容忍度；

根据所述当前处理的元素和所述当前处理的元素对应的评分容忍度确定所述当前处理的元素的权重系数。

其中，需要指出的是，本实施例所述的逻辑单元可执行方法实施例中所述的方法。另外，可以理解的是，由于方法实施例与装置实施例为相同技术构思的不同呈现形式，因此本申请中方法实施例部分的内容应同步适配于装置实施例部分，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音评测方法，其特征在于，所述方法包括：

输出所述评测得分。

2.根据权利要求1所述的方法，其特征在于，所述根据所述基准语音和预先设定的评分容忍度确定所述目标语音的评测得分，包括：

对所述目标语音进行语音单元边界切分，得到所述目标语音中每个第一语音单元的切分边界；

根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵，所述权重系数矩阵包括预设的语音单元集合中第i个第二语音单元混淆为第j个第二语音单元时的权重系数ij，i和j为正整数；

根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度；

根据所述每个第一语音单元的发音准确度确定所述目标语音的评测得分。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵确定所述每个第一语音单元的发音准确度，包括：

根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分。

4.根据权利要求3所述的方法，其特征在于，所述根据所述每个第一语音单元、所述基准语音和所述权重系数矩阵计算所述每个第一语音单元在其切分边界内的GOP评分，包括：

计算所述每个第一语音单元在其切分边界内和所述目标文本中对应的基准语音单元的第一似然度，以及计算所述每个第一语音单元在其切分边界内和所述每个第二语音单元的第二似然度，得到所述每个第一语音单元对应的多个第二似然度；

5.根据权利要求2所述的方法，其特征在于，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵之前，所述方法还包括：

获取不同历史用户朗读历史文本所得的第一预设数量段历史语音，以及获取所述历史文本的基准语音；

对所述第一预设数量段历史语音进行语音单元边界切分，得到所述第一预设数量段历史语音中每个第三语音单元的切分边界；

计算所述每个第三语音单元在其切分边界内和所述每个第二语音单元的第三似然度，得到所述每个第三语音单元对应的多个第三似然度；

将所述每个第三语音单元对应的多个第三似然度按照由大到小的顺序进行排列，并选出所述每个第三语音单元对应的最大第三似然度；

将所述每个第三语音单元对应的最大第三似然度对应的第二语音单元和所述历史文本的基准语音中与所述每个第三语音单元对应的基准语音单元进行比对；

根据所述比对结果构建所述语音单元混淆矩阵。

6.根据权利要求5所述的方法，其特征在于，所述根据所述比对结果构建所述语音单元混淆矩阵，包括：

统计每个所述最大第三似然度对应的第二语音单元比对失败的结果，得到所述每个第二语音单元被错分为其他第二语音单元的次数；

根据所有的所述第二语音单元和所述每个第二语音单元被错分为其他第二语音单元的次数构建第一矩阵；

对所述第一矩阵的每行元素进行求和得到该行对应的第二语音单元在所述统计中出现的次数，并将所述第一矩阵的每个元素除以其所在行对应的第二语音单元在所述统计中出现的次数，得到所述语音单元混淆矩阵。

7.根据权利要求2所述的方法，其特征在于，在根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵之前，所述方法还包括：

获取不同历史用户朗读历史文本所得的第二预设数量段历史语音，以及获取所述历史文本的基准语音；

对所述第二预设数量段历史语音进行语音单元边界切分，得到所述第二预设数量段历史语音中每个第四语音单元的切分边界；

根据预先建立的声学模型对所述每个第四语音单元进行前向计算，输出所述每个第四语音单元在其切分边界内的声学隐层特征；

根据所述每个第四语音单元在其切分边界内的声学隐层特征构建所述语音单元混淆矩阵。

8.根据权利要求2所述的方法，其特征在于，所述语音单元混淆矩阵中的每个元素对应一个所述评分容忍度，所述根据语音单元混淆矩阵和所述评分容忍度构建权重系数矩阵，包括：

获取当前处理的元素对应的评分容忍度；

9.一种语音评测装置，其特征在于，所述装置包括：

输出单元，用于输出所述评测得分。

10.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。

11.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-8任一项所述的方法。