CN112802494A

CN112802494A - 语音评测方法、装置、计算机设备和介质

Info

Publication number: CN112802494A
Application number: CN202110386211.3A
Authority: CN
Inventors: 赵明; 田科; 潘建伟; 吴中勤
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-05-14
Anticipated expiration: 2041-04-12
Also published as: CN112802494B

Abstract

本公开涉及一种语音评测方法、装置、计算机设备和介质，其中，语音评测方法包括：将测试文本输入语音合成模型，获取语音合成模型输出的测试文本对应的第一语音；根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和第二语音的第一相似度；根据第一相似度和已知的第二语音评测结果，确定第一语音的评测结果。由于第二语音的评测结果是已知的，根据第一相似度和第二语音的评测结果确定第一语音的评测结果，缩短了语音评测的时间，减少了人工评测的主观因素干扰，提升了评测结果的准确性，从而，提高了语音评测的效率。

Description

语音评测方法、装置、计算机设备和介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音评测方法、装置、计算机设备和介质。

背景技术

语音合成（Text To Speech，TTS）技术能将文本转换成语音输出。随着人工智能产业的飞速发展，TTS广泛应用于语音助手、地图导航和有声朗读等场景中，人们对TTS输出的语音的质量要求也越来越高。

现有技术中，通常是采用人工评测的方式，即，通过人类听力测试对TTS模型输出的语音进行评测打分。例如：由不同的试听者分别对待评测语音进行打分，得出平均意见得分（Mean Opinion Score, MOS)值，分值范围为0-5分，分数越大表示语音质量越好。

然而，通过人工评测的方式对待评测语音进行评测，效率不高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音评测方法、装置、计算机设备和介质。

第一方面，本公开提供一种语音评测方法，包括：

将测试文本输入语音合成模型，获取所述语音合成模型输出的所述测试文本对应的第一语音；

根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征，得到所述第一语音和所述第二语音的第一相似度；

根据所述第一相似度和已知的第二语音评测结果，确定所述第一语音的评测结果。

可选的，所述音频特征包括：振幅和频率；

所述根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征，得到所述第一语音和所述第二语音的第一相似度，包括：

获取所述第一语音的所有第一语音片段分别对应的第一声波波形；

获取所述第二语音的所有第二语音片段分别对应的第二声波波形；

根据所述第一声波波形和所述第二声波波形，获取振幅对应的第一结果和频率对应的第二结果；

根据所述第一结果和所述第二结果，得到所述第一相似度。

可选的，所述根据所述第一声波波形和所述第二声波波形，获取振幅对应的第一结果和频率对应的第二结果，包括：

对所述第一声波波形和所述第二声波波形进行交并比计算，得到振幅对应的第一结果；

对所述第一声波波形进行相似性哈希运算，得到第一相似性哈希运算结果；

对所述第二声波波形进行相似性哈希运算，得到第二相似性哈希运算结果；

获取所述第一相似性哈希运算结果和所述第二相似性哈希运算结果的交集，得到频率对应的第二结果。

可选的，所述获取所述第一语音的所有语音片段分别对应的第一声波波形，包括：

对所述第一语音进行语音分割，得到至少两个第一语音片段；

对所述至少两个第一语音片段分别做傅里叶变换，得到所述第一语音的所有语音片段分别对应的第一声波波形；

所述获取所述第二语音的所有语音片段分别对应的第二声波波形，包括：

对所述第二语音进行语音分割，得到至少两个第二语音片段；

对所述至少两个第二语音片段分别做傅里叶变换，得到所述第二语音的所有语音片段分别对应的第二声波波形。

可选的，所述根据所述第一结果和所述第二结果，得到所述第一相似度，包括：

根据

，得到所述第一相似度；

其中，

为第一相似度，

为第一结果，

为第二结果，

为第一语音片段的数量。

可选的，所述根据所述第一相似度和已知的第二语音评测结果，确定所述第一语音的评测结果，包括：

若所述第一相似度大于第一预设阈值，则确定所述第一语音的评测结果与所述第二语音的评测结果一致，其中，所述第二语音的评测结果为优质语音或者劣质语音。

可选的，还包括：

若所述第一相似度不大于所述第一预设阈值，则将所述第一语音输入语音评测模型，得到评测分数；

根据所述评测分数，确定所述第一语音的评测结果；

其中，所述语音评测模型根据至少两个评测维度的分数输出所述评测分数，所述第一语音对应的评测分数是至少两个评测维度的分数的加权和，所述评测维度包括下述至少两种：吞音、断句错误、机械音、语速和叠字。

可选的，所述根据所述评测分数，确定所述第一语音的评测结果，包括：

若所述评测分数大于第二预设阈值，则确定所述第一语音的评测结果为优质语音；

若所述评测分数小于第三预设阈值，则确定所述第一语音的评测结果为劣质语音。

可选的，所述根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征，得到所述第一语音和所述第二语音的第一相似度之前，还包括：

根据自动语音识别算法对所述第一语音进行识别，生成第一文本；

将所述测试文本和所述第一文本进行对比，获取第二相似度；

确定所述第二相似度大于第四预设阈值。

可选的，还包括：

若所述第二相似度不大于所述第四预设阈值，则确定所述第一语音的评测结果为劣质语音。

第二方面，本公开提供一种语音评测装置，包括：

获取模块，用于将测试文本输入语音合成模型，获取所述语音合成模型输出的所述测试文本对应的第一语音；

处理模块，用于根据所述第一语音的音频特征和所述测试文本对应的第二语音的音频特征，得到所述第一语音和所述第二语音的第一相似度；

所述处理模块，还用于根据所述第一相似度和已知的第二语音评测结果，确定所述第一语音的评测结果。

可选的，所述音频特征包括：振幅和频率；

所述处理模块，具体用于：

根据所述第一结果和所述第二结果，得到所述第一相似度。

可选的，所述处理模块，具体用于：

根据

，得到所述第一相似度；

其中，

为第一相似度，

为第一结果，

为第二结果，

为第一语音片段的数量。

可选的，所述处理模块，具体用于：

可选的，所述处理模块，还用于：

根据所述评测分数，确定所述第一语音的评测结果；

可选的，所述处理模块，具体用于：

可选的，所述处理模块，还用于：

确定所述第二相似度大于第四预设阈值。

可选的，所述处理模块，还用于：

第三方面，本公开提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面任一项所述方法的步骤。

第四方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和第二语音的第一相似度；根据第一相似度和已知的第二语音评测结果，确定第一语音的评测结果。由于第二语音的评测结果是已知的，根据第一相似度和第二语音的评测结果确定第一语音的评测结果，缩短了语音评测的时间，减少了人工评测的主观因素干扰，提升了评测结果的准确性，从而，提高了语音评测的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开提供的一种语音评测方法实施例的流程示意图；

图2为本公开提供的另一种语音评测方法实施例的流程示意图；

图3为本公开提供的再一种语音评测方法实施例的流程示意图；

图4为本公开提供的又一种语音评测方法实施例的流程示意图；

图5为本公开提供的又一种语音评测方法实施例的流程示意图；

图6为本公开提供的又一种语音评测方法实施例的流程示意图；

图7为本公开提供的一种语音评测装置的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

TTS技术能将任意文字信息转化为可听的语音信息。现有的TTS技术通常利用神经网络模型实现文本到语音的转换。在TTS模型输出语音后，需要对合成的语音质量进行评测。目前，一般是通过人类听力测试的方式对TTS模型输出的语音进行评测打分，但是，人工评测往往具有主观性，导致评测分数不准确，并且，人工评测的效率不高。

本公开提供了一种语音评测方法，包括：将测试文本输入语音合成模型，获取语音合成模型输出的测试文本对应的第一语音；根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和第二语音的第一相似度；根据第一相似度和已知的第二语音评测结果，确定第一语音的评测结果。由于第二语音的评测结果是已知的，根据第一相似度和第二语音的评测结果确定第一语音的评测结果，缩短了语音评测的时间，减少了人工评测的主观因素干扰，提升了评测结果的准确性，从而，提高了语音评测的效率。

下面以几个具体的实施例对本公开的技术方案进行描述，对于相同或者类似的概念，可以相互参考，不再每处一一赘述。

图1为本公开实施例提供的一种语音评测方法实施例的流程示意图，如图1所示，本实施例的方法包括：

S101：将测试文本输入语音合成模型，获取语音合成模型输出的测试文本对应的第一语音。

其中，语音合成模型可以是基于神经网络搭建的模型，神经网络包括但不限于以下几种：卷积神经网络(convolutionalneuronnetwork,CNN)、循环神经网络(recurrentneural network,RNN)、时间递归神经网络(long-shortterm memory,LSTM)，本公开对此不做限制。

以测试文本“大家好，我是来自北京的小红”为例，将测试文本输入TTS模型，获取TTS模型输出的测试文本对应的第一语音“da4 jia1 hao3,wo3 shi4 lai2 zi4 bei3jing1 de0 xiao3 hong2”。

S102：根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和第二语音的第一相似度。

其中，第二语音可以通过录音的方式获取用户朗读测试文本的语音，也可以将测试文本输入另一个TTS模型获取此TTS模型输出的测试文本对应的语音。

可选的，音频特征包括：振幅和频率。

一种可能的实现方式为：如图2所示，

S1021：获取第一语音的所有第一语音片段分别对应的第一声波波形。

对第一语音进行语音分割，得到至少两个第一语音片段。例如：通过语音端点检测(Voice ActivityDetection，VAD)算法对第一语音进行语音分割，得到至少两个第一语音片段。VAD一般用于识别音频数据中的静音片段，提取音频数据中的发音片段。

对至少两个第一语音片段分别做傅里叶变换，得到第一语音的所有语音片段分别对应的第一声波波形。以第一语音被分割成N个第一语音片段为例，对N个语音片段分别做傅里叶变换，得到N个第一声波波形

，

为第i个第一声波波形，N为大于等于2的整数，i为大于等于1且小于等于N的整数。

S1022：获取第二语音的所有第二语音片段分别对应的第二声波波形。

对第二语音进行语音分割，得到至少两个第二语音片段。同样地，通过VAD对第二语音进行语音分割，得到至少两个第二语音片段。由于第二语音对应的测试文本和第一语音对应的测试文本相同，通过VAD对第二语音进行语音分割得到的第二语音片段的数量与第一语音片段的数量相同。也可以根据第一语音片段的数量，对第二语音进行语音分割，得到至少两个第二语音片段，其中，第二语音片段的数量与第一语音片段的数量相等。

对至少两个第二语音片段分别做傅里叶变换，得到第二语音的所有语音片段分别对应的第二声波波形。以第二语音被分割成N个第二语音片段为例，对N个语音片段分别做傅里叶变换，得到N个第二声波波形

，

为第i个第二声波波形，N为大于等于2的整数，i为大于等于1且小于等于N的整数。

S1023：根据第一声波波形和第二声波波形，获取振幅对应的第一结果和频率对应的第二结果。

一种可能的实现方式为：如图3所示，

S10231：对第一声波波形和第二声波波形进行交并比计算，得到振幅对应的第一结果。

根据

，确定第一声波波形的振幅和第二声波波形的振幅的相似度，得到振幅对应第一结果。

其中，

为第一结果，

为第i个第一声波波形，

为第i个第二声波波形，

为第i个第一声波波形的面积，

为第i个第二声波波形的面积，i为大于等于1且小于等于N的整数，N为第一语音片段的数量。

S10232：对第一声波波形进行相似性哈希运算，得到第一相似性哈希运算结果。

相似性哈希（hash-based similarity detection, simhash）运算是根据声波波形的形状，将波形向上定义为1，向下定义为0，生成64位的签名。

S10233：对第二声波波形进行相似性哈希运算，得到第二相似性哈希运算结果。

S10234：获取第一相似性哈希运算结果和第二相似性哈希运算结果的交集，得到频率对应的第二结果。

根据

，确定第一声波波形的频率和第二声波波形的频率的相似度，得到频率对应的第二结果。

其中，

为第二结果，

为第i个第一声波波形，

为第i个第二声波波形，

为第i个第一声波波形对应的第一simhash运算结果，

为第i个第二声波波形对应的第二simhash运算结果，

为第i个第一声波波形对应的第一simhash运算结果与第i个第二声波波形对应的第二simhash运算结果的汉明（Hamming）距离，i为大于等于1且小于等于N的整数，N为第一语音片段的数量。汉明距离是指两个相同长度的字符串相同位置上不同的字符的个数。

S1024：根据第一结果和第二结果，得到第一相似度。

可选的，根据

，得到第一相似度；

其中，

为第一相似度，

为第一结果，

为第二结果，

为第一语音片段的数量。

S103：根据第一相似度和已知的第二语音评测结果，确定第一语音的评测结果。

一种可能的实现方式为：如图4所示，

S1031：若第一相似度大于第一预设阈值，则确定第一语音的评测结果与第二语音的评测结果一致。

其中，第二语音的评测结果为优质语音或者劣质语音。例如：第二语音的评测结果为劣质语音，第一预设阈值为0.8，若第一相似度大于0.8，则确定第一语音的评测结果为劣质语音。

可选的，图4还可以基于图2或图3所示的实施例。

另一种可能的实现方式为：

若第一相似度大于等于第一预设阈值，则确定第一语音的评测结果与第二语音的评测结果一致，其中，第二语音的评测结果为优质语音或者劣质语音。

本实施例，将测试文本输入语音合成模型，获取语音合成模型输出的测试文本对应的第一语音；根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和第二语音的第一相似度；根据第一相似度和已知的第二语音评测结果，确定第一语音的评测结果。由于第二语音的评测结果是已知的，根据第一相似度和第二语音的评测结果确定第一语音的评测结果，缩短了语音评测的时间，减少了人工评测的主观因素干扰，提升了评测结果的准确性，从而，提高了语音评测的效率。

可选的，音频特征包括：音长；

S102的另一种可能的实现方式为：

S1021’：根据第一语音的音长和第二语音的音长，获取第一语音和第二语音的音长差值比例。

可选的，根据

，获取第一语音和第二语音的音长差值比例。其中，

为音长差值比例，

为第一语音的总音长，

为第二语音的总音长，

S1022’：根据音长差值比例，得到第一语音和第二语音的第一相似度。

S1023’：根据音长差值比例、预先定义音长差值比例和第一相似度之间的映射关系，得到第一语音和第二语音的第一相似度。

图5为本公开实施例提供的又一种语音评测方法实施例的流程示意图，图5是在图4所示实施例的基础上，进一步地，S103之后还包括：

S104：若第一相似度不大于第一预设阈值，则将第一语音输入语音评测模型，得到评测分数。

一种可能的实现方式为：若第一相似度小于第一预设阈值，将第一语音输入语音评测模型，得到评测分数。

另一种可能的实现方式为：若第一相似度小于等于第一预设阈值，将第一语音输入语音评测模型，得到评测分数。

其中，语音评测模型根据至少两个评测维度的分数输出评测分数，第一语音对应的评测分数是至少两个评测维度的分数的加权和，评测维度包括下述至少两种：吞音、断句错误、机械音、语速和叠字。

将第一语音输入语音评测模型，获取至少两个评测维度的分数，根据

，得到评测分数。其中，

为第一语音的评测分数，

为第n个评测维度的权重，

为第n个评测维度的分数，

和

都为大于等于0且小于等于5的整数。例如：语音评测模型根据五个评测维度（吞音、断句错误、机械音、语速和叠字）对第一语音进行打分，得到第一语音“无吞音”、“无断句错误”、“无机械音”“语速正常”和“无叠字”的分数，如表1所示，将各评测维度的分数和各评测维度的权重相乘得到“单项最终得分”，然后将“单项最终得分”相加，输出第一语音的评测分数为2.4分。各评测维度的权重可以根据具体需求设置，本公开对此不做限制。

表1

	无吞音	无断句错误	无机械音	语速正常	无叠字
						分数	3	2	2	3	3
权重	0.2	0.2	0.4	0.1	0.1
						单项最终得分	0.6	0.4	0.8	0.3	0.3

语音评测模型是预先使用样本集对神经网络进行训练得到的，样本集包括TTS模型生成的有吞音、断句错误、有机械音、语速忽快忽慢和有叠字的语音和对应的评测维度的分数。语音评测模型包括声学模型和打分模型，其中，声学模型可以采用卷积神经网络(ConvolutionalNeural Network，CNN)模型，打分模型可以采用多分类逻辑回归(LogisticRegression, LR)模型。语音评测模型识别样本集中的各语音包含吞音、断句错误、有机械音、语速忽快忽慢和叠字的程度并进行分类，得到各评测维度对应的分数，最后将各评测维度的分数进行加权求和，得到一个0-5分的评测分数。

S105：根据评测分数，确定第一语音的评测结果。

一种可能的实现方式为：判断评测分数是否大于第二预设阈值，若是，则确定第一语音的评测结果为优质语音；若否，则判断评测分数是否小于第三预设阈值，若是，则确定第一语音的评测结果为劣质语音；若否，则通过人工评测的方式确定第一语音的评测结果。

另一种可能的实现方式为：判断评测分数是否大于等于第二预设阈值，若是，则确定第一语音的评测结果为优质语音；若否，则判断评测分数是否小于等于第三预设阈值，若是，则确定第一语音的评测结果为劣质语音；若否，则通过人工评测的方式确定第一语音的评测结果。例如，设置第二预设阈值为4，第三预设阈值为2，若评测分数大于等于4，则第一语音的评测结果为优质语音；若评测分数小于等于2，则第一语音的评测结果为劣质语音，若评测分数大于2且小于4，则通过人工评测确定第一语音的评测结果。

本实施例，若第一相似度不大于第一预设阈值，则将第一语音输入语音评测模型，得到评测分数，根据评测分数，确定第一语音的评测结果。由于语音评测模型是预先训练的基于多个评测维度对第一语音进行打分的神经网络模型，利用语音评测模型对第一语音进行评测，提高了语音评测的速度，提升了语音评测结果的准确性和全面性，从而，提高了语音评测的效率。

可选的，若第一语音的评测结果为劣质音频，将第一语音和第一语音的评测结果作为训练样本，输入TTS模型，用于TTS模型的优化，从而，提升了TTS模型的鲁棒性。

图6为本公开提供的又一种语音评测方法实施例的流程示意图，图6是在图1-图5任一所示实施例的基础上，S102之前，还可以包括如下步骤：

S601：根据自动语音识别算法对第一语音进行识别，生成第一文本。

自动语音识别（Automatic Speech Recognition, ASR）算法以语音为研究对象，通过语音信号处理和模式识别将语音信号转换为相应的文本输出。

S602：将测试文本和第一文本进行对比，获取第二相似度。

一种可能的实现方式为：根据莱文斯坦(Levenshtein)距离法将测试文本和第一文本进行对比，获取第二相似度。

其中，Levenshtein距离是指对于两个字符串，由其中一个转成另一个所需要的最少编辑操作次数，编辑操作主要包括：***一个字符、删除一个字符以及将一个字符替换成另一个字符。如果两个字符串间的Levenshtein距离越小，则代表它们越相似。

例如，测试文本的内容为字符串string1，第一文本的内容为string2，string1需要进行M次编辑操作才能转换为string2，根据

获取第二相似度。其中，M为测试文本和第一文本之间的Levenshtein距离，

为测试文本的内容的长度，

为第一文本的内容的长度。

S603：判断第二相似度是否大于第四预设阈值。

一种可能的实现方式为：判断第二相似度是否大于第四预设阈值，若否，则执行S102；若是，则执行S604。

另一种可能的实现方式为：判断第二相似度是否大于等于第四预设阈值，若否，则执行S102；若是，则执行S604。

S604：确定第一语音的评测结果为劣质语音。

例如：测试文本为“大家好，我是来自北京的小红”，根据ASR算法对第一语音进行识别，生成的第一文本为“大好,我是小红”，将测试文本和第一文本进行对比，获取第二相似度为0.67，第四预设阈值为0.9，第二相似度不大于第四预设阈值，则确定第一语音的评测结果为劣质语音。

本实施例，在根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和所述第二语音的第一相似度之前，根据自动语音识别算法对第一语音进行识别，生成第一文本，将测试文本和第一文本进行对比，获取第二相似度，可以识别第一语音中存在“吃字”的情况，能够更快地识别出劣质语音，从而，提高了语音评测的效率。

可选的，在S601之前还可以包括：获取第一语音的音调输出日志，确定第一语音的音调输出日志与测试文本对应的标准音调输出日志一致。若第一语音的音调输出日志与测试文本对应的标准音调输出日志不一致，则确定第一语音的评测结果为劣质音频。

以测试文本“大家好，我是来自北京的小红”为例，测试文本对应的标准音调输出日志为“da4 jia1 hao3,wo3 shi4 lai2 zi4 bei3 jing1 de0 xiao3 hong2”，若第一语音的音调输出日志为“da4 jia4 hao4,wo1 shi1 lai1 zi3 bei3 jing1 de0 xiao3 hong2”，第一语音的音调输出日志与测试文本对应的标准音调输出日志不一致，则确定第一语音的评测结果为劣质音频。

图7为本公开实施例提供的一种语音评测装置的结构示意图，本实施例的装置包括：获取模块701和处理模块702。

其中，获取模块701，用于将测试文本输入语音合成模型，获取语音合成模型输出的测试文本对应的第一语音；

处理模块702，用于根据第一语音的音频特征和测试文本对应的第二语音的音频特征，得到第一语音和第二语音的第一相似度；

处理模块702，还用于根据第一相似度和已知的第二语音评测结果，确定第一语音的评测结果。

可选的，音频特征包括：振幅和频率；

处理模块702，具体用于：

获取第一语音的所有第一语音片段分别对应的第一声波波形；

获取第二语音的所有第二语音片段分别对应的第二声波波形；

根据第一声波波形和第二声波波形，获取振幅对应的第一结果和频率对应的第二结果；

根据第一结果和第二结果，得到第一相似度。

可选的，处理模块702，具体用于：

对第一声波波形和第二声波波形进行交并比计算，得到振幅对应的第一结果；

对第一声波波形进行相似性哈希运算，得到第一相似性哈希运算结果；

对第二声波波形进行相似性哈希运算，得到第二相似性哈希运算结果；

获取第一相似性哈希运算结果和第二相似性哈希运算结果的交集，得到频率对应的第二结果。

可选的，处理模块702，具体用于：

对第一语音进行语音分割，得到至少两个第一语音片段；

对至少两个第一语音片段分别做傅里叶变换，得到第一语音的所有语音片段分别对应的第一声波波形；

对第二语音进行语音分割，得到至少两个第二语音片段；

对至少两个第二语音片段分别做傅里叶变换，得到第二语音的所有语音片段分别对应的第二声波波形。

可选的，处理模块702，具体用于：

根据

，得到第一相似度；

其中，

为第一相似度，

为第一结果，

为第二结果，

为第一语音片段的数量。

可选的，处理模块702，具体用于：

若第一相似度大于第一预设阈值，则确定第一语音的评测结果与第二语音的评测结果一致，其中，第二语音的评测结果为优质语音或者劣质语音。

可选的，处理模块702，还用于：

若第一相似度不大于第一预设阈值，则将第一语音输入语音评测模型，得到评测分数；

根据评测分数，确定第一语音的评测结果；

可选的，处理模块702，具体用于：

若评测分数大于第二预设阈值，则确定第一语音的评测结果为优质语音；

若评测分数小于第三预设阈值，则确定第一语音的评测结果为劣质语音。

可选的，处理模块702，还用于：

根据自动语音识别算法对第一语音进行识别，生成第一文本；

将测试文本和第一文本进行对比，获取第二相似度；

确定第二相似度大于第四预设阈值。

可选的，处理模块702，还用于：

若第二相似度不大于第四预设阈值，则确定第一语音的评测结果为劣质语音。

本实施例的装置对应的可用于执行上述图1到图6任一所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本公开实施例提供了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时可以实现图1到图6任一所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现图1到图6任一所示方法实施例的技术方案。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。