CN109410915B

CN109410915B - 语音质量的评估方法和装置、计算机可读存储介质

Info

Publication number: CN109410915B
Application number: CN201710698522.7A
Authority: CN
Inventors: 赵奕晨; 何成林; 刘启飞; 丁芹; 曹艳艳
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2022-03-04
Anticipated expiration: 2037-08-15
Also published as: CN109410915A

Abstract

本发明公开了一种语音质量的评估方法和装置、计算机可读存储介质。该语音质量的评估方法包括：根据预选语音内容采集原始语音数据；对原始语音数据进行通话处理得到待评估语音数据；将待评估语音数据转换为待评估语音文本；将预选语音内容拆分成M个关键词，分别利用M个关键词对待评估语音文本进行检索得出未被正确还原的每个关键词的数量；将未被正确还原的每个关键词的数量相加得到未被正确还原的关键词的第一总数量。根据原始语音数据的持续时长计算与原始语音数据对应的关键词的第二总数量；根据第一总数量和第二总数量评估待评估语音数据的内容完整度。采用本发明实施例的语音质量的评估方法和装置，能够对语音通话内容的完整度进行评估。

Description

语音质量的评估方法和装置、计算机可读存储介质

技术领域

本发明涉及语音通话技术领域，尤其涉及一种语音质量的评估方法和装置、计算机可读存储介质。

背景技术

从早期固定电话到现在移动终端，用于语音通话的工具得到迅速发展，进行语音通话也成为人们日常生活中的基本需求之一。为了能够将通话的一方要表达的意思准确地传达给对方，需要保证语音通话内容的完整度。

但是，现有技术中的语音质量的评估方法主要是从音色和音调方面对语音通话的进行失真度评估。比如，基于输入-输出方式建立听觉模型，计算接收到的语音信号同原始语音信号之间的失真度；或者，基于输出方式，根据IP网络损伤参数或音频流参数，计算接收到的语音信号的失真度。由于现有技术中的语音质量的评估方法不包括对语音通话内容的完整度的评估，因此，需要建立用于对语音通话内容的完整度进行评估的新的评估方法。

发明内容

本发明实施例提供了一种语音质量的评估方法和装置、计算机可读存储介质，能够对语音通话内容的完整度进行评估。

第一方面，本发明实施例提供了一种语音质量的评估方法，该评估方法包括：

根据预选语音内容采集原始语音数据；

对所述原始语音数据进行通话处理，得到待评估语音数据；

将所述待评估语音数据转换为待评估语音文本；

将所述预选语音内容拆分成M个关键词，分别利用所述M个关键词对所述待评估语音文本进行检索，得出未被正确还原的每个关键词的数量，M为正整数；

将未被正确还原的每个关键词的数量相加，得到未被正确还原的关键词的第一总数量；

根据所述原始语音数据的持续时长，计算与所述原始语音数据对应的关键词的第二总数量；

根据所述第一总数量和所述第二总数量，评估所述待评估语音数据的内容完整度。

在第一方面的一些实施例中，所述根据所述第一总数量和所述第二总数量，评估所述待评估语音数据的内容完整度，包括：

计算所述第一总数量和所述第二总数量的比值；

根据所述比值评估所述待评估语音数据的内容完整度。

在第一方面的一些实施例中，所述预选语音内容被配置为覆盖任意指定语种使用频率高的音调和/或构成所述指定语种的基本发音。

在第一方面的一些实施例中，所述预选语音内容还被配置为拆分成的M个关键词之间满足下列条件中的至少一个：语义不同、不重复、不存在包含与被包含的关系、不存在同音词。

在第一方面的一些实施例中，所述根据预选语音内容采集原始语音数据，包括：根据预选语音内容采集男声或女声的原始语音数据。

在第一方面的一些实施例中，所述根据所述原始语音数据的持续时长，计算与所述原始语音数据对应的关键词的第二总数量，包括：

根据所述原始语音数据的持续时长，计算满足一次评估需要重复所述预选语音内容的次数N，N为正整数；

计算M与N的乘积，作为与所述原始语音数据对应的关键词的第二总数量。

在第一方面的一些实施例中，所述根据所述原始语音数据的持续时长，计算满足一次评估需要重复所述预选语音内容的次数N，包括：

获取所述预选语音内容包含的字数；

计算所述预选语音内容包含的字数与语音通话语速的乘积，得到重复一次所述原始语音内容需要的时长；

计算所述原始语音数据的持续时长与所述重复一次所述原始语音内容需要的时长的比值，作为所述原始语音数据的满足一次评估需要重复所述预选语音内容的次数N。

在第一方面的一些实施例中，所述原始语音数据中相邻的需要重复的预选语音内容之间存在一段留白时间。

在第一方面的一些实施例中，所述原始语音数据的持续时长要求大于时长阈值，所述时长阈值是基于通话信道的相对传输速度、所述通话信道的传输频率和所述原始语音数据的语速得到的。

在第一方面的一些实施例中，利用下述公式来确定所述原始语音数据的时长阈值：

T＝100×α×max(c/νf,s)

其中，T为所述原始语音数据的时长阈值，α为常数，c为光速，ν为通话信道的相对传输速度，f为所述通话信道的传输频率，s为所述原始语音数据的语速。

第二方面，本发明实施例提供一种语音质量的评估装置，该评估装置包括：

采集模块，用于根据预选语音内容采集原始语音数据；

处理模块，用于对所述原始语音数据进行通话处理，得到待评估语音数据；

转换模块，用于将所述待评估语音数据转换为待评估语音文本；

检索模块，用于将所述预选语音内容拆分成M个关键词，分别利用所述M个关键词对所述待评估语音文本进行检索，得出未被正确还原的每个关键词的数量，M为正整数；

第一计算模块，用于将未被正确还原的每个关键词的数量相加，得到未被正确还原的关键词的第一总数量；

第二计算模块，用于根据所述原始语音数据的持续时长，计算与所述原始语音数据对应的关键词的第二总数量；

评估模块，用于根据所述第一总数量和所述第二总数量，评估所述待评估语音数据的内容完整度。

第三方面，本发明实施例提供一种语音质量的评估装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如权利上所述的语音质量的评估方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时实现如上所述的语音质量的评估方法。

根据本发明的实施例，通过将待评估语音数据转换为待评估语音文本，将预选语音内容拆分成M个关键词，并分别利用M个关键词对待评估语音文本进行检索，可以得出未被正确还原的每个关键词的数量。然后将未被正确还原的每个关键词的数量，可以得到未被正确还原的关键词的总数量，作为此次语音评估过程中的吞字数量。由于本发明实施例可以得到语音评估过程中的吞字数量，只要建立语音评估过程中的吞字数量与语音评估数据包含的所有关键词总数之间的关系，就能够评估待评估语音数据的内容完整度。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明一实施例提供的语音质量的评估方法的流程示意图；

图2为本发明另一实施例提供的语音质量的评估方法的流程示意图；

图3为本发明优异实施例提供的语音质量的评估方法的流程示意图；

图4为本发明实施例提供的语音质量的评估装置的结构示意图；

图5为本发明实施例提供的语音质量的评估装置的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

本发明实施例提供了一种语音质量的评估方法和装置、计算机可读存储介质。采用本发明的实施例能够对语音质量的完整度进行评估，从而使得通话过程中能够将通话的一方要表达的意思准确地传达给对方。

图1为本发明一实施例提供的语音质量的评估方法的流程示意图。如图1所示，该评估方法包括步骤101至步骤107。

步骤101中，根据预选语音内容采集原始语音数据。

其中，预选语音内容为提前选取的用于进行评估测试语音内容。预选语音内容的形式可以为文本，也可以为一段语音，此处不进行限制。

为了得到更加准确地评估结果，预选语音内容的选取需要满足一些条件。

在一个示例中，预选语音内容被配置为覆盖任意指定语种使用频率高的音调和/或构成指定语种的基本发音。下面以汉语为例对预选语音内容的选取规则进行说明。

其中，汉语中使用频率较高的词语可以是代词，比如：你、我等；也可以是名词，比如：家、朋友、天气等；还可以是语气词，比如：好的、嗯、可能等。

构成汉语的基本发音中，共有21个声母，分别是b、p、N、f、d、t、n、l、g、k、h、N、q、x、zh、ch、sh、r、z、c、s；24个韵母，其中，单韵母是a、o、e、i、u、v；复韵母是ai、ei、ui、ao、ou、iu、ie、ve、er、an、en、in、un、vn、ang、eng、ing、ong。

在另一示例中，预选语音内容还被配置为拆分成的M个关键词之间满足下列条件中的至少一个：语义不同、不重复、不存在包含与被包含的关系、不存在同音词。下面分别对M个关键词之间需要满足的各个条件进行说明。

其中，语义不同是指词语表达的意思不同，比如香蕉和台灯就是两个意思完全不同的词语。不重复是指在预选语音内容中不会出现一模一样的词语。不存在包含与被包含的关系是指不存在明显的从属关系，比如香蕉和水果，香蕉就是水果的从属词语。不存在同音词是不存在发音相同或相近的词语，比如留下来和流下来，两者的发音是相同的。

可选地，本发明实施例可以根据预选语音内容采集男声或女声的原始语音数据。由于男声和女声在音色和音调和音频方面均存在明显差异，则对应地，两者的语音质量的评估结果也会不同。因此，可以将原始语音数据的声音输入数据扩大至男声或女声，使得语音质量的评估结果更加全面。进一步地，也可以将原始语音数据的声音输入数据扩大至童声或者老者的声音等，此处不进行限定。

需要说明的是，根据实际的语音评估测试环境，在确定预选语音内容时，上述预选语音内容的选取规则可以是全部满足，也可以是部分满足，其中，全部满足时对应的语音质量的评估结果最准确。

步骤102中，对原始语音数据进行通话处理，得到待评估语音数据。

其中，通话处理是指在进行语音评估测试时，由通话信道来模拟语音通话的通信环境。具体地，可以将原始语音数据输入通话信道的一端，然后从通话信道的另一端接收原始语音数据经过传输损耗后的语音数据，作为待评估语音数据。示例性地，如果A和B正在通话，可以将A发出的声音理解为原始语音数据，A发出的声音经过传输后会被B听到，可以将B所听到的声音理解为待评估语音数据。

采用通话信道模拟语音通话的通信环境，原始语音数据的持续时长要求大于时长阈值，时长阈值是指满足一次质量评估需要采集的原始语音数据的最短持续时时间。示例性地，可以根据通话信道的相对传输速度、通话信道的传输频率和原始语音数据的语速得到时长阈值。

在一示例中，可以利用下述公式来确定原始语音数据的时长阈值：

T＝100×α×max(c/νf,s) (1)

其中，T为原始语音数据的时长阈值，α为常数，c为光速，ν为通话信道的相对传输速度，f为通话信道的传输频率，s为原始语音数据的语速，单位为秒/字。

步骤103中，将待评估语音数据转换为待评估语音文本。示例性地，可以通过语音识别技术将待评估语音数据转换为待评估语音文本。在一个示例中，在得到待评估语音数据后，可以将待评估语音数据自动转换为待评估语音文本。

步骤104中，将预选语音内容拆分成M个关键词，分别利用M个关键词对待评估语音文本进行检索，得出未被正确还原的每个关键词的数量，M为正整数。在一个示例中，可以利用检索技术对待评估语音文本进行自动检索。

步骤105中，将未被正确还原的每个关键词的数量相加，得到未被正确还原的关键词的第一总数量。

步骤106中，根据原始语音数据的持续时长，计算与原始语音数据对应的关键词的第二总数量；

步骤107中，根据第一总数量和第二总数量，评估待评估语音数据的内容完整度。

此外，由于本发明实施例将预选语音内容拆分成M个关键词，并基于每个关键词对待评估语音文本进行了检索，与现有技术方案中只能体现通话语音的整体失真度相比，可以准确定位未被正确还原的词语。

另外，在本发明实施例可以利用语音识别技术对语音通话内容进行自动化文本转化，以及利用检索技术自动检索语音内容的关键词，因此，能够节省大量人工成本和时间成本，并能够避免评估人的主观影响。

优选地，根据本发明的实施例，可以通过计算第一总数量和第二总数量的比值，根据比值评估待评估语音数据的内容完整度。

其中，第一总数量是指将未被正确还原的关键词的总数量，第二总数量是指与原始语音数据对应的关键词的总数量，此处，可以将第一总数量作为此次语音评估过程中的吞字数量，那么，第一总数量和第二总数量的比值就可以理解为此次语音评估过程中的吞字率。

在一个示例中，可以首先将待评估语音数据识别为待评估文本，按照预选语音内容的M个关键词分别对待评估语音文本进行检索，并纪录每个关键词的检索数量q₀,q₁,…,q_m-1，得出每个关键词未被正确还原的数量p₀,p₁,…,p_m-1。然后将每个关键词未被正确还原的数量相加，得到

记为此次语音质量评估过程的吞字数量，其中，

与原始语音数据对应的所有关键词总数的比值即为吞字率。

可以理解的，吞字率越高代表原始语音数据被还原的完整度越低，语音通话的质量越差。因此，采用本发明实施例中的技术方案能够更加真实的还原用户进行语音通话的场景，更快捷并且可靠地评估语音通话还原的完整度。

此外，由于本发明实施例中的评估方法通过计算吞字率的方法来评估语音质量，并未建立语音模型，从而能够避免评估结果受语音模型参数变化的影响，因此，本发明实施例中的评估方法还具有稳定性高的特点。

图2为本发明另一实施例提供的语音质量的评估方法的流程示意图。图2与图1的不同之处在于，图1中的步骤106可细化为图2中的步骤1061至步骤1062。

在步骤1061中，根据原始语音数据的持续时长，计算满足一次评估需要重复预选语音内容的次数N，N为正整数。

在步骤1062中，计算M与N的乘积，作为与原始语音数据对应的关键词的第二总数量。

图3为本发明又一实施例提供的语音质量的评估方法的流程示意图。图3与图的关系为，图2中的步骤可细化为图3中的步骤10611至步骤10613。

在步骤10611中，获取预选语音内容包含的字数。需要注意的是，以汉字为例，此处的字数不是按照关键词进行统计，而是按照单独的汉字进行统计。

在步骤10612中，计算预选语音内容包含的字数与语音通话语速的乘积，得到重复一次原始语音内容需要的时长。其中，语音通话语速的单位为秒/字。

在步骤10613中，计算原始语音数据的持续时长与重复一次原始语音内容需要的时长的比值，作为原始语音数据的满足一次评估需要重复预选语音内容的次数N。

根据本发明的实施例，为能够准确识别出待评估语音数据中的多段预选语音内容以及对应的关键字，可以将预选语音内容的起始位置设置为相同。在一个示例中，可以在原始语音数据中相邻的需要重复的预选语音内容之间存在一段留白时间，即在每段预选语音内容前均加入k秒留白以便同步，k为正整数。

图4为本发明实施例提供的语音质量的评估装置的结构示意图。图4中的语音质量的评估装置包括采集模块401、处理模块402、转换模块403、检索模块404、第一计算模块405、第二计算模块406和评估模块407。

其中，采集模块401，用于根据预选语音内容采集原始语音数据；

处理模块402，用于对原始语音数据进行通话处理，得到待评估语音数据；

转换模块403，用于将待评估语音数据转换为待评估语音文本；

检索模块404，用于将预选语音内容拆分成M个关键词，分别利用M个关键词对待评估语音文本进行检索，得出未被正确还原的每个关键词的数量，M为正整数；

第一计算模块405，用于将未被正确还原的每个关键词的数量相加，得到未被正确还原的关键词的第一总数量；

第二计算模块406，用于根据原始语音数据的持续时长，计算与原始语音数据对应的关键词的第二总数量；

评估模块407，用于根据第一总数量和第二总数量，评估待评估语音数据的内容完整度。

根据本发明的实施例，通过转换模块403将待评估语音数据转换为待评估语音文本，由检索模块404将预选语音内容拆分成M个关键词，并分别利用M个关键词对待评估语音文本进行检索，可以得出未被正确还原的每个关键词的数量。然后第一算模块405将未被正确还原的每个关键词的数量，可以得到未被正确还原的关键词的总数量，作为此次语音评估过程中的吞字数量。由于本发明实施例可以得到语音评估过程中的吞字数量，只要建立语音评估过程中的吞字数量与语音评估数据包含的所有关键词总数之间的关系，评估模块407就能够评估待评估语音数据的内容完整度。

图5为本发明实施例提供的语音质量的评估装置的硬件结构示意图。如图5所示，本发明实施例中的语音质量的评估装置包括：处理器501、存储器502、通信接口503和总线510。其中，处理器501、存储器502和通信接口503通过总线510连接并完成相互间的通信。

具体地，上述处理器501可以包括中央处理器501(CPU)，或者特定集成电路(ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器502。举例来说而非限制，存储器502可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线510(USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在资源接口设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器502。在特定实施例中，存储器502包括只读存储器502(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

通信接口503，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

也就是说，语音质量的评估装置可以被实现为包括：处理器501、存储器502、通信接口503和总线510。处理器501、存储器502和通信接口503通过总线510连接并完成相互间的通信。存储器502用于存储程序代码；处理器501通过读取存储器502中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行上文所述的语音质量的评估方法，从而实现结合图1至图4所述的语音质量的评估方法和装置。

需要明确的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例而言，相关之处可以参见方法实施例的说明部分。本发明并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。并且，为了简明起见，这里省略对已知方法技术的详细描述。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而***体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种语音质量的评估方法，其特征在于，包括：

根据预选语音内容采集原始语音数据；

对所述原始语音数据进行通话处理，得到待评估语音数据；

将所述待评估语音数据转换为待评估语音文本；

根据所述第一总数量和所述第二总数量，评估所述待评估语音数据的内容完整度；

通话处理是指在进行语音评估测试时，由通话信道来模拟语音通话的通信环境。

2.根据权利要求1所述的评估方法，其特征在于，所述根据所述第一总数量和所述第二总数量，评估所述待评估语音数据的内容完整度，包括：

计算所述第一总数量和所述第二总数量的比值；

根据所述比值评估所述待评估语音数据的内容完整度。

3.根据权利要求1所述的评估方法，其特征在于，所述预选语音内容被配置为覆盖任意指定语种使用频率高的音调和/或构成所述指定语种的基本发音。

4.根据权利要求3所述的评估方法，其特征在于，所述预选语音内容还被配置为拆分成的M个关键词之间满足下列条件中的至少一个：语义不同、不重复、不存在包含与被包含的关系、不存在同音词。

5.根据权利要求1所述的评估方法，其特征在于，所述根据预选语音内容采集原始语音数据，包括：

根据预选语音内容采集男声或女声的原始语音数据。

6.根据权利要求1所述的评估方法，其特征在于，所述根据所述原始语音数据的持续时长，计算与所述原始语音数据对应的关键词的第二总数量，包括：

7.根据权利要求6所述的评估方法，其特征在于，所述根据所述原始语音数据的持续时长，计算满足一次评估需要重复所述预选语音内容的次数N，包括：

获取所述预选语音内容包含的字数；

计算所述预选语音内容包含的字数与语音通话语速的乘积，得到重复一次所述预选语音内容需要的时长；

计算所述原始语音数据的持续时长与所述重复一次所述预选语音内容需要的时长的比值，作为所述原始语音数据的满足一次评估需要重复所述预选语音内容的次数N。

8.根据权利要求6所述的评估方法，其特征在于，所述原始语音数据中相邻的需要重复的预选语音内容之间存在一段留白时间。

9.根据权利要求1所述的评估方法，其特征在于，所述原始语音数据的持续时长要求大于时长阈值，所述时长阈值是基于通话信道的相对传输速度、所述通话信道的传输频率和所述原始语音数据的语速得到的。

10.根据权利要求9所述的评估方法，其特征在于，利用下述公式来确定所述原始语音数据的时长阈值：

T＝100×α×max(c/νf,s)

11.一种语音质量的评估装置，其特征在于，包括：

采集模块，用于根据预选语音内容采集原始语音数据；

评估模块，用于根据所述第一总数量和所述第二总数量，评估所述待评估语音数据的内容完整度；

12.一种语音质量的评估装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10任意一项所述的语音质量的评估方法。

13.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-10任意一项所述的语音质量的评估方法。