CN114694685A

CN114694685A - 语音质量评估方法、装置及存储介质

Info

Publication number: CN114694685A
Application number: CN202210382372.XA
Authority: CN
Inventors: 秦萌萌
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-01

Abstract

本公开是关于一种语音质量评估方法、装置及存储介质，所述方法，包括：获取第一语音信号对应的多个语音帧的频谱信息；针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息；基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息；根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分。

Description

语音质量评估方法、装置及存储介质

技术领域

本公开涉及一种语音处理领域，尤其涉及一种语音质量评估方法、装置及存储介质。

背景技术

语音信号的质量评估能辅助语音算法和语音***的验证，是评判语音***和语音产品性能优劣的主要依据之一，它在语音传输、语音通信、语音增强、语音合成、语音识别和音频编解码等领域具有广泛应用。

随着神经网络技术的飞速发展，基于深度学习的语音质量评估网络模型作为一个研究方向具有广阔的应用市场和发展前景，相关技术中的语音质量评估网络模型虽然实现对语音信号的客观质量评估，但网络模型的训练过程中需要大量原始的纯净语音参与，训练样本获取难度较大；并且网络模型结构较为复杂，涉及的模型参数量大，训练速度慢，模型优化较困难。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音质量评估方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种语音质量评估方法，包括：

获取第一语音信号对应的多个语音帧的频谱信息；

针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息；

基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息；

根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分。

可选地，所述语音质量评估网络模型，包括：有效通道注意力(Efficient ChannelAttention，ECA)模块、多级残差卷积模块和双向门控循环(Gated Recurrent Unit，GRU)模块；

所述针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息，包括：

针对于所述多个语音帧的频谱信息，利用所述ECA模块，提取所述多个语音帧各个通道的通道注意力特征信息；

利用所述多级残差卷积模块，基于所述通道注意力特征信息提取深层语音特征信息；

所述基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息，包括：

利用所述双向GRU模块，提取所述深层语音特征信息对应的时序相关特征信息。

可选地，所述多级残差卷积模块包括N个残差卷积层；

所述残差卷积层，包括：级联的第一卷积层和第二卷积层；其中，所述第一卷积层的输入通过残差单元传递到所述第一卷积层的输出；

所述N个残差卷积层用于对所述通道注意力特征信息进行深度可分离卷积处理，得到所述多个语音帧的深层语音特征信息。

可选地，所述双向GRU模块包括：前向GRU子模块和后向GRU子模块；

所述利用所述双向GRU模块，提取所述深层语音特征信息对应的时序相关特征信息，包括：

利用所述前向GRU子模块对所述深层语音特征信息进行正向特征提取，得到正向时序特征信息；

利用所述后向GRU子模块对所述深层语音特征信息进行反向特征提取，得到反向时序特征信息；

基于所述正向时序特征信息和所述反向时序特征信息，得到所述深层语音特征信息对应的时序相关特征信息。

可选地，所述语音质量评估网络模型，包括：全连接模块和全局平均池化(GolbalAverage Pooling，GAP)模块；

所述根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分，包括：

利用所述全连接模块，对所述第一语音信号的多个语音帧的时序相关特征信息进行全连接处理，得到所述多个语音帧的质量评分；

利用所述GAP模块，对所述多个语音帧的质量评分进行全局平均处理，得到所述第一语音信号的质量评分。

可选地，所述获取第一语音信号对应的多个语音帧的频谱信息，包括：

对所述第一语音信号进行预处理，得到所述第一语音信号的多个语音帧；

对所述第一语音信号的多个语音帧进行时频转换处理，得到所述多个语音帧的幅度谱信息。

可选地，所述对所述第一语音信号进行预处理，得到所述第一语音信号的多个语音帧，包括：

对所述第一语音信号进行预加重处理；

对所述预加重处理后的第一语音信号进行分帧加窗处理，得到所述第一语音信号的多个语音帧。

可选地，在获取第一语音信号对应的多个语音帧的频谱信息之前，所述方法包括：

获取带噪语音的训练样本集和所述训练样本集的质量评分标签；

将所述训练样本集中多个带噪语音信号对应的语音帧的频谱信息输入至待训练的初始网络模型，得到所述初始网络模型输出的预测质量评分；

根据所述预测质量评分和所述质量评分标签，确定所述初始网络模型的损失函数值；

基于所述损失函数值，对所述初始网络模型的待训练参数进行调整，得到所述语音质量评估网络模型。

可选地，所述将所述训练样本集中多个带噪语音信号对应的语音帧的频谱信息输入至待训练的初始网络模型，得到所述初始网络模型输出的预测质量评分，包括：

基于所述多个带噪语音信号的多个语音帧的频谱信息，确定所述多个带噪语音信号的最大帧数；

确定所述多个带噪语音信号的频谱信息的帧数是否为所述最大帧数；

若所述多个带噪语音信号的频谱信息的帧数不是所述最大帧数，对所述频谱信息进行补零处理；补零处理后的频谱信息的帧数为所述最大帧数；

将所述补零处理后的频谱信息输入至所述初始网络模型，得到所述初始网络模型输出的预测质量评分。

根据本公开实施例的第二方面，提供一种语音质量评估装置，包括：

获取模块，用于获取第一语音信号对应的多个语音帧的频谱信息；

第一特征提取模块，用于针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息；

第二特征提取模块，用于基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息；

预测模块，用于根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分。

可选地，所述语音质量评估网络模型，包括：有效通道注意力ECA模块、多级残差卷积模块和双向门控循环GRU模块；

所述第一特征提取模块，用于：

可选地，所述多级残差卷积模块包括N个残差卷积层；

所述第二特征提取模块，用于：

可选地，所述语音质量评估网络模型，包括：全连接模块和全局平均池化GAP模块；

所述预测模块，用于：

可选地，所述获取模块，用于：

对所述第一语音信号进行预加重处理；

可选地，所述装置，包括：网络训练模块，用于：

可选地，所述网络训练模块，用于：

根据本公开实施例的第三方面，提供一种语音质量评估装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行所述可执行指令时，实现如本公开实施例的第一方面所述方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由语音质量评估装置的处理器执行时，使得语音质量评估装置能够执行如本公开实施例的第一方面所述方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例通过获取带噪的第一语音信号以及所述第一语音信号对应的多个语音帧的频谱信息，将所述第一语音信号对应的多个语音帧的频谱信息输入至预先训练好的语音质量评估网络模型，利用语音质量评估网络模型提取多个语音帧的通道注意力特征信息，从而基于通道注意力加强后的通道注意力特征信息，能够更有效的提取出所述多个语音帧的更重要的深度语音特征信息；

并且基于多个语音帧的深层语音特征信息，提取多个语音帧之间的时序相关特征信息，利用能够反映多个语音帧的深层语音特征信息的变化情况的时序相关特征信息，考虑第一语音信号不同时序的语音帧之间的相互影响，更准确的预测第一语音信号的质量评分，不需要获取纯净语音信号，降低语音质量评估的适用难度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是相关技术中提供的一种基于语音增强的无参考语音质量客观评估方法的流程示意图。

图2是根据一示例性实施例示出的一种语音质量评估方法的流程示意图一。

图3是根据一示例性实施例示出的一种残差卷积层的网络结构示意图。

图4是根据一示例性实施例示出的一种语音质量评估方法的流程示意图二。

图5是根据一示例性实施例示出的一种语音质量评估方法的流程示意图三。

图6是根据一示例性实施例示出的一种语音质量评估网络模型的结构示意图。

图7是根据一示例性实施例示出的一种语音质量评估装置的结构示意图。

图8是根据一示例性实施例示出的一种语音质量评估装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

随着信息与通信技术的发展，基于语音信号传输的智能语音技术成为信息交流的重要技术工具，也逐渐遍布生活中的各种场景，例如，VR游戏、K歌、线上教学和线上会议等场景。语音信号质量的好坏对语义的传达、声音的判断以及听觉感受有直接影响，无论是有用信息的丢失还是多余信息的干扰，都会对信息交流和语音信号处理造成影响。

通信***中常常会由于网络的不稳定等技术问题出现丢包抖动等一系列影响通信传输中语音的质量的现象，而通信中的语音包含有大量重要的信息，例如若语音质量较差，将会大大降低通信质量并降低用户的听觉感受，造成无效通信或低效通信，准确的对语音质量进行评估可以使信息交流更加通畅，对通信语音的质量进行评估成为了通信的关键一环。

相关技术中，语音质量评估通常分为：主观评估方法和客观评估方法；其中，主观评估方法通过人耳真实听到的对音频的感受进行评分，结果较为真实可靠。然而，由于主观评估方法以人类为评估主体，其评估结果很容易受到人的主观意识的影响，并且存在较大的人力和物力资源的消耗，评估的稳定性和可重复性不够高。

客观评估方法是利用计算机实现的语音质量评估方法，例如ANIQUE、E-Model和P.563等方法；相较于主观评估方法，客观评估方法可重复性高、***稳定，可适应于多种环境，且评估速度较快。

示例性地，如图1所示，图1是相关技术中提供的一种基于语音增强的无参考语音质量客观评估方法的流程示意图。

首先将待测语音输入至已经训练好的基于深度信念(Deep Belief Network，DBN)网络的语音增强模型，得到增强后的语音信号；然后，分别提取增强前语音信号和增强后语音信号的梅尔倒谱系数，确定系数差；将所述系数差输入至深度学习(Back Propagation，BP)网络模型，得到最终的客观评分。

但是这种方法需要联合原始的纯净语音的对数功率谱信息进行训练和评分，而在很多情况下原始的纯净语音是无法获取的；并且，使用DBN网络和BP网络进行训练和评分，还存在待训练参数较多，训练速度慢和评估相关度不高等问题。

本公开实施例提供一种语音质量评估方法，如图2所示，图2是根据一示例性实施例示出的一种语音质量评估方法的流程示意图一。所述方法，包括：

步骤S101，获取第一语音信号对应的多个语音帧的频谱信息；

步骤S102，针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息；

步骤S103，基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息；

步骤S104，根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分。

在本公开实施例中所涉及的语音质量评估方法可以应用于电子设备；这里，所述电子设备包括终端或服务器等设备，该终端可以为手机、平板电脑、笔记本电脑等；该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***。

在步骤S101中，获取第一语音信号以及所述第一语音信号对应的多个语音帧的频谱信息。

可将电子设备与音频采集设备连接，获取所述音频采集设备采集的带噪的第一语音信号；并获取所述第一语音信号的多个语音帧的频谱信息。

需要说明的是，相关技术中，语音质量评估网络模型的评估和训练过程中通常需要采用纯净的原始语音信号参与，才能保证网络模型的评估准确性，但在很多应用场景下，很难甚至无法获取到原始的纯净语音，使得无法对网络模型进行训练和评估，限制了网络模型的应用场景。

本公开实施例中，可直接获取带噪的第一语音信号，提取带噪的第一语音信号多个语音帧的频谱信息，基于第一语音信号的多个语音帧的频谱信息进行对第一语音信号的语音质量评估，不需要纯净语音信号参与，扩大语音质量评估网络模型的应用场景。

在步骤S102中，将所述第一语音信号对应的多个语音帧的频谱信息输入至预先训练好的语音质量评估网络模型，利用所述语音质量评估网络模型对所述多个语音帧的频谱信息进行特征提取，得到所述多个语音帧的通道注意力特征信息；

需要说明的是，语音质量评估网络模型内包含有多个卷积核，每一个卷积核对应一个特征通道，基于通道注意力机制，学习任意两个特征通道之间的通道依赖关系，并基于通道依赖关系，对不同的特征信息进行调整，从而根据不同特征通道的重要程度，对不同特征信息进行不同程度的强化或抑制。

在得到加强通道注意力后的所述通道注意力特征信息后，基于通道注意力特征信息，提取所述多个语音帧的深层语音特征信息，从而给使得语音质量评估网络模型提取特征的性能更好，泛化能力更强。

在步骤S103中，基于所述多个语音帧的深层语音特征信息，利用语音质量评估网络模型，提取所述多个语音帧之间的时序相关特征信息。

这里，所述时序相关特征信息至少用于指示不同时序下多个语音帧的深层语音特征信息之间相关性。

语音质量评估网络模型可包含有循环神经网络模块，可利用所述循环神经网络模块，提取所述多个语音帧之间的时序相关特征信息。

可以理解的是，循环神经网络适合于处理和预测时间序列中的重要事件；利用循环神经网络模块，根据多个不同时序的语音帧的深层语音特征信息，提取所述多个语音帧的时序相关特征信息。

在步骤S104中，基于所述第一语音信号的多个语音帧之间的时序相关特征信息，利用语音质量评估网络模型，预测所述第一语音信号的质量评分。

可基于所述时序相关特征信息，能够确定所述多个语音帧的深层语音特征信息的变化情况，从而有效预测多个语音帧的深层语音特征信息随时间变化的趋势，确定第一语音信号的语音质量；提高对第一语音信号的语音质量评估的准确性。

所述步骤S102中的针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息，包括：

所述步骤S103中的基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息，包括：

在本公开实施例中，所述语音质量评估网络模型，包括：ECA模块、多级残差卷积模块和双向GRU模块；

将所述第一语音信号对应的多个语音帧的频谱信息输入所述语音质量评估网络模型的ECA模块内，所述ECA模块基于所述多个语音帧的频谱信息，提取所述多个语音帧多个通道的通道注意力信息；并根据所述通道注意力信息和所述多个语音帧的频谱信息，确定所述多个语音帧多个通道的通道注意力特征信息。

这里，所述通道注意力信息至少用于指示所述多个通道的重要程度。

需要说明的是，所述ECA模块可通过自适应内核大小的一维卷积实现局部跨通道的信息交互；其中，内核大小k代表本地跨通道交互的覆盖范围，即通过考虑每个通道及其k个近邻来捕获局部跨通道交互，建模出不同通道之间的相关性，并通过网络学习的方式来自动获取每个通道的重要程度，最后为每个通道赋予不同的权重系数，从而来强化重要的特征，抑制非重要的特征。

可以理解的是，所述通道注意力信息可包括：所述多个通道的权重系数；所述ECA模块基于所述多个通道的权重系数，对所述多个语音帧的频谱信息进行通道注意力加强处理，得到多个语音帧多个通道的通道注意力特征信息。

将所述ECA模块输出的多个语音帧多个通道的通道注意力特征信息输入至所述多级残差卷积模块，利用多级残差卷积模块，对所述通道注意力特征信息进行深度特征提取，得到所述多个语音帧的深层语音特征信息。

本公开实施例利用多级残差卷积模块，提高语音质量评估网络模型的网络深度，提升网络模型的评估性能；并利用多级残差卷积模块实现网络结构内的跳层连接，减少由于网络深度过深而导致的梯度消失的问题，有效提升语音质量评估网络模型特征提取的性能。

需要说明的是，卷积神经网络的性能表现与网络深度强相关，越深的网络结构可以使得识别效果提高，然而在实践中，当卷积神经网络深度到达一定深度之后，模型表现会不再提高，甚至表现会变得更差，这种现象被称为梯度消失。故利用多级残差卷积模块实现跳层连接，使得在深度卷积神经网络中，可以将某些层的输出跨越中间层直接传递到后面的层，从而减少由于网络深度过深而导致的梯度消失的问题，有效提升网络性能。

将所述多个残差卷积模块输出的多个语音帧的深层语音特征信息，输入至双向GRU模块，利用所述双向GRU模块，提取所述多个语音帧的时序相关特征信息。

需要说明的是，GRU模块中隐含层的传递方向是从前往后单向传播的，即当前状态仅与上文内容(即前向时序相关性特征)有关，但是在语音质量评估中，当前状态往往需要结合上下文的信息才更有效。

双向GRU模块的基本思想是将两个单向的GRU子模块上下进行叠加，分别获取当前状态的上文信息(即前向时序相关性特征)和下文信息(即后向时序相关性特征)；并通过信息融合得到当前状态完整的上下文信息。

双向GRU模块的输出维度是单向GRU模块的输出维度的两倍，故双向GRU模块相比于单向GRU模块具有更强的表达能力。

可选地，所述多级残差卷积模块包括N个残差卷积层；其中，所述残差卷积层，包括：级联的第一卷积层和第二卷积层；所述第一卷积层的输入通过残差单元传递到所述第一卷积层的输出；

所述利用语音质量评估网络模型的多级残差卷积模块，基于所述通道注意力特征信息提取深层语音特征信息，包括：

利用所述N个残差卷积层，对所述通道注意力特征信息进行深度可分离卷积处理，得到所述多个语音帧的深层语音特征信息。

在本公开实施例中，所述多级残差卷积模块包括：N个残差卷积层；且所述N个残差卷积层之间级联设置。

所述残差卷积层，包括：级联的第一卷积层和第二卷积层；

可以理解的是，第一卷积层的输出会作为第二卷积层的输入，在这个过程中可能存在特征丢失的现象，利用残差单元将第一卷积层的输入(即原始特征信息)传递到所述第一卷积层的输出，并将第一卷积层的输入和所述第一卷积层的输出共同作为第二卷积层的输入，从而实现特征补充。

在一些实施例中，如图3所示，图3是根据一示例性实施例示出的一种残差卷积层的网络结构示意图。其中，所述第一卷积层包括：两个深度可分离卷积层，所述第二卷积层包括：一个深度可分离卷积层。

利用残差单元，将所述第一卷积层的输出与所述第一卷积层的输入相加，并将第一卷积层的输出和输入之和，输入至第二卷积层。

这里，深度可分离卷积层由一个深度卷积层和一个1×1的点卷积层构成；所述深度卷积层的卷积核大小均为3×3，移动步长依次为(1,1)、(1,2)和(1,3)；每个卷积层的激活函数均使用ReLU。

所述深度可分离卷积层将执行一个空间卷积操作，同时保持通道独立，即对多个不同通道分别执行卷积操作，得到多个不同通道的特征信息；然后再对多个不同通道的特征信息执行深度卷积操作，将多个不同通道的特征信息重新堆叠在一起。可以理解的是，深度可分离卷积层在保持通道独立的情况下，利用深度卷积层实现空间卷积。

本公开实施例中，利用所述N个残差卷积层，基于所述通道注意力特征信息，确定加强注意力后的频谱信息；并针对于加强注意力后的频谱信息，通过残差卷积层内的深度可分离卷积层进行深层可分离卷积处理，得到所述多个语音帧的深层语音特征信息。

一方面，利用深度可分离卷积层将多个不同通道之间的相关性和空间相关性分开映射，从而降低复杂度和训练参数，提高运算效率，保障网络模型的轻量化。另一方面利用残差卷积层内的残差单元，将第一卷积层的输入传到第二卷积层，实现了与直接映射的结合，提高特征提取能力。

可选地，所述述双向GRU模块包括：前向GRU子模块和后向GRU子模块；

在本公开实施例中，所述双向GRU模块，包括：前向GRU子模块和后向GRU子模块；可以理解的是，在每一时刻，双向GRU模块的输入量会同时提供给前向GRU子模块和后向GRU子模块；而双向GRU模块的输出量由前向GRU子模块和后向GRU子模块共同决定。

需要说明的是，GRU子模块由更新门和重置门构成；其中，更新门用于控制前一时刻的状态信息被带入到当前状态中的程度；更新门的值越大，说明前一时刻的状态信息带入越多，可以理解的是，更新门有助于捕捉时间序列里长期的依赖关系。

重置门用于控制前一状态中有多少信息被写入到当前的候选集中；重置门越小，前一状态的信息被写入的越少；可以理解的是，重置门有助于捕捉时间序列里短期的依赖关系。

通过将多级残差卷积模块输出的深层语音特征信息输入至双向GRU模块，利用前向GRU子模块对所述深层语音特征进行正向特征提取，得到正向时序特征信息；

可以理解的是，可利用前向GRU子模块，对所述深层语音特征信息进行前向GRU计算，得到所述正向时序特征信息；这里，所述正向时序特征信息用于指示所述语音帧的上文关系。

利用后向GRU子模块对所述深层语音特征进行反向特征提取，得到反向时序特征信息；

可以理解的是，可利用后向GRU子模块，对所述深层语音特征信息进行后向GRU计算，得到所述后向时序特征信息；这里，所述后向时序特征信息用于指示所述语音帧的下文关系。

将所述正向时序特征信息和所述反向时序特征信息进行融合，得到所述深层语音特征信息的时序相关特征信息。

所述步骤S104中的根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分，包括：

在本公开实施例中，所述语音质量评估网络模型还包括：全连接模块和全局平均池化GAP模块。

所述双向GRU模块输出所述时序相关特征信息后，利用所述全连接模块，对所述时序相关特征信息进行全连接处理，得到所述多个语音帧对应的质量评分。

利用所述GAP模块，对所述多个语音帧对应的质量评分进行池化处理，得到所述第一语音信号的质量评分。

可以理解的是，所述GAP模块可对所述第一语音信号的多个语音帧对应的质量评分进行全局平均，得到并输出第一语音信号的质量评分。

本公开实施例通过全连接模块对所述时序相关特征信息进行全连接处理，增加了帧级别的质量评分评估，并基于帧级别的质量评分，确定语音信号的质量评分，使得评估过程更加平稳，检测预测评分和真实评分之间的误差。

在本公开实施例中，可通过音频采集设备获取带噪的第一语音信号，并对所述第一语音信号进行预处理，得到所述第一语音信号的多个语音帧。

这里，所述预处理至少包括：分帧处理。可以理解的是，所述分帧处理是指将待评估的语音信号分为大小固定的多段语音帧，一般而言，由于语音信号具备短时平稳性，故可将一个语音帧的帧长设置为语音信号的短时平稳期内，即帧长设置为10ms到30ms。

需要说明的是，语音信号是随时间变化的非平稳信号，但有短时平稳性，因此可将语音信号分帧为短的语音帧，使得语音信号呈周期函数的部分特性。

但为了保证相邻语音帧连接之处的平滑性，也就是消除各个语音帧两端可能会造成的信号不连续性，可采用重叠取帧的方式。

在得到所述第一语音信号的多个语音帧后，对所述第一语音信号的多个语音帧进行时频转换处理，得到所述多个语音帧的幅度谱信息。

这里，所述时频转换处理可为傅里叶变换，通过对所述多个语音帧进行傅里叶变换，将时域的语音帧转换为频域的语音帧。所述傅里叶变换可包括：离散傅里叶变换、快速傅里叶变换和短时傅里叶变换等；可以根据具体场景进行选取，本公开实施例在此不作限定。

在本公开实施例中，可通过对第一语音信号的多个语音帧进行离散傅里叶变换，得到所述多个语音帧的幅度谱信息；变换公式如下所示：

其中，所述X_m(k)为第m个语音帧的幅度谱特征信息；所述x_m(n)为第m个语音帧，所述N为帧长。

在一些实施例中，所述方法还包括：

对所述多个语音帧的幅度谱信息进行滤波处理，得到所述多个语音帧的幅度谱特征信息；将所述多个语音帧的幅度谱特征信息输入至所述语音质量评估网络模型。

在本公开实施例中，将所述第一语音信号的每个语音帧进行傅里叶变换后，可以通过梅尔滤波器进行滤波处理，得到每个语音帧对应的幅度谱特征信息。

需要说明的是，梅尔滤波是将频谱信息仅供Mel尺度的三角滤波器进行滤波处理；可以理解的是，通过对所述语音帧的频谱信息进行梅尔滤波，使得滤波后的语音帧的频谱信息更加符合人耳听觉特征。

对所述第一语音信号进行预加重处理；

在本公开实施例中，所述预处理包括：预加重处理和分帧加窗处理。

通过对所述第一语音信号进行预加重处理，以增强所述第一语音信号中的高频信号，补偿第一语音信号高频部分的振幅。

需要说明的是，由于语音信号的大部分能量集中在低频部分，导致语音信号的高频部分信噪比下降；通过对语音信号进行预加重处理，可以补偿语音信号受抑制的高频部分，使得语音信号的频谱平坦，移除频谱倾斜。

在一些实施例中，可通过高通滤波器对所述第一语音信号进行预加重处理，所述高通滤波器的函数表达式为：

H(z)＝1-μz^-1；

其中，所述z为所述第一语音信号，所述μ为预加重系数，一般取值范围为0.9～1。

通过对所述第一语音信号进行预加重处理，突出所述第一语音信号的高频部分，有利于减少第一语音信号的衰减损耗。

通过对预加重处理后的第一语音信号进行分帧加窗处理，得到连续的多个语音帧。

分帧加窗处理可利用一个可以移动的固定长度的窗函数对语音信号加权来实现，为了保证所处理的语音信号的短时性，加窗可以减少语音信号的频谱泄露的现象，即除去本该有的主瓣外不出现会被误认为是虚假峰值的旁瓣，结果中就不会出现原本不存在的频率分量。

在一些实施例中，分帧加窗处理后的语音信号可表示为：

x_m(n)＝w(n)x(m+n),0≤n≤N-1；

其中，所述x_m(n)为第m个语音帧，所述w(n)为窗函数，所述x(n)为语音信号，所述N为帧长。

需要说明的是，由于语音信号的主瓣越窄约好，旁瓣越小且衰减的越快越好，故对所述语音信号加窗可以减少频谱能量泄露。信号处理中常用的矩形窗的主瓣窄，但旁瓣大且衰减的较慢，故本公开实施例可采用主瓣略宽，但旁瓣较小且衰减的较快的汉明窗对所述语音信号进行分帧加窗处理。

汉明窗的公式如下所示：

利用汉明窗对第一语音信号进行分帧加窗处理，从而有利于得到连续的多个语音帧，以消除各个语音帧两端可能会造成的信号不连续性的影响。

可选地，所述语音质量评估网络模型，包括：重排列模块，用于对输入的频谱信息和/或深度语音特征信息进行维度变换处理；

所述针对于所述多个语音帧的频谱信息，利用所述ECA模块，提取所述多个语音帧各个通道的通道注意力特征信息，包括：

针对于所述多个语音帧的频谱信息，利用所述重排列模块对所述频谱信息进行维度变换处理，并将维度变换处理后的频谱信息输入所述ECA模块，提取所述多个语音帧各个通道的通道注意力特征信息；其中，所述维度变换处理后的所述多个语音帧的频谱信息的维度与所述ECA模块的输入维度匹配；

利用所述重排列模块对所述深度语音特征信息进行维度变换处理，并将维度变换处理后的深度语音特征信息输入所述双向GRU模块，提取维度变换处理后的深度语音特征信息对应的时序相关特征信息；其中，所述维度变换处理后的深度语音特征信息的维度与所述双向GRU模块的输入维度匹配。

在本公开实施例中，所述语音质量评估网络模型可包括2个重排列模块；所述重排列模块可应用于所述ECA模块之前，以及所述多级残差卷积模块和所述双向GRU模块之间。

利用所述重排列模块，对输入的频谱信息和/或深度语音特征信息进行维度变换处理，使得前一模块(即重排列模块)的输出维度与后一模块(即ECA模块和双向GRU模块)的输入维度匹配。

在本公开实施例中，训练样本集包含有多个用于调整初始网络模型中待训练参数的带噪语音信号；所述质量评分标签至少包括：所述带噪语音信号对应的主观质量评分。

在获取训练样本集后，可对所述训练样本集内的多个带噪语音信号进行预处理和时频转换处理，得到所述多个带噪语音信号对应的语音帧的频谱信息；利用所述多个带噪语音信号对应的语音帧的频谱信息和所述多个带噪语音信号的质量评分标签，以完全监督学习的方式对所述初始网络模型进行训练。

可通过将所述多个带噪语音信号对应的语音帧的频谱信息输入至所述初始网络模型中，利用所述初始网络模型的ECA模块提取通道注意力特征信息，并利用所述初始网络模型的多级残差卷积模块基于所述通道注意力特征信息，提取带噪语音信号的多个语音帧的深层语音特征信息；将所述深层语音特征信息输入至双向GRU模块，利用双向GRU模块提取所述多个语音帧之间的时序相关特征信息；最后通过全连接模块和GAP模块对所述时序相关特征信息全连接处理和平均池化处理，得到所述多个带噪语音信号的预测质量评分。

根据多个带噪语音信号的预测质量评分和所述多个带噪语音信号的质量评分标签之间的差值，确定初始网络模型的损失函数值，根据损失函数值计算反向传播梯度，更新初始网络模型中的待训练参数，然后重复上述步骤，直至达到迭代次数或损失函数收敛，得到语音质量评估网络模型。

可以理解的是，本公开实施例是利用包含有主观质量评分的质量评分标签的带噪语音信号训练网络模型，训练得到的语音质量评估网络模型对语音信号进行语音质量评估，得到的预测质量评分与主观质量评分的相关度较高，语音质量评估性能较好。

在本公开实施例中，在网络模型的训练阶段，是通过对训练样本集内的多个带噪语音信号进行批量训练；考虑到多个带噪语音信号的长短可能存在差异，故为了使所述多个带噪语音信号对应的语音帧的频谱信息的维度匹配，可从多个带噪语音信号中，确定出最大帧数；并确定所述多个带噪语音信号的频谱信息的帧数是否为最大帧数；若存在某一带噪语音信号的频谱信息的帧数小于最大帧数，对该带噪语音信号的频谱信息进行补零处理，从而使得补零处理后的多个带噪语音信号对应的语音帧的频谱信息维度相同。

本公开还提供以下实施例：

图4是根据一示例性实施例示出的一种语音质量评估方法的流程示意图二，如图4所示，所述方法，包括：

步骤S201，获取带噪语音的训练样本集和所述训练样本集的质量评分标签；

在本示例中，所述训练样本集包含有多个带噪语音信号，且每一所述带噪语音信号对应有质量评分标签。

这里，所述质量评分标签至少用于指示所述带噪语音信号对应的主观质量平均分。

通过获取包含有多个带噪语音信号的训练样本集和所述训练样本集对应的质量评分标签，利用所述训练样本集和质量评分标签，以完全监督的方式进行网络模型的训练。

步骤S202，基于所述训练样本集中多个带噪语音信号对应的语音帧的频谱信息，确定所述多个带噪语音信号的最大帧数；确定所述多个带噪语音信号的频谱信息的帧数是否为所述最大帧数；若所述多个带噪语音信号的频谱信息的帧数不是所述最大帧数，对所述频谱信息进行补零处理；补零处理后的频谱信息的帧数为所述最大帧数；

在本示例中，在获取训练样本集后，需要对所述训练样本集内的多个带噪语音信号进行批量预处理，得到所述多个带噪语音信号对应的语音帧；并基于所述多个带噪语音信号对应的语音帧，提取所述多个带噪语音信号对应的语音帧的频谱信息。

考虑到多个带噪语音信号的长短可能存在差异，对网络模型进行训练时，是针对训练样本集中的多个带噪语音信号进行批量训练，故为了使所述多个带噪语音信号对应的语音帧的频谱信息的维度统一，可从同一训练批次内的多个带噪语音信号中，确定出最大帧数；并对多个带噪语音信号中不满足最大帧数的语音信号进行补零处理，从而使得补零处理后的多个带噪语音信号对应的语音帧的频谱信息维度相同。

步骤S203，将所述补零处理后的频谱信息输入至初始网络模型，得到所述初始网络模型输出的预测质量评分；

在本示例中，将补零处理后的多个带噪语音信号的频谱信息输入至初始网络模型内，得到所述初始网络模型输出的所述多个带噪语音信号对应的预测质量评分。

步骤S204，根据所述预测质量评分和所述质量评分标签，确定所述初始网络模型的损失函数值；基于所述损失函数值，对所述初始网络模型的待训练参数进行调整，得到所述语音质量评估网络模型；

在本示例中，可根据初始网络模型输出的所述多个带噪语音信号的预测质量评分和所述多个带噪语音信号对应的质量评分标签，确定所述初始网络模型的损失函数值；通过判断损失函数值是否满足停止训练条件，若损失函数值不满足停止训练条件，对所述初始网络模型的待训练参数进行优化，并重复上述训练步骤，直至损失函数值满足停止训练条件，即可得到语音质量评估网络模型；后续可直接利用训练好的语音质量评估网络模型，对语音信号进行语音质量评估。

步骤S205，获取第一语音信号，对所述第一语音信号进行预处理，得到所述第一语音信号的多个语音帧；对所述第一语音信号的多个语音帧进行时频转换处理，得到所述多个语音帧的幅度谱信息；

在一些实施例中，所述对所述第一语音信号进行预处理，得到所述第一语音信号的多个语音帧，包括：

对所述第一语音信号进行预加重处理；

步骤S206，将所述多个语音帧的幅度谱信息，输入至预先训练好的语音质量评估网络模型，利用所述语音质量评估网络模型的ECA模块，提取所述多个语音帧各个通道的通道注意力特征信息；

在本示例中，ECA模块极轻量的完成跨通道信息交互，确定出各个特征通道的重要程度，得到加强通道注意力后的通道注意力特征信息，使得网络模型提取特征的性能更好，泛化能力更强。

在一些实施例中，所述语音质量评估网络模型还包括：重排列模块；位于所述ECA模块之前；用于对输入的频谱信息进行维度变换处理，所述维度变换处理后的所述多个语音帧的频谱信息的维度与所述ECA模块的输入维度匹配。

步骤S207，利用所述语音质量评估网络模型的多级残差卷积模块，基于所述通道注意力特征信息提取深层语音特征信息；

在本示例中，所述多级残差卷积模块包括N个残差卷积层；

在本示例中，利用残差卷积层对所述通道注意力特征信息进行深度可分离卷积处理，将特征通道之间的相关性和空间相关性分开来映射，从而降低网络模型的运算复杂度，使网络模型更加轻量化。

并且考虑到由于多级残差卷积模块的网络深度过深而导致梯度消失的问题，利用残差单元将残差卷积层内的第一卷积层的输入传递到第二卷积层，实现了与直接映射的结果，提高网络模型的特征提取能力。

步骤S208，利用所述语音质量评估网络模型的双向GRU模块，提取所述深层语音特征信息对应的时序相关特征信息；

在本示例中，所述双向GRU模块包括：前向GRU子模块和后向GRU子模块；

可利用所述前向GRU子模块对所述深层语音特征信息进行正向特征提取，得到正向时序特征信息；利用所述后向GRU子模块对所述深层语音特征信息进行反向特征提取，得到反向时序特征信息；基于所述正向时序特征信息和所述反向时序特征信息，得到所述深层语音特征信息对应的时序相关特征信息。

这里，所述前向GRU子模块和后向GRU子模块的的dropout参数均设置为0.35。

本示例通过前向GRU子模块和后向GRU子模块结合形成所述双向GRU模块，利用前向GRU子模块获取正向时序特征信息(即上文信息)，通过后向GRU子模块获取反向时序特征信息(即下文信息)；通过融合所述正向时序特征信息和所述反向时序特征信息，得到所述多个语音帧完整的上下文信息。

可以理解的是，利用双向GRU模块能够更简单有效的学习在时间步上的额双向相关性，建模感知语音质量的双向时间依赖性。

在一些实施例中，所述重排列模块还位于所述多级残差卷积模块和所述双向GRU模块之间，用于对输入的深度语音特征信息进行维度变换处理，所述维度变换处理后的深度语音特征信息的维度与所述双向GRU模块的输入维度匹配。

步骤S209，利用所述语音质量评估网络模型的全连接模块，对所述第一语音信号的多个语音帧的时序相关特征信息进行全连接处理，得到所述多个语音帧的质量评分。

在本示例中，利用全连接模块在逐帧的基础上确定质量评分，得到第一语音信号中每一个语音帧的质量评分。

步骤S210，利用所述语音质量评估网络模型的GAP模块，对所述多个语音帧的质量评分进行全局平均处理，得到所述第一语音信号的质量评分。

需要说明的是，GAP模块通常用于对整个特征图上的元素进行均值化处理；在本示例中，所述GAP模块对第一语音信号的多个语音帧的质量评分进行全局平均处理，得到第一语音信号整体的质量评分，并输出。

可以理解的是，利用语音质量评估网络模型进行语音质量评估的方法可分为两个阶段：网络模型训练阶段和语音质量评估阶段；每一个阶段都需要对带噪的语音信号进行预处理、时频转换处理以获取需求的频谱信息。

如图5所示，图5是根据一示例性实施例示出的一种语音质量评估方法的流程示意图三。在网络模型训练阶段，根据训练样本集和对应的质量评分标签，对网络模型进行学习训练，得到使得损失函数收敛的网络模型的模型参数；并基于所述模型参数，确定语音质量评估阶段的语音质量评估网络模型，如图6所示，图6是根据一示例性实施例示出的一种语音质量评估网络模型的结构示意图。

在语音质量评估阶段，将待评估的带噪语音信号输入至训练好的语音质量评估网络模型，得到语音质量评估网络模型输出的质量评分。

本公开实施例还提供一种语音质量评估装置，如图7所示，图7是根据一示例性实施例示出的一种语音质量评估装置的结构示意图。所述装置100，包括：

获取模块101，用于获取第一语音信号对应的多个语音帧的频谱信息；

第一特征提取模块102，用于针对于所述多个语音帧的频谱信息，利用预先训练好的语音质量评估网络模型，提取所述多个语音帧的通道注意力特征信息，并基于所述多个语音帧的通道注意力特征信息，提取所述多个语音帧的深层语音特征信息；

第二特征提取模块103，用于基于所述深层语音特征信息，提取所述多个语音帧之间的时序相关特征信息；

预测模块104，用于根据所述多个语音帧之间的时序相关特征信息，预测所述第一语音信号的质量评分。

所述第一特征提取模块102，用于：

可选地，所述多级残差卷积模块包括N个残差卷积层；

所述第二特征提取模块103，用于：

所述预测模块104，用于：

可选地，所述获取模块101，用于：

对所述第一语音信号进行预加重处理；

可选地，所述装置，包括：网络训练模块105，用于：

可选地，所述网络训练模块105，用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种语音质量评估装置的框图。例如，装置200可以是移动电话，移动电脑等。

参照图8，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在设备200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理***，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当设备200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到设备200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音质量评估方法，其特征在于，所述方法，包括：

获取第一语音信号对应的多个语音帧的频谱信息；

2.根据权利要求1所述的方法，其特征在于，所述语音质量评估网络模型，包括：有效通道注意力ECA模块、多级残差卷积模块和双向门控循环GRU模块；

3.根据权利要求2所述的方法，其特征在于，所述多级残差卷积模块包括N个残差卷积层；

4.根据权利要求2所述的方法，其特征在于，所述双向GRU模块包括：前向GRU子模块和后向GRU子模块；

5.根据权利要求1所述的方法，其特征在于，所述语音质量评估网络模型，包括：全连接模块和全局平均池化GAP模块；

6.根据权利要求1所述的方法，其特征在于，所述获取第一语音信号对应的多个语音帧的频谱信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述第一语音信号进行预处理，得到所述第一语音信号的多个语音帧，包括：

对所述第一语音信号进行预加重处理；

8.根据权利要求1所述的方法，其特征在于，在获取第一语音信号对应的多个语音帧的频谱信息之前，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述将所述训练样本集中多个带噪语音信号对应的语音帧的频谱信息输入至待训练的初始网络模型，得到所述初始网络模型输出的预测质量评分，包括：

10.一种语音质量评估装置，其特征在于，包括：

11.一种语音质量评估装置，其特征在于，包括：

处理器；

用于存储可执行指令的存储器；

其中，所述处理器被配置为：执行所述存储器中存储的可执行指令时，实现权利要求1至9中任一项所述的语音质量评估方法。

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由语音质量评估装置的处理器执行时，使得所述语音质量评估装置能够执行权利要求1至9中任一项所述的语音质量评估方法。