CN110853664B

CN110853664B - 评估语音增强算法性能的方法及装置、电子设备

Info

Publication number: CN110853664B
Application number: CN201911157422.9A
Authority: CN
Inventors: 杨玉红; 蔡林君; 相非; 李世聪; 冯佳倩; 涂卫平; 艾浩军
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-05-06
Anticipated expiration: 2039-11-22
Also published as: US11069366B2; EP3826012A1; US20210158832A1; CN110853664A; EP3826012B1

Abstract

本公开是关于一种评估语音增强算法性能的方法及装置、电子设备。一种评估语音增强算法性能的方法，包括：获取近端音频采集设备采集的第一带噪语音信号和远端音频采集设备采集的第二带噪语音信号；基于所述第一带噪语音信号和所述第二带噪语音信号估计出类纯净语音信号，将所述类纯净语音信号作为参考语音信号；以及利用预设的语音增强算法对所述第二带噪语音信号进行语音增强，获得待测降噪语音信号；基于所述参考语音信号和所述待测降噪语音信号评估所述语音增强算法。本实施例中利用类纯净语音信号作为参考语音信号，可以更逼近机器成功识别的阈值，有利于提升评估结果的准确度。

Description

评估语音增强算法性能的方法及装置、电子设备

技术领域

本公开涉及控制技术领域，尤其涉及一种评估语音增强算法性能的方法及装置、电子设备。

背景技术

自动语音识别(ASR，Automatic Speech Recognition)是实现人机交互最为关键的技术，其所要解决的根本问题是让计算机识别出人类的语音，将语音转化为文本。为提高语音识别率，最重要的一步就是语音增强，即对语音进行降噪处理，例如让低信噪比的语音变成高信噪比，进而提高语音质量，降低识别错误率。因此，非常有必要利用语音质量评价算法去评估语音增强算法的性能参数。

以语音质量评价算法采用短时可懂度(STOI，Short-Time ObjectiveIntelligibility Measure)为例，该STOI是通过比较纯净语音和待测降噪语音信号的频谱关系，建立了符合人耳听觉感知的语音质量客观评价模型。其中，纯净语音是指没有失真也没有噪音污染的语音。

需要说明的是，STOI是针对人耳听觉的，以预测听者对目标信号的理解能力，其与主观听音测试能够达成较好的相关性，由于听者的主观听觉感受和机器识别存在差异，使STOI预测结果和后端机器识别结果两者的相关度不高。这是因为，现有STOI没有考虑到语音增强算法的特点，即语音增强算法一般无法得到完全纯净的语音参考信号，使得语音增强后的语音信号中噪声仍然过大或语音信号削弱的情况，这样后续的语音识别模型会存在一定的鲁棒性适应该特点。换言之，当参考语音信号为纯净语音时，对语音增强算法的评估结果会存在一定的误差，不利于语音增强算法性能的判断。

发明内容

本公开提供一种评估语音增强算法性能的方法及装置、电子设备，以解决相关技术的不足。

根据本公开实施例的第一方面，提供一种评估语音增强算法性能的方法，包括：

获取第一带噪语音信号和第二带噪语音信号，其中第一带噪语音信号由靠近发声源的近端音频采集设备采集，第二带噪语音信号由远离所述发声源的远端音频采集设备采集；

基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号；

利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理，获得待测降噪语音信号；

获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法。

可选地，基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号包括：

分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理；所述预处理包括分帧和加窗；

分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换，得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元；

获取类纯净语音信号；所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关；

确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号；

将所述最终的类纯净语音信号进行逆傅里叶变换，得到所述参考语音信号。

可选地，所述获取所述参考语音信号和所述待测降噪语音信号的相关参数包括：

获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号；

对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号；

基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。

可选地，所述获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号包括：

分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换，得到第一频域信号和第二频域信号；

从所述第一频域信号中选取能量最大帧，得到第一能量值；所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到；

分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧；

分别对所述第一频域信号和所述第二频域信号进行频带划分；

分别获取所述第一频域信号和所述第二频域信号的频谱包络，并采用向量表示所述频谱包络，得到频谱包络信号。

可选地，所述基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数包括：

计算每个时频单元的相关系数；

计算所有帧对应的所有频带的相关系数的平均值，所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。

可选地，还包括：

获取预设的关键词唤醒模型的输出概率；

获取所述相关系数和所述输出概率的相关程度，所述相关程度用于表征语音质量评分和所述语音识别率的相关性。

根据本公开实施例的第二方面，提供一种评估语音增强算法性能的装置，包括：

语音信号获取模块，用于获取第一带噪语音信号和第二带噪语音信号，其中第一带噪语音信号由靠近发声源的近端音频采集设备采集，第二带噪语音信号由远离所述发声源的远端音频采集设备采集；

参考信号获取模块，用于基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号；

降噪信号获取模块，用于利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理，获得待测降噪语音信号；

语音增强评估模块，用于获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法。

可选地，所述参考信号获取模块包括：

预处理单元，用于分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理；所述预处理包括分帧和加窗；

时频获取单元，用于分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换，得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元；

残差获取单元，用于获取类纯净语音信号；所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关；

类纯净信号确定单元，用于确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号；

参考信号获取单元，用于将所述最终的类纯净语音信号进行逆傅里叶变换，得到所述参考语音信号。

可选地，所述语音增强评估模块包括：

包络获取单元，用于获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号；

包络处理单元，用于对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号；

系数获取单元，用于基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。

可选地，所述包络获取单元包括：

变换子单元，用于分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换，得到第一频域信号和第二频域信号；

选取子单元，用于从所述第一频域信号中选取能量最大帧，得到第一能量值；所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到；

过滤子单元，用于分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧；

划分子单元，用于分别对所述第一频域信号和所述第二频域信号进行频带划分；

获取子单元，用于分别获取所述第一频域信号和所述第二频域信号的频谱包络，并采用向量表示所述频谱包络，得到频谱包络信号。

可选地，所述系数获取单元包括：

系数计算子单元，用于计算每个时频单元的相关系数；

平均值计算子单元，用于计算所有帧对应的所有频带的相关系数的平均值，所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。

可选地，还包括：

概率获取模块，用于获取预设的关键词唤醒模型的输出概率；

相关度获取模块，用于获取所述相关系数和所述输出概率的相关程度，所述相关程度用于表征语音质量评分和所述语音识别率的相关性。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储可执行指令的存储器；

所述处理器被配置为执行所述存储器中的可执行指令以实现上述所述方法的步骤。

根据本公开实施例的第四方面，提供一种可读存储介质，其上存储有可执行指令，该可执行指令被处理器执行时实现上述所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开实施例中通过近端和远端的音频采集设备采样带噪语音信号，并基于第一带噪语音信号和第二带噪语音信号来获取远端的类纯净语音信号；然后，将该类纯净语音信号作为参考语音信号，来对语音增强算法的性能进行评估。该类纯净语音信号可以接近实际场景中的高信噪比和低混响的类纯净语音信号。这样，本实施例中利用类纯净语音信号作为参考语音信号，可以更逼近机器成功识别的阈值，有利于提升评估结果的准确度。另外，本实施例中因类纯净语音信号更倾向于机器识别场景而非人耳预测场景，能够提升评估结果与语音识别结果的相关性，从而可以根据唤醒率来评估语音增强效果，评估效果更准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种评估语音增强算法性能的方法的流程图。

图2是根据一示例性实施例示出的获取参考语音信号的流程图。

图3是根据一示例性实施例示出的获取相关系数的流程图。

图4是根据一示例性实施例示出的获取频谱包络信号的流程图。

图5是根据一示例性实施例示出的获取评估结果和识别结果相关性的流程图。

图6是根据一示例性实施例示出的一种评估语音增强算法性能的方法的流程框图。

图7～图12是根据一示例性实施例示出的一种评估语音增强算法性能的装置的框图。

图13是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。

目前，现有STOI是通过比较纯净语音和待测降噪语音信号的频谱关系，建立了符合人耳听觉感知的语音质量客观评价模型。其中，纯净语音是指没有失真也没有噪音污染的语音。

在实现本公开方案的过程中，发明人发现：现有STOI是针对人耳听觉而设计的，用于预测听者对目标语音信号的理解能力。但是，听者的主观听觉感受和机器识别是存在差异的，这是因为，现有STOI没有考虑到语音增强算法的特点，即语音增强算法一般无法得到完全纯净的语音参考信号，使得语音增强后的语音信号中噪声仍然过大或语音信号削弱的情况，这样后续的语音识别模型会存在一定的鲁棒性适应该特点。换言之，当参考语音信号为纯净语音时，对语音增强算法的评估结果会存在一定的误差，最终影响到语音增强效果的调整。

为解决上述技术问题，本公开实施例提供了一种评估语音增强算法性能的方法，适应于电子设备，图1是根据一示例性实施例示出的一种评估语音增强算法性能的方法的流程图。参见图1，一种评估语音增强算法性能的方法，包括步骤101～步骤104，其中：

在步骤101中，获取第一带噪语音信号和第二带噪语音信号。

本实施例中，电子设备可以与近端音频采集设备和远端音频采集设备连接，用于获取两者采集的带噪语音信号。其中，近端音频采集设备是指靠近发声源的音频采集设备，远端音频采集设备是指远离发声源的音频采集设备。近端语音采集设备、远端语音采集设备与发声源的距离可以根据具体场景进行设置，例如，近端语音采集设备与发声源的距离小于30cm，远端语音采集设备与发声源的距离大于200cm。需要说明的是，音频采集设备的数量可以根据具体场景进行设置。

本实施例中，在发声源(用户或者播放设备)输出语音时，近端音频采集设备可以采集语音，得到带噪语音信号，后续称之为第一带噪语音信号；远端音频采集设备可以采集语音，得到带噪语音信号，后续称之为第二带噪语音信号。需要说明的是，本实施例中，近端音频采集设备距离发声源较近，因此第一带噪语音信号相对于第二带噪语音信号其信噪比更高，且混响程度更低。

在步骤102中，基于所述第一带噪语音信号和所述第二带噪语音信号估计出类纯净语音信号，将所述类纯净语音信号作为参考语音信号。本实施例中，电子设备可以基于第一带噪语音信号和第二带噪语音信号估计出类纯净语音信号，将类纯净语音信号作为参考语音信号。参见图2，电子设备可以分别对第一带噪语音信号和第二带噪语音信号进行预处理，预处理可以包括分帧、加窗(对应图2中步骤201)。需要说明的是，在加窗过程中，窗口的长度、窗口的移动步长以及窗口的类型可以根据具体场景进行选择，在此不作限定。然后，电子设备可以分别对预处理后的第一带噪语音信号和第二带噪语音信号作傅里叶变换处理，得到第一带噪语音信号和第二带噪语音信号的时频单元(对应图2中步骤202)。需要说明的是，上述傅里叶变换可以为DFT、FFT、STFT等，可以根据具体场景进行选取，在此不作限定。之后，电子设备可以获取类纯净语音信号，该类纯净语音信号与第一带噪语音信号、第一带噪语音信号和第二带噪语音信号的每个时频单元的总残差相关(对应图2中步骤203)。再者，电子设备可以确定总残差最小时的类纯净语音信号作为最终的类纯净语音信号(对应图2中步骤204)。最后，将最终的类纯净语音信号进行逆傅里叶变换，得到参考语音信号(对应图2中步骤205)。

在步骤103中，利用预设的语音增强算法对所述第二带噪语音信号进行语音增强，获得待测降噪语音信号。

本实施例中，电子设备可以利用预设的语音增强算法对第二带噪语音信号进行语音增强处理，获得待测降噪语音信号。其中，语音增强算法可以包括但不限于以下一种：基本谱减法、维纳滤波降噪法、LMS自适应滤波器降噪、LMS自适应陷波器、基于深度学习的语音增强方法。技术人员可以根据具体场景选择合适的语音增强算法，在此不作限定。

在步骤104中，获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法。

本实施例中，电子设备可以基于参考语音信号和待测降噪语音信号评估语音增强算法。参见图3，电子设备可以获取参考语音信号和待测降噪语音信号的频谱包络信号(对应图3中步骤301)。例如，参见图4，电子设备可以分别对参考语音信号和待测降噪语音信号进行分帧、加窗和傅里叶变换，得到第一频域信号和第二频域信号(对应图4中步骤401)。然后，电子设备可以从第一频域信号中选取能量最大帧，得到第一能量值；所述第一能量值为所述能量最大帧对应能量值减去设定分贝(如40分贝，可调整)后得到(对应图4中步骤402)。之后，电子设备可以电子设备可以分别过滤第一频域信号和第二频域信号中小于第一能量值的帧(对应图4中步骤403)。再者，电子设备可以分别对所述第一频域信号和所述第二频域信号进行频带划分(对应图4中步骤404)。最后，电子设备可以分别获取第一频域信号和第二频域信号的频谱包络，并采用向量表示所述频谱包络，得到频谱包络信号(对应图4中步骤405)。

继续参见图3，电子设备可以对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号(对应图3中步骤302)。其中，处理包括但不限定归一化裁剪，则目标频谱包络信号是指归一化裁剪后的频谱包络信号。

继续参见图3，电子设备可以基于参考语音信号的频谱包络信号和目标频谱包络信号获取参考语音信号和待测降噪语音信号的相关系数，相关系数用于评估所述语音增强算法的性能(对应图3中步骤303)。参见图5，电子设备可以计算每个时频单元的相关系数(对应图5中步骤501)。然后，电子设备可以计算所有帧对应的所有频带的相关系数的平均值，其中平均值即是参考语音信号和待测降噪语音信号的相关系数(对应图5中步骤502)。

需要说明的是，相关系数是一个分数，取值范围为[0，1]，其中，相关系数的取值越靠近1，则说明语音增强算法对语音信号的增强效果越好。

至此，本公开实施例中通过近端和远端的音频采集设备采样带噪语音信号，并基于第一带噪语音信号和第二带噪语音信号来获取远端的类纯净语音信号；然后，将该类纯净语音信号作为参考语音信号，来对语音增强算法的性能进行评估。该类纯净语音信号可以接近实际场景中的高信噪比和低混响的类纯净语音信号。这样，本实施例中利用类纯净语音信号作为参考语音信号，可以更逼近机器成功识别的阈值，有利于提升评估结果的准确度。另外，本实施例中因类纯净语音信号更倾向于机器识别场景而非人耳预测场景，能够提升评估结果与语音识别结果的相关性。

为了对本公开实施例提供的技术方案进行详细描述，提供下列实施例，参见图6：

本实施例中，录音房间相关参数如表1所示。并且，测试数据集包含1300条测试音频：覆盖3个房间混响，4种距离，3种信噪比和5类噪声。其中，T60(混响)的单位为秒，距离、长、宽和高的单位为米。

表1录音房间相关参数

步骤1，电子设备与近端麦克风和远端麦克风连接，近端麦克风和远端麦克风可以录制带噪语音信号，电子设备可以接收到近端麦克风采集的第一带噪语音信号，以及远端麦克风采集的第二带噪语音信号，并对第二带噪语音信号进行语音增强处理，得到待测降噪语音信号。

步骤2，电子设备可以通过最小化第一带噪语音信号和第二带噪语音信号的总残差，可以获取类纯净语音信号，并将该类纯净语音信号作为参考语音信号，包括：

步骤2.1，电子设备可以对第一带噪语音信号和第二带噪语音信号分别做分帧、加窗、傅里叶变换，得到C(n,f)和X_i(n,f)，其中n为帧索引，f为频点索引，i为远端阵列麦克风的索引。

步骤2.2，估计类纯净语音为S_id(n,f)，计算每个时频单元的残差R_id(n,f)，计算公式如下：

R_id(n,f)＝X_i(n,f)-S_id(n,f)；

其中L_min＝-3，L_max＝8，G_i(l,f)由最小化总残差可推出，计算公式如下：

步骤2.3：将估计的类纯净语音S_id(n,f)做逆傅里叶变换，从频域转化到时域上，得到参考语音信号。

步骤3：过滤待测降噪语音信号和参考语音信号的静音帧，

并进行时频转换、划分频带，计算频谱包络信息，包括：

步骤3.1：对参考语音信号和待测降噪语音信号进行分帧、加窗，做傅里叶变换，将语音信号从时域转换到频域。

步骤3.2：确定参考语音信号中的能量最大帧，去掉参考语音信号和待测降噪语音信号中低于该能量最大帧40db以下的信号，然后分别对参考语音信号和待测降噪语音信号进行频带划分；其中频带划分可选择倍频程、梅尔频带或临界频带等划分方法等，在此不作限定。

设

表示参考语音信号的第m帧的第k个频带，将第j个频带的范数称为一个时频单元，定义如下：

其中k₁和k₂表示频带的区间端点。

同样的，将待测降噪语音也做同样的处理，得到对应的Y_j(m)。

步骤3.3：计算参考语音信号和待测降噪语音信号的频谱包络，并用向量表示。其中，

参考语音的频谱包络用向量表示如下：

x_j,m＝[X_j(m-N+1),X_j(m-N+2),...,X_j(m)]^T；

同理可得，待测降噪语音信号的频谱包络y_j,m也可以用类似的方式表示。在本实施例中，N取裁剪之后的全部帧。

步骤4：将待测降噪语音做归一化裁剪，即直接对频谱包络信号y_j,m进行如下计算：

其中n∈{1,2,...,N}，||·||表示二范数，β为信号失真(SDR)的下界，表示如下：

步骤5：计算语音增强算法的性能参数，即待测降噪语音信号和参考语音信号的相关系数。

步骤5.1：计算每个时频单元的相关系数，即x_j,m和y_j,m的相关系数，计算公式如下：

其中μ_(·)为对应向量的样本均值。

步骤5.2：计算所有帧对应的所有频带对应的相关系数的平均值：

其中d为语音增强算法的最终性能参数，从0到1，越靠近1，性能越好。

本实施例中，采用采用皮尔逊相关系数来测试上述步骤5所得的相关系数与基于深度学习的关键词唤醒模型Softmax输出概率的相关性。初步测试结果表明：相关技术中，STOI评分与唤醒率呈现极弱相关。本实施例中，相关系数与唤醒率可达到中度相关，本实施例可以较准确地评估增强后的语音质量。即，本实施例中不是单纯以人耳主观可懂度为测度，而是针对唤醒算法的结果来对语音增强效果来进行评测，能够在一定范围内提升语音质量评分和语音识别率的相关性，从而得到更准确的质量评分。

图7是根据一示例性实施例示出的一种评估语音增强算法性能的装置框图。参见图7，一种评估语音增强算法性能的装置，包括：

语音信号获取模块701，用于获取第一带噪语音信号和第二带噪语音信号，其中第一带噪语音信号由靠近发声源的近端音频采集设备采集，第二带噪语音信号由远离所述发声源的远端音频采集设备采集；

参考信号获取模块702，用于基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号；

降噪信号获取模块703，用于利用预设的语音增强算法对所述第二带噪语音信号进行语音增强处理，获得待测降噪语音信号；

语音增强评估模块704，用于基于所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法。

需要说明的是，图7中参考信号获取模块702与语音增强评估模块704虚线连接，用于区别于语音信号获取模块701和降噪信号获取模块703之间的实线连接。

在一实施例中，参见图8，所述参考信号获取模块702包括：

预处理单元801，用于分别对所述第一带噪语音信号和所述第二带噪语音信号进行预处理；所述预处理包括分帧和加窗；

时频获取单元802，用于分别对预处理后的所述第一带噪语音信号和所述第二带噪语音信号作傅里叶变换，得到所述第一带噪语音信号和所述第二带噪语音信号的时频单元；

残差获取单元803，用于获取类纯净语音信号；所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关；

类纯净信号确定单元804，用于确定所述总残差最小时的类纯净语音信号作为最终的类纯净语音信号；

参考信号获取单元805，用于将所述最终的类纯净语音信号进行逆傅里叶变换，得到所述参考语音信号。

在一实施例中，参见图9，所述语音增强评估模块704包括：

包络获取单元901，用于获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号；

包络处理单元902，用于对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号；

系数获取单元903，用于基于所述参考语音信号的频谱包络信号和所述目标频谱包络信号获取所述参考语音信号和所述待测降噪语音信号的相关系数。

在一实施例中，参见图10，所述包络获取单元901包括：

变换子单元1001，用于分别对所述参考语音信号和所述待测降噪语音信号进行分帧、加窗和傅里叶变换，得到第一频域信号和第二频域信号；

选取子单元1002，用于从所述第一频域信号中选取能量最大帧，得到第一能量值；所述第一能量值为所述能量最大帧对应能量值减去设定分贝后得到；

过滤子单元1003，用于分别过滤所述第一频域信号和所述第二频域信号小于所述第一能量值的帧；

划分子单元1004，用于分别对所述第一频域信号和所述第二频域信号进行频带划分；

获取子单元1005，用于分别获取所述第一频域信号和所述第二频域信号的频谱包络，并采用向量表示所述频谱包络，得到频谱包络信号。

在一实施例中，参见图11，所述系数获取单元903包括：

系数计算子单元1101，用于计算每个时频单元的相关系数；

平均值计算子单元1102，用于计算所有帧对应的所有频带的相关系数的平均值，所述平均值即是所述参考语音信号和所述待测降噪语音信号的相关系数。

在一实施例中，参见图12，一种评估语音增强算法性能的装置还包括：

概率获取模块1201，用于获取预设的关键词唤醒模型的输出概率；

相关度获取模块1202，用于获取所述相关系数和所述输出概率的相关程度，所述相关程度用于表征语音质量评分和所述语音识别率的相关性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

至此，本公开实施例中通过近端和远端的音频采集设备采样带噪语音信号，并基于第一带噪语音信号和第二带噪语音信号来估计远端的类纯净语音信号；然后，将该类纯净语音信号作为参考语音信号，来对语音增强算法的性能进行评估。该类纯净语音信号可以接近实际场景中的高信噪比和低混响的类纯净语音信号。这样，本实施例中利用类纯净语音信号作为参考语音信号，可以更逼近机器成功识别的阈值，有利于提升评估结果的准确度。另外，本实施例中因类纯净语音信号更倾向于机器识别场景而非人耳预测场景，能够提升评估结果与语音识别结果的相关性，从而可以根据唤醒率来评估语音增强效果，评估效果更准确。

图13是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备1300可以是智能手机，计算机，数字广播终端，平板设备，医疗设备，健身设备，个人数字助理等。

参照图13，电子设备1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(I/O)的接口1312，传感器组件1314，通信组件1316，以及图像采集组件1318。

处理组件1302通常电子设备1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。

存储器1304被配置为存储各种类型的数据以支持在电子设备1300的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1306为电子设备1300的各种组件提供电力。电源组件1306可以包括电源管理***，一个或多个电源，及其他与为电子设备1300生成、管理和分配电力相关联的组件。

多媒体组件1308包括在所述电子设备1300和目标对象之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自目标对象的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(MIC)，当电子设备1300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。

I/O接口1312为处理组件1302和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。

传感器组件1314包括一个或多个传感器，用于为电子设备1300提供各个方面的状态评估。例如，传感器组件1314可以检测到电子设备1300的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1300的显示屏和小键盘，传感器组件1314还可以检测电子设备1300或一个组件的位置改变，目标对象与电子设备1300接触的存在或不存在，电子设备1300方位或加速/减速和电子设备1300的温度变化。

通信组件1316被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备1300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

在示例性实施例中，还提供了一种包括指令的非临时性可读存储介质，例如包括指令的存储器1304，上述指令可由电子设备1300的处理器1320执行。例如，所述非临时性可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种评估语音增强算法性能的方法，其特征在于，包括：

基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号，所述类纯净语音信号基于所述第一带噪语音信号和所述第二带噪语音信号的时频单元获取得到，所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关；

基于所述参考语音信号的频谱包络信号和目标频谱包络信号，获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述目标频谱包络信号基于所述待测降噪语音信号的频谱包络信号获取得到，所述相关系数用于评估所述语音增强算法，所述相关系数为所述参考语音信号和所述待测降噪语音信号的所有帧对应的所有频带的相关系数的平均值。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号包括：

获取类纯净语音信号；

3.根据权利要求1所述的方法，其特征在于，所述基于所述参考语音信号的频谱包络信号和目标频谱包络信号，获取所述参考语音信号和所述待测降噪语音信号的相关系数之前，所述方法还包括：

对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号。

4.根据权利要求3所述的方法，其特征在于，所述获取所述参考语音信号和所述待测降噪语音信号的频谱包络信号包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述参考语音信号的频谱包络信号和目标频谱包络信号，获取所述参考语音信号和所述待测降噪语音信号的相关系数包括：

计算每个时频单元的相关系数；

6.根据权利要求3所述的方法，其特征在于，还包括：

获取预设的关键词唤醒模型的输出概率；

7.一种评估语音增强算法性能的装置，其特征在于，包括：

参考信号获取模块，用于基于所述第一带噪语音信号和所述第二带噪语音信号获取类纯净语音信号，将所述类纯净语音信号作为参考语音信号，所述类纯净语音信号基于所述第一带噪语音信号和所述第二带噪语音信号的时频单元获取得到，所述类纯净语音信号与所述第一带噪语音信号、所述第一带噪语音信号与所述第二带噪语音信号的每个时频单元之间的总残差相关；

语音增强评估模块，包括系数获取单元，所述系数获取单元，用于基于所述参考语音信号的频谱包络信号和目标频谱包络信号，获取所述参考语音信号和所述待测降噪语音信号的相关系数，所述相关系数用于评估所述语音增强算法，所述相关系数为所述参考语音信号和所述待测降噪语音信号的所有帧对应的所有频带的相关系数的平均值。

8.根据权利要求7所述的装置，其特征在于，所述参考信号获取模块包括：

9.根据权利要求7所述的装置，其特征在于，所述语音增强评估模块还包括：

包络处理单元，用于对所述待测降噪语音信号的频谱包络信号进行处理，得到目标频谱包络信号。

10.根据权利要求9所述的装置，其特征在于，所述包络获取单元包括：

11.根据权利要求9所述的装置，其特征在于，所述系数获取单元包括：

系数计算子单元，用于计算每个时频单元的相关系数；

12.根据权利要求9所述的装置，其特征在于，还包括：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储可执行指令的存储器；

所述处理器被配置为执行所述存储器中的可执行指令以实现权利要求1~6任一项所述方法的步骤。

14.一种可读存储介质，其上存储有可执行指令，其特征在于，该可执行指令被处理器执行时实现权利要求1~6任一项所述方法的步骤。